Clear Sky Science · zh

用于自动驾驶系统安全验证的测试用例抽样优化

2026-02-24 · 返回目录

为什么更安全的“机器人司机”关系重大

自动驾驶汽车承诺减少碰撞、让通勤更顺畅，并为目前无法驾驶的人提供新的出行方式。但在公众信任这些系统之前，我们需要确凿的证据证明它们至少与人类司机一样安全。这样的证据取决于我们如何测试它们：把它们置于哪些情景，以及如何判定通过或失败。本文解决了该过程中的一个核心问题——如何从混乱且不可预测的真实世界中挑选出一小组但有代表性的驾驶情景，其中包括那些罕见但危险的导致事故的时刻。

从无尽道路到智能测试清单

在真实道路上，几乎所有行程都平淡无事。严重事故很少见，但它们恰恰是安全评估中最重要的。如果监管机构只是通过行驶数十亿英里并等待结果来测试自动驾驶汽车，验证将耗时多年且成本巨大。工程师因此构建了测试用例库：可以在试验场或仿真中重放的短驾驶序列。问题在于决定包含哪些用例。传统方法依赖一些熟悉的模式，如简单的跟车或稳定刹车，或依靠只能大致模仿其他驾驶者的计算模型。结果是，许多导致真实事故的微妙或不寻常情境可能被遗漏，最终的安全指标可能存在偏差。

从真实交通中挖掘关键时刻

作者的工作基于美国最大的自然驾驶研究项目，该项目在数千辆汽车上安装了摄像头、雷达和运动传感器，记录了数千万英里的日常驾驶和事故。从这笔资料中，他们构建了一个大约包含56,000个普通15秒行程和90个真实事故序列的池，每个序列由48个测量值描述，捕捉车辆的运动、附近车辆的行为以及周边的拥挤程度。一个测试用例可能例如展示一辆车以高速行驶时另一辆突然并线，或在颠簸的路段上一段宁静且无近邻的片段。该样本库在统计上忠实地缩影了美国道路上真实发生的情况。

在常见场景与罕见危险之间取得平衡

为了把这个庞大的样本池转化为实用的测试清单，团队提出了核测试用例抽样（Kernel Test Case Sampling，KTCS）。他们的方法围绕两个通俗的目标构建。首先，代表性：被选出的用例整体应与完整的日常驾驶混合相似，使平静与紧张时刻的比例符合真实体验。其次，覆盖度：清单还必须包含足够的不寻常、高风险情景——那些稀有但揭示性强的长尾事件，自动系统最可能在此失误。从数学上讲，KTCS使用现代统计与机器学习的工具在特征空间中搜索一小组用例，该组既能扩展到覆盖极端条件，又能在经过精心调节的权重下模拟真实驾驶的整体分布。

新方法如何检验

研究人员将KTCS与几种主流抽样策略进行了比较，这些策略要么均匀分布用例、要么聚焦于密集区域、要么瞄准罕见的离群点。所有方法都被要求从大样本池中仅挑选118个用例。可视化图和数值评分表明，KTCS在捕捉原始数据形态方面表现最佳：它在48个测量特征上都与真实驾驶紧密对齐，同时仍选择了许多远离典型的、条件更极端的用例。竞争方法要么过于集中于最安全、最常见的场景，要么几乎只追求极端情形，从而失去了与日常现实的联系。相比之下，KTCS得出的紧凑集合在统计上既像完整的交通世界，又包含了最关键的安全情景。

将测试结果转化为明确的安全分数

在构建出这一精炼测试集后，作者展示了如何用它来评判自动驾驶系统。每个用例在仿真或试验场上运行一次；“通过”表示没有发生碰撞，“未通过”表示发生碰撞。由于每个用例都有相应的权重和隐含的行驶距离，团队将通过—未通过的模式合成为系统的估计碰撞率，以每米行驶的碰撞次数表示。然后他们将该速率与同一国家研究中测得的人类司机碰撞率进行比较，定义了一个称为“风险缩放（Scaling Risk）”的量——即自动系统相对于人类风险的倍数。关键在于，未通过一个常见且权重大重的场景对系统的影响远大于未通过一个罕见的边缘案例，反映了人们在道路上实际面临各种情境的频率。

这对未来自动驾驶汽车意味着什么

该研究的主要信息是，我们可以用一组精心挑选的真实世界情景取代粗放的里程测试，同时仍能公平地估计安全性。KTCS提供了一种有原则的方法来组装这样一个既覆盖日常也覆盖高危情境的集合，并将结果转化为一个明确的“与人类相比有多安全”的数值。这种标准化、基于统计的方法的测试可以帮助监管机构、企业与公众确信，自动驾驶系统是在现实且全面的证据基础上被评估，而不是依赖精挑细选的演示或过于简化的实验室测试。

引用: Qian, C., Xu, J., Xing, X. et al. Test case sampling optimization for safety validation of automated driving systems. Nat Commun 17, 3114 (2026). https://doi.org/10.1038/s41467-026-69675-8

关键词: 自动驾驶安全, 测试用例抽样, 自然驾驶数据, 边缘案例情景, 无人驾驶汽车验证