原文链接:https://mp.weixin.qq.com/s/ui_YZXXWBLy0C3BF0xhiKw
李弘扬老师团队的新工作 – SimScale,中科院、港大OpenDriveLab和小米汽车联合完成。近年来,大模型领域背靠 Data Scaling 取得了前所未有的突破,但到了自动驾驶,这套方法却突然失灵了。不是因为模型不够大,而是现实世界根本给不了足够多的关键场景。
现实道路中的绝大多数驾驶片段都是重复而安全的“常态行为”,真正决定策略能力上限的高风险、长尾、极端场景却往往难以遇见,更难以大规模收集。因此即使训练数据越来越多,模型的真实表现却没有得到相应的增加。因此,自动驾驶不是缺数据,而是缺“对的”数据,行业亟需一种能系统性生成大量关键场景、并规模化训练的新路径。
针对这个问题SimScale应运而生,SimScale探索了在scalable的3DGS交互式仿真下,通过真实世界仿真生成关键场景,以及真实仿真协同训练策略,首次揭示了自动驾驶仿真数据的规模效应:无需更多真实数据,只靠扩大仿真数量,就能持续突破任何端到端驾驶模型的性能上限!
该框架利用先进的神经渲染技术和交互式环境,生成由扰动后的自车轨迹控制的高真多视角观测数据。此外本文还为这些新仿真状态开发了伪专家轨迹生成机制,以提供动作监督。基于合成数据的实验表明,在真实世界数据和仿真数据上采用简单的协同训练策略,能显著提升多种规划方法在挑战性真实世界基准测试中的鲁棒性和泛化能力——在navhard数据集上EPDMS指标最高提升6.8,在navtest数据集上最高提升2.9。更重要的是,即使没有额外的真实世界数据输入,仅通过增加仿真数据量,就能实现策略性能的平稳提升。
- 论文标题:SIMSCALE: Learning to Drive via Real-World Simulation at Scale
- 论文链接:https://arxiv.org/abs/2511.23369
- 项目主页:https://opendrivelab.com/SimScale
代码、仿真数据、模型权重即将全面开源!
总结来说,SimScale有以下特点:
- 🏗️一个能“无限扩张世界”的仿真生成框架:通过高保真神经渲染,自动制造多样化反应式交通场景与伪专家示范。
- 🚀一套让仿真与真实“相互增益”的训练策略,使各种端到端模型都能越训越强,鲁棒性与泛化性全面提升。
- 🔬一份首次系统揭示自动驾驶仿真规模效益的“实践手册”,通过实验深度分析把仿真推向规模化的关键因素。
一、背景回顾
Data Scaling被视为现代深度学习在多个领域(包括语言、视觉和多模态建模)的基本原理,随着数据量增加,它为性能的稳步提升提供了支撑。在自动驾驶领域,端到端规划通过学习将原始观测数据映射为动作,为利用大规模驾驶数据实现完全自动驾驶系统提供了一种极具潜力的途径。
然而,来自人类专家演示的真实世界驾驶数据中,常见场景占主导地位,而诸如安全关键场景等复杂情况则代表性不足。此外,基于这类数据训练的规划器会受限于人类驾驶的分布范围,难以泛化到罕见或未见过的场景,导致部署时出现分布偏移和因果混淆问题。因此,仅依靠扩展真实世界数据,对于实现可部署的自动驾驶而言效率低下。
基于神经渲染的仿真技术能够生成高保真的驾驶场景,因此有望大规模产生偏离人类演示的分布外状态,这对于闭环规划至关重要。因此,扩展仿真数据成为替代单纯依赖真实世界数据的一种有吸引力的方案。但规划器需要相应的可行演示来学习如何处理分布外状态,而现有仿真方法无法有效生成这类演示。此外,关于仿真数据扩展带来的影响,目前尚缺乏深入分析。本研究旨在为端到端规划中,基于有限真实世界场景扩展仿真数据提供一套系统化方案。
为开展全面的实验和分析,本研究围绕三个核心问题展开:
- (1)有效的仿真数据应具备哪些特征;
- (2)规划器能从仿真数据中获得多大收益;
- (3)在固定真实世界数据集的情况下,该系统是否能实现可预测的规模扩展。
为此,本文设计了一套可扩展的仿真数据生成框架,能够将现有真实世界训练数据中的专家分布进行扩展,从而为端到端自动驾驶系统提供支撑。本文开发了基于3DGS的仿真数据引擎,该引擎支持控制时间维度上的自车和其他智能体状态,并从自车视角渲染多视角视频。
具体而言,本文首先对自车轨迹进行多样化且合理的扰动采样,以最大化状态空间的覆盖范围(例如车道偏离中心、近距离交互等场景)。随后,本文将每个扰动轨迹的最终状态作为扰动状态,并通过两种不同形式的伪专家生成相应的演示轨迹进行对比。第一种是基于恢复的专家,它会检索能将策略引导回人类轨迹分布的轨迹,从而产生类人且谨慎的行为;第二种是基于特权规划器的专家,它会生成最优轨迹,代表一种探索性策略,但真实感相对较低。为提升可扩展性和合理性,整个流程在交互式环境中执行,其中周围智能体会对自车做出响应式交互。
为全面评估仿真数据的效果,本文考虑了三种不同模型规模的端到端规划器,即回归类方法的LTF、扩散模型类规划器的DiffusionDrive,以及词汇评分类的GTRSDense。本文采用一种简单有效的虚实协同训练策略,在保留人类驾驶分布的同时,减轻视觉领域退化问题。此外,通过固定真实数据量,并通过非重叠样本逐步增加仿真数据,本文研究了不同规划器从仿真数据中获益的情况以及整体的规模扩展特性。
本文采用两个真实世界闭环基准测试,从多个角度对规划器进行评估:navhard专注于未见过的挑战性场景,用于评估分布外状态对规划器的影响;而navtest则包含大量多样化场景,用于测试规划器处理不同情况的能力。

如图1所示,这套完整的虚实结合学习系统(包括可扩展的仿真数据构建流程和有效的虚实协同训练策略),名为SimScale。严谨的实验揭示了SimScale带来的若干关键发现,包括但不限于:
- 结合伪专家的可扩展仿真,能够释放现有真实世界驾驶数据的内在潜力;
- 虚实协同训练能协同提升不同端到端规划器的鲁棒性和泛化能力;
- 探索性专家和交互式环境能提升仿真数据的有效性;
- 具备多模态建模能力的规划器,展现出更令人满意的数据规模扩展特性。
二、相关方法
本文将SimScale的核心框架概述如下:第一部分简要介绍支持可控多视角视频渲染的3D高斯Splatting(3DGS)仿真数据引擎;然后提出伪专家场景仿真流水线,生成包含分布外(OOD)状态及可行演示样本的多样化仿真数据;最终展示适用于不同端到端规划器的可扩展虚实协同训练方法。
预备知识

3DGS仿真数据引擎

伪专家场景仿真
基于上述数据引擎,本文设计了伪专家场景仿真流水线,从现有真实世界数据中生成多样化的仿真数据,流程如算法1所示。该流水线旨在通过扰动状态与专家轨迹配对,生成可行的演示样本,具体如图2所示。



可扩展虚实协同训练

三、实验结果分析
排行榜结果
表1和表2分别展示了SimScale虚实协同训练在navhard和navtest基准测试集上针对三种规划器范式的排行榜结果。

navhard排行榜:所有模型在第一阶段和第二阶段均表现出显著的性能提升。值得注意的是,GTRS-Dense(V2-99)取得了47.2的得分,创下navhard的最新最优性能(SOTA)。这些结果表明,融入具有扩展分布的仿真数据,能显著提升模型在具有挑战性和未见过场景中的鲁棒性,且不会因仿真数据而遭受潜在的视觉退化影响。值得一提的是,性能较弱的基线模型(如LTF和DiffusionDrive)获益最为明显,性能提升超过20%,这表明结合本文仿真数据的虚实协同训练,能有效帮助模型更好地挖掘数据集信息,释放其潜在的学习能力。

navtest排行榜:所有模型均实现了高达2.9个百分点的持续性能提升,表明模型在大规模多样化场景下的性能更强。上述定量结果凸显了本文的仿真数据具有模型通用性,且通用的虚实协同训练实现了鲁棒性和泛化性的协同优化,这对于真实世界中可靠的闭环部署至关重要。
消融实验与数据缩放分析




伪专家应具备探索性:对于所有规划器,恢复式策略下的缩放曲线收敛更早,且性能低于规划器式策略。恢复式专家始终引导轨迹向人类驾驶日志靠拢,当从相同真实场景中扩展仿真数据时,会限制数据多样性。相比之下,规划器式专家能探索更广泛的可能性,甚至在具有挑战性的场景中提供可行解决方案。因此,与规划器式策略相比,恢复式专家仅在小数据量场景下表现出优势(图4(d)),这可能是因为其轨迹分布与真实世界数据更契合,更易于学习。在大多数情况下,随着数据缩放,恢复式策略的性能提升边际效益递减。这些观察结果凸显了伪专家探索性行为的重要性,它能提升缩放场景下仿真数据的价值。
多模态建模激发缩放潜力:尽管基于回归的LTF和基于扩散模型的DiffusionDrive模型规模相当(5600万参数 vs 6100万参数),但在规划器式策略下,两者的缩放特性存在显著差异(图4(a)和(b))。对于LTF,当仿真数据与真实数据比例达到1:1时,性能达到饱和并开始下降;而DiffusionDrive则表现出近似线性的性能提升。这是因为来自相同真实场景的演示样本多样性逐渐增加,带来了有效的多模态监督问题。单模态回归模型难以建模多峰分布,导致模态混淆和性能下降,而扩散模型能够捕捉多模态特征,因此更适合在多样化监督下进行优化。由于真实世界自动驾驶本质上是一个多峰问题,本文的仿真缩放结果强调了多模态建模对于可扩展真实世界端到端自动驾驶的重要性。
奖励信号足矣:在图4(c)和(d)中,对于基于评分的GTRS-Dense规划器,仅使用仿真数据中的奖励信号(无需专家轨迹)就能实现更优的性能。为进一步分析这一现象,本文在仅使用真实世界数据的情况下进行了仅奖励驱动的训练,结果如表3所示,性能反而下降。这些结果表明,在足够的专家监督以稳定优化方向的前提下,奖励引导能发挥更好的效果。模型在环境探索和交互过程中,能从奖励反馈中获益。
反应式仿真的影响:为分离反应式交通的影响,本文对比了基于奖励评分的GTRS-Dense在navhard上使用非反应式和反应式仿真数据的性能(表4)。两轮非反应式采样生成了14.1万条轨迹(由于碰撞率更低,比反应式多5.4万条有效样本),但EPDMS未得到任何提升;当反应式仿真进行到第三轮时,生成了12.4万条样本(比非反应式少1.8万条),但在两种模型规模下均实现了持续且显著的EPDMS提升。这些结果表明,反应式智能体动态提升了交通交互的真实性和多样性,进而增强了仿真数据的有效性。

仿真场景的定性结果
图5展示了仿真数据的定性可视化结果,呈现了四种用于训练策略的代表性OOD场景。这些场景模拟了学习到的策略容易出错的典型真实世界驾驶挑战,包括(a)车道偏离中心、(b)近碰撞、(c)驶离可行驶区域和(d)车辆加塞。每个场景均通过俯视图展示作为监督信号的伪专家轨迹和作为历史动作的偏离扰动轨迹,并附上作为策略感官输入的合成前视图图像。例如,场景(b)要求策略在短时间域内自适应避免碰撞。


四、结论
本文提出了SimScale,最新的仿真学习系统,揭示了大规模仿真如何放大真实世界数据集在端到端自主驾驶中的价值。在仿真数据生成流程方面,本文首先通过在交互环境中对自车轨迹进行扰动,从潜在的分布外状态中生成伪专家演示数据。为实现贴近真实世界的仿真效果,本文利用3DGS引擎渲染出高保真的多视角观测数据。基于这些仿真数据,虚实协同训练在具有挑战性的真实世界基准测试中,显著提升了各类规划器的鲁棒性和泛化性——在navhard基准上EPDMS评分最高提升6.8分,在navtest基准上最高提升2.9分。
值得注意的是,在固定真实世界数据集的情况下,该虚实系统随着仿真数据量的增加,呈现出清晰且可预测的性能扩展趋势。本文进一步发现,探索性的伪专家设计和交互环境能够提升仿真数据的有效性,而具备多模态建模能力的规划器则会展现出更优的数据扩展特性。本文希望SimScale能够启发学术界进一步探索真实世界仿真在数据扩展方面的应用。

发表回复