原文链接:https://mp.weixin.qq.com/s/Rd_KVJbXN5LwRCMZAkJQ-w
亮眼成果: 博世中国研究院与清华大学AIR团队的最新研究 DiffVLA,首次将通用机器人控制框架π0的”视觉-语言-动作”范式,成功改造为适应自动驾驶严苛要求的专用系统。该成果在Autonomous Grand Challenge 2025的navsim-v2 public leaderboard中,DiffVLA以45.0 EPDMS的优异成绩,展现了在真实与合成复杂场景下的强大鲁棒性与泛化能力。无论是无责碰撞率(95.71%阶段一,81.27%阶段二)、可行驶区域合规性(99.29%阶段一,88.84%阶段二),还是车道保持与舒适性指标,DiffVLA均表现出色! 传统端到端自动驾驶方法常受限于昂贵的BEV计算、动作多样性不足及复杂场景决策次优等问题。DiffVLA通过稀疏表示、扩散模型与VLM的深度融合,突破这些瓶颈,为自动驾驶的闭环性能树立了新标杆。
- 论文链接:https://arxiv.org/abs/2505.19381

架构传承:通用机器人控制的自动驾驶进化
π0证明了生成式VLA(Vision-Language-Action)框架在通用机器人控制的潜力,而DiffVLA首次实现了该范式在动态交通场景中的安全落地。 “如果说π0是‘会思考的机器人’,DiffVLA则是‘懂交规的老司机’:它继承了前者的多模态理解能力,但每一步决策都戴着安全的镣铐跳舞。”
- 改造难点 :
- 挑战1:语言指令与物理世界的割裂 :通用机器人环境下的“避开障碍物”指令 → 生成机械臂绕行动作”,生成无视人类体感的车速与偏移量的自由轨迹。
- 挑战2:开放环境与规则约束的冲突:π0依赖纯视觉特征感知世界,这种开放环境下的“自由探索”逻辑,在交通系统中引发事故造成致命事故。
- 挑战3:生成模型的动作风险失控 在π0框架中,扩散模型生成的机械臂轨迹即使存在抖动(如±5cm偏移),也仅导致抓取失败;但自动驾驶在高对抗场景中,同等自由度的轨迹扩散会引发致命横摆
核心创新点:
通用机器人领域的的应用和自动驾驶领域的应用人有巨大的gap,为了将我们将从π0架构运用到自动驾驶领域,我们对编码器、解码器、数据、损失函数四大支柱展在自动驾驶领域的应用开深度剖析和深度改进,揭示从通用机器人智能体到自动驾驶智能体的底层逻辑。


总体架构
端到端自动驾驶已成为一个重要且快速发展的研究领域。得益于大量人类驾驶示范数据的可用性,从大规模数据集中学习类人驾驶策略具有巨大潜力。现有方法如UniAD、VAD 以传感器数据为输入,通过单一可优化模型回归单模轨迹。进一步探索稀疏表示,提出对称稀疏感知模块和平行运动规划器。然而,这些方法忽略了驾驶行为的内在不确定性和多模态特性。利用生成领域的强大扩散概念,方法能够建模多模态动作分布。通过锚定高斯分布设计加速扩散过程。将VLM与端到端模型结合,提高轨迹规划精度。
尽管现有方法在nuScenes、navsim-v1、nuPlan等知名基准测试上表现稳健,但在闭环评估中实现鲁棒性能并超越记录状态仍是一大挑战。本文重新审视稀疏性、扩散和VLM的概念,提出了一种更全面的方法,并在闭环评估中验证了其性能。我们的框架采用Encoder-Decoder架构,分为三个关键组件:VLM Encoder、稀疏-密集混合Perception Encoder和基于扩散的Planner Decoder。我们在navsim-v2数据集上训练和评估我们的方法,该数据集通过引入反应性背景交通参与者和逼真的合成多视角相机图像,提供了全面的闭环鲁棒性和泛化能力评估。我们的方法在navsim v2竞赛的私有测试集上取得了45.0的EPDMS评分。

Encoder

Decoder
π0 采用了基于score based的生成式模型作为轨迹生成方式,以前缀动作序列为条件自回归预测下一步操作(如关节扭矩或末端位移)。在自动驾驶运行场景更复杂,同事我们考虑到自动驾驶的轨迹预测其实是可以进行分层分解的。人类开车时首先受到high level的信息影响,比如我需要去哪里,下个路口左转还是右转,其次关注周围环境,如果环境复杂则需要降低车速增加注意力,最后是确保车辆遵守车道以及防止和其他车辆发生碰撞。的受到人开车的认知行为规范的启发,我门设计了分层的Transformer对上游的Encoder的信息进行分层输入接入Diffusion Decoder网络。同样为了进一步使模型获得更好的多样性,我们使用了diffusion,就diffuison policy而言,我们使用了截断扩散策略,其去噪过程不再从标准高斯分布开始,而是从一个锚定高斯分布(anchored Gaussian distribution)开始。为了让模型能够学习如何从锚定高斯分布去噪到目标驾驶策略,我们在训练阶段截断了扩散调度(diffusion schedule),仅向锚点添加少量的高斯噪声。用更“接近真实轨迹”的锚点来替代完全随机的起点,从而降低训练和推理过程中的复杂度,并提升生成的轨迹质量。
Data
π0 采用了pre-training+post fine-tuning的方式,其中pre-training阶段最重要的就是diversity,用了一个10000小时规模的数据集训练,其中数据集大部分是自采的(采集方式下一节介绍),仅9.1% 是开源的(Open-emb-x, droid 等),并且其中普遍都是比较复杂的符合任务,所以实质上包含的任务更多。在post fine-tuning阶段数据的要点是动作质量高,即动作要完成地一致且高效。我们采取了和π0类似的策略,同样进行了pre-training和post fine-tuning部分。其中VLM Encoder模块的pre-training使用了一个大规模自动驾驶预训练数据集driveX,Perception Encoder模块则在nuplan数据集上进行大规模预训练。但是我们发现大规模的高质量数据进行训练并不能教会模型如何克服复杂场景下的行为决策问题,因为即使在navsim数据集下具有挑战性的驾驶场景任然使稀少的。为此在post fine-tuning过程中,我们除了主要对关注对轨迹精度的优化以及困难场景的训练,为此我们从openscene以及nuplan数据集中额外挑选了一部分难例添加到数据集中。
Loss




实验结果

可视化

结论和展望
尽管相比于π0,DiffVLA在自动驾驶领域取得了显著进展,以下方向仍需深入探索:
- VLM轻量化与实时部署:当前VLM的计算开销难以满足车载平台严苛的延时与能效约束。未来需探索模型压缩(知识蒸馏、稀疏量化)、硬件感知编译(Transformer算子加速)及车-云协同推理架构,以实现VLM在嵌入式芯片的高效部署。
- LLM驱动的闭环决策范式革新:DiffVLA中VLM仅提供开环语义指令,尚未参与实时控制闭环。亟需研究LLM在决策-规划-控制层级的深度耦合机制
- 安全与评估体系升级:设计动态安全边界(如形式化验证模块过滤风险指令,对抗样本防御机制),构建融合物理约束与语言描述的闭环评测基准,并引入VLM决策合理性量化指标

发表回复