原文链接:https://mp.weixin.qq.com/s/WDsMDeCyIFBOjqDWRBZiDA
最近大模型领域开始重新思考对scaling laws的传统认知,前有上交团队针对Agent任务提出的『LIMI: Less is More for Agency』。即数据越多,AI能力未必越强越强。如今这一思考延伸到自动驾驶领域。自动驾驶VLA/VLM真的需要海量数据吗?或者说应该刨去冗余,提炼真正关键的信息。
自动驾驶之心今天要分享的工作是复旦和中科院的团队提出的 Max-V1 —— 全新的一阶段端到端自动驾驶框架。Max-V1将自动驾驶重新概念化为一种广义的语言任务,并将轨迹规划问题形式化为“下一个waypoint预测”(next waypoint prediction)。
该框架采用单次前向生成范式,且结合自动驾驶时序感知。该方法利用VLM的生成能力,仅输入前视相机并且端到端地预测轨迹。这一方法的有效性建立在一种源于统计建模的、原则性的监督策略之上,该策略提供了明确定义的学习目标,使得框架能够通过大规模专家示范的模仿学习,高效掌握复杂的驾驶策略。
在实验上,我们的方法在 nuScenes 数据集上取得了当前SOTA的性能,相较先前的基线模型整体提升超过 30%。此外该模型在来自不同车辆平台的跨域数据集上也展现出不错的泛化能力,显示出在跨车辆部署中具有显著的鲁棒性与适应性潜力。凭借这些实证优势,本工作提出了一种能够实现基础驾驶行为的模型,为构建更强大的自动驾驶智能体奠定了基础。
- 论文名称:Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2510.00060
背景回顾与主要贡献
人类驾驶本质上是一个序列化决策过程,其中每一个动作都依赖于对周围场景的实时理解。这种感知与动作之间的动态交互,与自然语言生成具有高度相似性——后者同样涉及生成高度相关的输出序列。从这一视角出发,我们可以将视觉-语言模型(VLM)视为一个强大的策略网络(policy network)。在此情境下,模型的目标从“预测下一个词”转变为“生成下一个驾驶动作”,从而将planning转化为一个可处理的、自回归式的序列建模任务。基于此,利用VLM丰富的预训练知识与复杂推理能力提升自动驾驶的相关工作相继提出。
端到端方法已成为自动驾驶领域的主流范式,因其能够对整个系统进行全局优化,并避免多阶段处理中的误差累积。在此范式下,当前研究主要分为两大方向:其一是开发专用架构,仅在大规模、领域特定的驾驶数据集上进行训练;其二是适配大型预训练 VLM,旨在利用其广泛的世界知识与通用推理能力来服务于驾驶任务。

第一类方法(如UniAD)通常采用专门设计的专用序列架构,以BEV表示为核心。该方法假设:当模型在海量真实驾驶数据上训练时,即可学习到适用于实际部署的鲁棒策略。然而,这一范式面临以下挑战:一方面,其对高质量、精心标注数据集依赖较高,限制了其在长尾场景中的泛化能力;另一方面,BEV 表示本身具有脆弱性——从视觉图像生成 BEV 是一个病态问题(ill-posed problem),易导致信息损失,且大规模、精确标注的 BEV 数据集稀缺,构成了难以回避的瓶颈。
第二类方法则更灵活高效地利用了VLM框架作为高级推理引擎。通过问答(Q&A)格式,这些系统能深度挖掘并利用 VLM 中丰富的预训练知识,从而增强对驾驶场景的上下文理解。然而,其通用性也带来了任务对齐上的不适配:为离散文本处理优化的模型架构与目标函数,并不天然适用于现实世界轨迹规划所需的连续、细粒度控制。
对当前端到端方法的分析揭示了两种并行的研究思路,各自存在固有局限:专用模型虽针对大规模领域数据优化,却受限于其数据驱动本质与脆弱的中间表示;而基于 VLM 的框架虽具备强大推理能力,却面临计算效率低下及对连续控制问题天然不适配的挑战。因此开发更高级的架构以弥合这些差距,成为一条极具前景的演进路径,也是本工作的主要动机。
在本研究中,我们提出了 Max-V1——一个基于纯 VLM 构建的端到端自动驾驶轨迹规划器。Max-V1通过对驾驶特定行为进行微调,使预训练 VLM 获得驾驶相关能力,从而聚焦于任务本身。为此,Max-V1 将驾驶建模为类似于自然语言的序列决策过程,并摒弃了传统的 BEV 特征空间,转而直接处理以自车为中心(ego-centric)、第一人称视角的原始传感器输入。通过这种纯 VLM 驱动的端到端架构,我们的范式兼具高性能与结构简洁性,并具备强大的跨域泛化潜力。该方法避免了 BEV 构建过程中的误差累积,充分利用了预训练知识,降低了对昂贵 BEV 特定标注的依赖,并更贴近驾驶的本质。
具体而言,本文的贡献如下:
- 将驾驶行为统计建模为序列决策过程,并将规划任务形式化为“下一个waypoint预测”,并验证了所设计监督信号的有效性。该形式化为我们的单次前向设计奠定了原则性基础,并与驾驶的本质相一致。随后,我们利用预训练 VLM 作为领域知识库与强大策略网络,通过微调来解决该任务。
- 在训练过程中不使用任何外部信息的情况下,我们的方法在 nuScenes 数据集上达到当前最优性能,相较先前的baseline整体提升超过 30%。尤其值得注意的是,我们的模型展现出强大的零样本泛化能力,在截然不同的场景中仍能表现出合格的驾驶行为。由于这些数据集由完全不同的车辆采集,该性能表明其在跨车辆部署方面具有强大潜力。此外,我们还初步探索了第一人称视角下的 LiDAR-图像融合,识别出一种更偏向短期目标的性能权衡。
- Max-V1为 VLM 提供了一种面向任务的适配方案,可替代传统的多阶段驾驶流水线。这一统一架构结构简洁,为通过强化学习进一步开发更强大的自动驾驶智能体提供了可扩展的基础。
算法详解

模型简介
预备知识

next waypoint预测


与现有工作的区别

实验结果



局限性和未来工作
在本节中,我们讨论当前方法的局限性,并概述未来研究的几个有前景的方向。
- 数据规模与多样性:在nuPlan和 Waymo Open Dataset等更多开放环路的真实世界数据集上进行训练,可能会增强驾驶风格的多样性和模型的鲁棒性。然而,引入非专业驾驶员数据的价值仍有待商榷。
- 推理效率:由于VLMs固有的局限性(这是所有基于VLM的方法都面临的共同问题),推理延迟仍然是实时部署的一大挑战。未来的方向包括探索高效的推理技术,例如知识蒸馏和量化,并通过开发定制芯片来追求硬件加速,以提升推理速度。
- 缺乏可解释性:端到端的黑盒架构本质上缺乏直接的可解释性。尽管这种设计选择优先考虑了任务性能和效率,但我们承认可解释性在自动驾驶中的重要性。未来的工作可以专注于开发混合架构或事后(post-hoc)分析方法来弥合这一差距。
- 超越模仿学习:当前的模型基于模仿学习,这无法摆脱专家演示的局限性。可以通过引入强化学习来增强微调过程,使模型能够从交互中学习并发现更优的驾驶策略。
结论
在本研究中,我们提出了一种名为 Max-V1 的新框架,该框架将通用的视觉-语言模型(VLM)应用于自动驾驶中的轨迹规划任务。我们的方法建立在一个协同框架之上,该框架集成了三个核心组件:(i) 一种直接的、自回归的waypoint预测策略;(ii) 一种特定于任务的微调策略;以及 (iii) 一种简洁的、以自我为中心的输入格式。该规划过程由一种统计上严谨、符合物理直觉的监督信号进行引导。该方法绕过了文本分词,使模型的预测直接与驾驶行为对齐,从而实现了稳健的端到端轨迹规划。
从定量上看,我们的模型在模仿性能上普遍优于之前的最先进基线:在所有评估的轨迹规划项目中,我们的位移误差指标整体降低了超过30%。这种强大的实证表现,得益于根植于统计建模的关键理论洞察,凸显了我们方法的实际可行性。作为一次初步探索,我们也对一种简单的激光雷达融合策略进行了试点研究,这揭示了一个明显的性能权衡,并为未来的改进提供了新的方向。
尽管自动驾驶领域的标准位移度量已知更偏向于模仿保真度而非真实的驾驶智能,但我们的模型所达到的性能水平验证了其在驾驶方面的核心能力,在视觉上,它甚至在某些场景下展现出比人类驾驶员更合理的驾驶行为。这一成就指向了未来工作的一个关键方向:通过强化学习来提升驾驶智能。总体而言,这项工作为追求自动驾驶智能体所需的效率和能力提供了一个坚实的基础。

发表回复