2025-11-22 Waymo提出Drive&Gen：共同评估端到端驾驶和视频生成模型

原文链接：https://mp.weixin.qq.com/s/Cyb5RyBkWIFmgYLJIW42sg

当一个自动驾驶AI看到合成的驾驶视频时，它能分辨出这是假的吗？Waymo联合谷歌DeepMind的最新研究Drive&Gen给出了一个颠覆性的思路：不是让人来判断合成视频的质量，而是让自动驾驶模型自己来”打分”。

Drive&Gen构建了一个前所未有的协同评估系统：

端到端驾驶模型负责”出题”——在相同场景下对比真实视频和合成视频的驾驶决策；

视频生成模型负责”答题”——生成能够”欺骗”驾驶AI的高质量视频。

这种相互制约的机制解决了两个关键问题：如何建立面向驾驶任务的视频质量评估标准，以及如何系统性地诊断端到端驾驶模型的性能盲区。

论文题目: Drive&Gen: Co-Evaluating End-to-End Driving and Video Generation Models

论文作者: Jiahao Wang, Zhenpei Yang, Yijing Bai等（Waymo & Google DeepMind）

论文链接: https://arxiv.org/abs/2510.06209

1—技术背景：两个世界的碰撞

端到端驾驶模型的兴起正在彻底革新自动驾驶的技术路径，它摒弃了传统的“感知-预测-规划”模块化架构，转而直接将传感器数据映射到车辆控制指令。这种简洁性大幅降低了系统复杂度，但同时也带来了核心挑战：如何高效、准确地生成和评估用于训练和测试的数据？

与此同时，视频生成技术（如DriveSim等背后的技术）已能创造出视觉上极其逼真的驾驶场景。然而，这里存在一个根本性的鸿沟：视觉保真度并不等于驾驶行为保真度。对抗攻击研究证明，人眼无法察觉的微小像素变化，就能使深度学习模型做出完全错误的决策。这意味着一个视觉上完美的合成视频，可能对自动驾驶系统来说是完全无效或有害的。

这种背景催生了自动驾驶数据与评估领域的三个核心困境：

1. 评估标准的缺失（困境一）：传统的视频质量指标（如FVD）只能衡量统计相似性，无法判断生成的驾驶场景是否符合物理规律和交通逻辑。

2. 黑盒诊断的困难（困境二）：端到端模型的可解释性有限。当模型出错时，难以确定是光照、遮挡还是路面信息等单一变量导致的性能下降。

3. 边缘场景数据的稀缺（困境三）：真实世界中极端天气、复杂路口、罕见事件的数据收集成本极高且效率低下。 Drive&Gen 的核心逻辑与定位：行为一致性评估

正是在解决上述“视觉保真度”与“行为保真度”的矛盾，以及应对黑盒诊断的困境时，Drive&Gen（BPT，基于排列测试） 这种方法应运而生。

Drive&Gen 究竟在干什么？

它的核心思想是：用下游任务模型（即端到端规划器）来评估生成数据的行为一致性（Behavioral Consistency）。它不再关注生成的像素是否足够真实（这是GANs的任务），而是关注：当自动驾驶系统“看”到这个生成的数据时，它会不会做出在真实世界中合理的驾驶决策？

与一些相似方法的本质区别：

简单来说，Drive&Gen 是一个“任务导向”的评估框架，它利用统计学工具和下游自动驾驶模型作为“苛刻的驾驶教练”，来检验合成数据是否能真正用于训练或测试。这直接避免了用代理指标来评估实用性的问题。

图1｜通过将驾驶视频生成模型与端到端(E2E)规划器连接，该研究可以(1)通过规划器评估合成数据质量，通过控制与真实视频相同的交通布局和场景条件来评估规划器响应差异，(2)通过对操作条件的对照实验评估端到端规划器的域间隙，以及(3)通过视频模型的合成数据改善E2E规划器在分布外域上的性能。规划器预测(→)被叠加显示。生成的数据以斜体显示。

2—Drive&Gen的核心洞察：以驾驶决策为准绳

Drive&Gen的设计哲学源于一个简单而深刻的洞察：评估驾驶视频质量的终极标准，不是人眼的判断，而是自动驾驶系统的行为反应。如果一个合成视频能够让训练有素的驾驶AI做出与真实场景完全相同的决策，那么这个合成视频就达到了”驾驶级别”的真实性。

基于这一理念，Drive&Gen构建了三个相互关联的功能模块。合成数据质量评估模块通过控制实验的方式，在相同的交通布局和环境条件下生成合成视频，然后让端到端规划器分别处理真实视频和合成视频，对比两者的驾驶决策差异。这种方法类似于给同一位司机展示真实道路和高度逼真的VR模拟环境，观察驾驶行为是否保持一致。决策差异越小，说明合成视频的质量越高。

模型盲点诊断模块充分利用了视频生成模型的可控性优势。在真实世界中，要获得”仅改变天气条件而其他因素完全相同”的对照场景几乎不可能，但生成模型可以轻松实现这种精确控制。Drive&Gen可以系统性地改变单一变量——比如将同一个路口场景分别渲染为晴天、雨天和夜间版本——然后观察规划器在不同条件下的表现变化，从而精确定位影响驾驶性能的关键因素。

性能提升模块则将前两个模块的发现转化为实际的改进方案。当系统识别出模型在特定条件下（如恶劣天气、夜间驾驶）存在性能不足时，可以有针对性地生成高质量的合成数据来补充训练集，特别是那些在真实数据中稀缺但对安全驾驶至关重要的边缘场景。

图2｜在各种条件下生成的视频。(1)顶行显示输入条件，包括投影到摄像头的道路地图和边界框。(2)第二行显示相应的真实世界视频。后续行展示了模型在不同条件下生成视频的能力：(3)与原始视频相同的条件，(4)将天气从无雨改为下雨，(5)将时间改为00:00(午夜)，(6)同时具有雨天和夜间条件.

3—核心技术架构：精确控制与智能决策的结合

可控视频生成：从W.A.L.T到驾驶专用模型

研究团队在W.A.L.T模型的基础上构建了专门针对驾驶场景的视频生成系统。这个系统的核心优势在于对驾驶场景关键要素的精确控制能力。

场景的空间结构通过三层信息进行编码：边界框使用8维向量表示每个交通参与者的位置、尺寸、偏航角和类型；道路地图采用线段表示法，能够支持多达4096个路段的复杂道路网络；自车姿态则通过12维向量精确描述，包含完整的3×3旋转矩阵和3维平移向量。

环境条件的控制体现了研究团队的深刻洞察。传统方法使用本地时间戳来表示时间信息，但这种方法忽略了地理位置和季节变化对光照条件的影响。Drive&Gen采用太阳方位角和高度角来替代简单的时间戳，确保了光照条件的物理准确性。同样的”下午6点”在夏季和冬季、在纽约和洛杉矶的光照条件截然不同，但太阳角度能够准确反映真实的光照环境。

端到端驾驶模型：从视觉感知到轨迹规划

驾驶模型基于预训练的视觉-语言模型PaLI构建，采用了独特的”拼贴图像”处理方式。系统将时序的驾驶帧排列成3×3网格，这种设计既保留了时间维度的信息，又充分利用了视觉-语言模型在2D图像理解方面的强大能力。

更为巧妙的是，模型将复杂的驾驶规划任务重新构建为视觉问答问题。传统的端到端驾驶模型直接输出控制指令，而Drive&Gen的规划器输出格式化的轨迹waypoints，然后通过自然语言描述的方式表达驾驶意图。这种设计不仅提高了输出的可解释性，还充分利用了大语言模型在常识推理和复杂场景理解方面的先验知识。

图3｜该研究的视频生成模型架构。该研究通过扩展潜在视频扩散模型W.A.L.T [5]，实现了对场景和交通布局(边界框、道路地图和自车姿态)以及操作条件(时间段、天气)的控制。这些条件被编码并通过AdaLN和交叉注意力机制的组合与扩散变换器中的中间特征交互。该模型在大量驾驶视频语料库上进行了微调。

4—突破性评估指标：行为置换测试(BPT)

Drive&Gen的最重要贡献是提出了行为置换测试(Behavior Permutation Test, BPT)，这是第一个专门针对驾驶任务设计的视频质量评估指标。

BPT的核心逻辑：统计学遇上自动驾驶

BPT的设计基于一个严谨的统计学假设：如果合成视频和真实视频在驾驶任务上等价，那么同一个规划器在两种输入下生成的轨迹集合应该服从相同的概率分布。

具体的测试流程体现了这一逻辑。系统首先让规划器基于真实视频生成M个轨迹样本，然后基于对应的合成视频生成N个轨迹样本。接下来计算两组轨迹之间的广义Chamfer距离——这个距离指标能够捕捉轨迹在空间和时间维度上的差异。最关键的步骤是进行1000次随机置换检验：将两组轨迹随机重新分组，计算新分组下的距离差异，生成p值。如果p < 0.05，说明两组轨迹存在统计显著性差异，即合成视频未能在行为层面”欺骗”规划器。

相比传统指标的革命性突破

传统评估指标的根本缺陷在于脱离了下游任务的实际需求。FVD（Fréchet Video Distance）试图通过比较特征分布来评估视频质量，但研究发现这种方法存在严重的偏见。FVD对夜间和雨天场景往往给出很高的分数（意味着”质量差”），但这主要反映的是训练数据中此类场景的稀缺性，而非视频的实际质量问题。一个在FVD上得分很低的夜间驾驶视频，可能在驾驶行为上完全准确。

平均位移误差(ADE)虽然直接测量轨迹偏差，但缺乏对驾驶语义的理解。两个大小相等但方向相反的偏移会产生相同的ADE值，但在驾驶意图上却截然不同——一个可能代表安全的车道保持，另一个可能意味着危险的车道偏离。

BPT的革命性在于直接以驾驶决策的一致性作为评判标准。它不关心像素级别的视觉相似度，也不依赖于训练数据的分布假设，而是专注于合成视频是否能够引发正确的驾驶行为。这种评估方式与自动驾驶系统的最终目标——安全可靠的驾驶决策——完美对齐。

图4｜使用FVD、ADE@5s和BPT对5000个随机样本的可控视频生成评估。FVD不能完全捕捉视觉质量——雨天/夜间的FVD(在该数据集中相对罕见)要高得多(由于分布偏移)，尽管视频的照片写实性在视觉上相似。FVD无法测量可控性——移除边界框条件会大大改变车辆位置，但对FVD影响很小。ADE和BPT不受此类数据分布偏移的影响，能够捕捉模型的可控性——当移除边界框时，这两个指标都明显变差。

图5｜行为排列检验(BPT)可视化。BPT对真实和生成视频的预测轨迹进行集合对集合比较。在顶行中，当两组轨迹相似时，两组之间的距离(红色虚线)完全落在排列分布内，导致无法拒绝零假设。底部显示拒绝零假设的情况，其中两组轨迹彼此显著不同。

5—实验设计：从大规模数据到多维度验证

数据规模与训练策略

研究构建了一个规模空前的驾驶场景数据集，包含约1000万个驾驶片段。每个片段以10Hz采样率记录17帧连续画面，分辨率为128×128像素，并配备完整的场景标注信息。这种时间分辨率的选择平衡了计算效率和运动信息的保留，足以捕捉车辆运动的关键动态特征。

训练过程中采用了一个巧妙的随机dropout策略：对每个控制条件以0.1的概率进行随机屏蔽。这种设计提升了模型的鲁棒性，使其能够在部分条件信息缺失的情况下仍然产生合理的输出，这对于实际应用中可能出现的传感器故障或信息不完整场景具有重要意义。

多层次验证体系

验证实验采用了从基础能力到专业应用的渐进式设计。首先通过传统的CALVIN基准测试验证模型在纯语言指令环境下的基础性能，确保多模态设计没有损害原有的指令理解和执行能力。

同条件生成测试构成了评估的核心环节，在完全相同的场景布局和环境条件下对比真实视频与合成视频的效果。条件变化测试则系统性地改变单一环境因素——天气从晴转雨、时间从白天到夜晚——观察这些变化对规划性能的具体影响。无条件生成测试通过移除特定约束条件（如边界框信息）来验证各类控制条件的重要性，为模型的可解释性提供定量依据。

图6｜规划器在给定真实和生成视频时的预测轨迹比较。两个视频中相同的场景布局导致高度相似的轨迹预测。

6—核心发现：量化分析揭示的深层规律

合成数据质量：69.62%的突破性表现

在相同条件的控制实验中，Drive&Gen取得了69.62%的BPT通过率，这意味着在约70%的测试场景中，端到端规划器无法区分真实视频和对应的合成视频。考虑到理论上限为95%（即使是真实视频的重复测试也存在5%的随机性差异），这一结果表明合成视频已经达到了相当高的”驾驶保真度”。

场景控制的重要性通过对比实验得到了明确验证。当系统移除边界框约束时，BPT通过率急剧下降至55.28%，降幅达到14.34个百分点。这种显著差异证明了精确的空间布局控制是生成高质量驾驶视频的关键因素。相比之下，移除天气或时间条件的影响相对较小，说明当前的生成模型在处理视觉外观变化方面已经相当成熟。

端到端规划器的性能解析

通过控制变量实验，研究揭示了驾驶决策的关键影响因素。空间结构信息对规划性能的影响最为显著：移除边界框信息导致5秒预测的ADE从0.7548米激增至1.1216米，增幅达到48.6%；移除道路地图信息同样造成了显著的性能下降，ADE增加至0.9111米。

这些数据揭示了一个重要规律：驾驶行为的核心驱动因素是空间结构而非视觉外观。在相同的场景布局下，天气和时间变化对ADE的影响相对有限，这符合”交通参与者的位置和运动比环境光照更重要”的驾驶常识。

时间维度的分析展现了另一个有趣的模式：模型在正午(12:00)达到最佳性能，在午夜(00:00)出现轻微的性能下降。这种变化模式与光照条件对视觉感知系统的影响高度一致，表明即使在端到端架构下，光照质量仍然是影响驾驶性能的重要因素。

表II｜真实和生成视频的ADE分数。移除场景布局条件(边界框和道路地图)会显著增加ADE，而移除操作条件(天气和时间段)对ADE的影响较小。

合成数据增强的实际价值

最具实用价值的发现是合成数据在提升分布外场景性能方面的显著效果。采用”100万合成视频预训练20K步 + 真实数据微调20K步”的混合训练策略，5秒预测的ADE从0.7548米降低至0.7333米，虽然改进幅度看似有限（2.85%），但在安全关键的自动驾驶应用中，这种改进具有重要意义。

更重要的是在特定条件下的针对性改进。在雨天场景中，混合训练将ADE@5s从0.8482米降至0.8382米；在夜间条件(22:00-04:00)下，长时预测的性能改进更为明显。这些结果证明了合成数据在补充稀缺场景方面的独特价值——那些在真实数据中占比很小但对安全驾驶至关重要的边缘场景。

图7｜定性结果，说明合成数据对规划器性能的影响(黄色箭头)。”FT”表示使用合成和真实数据进行微调。案例1：自车对绿灯的响应(停车vs继续行驶)。案例2：自车与右车道停车的交互(缓慢移动vs安全绕行)。

7—结语：技术融合的新起点

Drive&Gen的技术贡献超越了单纯的算法创新，它建立了一个新的研究范式：将不同AI系统的协同作为解决复杂问题的核心策略。这种范式的价值在于，它不是简单地堆叠技术模块，而是通过精心设计的相互制约机制来实现系统性的质量提升。

研究团队清醒地认识到，无论是视频生成模型还是端到端驾驶模型都存在各自的局限性，单一指标也无法完全捕捉真实世界驾驶的全部复杂性。但Drive&Gen提供的方法论框架为系统性地评估和改进每个组件奠定了基础，这种渐进式的改进路径比追求完美的单一解决方案更加现实和有效。

从更广阔的视角看，这项工作预示着AI技术发展的一个重要趋势：从孤立的技术优化转向系统性的协同设计。未来的AI系统将越来越多地采用多模型协作的架构，其中每个组件不仅要优化自身的性能，还要考虑与其他组件的协同效果。这种设计理念对于构建安全、可靠、可扩展的AI系统具有深远的指导意义。