原文链接:https://mp.weixin.qq.com/s/4ds1XpMnh4_wbrV2nkKqjQ
端到端自动驾驶的核心目标是将原始传感器输入直接映射为未来驾驶轨迹,无需传统模块化流水线(如单独的感知、预测、规划模块)。这类方法虽简化了系统设计,但现有方案多采用one-shot的范式——仅依赖当前时刻的场景信息推理自车轨迹(图1),会导致两个问题:
- 忽略场景动态演化:在复杂交互场景(如车流变道、路口转弯)中,无法预测周围环境(如其他车辆、行人)的时序变化,导致规划不准;
- 忽视车辆行为对环境的影响:自动驾驶车辆自身的未来动作(如减速、转向)会改变周围场景的演变(如引导后车调整车速),这种双向依赖关系在现有系统中未被有效建模。
为解决上述问题,复旦和上海创智学院提出SeerDrive,借鉴“世界模型(world models)”的思想,提出轨迹规划与场景演化的双向建模范式:通过预测未来BEV表示捕捉场景动态,同时让规划结果反馈给场景预测的优化,形成闭环迭代(图1),最终实现更具适应性的决策。
- 论文标题:Future-Aware End-to-End Driving: Bidirectional Modeling of Trajectory Planning and Scene Evolution
- 论文链接:https://arxiv.org/abs/2510.11092
- 开源链接:https://github.com/LogosRoboticsGroup/SeerDrive
SeerDrive的设计原理
SeerDrive的整体 pipeline 包含特征编码、未来BEV世界建模、未来感知规划、迭代优化四大模块,核心是通过“预测未来场景→指导规划→反馈优化场景”的闭环,实现双向交互。

特征编码:从传感器输入到结构化特征

未来BEV世界建模:预测场景动态

核心组件1:Future-Aware Planning

核心组件2:迭代场景建模与车辆规划



端到端训练:损失函数设计

实验结果
实验在NAVSIM和nuScenes两上展开,重点验证SeerDrive的SOTA性能及核心组件的必要性。
数据集与评价指标
- NAVSIM:基于nuPlan构建,包含1192个训练/验证场景、136个测试场景,涵盖动态意图变化,采用8相机+LiDAR输入(2Hz);评价指标为PDMS分数,包含无责任碰撞(NC)、可行驶区域合规性(DAC)、碰撞时间(TTC)、舒适性(Comf.)、车辆进度(EP)5个子指标。
- nuScenes:包含1000个场景,采用6相机+LiDAR输入(2Hz);评价指标为L2位移误差(越小越好)和碰撞率(越小越好)。
与SOTA方法的对比
- NAVSIM测试集(table 1):
SeerDrive在PDMS分数上达到88.9,超越Hydra-NeXt(88.6)、WoTE(88.3)、DiffusionDrive(88.1)等方法;当采用V2-99骨干网络时,PDMS进一步提升至90.7,超过GoalFlow的90.3,且计算成本更低。

- nuScenes验证集(table 2):
SeerDrive的平均L2位移误差为0.43m,平均碰撞率为0.06%,显著优于SparseDrive(L2=0.61m,碰撞率=0.08%)、MomAD(L2=0.60m,碰撞率=0.09%)等方法;即使去掉未来BEV注入(SeerDrive w/o bev)或迭代优化(SeerDrive w/o iter),性能仍优于部分SOTA,证明核心设计的有效性。

消融实验:核心组件的必要性
组件有效性(table 3):去掉未来感知规划或迭代优化,PDMS均下降(如两者都去掉时PDMS从88.9降至87.1),说明双向建模和迭代优化是性能提升的关键。

未来感知规划设计(table 4):去掉未来BEV注入(PDMS=87.9)、解耦策略(PDMS=87.3)或MLN(改用拼接/相加,PDMS=88.3/88.5),性能均低于完整设计,验证了解耦策略和MLN的重要性。

迭代次数与未来BEV预测步(table 5、table 6):迭代2次时性能最优(PDMS=88.9),迭代1次或3次均导致性能下降;仅预测最终规划步的未来BEV(4s)即可满足需求,增加中间步(如1s-2s-3s-4s)无性能提升但增加复杂度。



定性结果:场景演化与规划的对齐
figure 3展示了右转和左转场景的定性结果:


四、相关工作对比与局限
与现有方法的核心差异
- 端到端自动驾驶:UniAD、VADv2、DiffusionDrive等方法仅优化规划过程,未建模场景演化与规划的双向依赖;SeerDrive则通过未来BEV和迭代优化,让两者深度交互。
- 世界模型:DriveDreamer、GAIA-1等侧重生成高保真图像,计算成本高;SeerDrive采用BEV表示,更轻量且适配规划需求。
- 联合世界建模与规划:WoTE仅用世界模型从候选轨迹中选最优,无特征级交互;SeerDrive则将未来BEV作为规划的特征级输入,并通过迭代反馈优化,互动更深入(table 10)。

局限与未来方向
- 局限:BEV世界模型未利用基础模型的泛化能力,而现成基础模型(如大语言模型、视觉基础模型)虽泛化性强,但推理速度慢且难与规划模块联合优化。
- 未来方向:探索“基础模型+规划”的紧密集成范式,在保持效率的同时提升泛化能力,应对更复杂的极端场景(如紧急制动、多车交汇)。

发表回复