原文链接:https://mp.weixin.qq.com/s/xa7TYRTmUMG4n0Spu65mWg
论文链接:https://arxiv.org/pdf/2510.24734v1
项目预开源链接:https://github.com/zhanwj/DrivingScene
引言
清晨的城市环路,自动驾驶车辆正平稳行驶。突然,路口冲出一辆闯红灯的电动车,路边还有行人快步横穿马路 —— 这千钧一发的瞬间,车辆的感知系统必须像经验丰富的老司机一样,瞬间 “看懂(精确输出)” 3D 空间中所有动态物体的位置、速度和运动趋势,自车才能做出安全决策。这就需要一种能力,叫做“4D重建”——不仅要还原三维空间中的物体形状和位置(3D),还要捕捉它们在时间维度上的运动变化(第4维)。但现实中,感知系统面临两难困境:使用激光雷达等多种传感器组合,精度高,但成本昂贵,难以大规模落地;只用摄像头的纯视觉方案,虽然便宜,但容易出现“动态物体模糊”“重影”“延迟”等问题,就像一个近视又反应迟钝的司机。
而哈尔滨工业大学联合理想汽车研发的DrivingScene,恰似给自动驾驶装上了一双 “超高清实时动态眼”—— 仅凭两帧连续环视图像,就能瞬间重建出几何精准、视觉逼真的 4D 动态场景(3D 空间 + 时间维度),既不用多模态传感器堆砌成本,也摆脱了离线优化的效率枷锁,为自动驾驶的安全感知提供了全新解决方案。本文将深入拆解这一突破性研究,从核心挑战、创新设计到实验验证,全方位解析。

一、自动驾驶场景重建:那些绕不开的 “挑战”
自动驾驶的安全基石,在于对周围环境的 “精准感知 + 实时重建”。但在真实驾驶场景中,研究者们始终面临三大核心挑战,如同横在技术突破前的三座大山:
1. 成本与效率的 “两难抉择”
- 多模态方案(LiDAR+RaDAR + 相机)虽能实现高精度感知,但传感器成本高昂,量产落地难度大;
- 纯视觉方案(仅依赖相机)虽具备成本优势,却受限于 “稀疏环视视角” 和 “动态物体干扰”,难以实时输出大尺度场景的精准重建结果 —— 就像用普通相机拍高速移动的物体,要么拍糊,要么漏拍关键细节。
2. 现有渲染技术的 “能力短板”
神经渲染技术的发展(如 NeRF、3D 高斯溅射 3DGS)让场景重建质量大幅提升,但在自动驾驶场景中却 “水土不服(存在各自局限)”:
- 静态场景方案(如StreetGaussian、DrivingGaussian):虽渲染质量出色,但依赖 “逐场景离线优化”,就像提前画好固定路线的地图,无法应对实时变化的路况;
- 动态场景方案(如EmerNeRF、Driv3R):EmerNeRF 同样需要离线优化,实时性不足;Driv3R 尝试端到端在线重建,却因未分离 “静态场景基础” 与 “动态物体运动”,不仅计算负担重(模型参数 2.512GB,推理 0.71s / 帧),还会出现动态物体重影、几何细节丢失等问题;
- 静态前馈方案(如DrivingForward、pixelSplat):虽实现在线推理,但假设 “场景无动态”,面对移动车辆、行人时会产生严重伪影,如同用静态照片去预判动态视频,误差极大。
3. 动态建模的 “核心瓶颈”
真实驾驶场景中,静态结构(道路、建筑)与动态物体(车辆、行人)的运动规律完全不同:前者是刚性运动(随自车运动产生全局平移),后者是非刚性运动(自主变道、行走等)。若将两者混为一谈建模,要么导致计算量暴增,要么牺牲重建精度 —— 这正是此前多数方案未能突破的核心症结。
二、DrivingScene 的创新:从 “破局” 到 “领跑”
为解决上述挑战,DrivingScene 提出了三种设计,构建了 “静态先验 + 动态残差 + 在线前馈” 的全新框架,实现了 “实时性、高保真、轻量化” 的统一。

1. 两阶段训练:先学习静态先验场景,再专注动态物体
传统一阶段端到端训练将静态与动态建模混为一谈,DrivingScene 采用 “先静态、后动态” 的两阶段训练范式:
- 阶段 1:静态场景先验学习:先从大规模数据中训练深度网络(D)和高斯参数网络(P),专注学习道路、建筑等刚性结构的精准建模,构建高保真、几何一致的静态场景基础。这一步如同让司机先熟练掌握 “静态路况识别”,打下扎实基础;
- 阶段 2:动态模块精细优化:冻结训练好的静态网络,单独训练残差流网络(R),仅专注于学习动态物体的非刚性运动残差。这一步相当于让司机在扎实基础上,专门练习 “动态物体预判”,既保证了训练稳定性,又降低了动态建模的复杂度。
2. 残差流网络:只算 “关键账”,效率翻倍



3. 纯视觉在线前馈框架:两帧图像,搞定 4D 重建
DrivingScene 彻底摆脱了 “离线优化” 和 “多传感器依赖”:
- 输入:仅需两帧连续的 360 度环视相机图像;
- 输出:实时生成 3D 高斯点云、深度图、场景流等多任务结果;
- 优势:无需 3D 空间去重或融合,依赖可微渲染器自动处理视角遮挡和不一致问题,端到端实现在线推理。
三、技术方案深度解析:从理论到实现
1. 静态场景建模:3D 高斯溅射的 “精准应用”

2. 动态建模:残差场景流的 “巧妙分解”

3. 两阶段损失函数:精准约束,兼顾质量与稳定
阶段 1:静态网络训练损失

阶段 2:动态网络训练损失

四、实验验证:全面超越主流方案

1. Novel View Synthesis:渲染质量大幅领先
表 1 展示了 nuScenes 验证集上的 novel view synthesis 定量结果,DrivingScene 全面超越前馈类基线:

- PSNR 达 28.76,较 Driv3R(26.10)提升 2.66dB,较 DrivingForward(26.06)提升 2.7dB,意味着渲染图像的信噪比显著提高,视觉更清晰;
- SSIM 达 0.895,显著高于 Driv3R(0.808)与 DrivingForward(0.781),表明图像结构相似性更优,动态物体边缘更锐利;
- LPIPS 达 0.113(越低越好),虽略高于 Driv3R(0.084),但综合 PSNR、SSIM 仍体现更优的整体渲染保真度。

动态场景重建定性结果
定性结果(图 4)更直观地展现了优势:DrivingForward 因静态假设,对移动车辆、行人产生明显重影;Driv3R 虽能捕捉动态,但细节模糊;而 DrivingScene 可生成边缘清晰、时序一致的动态物体重建结果,完美还原真实场景的运动状态。
2. 深度预测:几何准确性更优
深度预测是场景重建的核心基础,表 2 对比了 DrivingScene 与 Driv3R 的深度预测结果:

DrivingScene 在所有指标上均优于 Driv3R:
- 绝对相对误差(Abs Rel)0.227 vs 0.234;
- 平方相对误差(Sq Rel)2.195 vs 2.279;
- 均方根误差(RMSE)7.254 vs 7.298,验证了 “静态先验 + 动态残差” 结合的几何建模策略的有效性,为高质量场景重建奠定了坚实基础。
3. 效率与模型复杂度:轻量化且高效
自动驾驶对实时性和硬件适配性要求极高,DrivingScene 在效率上的优势尤为突出(表 3、表 4):
表 3 效率分析对比

表 4 模型复杂度对比

关键指标亮点:
- 推理速度:0.21s / 帧(6 路环视图像),比 DrivingForward(0.34s)快 38%,比 Driv3R(0.71s)快 70%,完全满足自动驾驶实时性需求;
- 训练成本:训练时间约 5 天,VRAM 占用 27.3GB,远低于 Driv3R(7.5 天、175.5GB),大幅降低研发成本;
- 模型大小:参数 0.117GB,仅为 Driv3R(2.512GB)的 4.6%、DrivingForward(0.173GB)的 67.6%,轻量化优势显著,更易适配车载硬件。
4. 消融实验:核心设计的必要性验证
为验证三大核心创新的必要性,研究团队进行了消融实验(表 5):

实验结果清晰表明:
- 去除残差流网络:模型退化为 “静态版”,PSNR、SSIM 显著下降,证明动态建模对真实场景重建的关键作用;
- 替换为单阶段训练:模型无法学习尺度一致的几何,渲染质量大幅退化(PSNR 仅 13.69),凸显静态先验的基础价值;
- 去除流场扭曲损失:渲染图与动态运动的一致性下降,验证该损失对多任务协同的约束作用。

刚性流与全流对比

五、总结与未来展望
DrivingScene 通过 “静到动两阶段训练”“残差流网络”“纯视觉在线前馈框架” 核心设计,成功破解了自动驾驶动态场景重建中 “成本高、实时性差、动态建模不足” 的三大难题,实现了 “实时性 + 高保真 + 轻量化” 的统一。其核心价值在于:
- 纯视觉方案降低了硬件成本,两帧图像输入适配真实车载场景;
- 实时推理速度(0.21s / 帧)满足自动驾驶在线感知需求;
- 动态物体重建质量优异,有效解决重影、模糊问题。
未来,研究团队可进一步探索:
- 整合更长时间窗口的信息,提升复杂动态场景的鲁棒性;
- 采用更具表达力的高斯基元变形模型,处理更多样化的动态现象(如行人姿态变化、车辆形变等);
- 适配更多真实路况(如雨天、夜晚、强光等极端场景),进一步提升方案的实用性。
DrivingScene 的出现,不仅为自动驾驶场景重建提供了全新技术路径,更推动了纯视觉感知方案的工业化落地,让自动驾驶的 “眼睛” 更明亮、更敏捷,为出行安全保驾护航。

发表回复