2025-11-19 仅需两帧图像！理想汽车 & 哈尔滨工业大学提出 DrivingScene 实时 3D 动态重建方案

原文链接：https://mp.weixin.qq.com/s/xa7TYRTmUMG4n0Spu65mWg

论文链接：https://arxiv.org/pdf/2510.24734v1

项目预开源链接：https://github.com/zhanwj/DrivingScene

引言

清晨的城市环路，自动驾驶车辆正平稳行驶。突然，路口冲出一辆闯红灯的电动车，路边还有行人快步横穿马路 —— 这千钧一发的瞬间，车辆的感知系统必须像经验丰富的老司机一样，瞬间 “看懂（精确输出）” 3D 空间中所有动态物体的位置、速度和运动趋势，自车才能做出安全决策。这就需要一种能力，叫做“4D重建”——不仅要还原三维空间中的物体形状和位置（3D），还要捕捉它们在时间维度上的运动变化（第4维）。但现实中，感知系统面临两难困境：使用激光雷达等多种传感器组合，精度高，但成本昂贵，难以大规模落地；只用摄像头的纯视觉方案，虽然便宜，但容易出现“动态物体模糊”“重影”“延迟”等问题，就像一个近视又反应迟钝的司机。

而哈尔滨工业大学联合理想汽车研发的DrivingScene，恰似给自动驾驶装上了一双 “超高清实时动态眼”—— 仅凭两帧连续环视图像，就能瞬间重建出几何精准、视觉逼真的 4D 动态场景（3D 空间 + 时间维度），既不用多模态传感器堆砌成本，也摆脱了离线优化的效率枷锁，为自动驾驶的安全感知提供了全新解决方案。本文将深入拆解这一突破性研究，从核心挑战、创新设计到实验验证，全方位解析。

一、自动驾驶场景重建：那些绕不开的 “挑战”

自动驾驶的安全基石，在于对周围环境的 “精准感知 + 实时重建”。但在真实驾驶场景中，研究者们始终面临三大核心挑战，如同横在技术突破前的三座大山：

1. 成本与效率的 “两难抉择”

多模态方案（LiDAR+RaDAR + 相机）虽能实现高精度感知，但传感器成本高昂，量产落地难度大；
纯视觉方案（仅依赖相机）虽具备成本优势，却受限于 “稀疏环视视角” 和 “动态物体干扰”，难以实时输出大尺度场景的精准重建结果 —— 就像用普通相机拍高速移动的物体，要么拍糊，要么漏拍关键细节。

2. 现有渲染技术的 “能力短板”

神经渲染技术的发展（如 NeRF、3D 高斯溅射 3DGS）让场景重建质量大幅提升，但在自动驾驶场景中却 “水土不服（存在各自局限）”：

静态场景方案（如StreetGaussian、DrivingGaussian）：虽渲染质量出色，但依赖 “逐场景离线优化”，就像提前画好固定路线的地图，无法应对实时变化的路况；
动态场景方案（如EmerNeRF、Driv3R）：EmerNeRF 同样需要离线优化，实时性不足；Driv3R 尝试端到端在线重建，却因未分离 “静态场景基础” 与 “动态物体运动”，不仅计算负担重（模型参数 2.512GB，推理 0.71s / 帧），还会出现动态物体重影、几何细节丢失等问题；
静态前馈方案（如DrivingForward、pixelSplat）：虽实现在线推理，但假设 “场景无动态”，面对移动车辆、行人时会产生严重伪影，如同用静态照片去预判动态视频，误差极大。

3. 动态建模的 “核心瓶颈”

真实驾驶场景中，静态结构（道路、建筑）与动态物体（车辆、行人）的运动规律完全不同：前者是刚性运动（随自车运动产生全局平移），后者是非刚性运动（自主变道、行走等）。若将两者混为一谈建模，要么导致计算量暴增，要么牺牲重建精度 —— 这正是此前多数方案未能突破的核心症结。

二、DrivingScene 的创新：从 “破局” 到 “领跑”

为解决上述挑战，DrivingScene 提出了三种设计，构建了 “静态先验 + 动态残差 + 在线前馈” 的全新框架，实现了 “实时性、高保真、轻量化” 的统一。

1. 两阶段训练：先学习静态先验场景，再专注动态物体

传统一阶段端到端训练将静态与动态建模混为一谈，DrivingScene 采用 “先静态、后动态” 的两阶段训练范式：

阶段 1：静态场景先验学习：先从大规模数据中训练深度网络（D）和高斯参数网络（P），专注学习道路、建筑等刚性结构的精准建模，构建高保真、几何一致的静态场景基础。这一步如同让司机先熟练掌握 “静态路况识别”，打下扎实基础；
阶段 2：动态模块精细优化：冻结训练好的静态网络，单独训练残差流网络（R），仅专注于学习动态物体的非刚性运动残差。这一步相当于让司机在扎实基础上，专门练习 “动态物体预判”，既保证了训练稳定性，又降低了动态建模的复杂度。

2. 残差流网络：只算 “关键账”，效率翻倍

3. 纯视觉在线前馈框架：两帧图像，搞定 4D 重建

DrivingScene 彻底摆脱了 “离线优化” 和 “多传感器依赖”：

输入：仅需两帧连续的 360 度环视相机图像；
输出：实时生成 3D 高斯点云、深度图、场景流等多任务结果；
优势：无需 3D 空间去重或融合，依赖可微渲染器自动处理视角遮挡和不一致问题，端到端实现在线推理。

三、技术方案深度解析：从理论到实现

1. 静态场景建模：3D 高斯溅射的 “精准应用”

2. 动态建模：残差场景流的 “巧妙分解”

3. 两阶段损失函数：精准约束，兼顾质量与稳定

阶段 1：静态网络训练损失

阶段 2：动态网络训练损失

四、实验验证：全面超越主流方案

1. Novel View Synthesis：渲染质量大幅领先

表 1 展示了 nuScenes 验证集上的 novel view synthesis 定量结果，DrivingScene 全面超越前馈类基线：

PSNR 达 28.76，较 Driv3R（26.10）提升 2.66dB，较 DrivingForward（26.06）提升 2.7dB，意味着渲染图像的信噪比显著提高，视觉更清晰；
SSIM 达 0.895，显著高于 Driv3R（0.808）与 DrivingForward（0.781），表明图像结构相似性更优，动态物体边缘更锐利；
LPIPS 达 0.113（越低越好），虽略高于 Driv3R（0.084），但综合 PSNR、SSIM 仍体现更优的整体渲染保真度。

动态场景重建定性结果

定性结果（图 4）更直观地展现了优势：DrivingForward 因静态假设，对移动车辆、行人产生明显重影；Driv3R 虽能捕捉动态，但细节模糊；而 DrivingScene 可生成边缘清晰、时序一致的动态物体重建结果，完美还原真实场景的运动状态。

2. 深度预测：几何准确性更优

深度预测是场景重建的核心基础，表 2 对比了 DrivingScene 与 Driv3R 的深度预测结果：

DrivingScene 在所有指标上均优于 Driv3R：

绝对相对误差（Abs Rel）0.227 vs 0.234；
平方相对误差（Sq Rel）2.195 vs 2.279；
均方根误差（RMSE）7.254 vs 7.298，验证了 “静态先验 + 动态残差” 结合的几何建模策略的有效性，为高质量场景重建奠定了坚实基础。

3. 效率与模型复杂度：轻量化且高效

自动驾驶对实时性和硬件适配性要求极高，DrivingScene 在效率上的优势尤为突出（表 3、表 4）：

表 3 效率分析对比

表 4 模型复杂度对比

关键指标亮点：

推理速度：0.21s / 帧（6 路环视图像），比 DrivingForward（0.34s）快 38%，比 Driv3R（0.71s）快 70%，完全满足自动驾驶实时性需求；
训练成本：训练时间约 5 天，VRAM 占用 27.3GB，远低于 Driv3R（7.5 天、175.5GB），大幅降低研发成本；
模型大小：参数 0.117GB，仅为 Driv3R（2.512GB）的 4.6%、DrivingForward（0.173GB）的 67.6%，轻量化优势显著，更易适配车载硬件。

4. 消融实验：核心设计的必要性验证

为验证三大核心创新的必要性，研究团队进行了消融实验（表 5）：

实验结果清晰表明：

去除残差流网络：模型退化为 “静态版”，PSNR、SSIM 显著下降，证明动态建模对真实场景重建的关键作用；
替换为单阶段训练：模型无法学习尺度一致的几何，渲染质量大幅退化（PSNR 仅 13.69），凸显静态先验的基础价值；
去除流场扭曲损失：渲染图与动态运动的一致性下降，验证该损失对多任务协同的约束作用。

刚性流与全流对比

五、总结与未来展望

DrivingScene 通过 “静到动两阶段训练”“残差流网络”“纯视觉在线前馈框架” 核心设计，成功破解了自动驾驶动态场景重建中 “成本高、实时性差、动态建模不足” 的三大难题，实现了 “实时性 + 高保真 + 轻量化” 的统一。其核心价值在于：

纯视觉方案降低了硬件成本，两帧图像输入适配真实车载场景；
实时推理速度（0.21s / 帧）满足自动驾驶在线感知需求；
动态物体重建质量优异，有效解决重影、模糊问题。

未来，研究团队可进一步探索：

整合更长时间窗口的信息，提升复杂动态场景的鲁棒性；
采用更具表达力的高斯基元变形模型，处理更多样化的动态现象（如行人姿态变化、车辆形变等）；
适配更多真实路况（如雨天、夜晚、强光等极端场景），进一步提升方案的实用性。

DrivingScene 的出现，不仅为自动驾驶场景重建提供了全新技术路径，更推动了纯视觉感知方案的工业化落地，让自动驾驶的 “眼睛” 更明亮、更敏捷，为出行安全保驾护航。

2025-11-19 仅需两帧图像！理想汽车 & 哈尔滨工业大学提出 DrivingScene 实时 3D 动态重建方案

发表回复取消回复

Categories

Archives

2025-11-19 仅需两帧图像！理想汽车 & 哈尔滨工业大学提出 DrivingScene 实时 3D 动态重建方案

发表回复 取消回复

Categories

Archives

发表回复取消回复