2025-10-28 VGD:提升自动驾驶新视角质量的显式几何信息学习技术

原文链接:https://mp.weixin.qq.com/s/RtYD3w0666SBpP8EDJ7yNQ

https://arxiv.org/abs/2510.19578
https://github.com/JHLin42in/VGD

Visual Gaussian Driving (VGD) 是一种新型#前馈式环绕视图 #驾驶场景重建框架,旨在解决#自动驾驶 场景中快速、泛化的推理能力与提升新视角质量之间的核心挑战。

VGD 通过显式学习几何信息并利用这些信息指导新视角的语义质量提升,实现了在稀疏环绕视图输入下的快速、泛化能力强且高质量的3D场景重建。VGD 框架包含三个核心阶段:VGGT几何预测、高斯新视角渲染和多尺度语义细化。

该框架通过轻量级的VGGT架构变体从预训练模型中提取几何先验,利用高斯头(DPT-GS)预测高斯参数,并通过语义细化模型融合多尺度特征来提升最终图像质量。实验结果表明,VGD在nuScenes数据集上显著优于现有的最先进方法,无论是在客观指标还是主观质量上都展现了卓越的性能。

VGD 的特点包括高效的几何学习、强大的泛化能力和高质量的新视角合成。它通过软蒸馏技术从预训练的VGGT模型中获取几何先验,显著提高了模型的推理速度和泛化能力。此外,VGD采用高斯参数预测和深度特征融合的策略,有效提升了新视角图像的视觉质量。

该框架不仅在多帧模式下表现出色,即使在更具挑战性的单帧模式下也能生成高质量的环绕视图,充分证明了其在自动驾驶场景重建中的实用性和鲁棒性。

技术解读

VGD 是一种针对自动驾驶场景的新型前馈式环绕视图重建技术。该技术通过显式学习几何信息并利用这些信息指导新视角的语义质量提升,旨在解决在稀疏环绕视图输入下实现快速、泛化能力强且高质量的3D场景重建问题。

具体而言,VGD 框架包含三个核心阶段:

  • 首先通过一个轻量级的VGGT架构变体从预训练模型中提取几何先验,确保快速且准确的几何预测;
  • 其次,利用高斯头(DPT-GS)预测高斯参数,实现高斯新视角渲染,这一过程中多尺度几何特征的运用确保了空间一致性;
  • 最后,通过语义细化模型融合多尺度特征,进一步提升新视角图像的视觉质量。

VGD 在nuScenes数据集上的实验结果表明,无论是在多帧还是单帧模式下,该技术都能显著优于现有的最先进方法,展现出卓越的性能。其技术特点包括高效的几何学习、强大的泛化能力和高质量的新视角合成。

VGD 的价值在于其能够在稀疏环绕视图输入下实现快速、泛化能力强且高质量的3D场景重建,这对于自动驾驶系统中的多个关键任务,如在线建图、目标检测和轨迹预测等,具有重要意义。

论文速读

本文介绍了一种名为Visual Gaussian Driving(VGD)的新型前馈式环绕视图驾驶场景重建框架,旨在解决自动驾驶场景中快速、泛化的推理能力与提升新视角质量之间的核心挑战。VGD通过显式学习几何信息并利用这些信息指导新视角的语义质量提升,实现了在稀疏环绕视图输入下的快速、泛化能力强且高质量的3D场景重建。

研究背景与动机

环绕视图重建对于理解自动驾驶场景至关重要,它为下游模块提供可靠的视觉上下文。然而,环绕视图配置通常具有极小的相机重叠区域(通常小于10%)、宽基线、异构的内外参数以及强烈的视角变化,这些因素共同降低了几何线索的质量,增加了跨视角不一致性的风险,使得高保真3D重建变得尤为困难。现有的方法通常无法在有限的观测下生成几何一致且光度逼真的新视角,同时保持快速、泛化的推理能力。

研究方法

VGD框架包含三个核心阶段:VGGT几何预测、高斯新视角渲染和多尺度语义细化。首先,设计了一个轻量级的VGGT架构变体,从预训练的VGGT模型中提取几何先验,并将其蒸馏到几何分支中,确保准确性和快速推理。其次,基于DPT架构设计了一个高斯头(DPT-GS),利用多尺度几何特征预测高斯参数,实现高斯新视角渲染。最后,通过深度特征融合,语义细化模型利用来自几何和高斯路径的多尺度特征来提升新视角的合成质量。

实验与结果

实验在nuScenes数据集上进行,该数据集包含1000个多样化的驾驶场景,每个场景大约20秒的序列数据,总共约40000个密集标注的关键帧。VGD在多帧(MF)和单帧(SF)模式下进行了评估,结果表明,VGD在客观指标和主观质量上均显著优于现有的最先进方法,验证了其可扩展性和高保真环绕视图重建能力。

关键结论

VGD通过联合优化视觉几何和语义表示,在3D高斯绘制(3DGS)范式下实现了快速、泛化能力强且高质量的新视角合成。该框架在稀疏环绕视图驾驶场景重建中建立了新的最先进性能,同时保持了快速推理效率。实验结果表明,VGD在多种设置下均优于通用和驾驶特定的方法。

方法细节与关键数值结果

  • VGGT几何预测:通过软蒸馏监督从预训练的VGGT模型中学习强大的几何先验,实现了95%的参数减少,同时保持了快速推理和稳健的泛化能力。
  • 高斯新视角渲染:DPT-GS头基于DPT架构,利用多尺度几何特征预测高斯参数,确保与底层场景结构的空间一致性。
  • 多尺度语义细化:通过深度特征融合,语义细化模型利用来自几何和高斯路径的多尺度特征来提升最终图像质量。
  • 性能提升:在单帧模式下,VGD在高分辨率下比DrivingForward方法实现了+1.69dB的PSNR增益,在低分辨率下实现了+2.11dB的PSNR增益。在多帧模式下,VGD在所有评估指标上均实现了最先进的性能,与通用前馈模型相比,PSNR提高了2.07dB至4.24dB,SSIM提高了8.9%至25.9%。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论