2025-03-14 自动驾驶论文速递 | HiP-AD、Uni-Gaussians、CoLMDriver、JiSAM等最新工作（2025.3.14）

–

admin

–

技术前沿, 首页

原文链接：https://zhuanlan.zhihu.com/p/30125364498

ICCV截稿了，最近arxiv上很多工作放出来，快速和大家过一下最新的文章。

上交&上海AI Lab提出首个全流程LLM协同驾驶系统CoLMDriver；
Nullmax提出HiP-AD：自动驾驶分层多粒度端到端规划算法；
港大&上海AI Lab提出JiSAM
：通过最小化现实世界数据减轻自动驾驶中的标签负担和Corner CaseV-Max：自动驾驶强化学习的进一步探索；Uni-Gaussians：视觉&点云联合重建大一统框架，视觉重建PSNR逼近OmniRe，点云重建大幅超越LiDAR4D；

CoLMDriver

论文标题：CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving
论文链接：https://arxiv.org/abs/2503.08683
代码链接：https://github.com/cxliu0314/CoLMDriver

核心创新点：

首个全流程LLM协同驾驶系统

CoLMDriver首次实现了从传感器输入到控制信号输出的完整LLM协同驾驶框架，突破了传统优化与学习方法在动态交互场景中的泛化瓶颈，通过自然语言协商机制实现车辆间灵活决策。

Actor-Critic反馈驱动的LLM协商模块

提出基于强化学习Actor-Critic范式的多轮语言协商机制，利用评估器（Critic）对协商结果从安全性（Safety）、效率（Efficiency）和多车共识（Consensus）三个维度实时反馈，引导LLM（Actor）动态优化合作策略，显著提升协商收敛速度与稳定性（实验显示评分提升30%+）。

动态时空图分组机制

通过构建时空车辆图（Spatiotemporal Vehicle Graph），基于车辆路径点预测的安全评分（Safety Score）动态划分冲突车辆组，结合深度优先搜索（DFS）与历史组融合策略，实现高效局部协商，减少冗余通信（实验验证分组机制提升驾驶评分11%）。

意图-路径点协同生成架构

设计视觉语言模型（VLM）驱动的意图规划器与Transformer-based路径点生成器，将高层语义意图（如“左转”“减速”）转化为可执行的几何路径点，并通过PID控制器生成实时控制信号，解决LLM在连续空间规划中的固有缺陷。

InterDrive
高交互评测基准

基于CARLA仿真平台构建包含10类挑战性场景（如无信号灯交叉路口、车道合并、密集变道）的InterDrive Benchmark，覆盖2-8车交互任务，引入共识成功率（Success Rate）等指标，为多车协同驾驶提供标准化评估体系。

HiP-AD

论文标题：HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder
论文链接：https://arxiv.org/abs/2503.08612
代码链接：https://github.com/nullmax-vision/HiP-AD

核心创新点：

多粒度规划查询表示（Multi-Granularity Planning Query Representation）
提出分层路径点设计，将规划轨迹解耦为时间（Temporal）、空间（Spatial）和驾驶风格（Driving-Style）三类异构路径点。通过多粒度采样策略（如时间频率、空间间隔、速度区间）增强轨迹表征多样性，提供密集监督信号。其中：

时间路径点（2Hz/5Hz）优化纵向控制
空间路径点（2m/5m间隔）提升横向控制精度
驾驶风格路径点（低速/中速/高速）实现复杂场景自适应决策

几何感知可变形注意力机制（Planning Deformable Attention）
基于规划轨迹的几何先验，通过可变形注意力动态采样图像特征。区别于传统全局注意力，该机制仅关注轨迹邻域内的视觉特征，实现稀疏场景表征学习，有效避免碰撞风险。
统一解码器架构（Unified Decoder Framework）
在单解码器内完成感知-预测-规划全流程交互：

时序交互模块：融合历史状态与当前观测
协同交互模块：实现检测、地图、规划任务的BEV空间跨模态对齐
任务可变形注意力：差异化提取多视角图像特征（检测/地图任务采用稠密采样，规划任务基于轨迹几何约束稀疏采样）

JiSAM

论文标题：JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data
论文链接：https://arxiv.org/abs/2503.08422

核心创新点：

仿真数据增强机制

提出基于球坐标系的抖动增强（Jittering Augmentation），通过模拟LiDAR传感器噪声模型（r,θ,φ方向高斯噪声）提升仿真数据的样本效率，克服传统仿真数据信息密度低的问题。

领域自适应骨干网络

设计领域感知输入模块（Domain-aware Backbone），通过分离仿真/真实数据的输入层（3D稀疏卷积核），在保持参数增量<0.025%的前提下，有效融合不同领域特征（如真实数据的强度信息与仿真数据的几何特征）。

基于记忆的跨域对齐损失

提出扇区化特征对齐（Sectorized Alignment），将场景划分为Nsc个扇区并离散化航向角，构建记忆库存储真实特征分布。通过双向MSE损失对齐仿真特征与记忆库特征，显著缩小仿真到现实的域间差距（如点云局部分布差异）。

V-Max

论文标题：V-Max: Making RL practical for Autonomous Driving
论文链接：https://arxiv.org/abs/2503.08388

核心创新点：

标准化RL训练框架

基于Waymax
构建开源JAX框架，整合强化学习（RL）全流程工具：
- 观察函数：支持多模态输入（轨迹、道路图、交通灯），提供可配置的特征提取（如Base/Segment/Lane/Road模式）。
- 奖励设计：结合安全（碰撞/闯红灯惩罚）、导航（路径追踪）与行为（舒适性/速度限制）的多目标奖励函数。
- 编码器架构：适配Transformer模型（如LQ、MTR、Wayformer），提升动态交互与场景表征能力。

多数据集加速仿真

通过ScenarioMax 扩展支持多数据集（WOMD、nuPlan、Argoverse 2），实现跨场景标准化仿真，解决数据分布偏移问题。
硬件加速（GPU/TPU）支持百万级FPS仿真，突破传统RL样本效率瓶颈。

增强评估体系

指标创新：集成nuPlan驾驶质量评估（如责任碰撞、舒适性），新增红绿灯违规检测与多车道占用评分。
对抗测试：集成ReGentS生成对抗场景，量化策略鲁棒性。

实证贡献

大规模基准测试揭示：
- LQ编码器在Transformer模型中表现最优（97.4%场景完成率）。
- 导航奖励显著提升路径追踪效率（Progress指标提升58%）。
- 多数据集训练增强泛化能力（跨WOMD/nuPlan评估V-Max Score达0.84）。

Talk2PC

论文标题：Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving
论文链接：https://arxiv.org/abs/2503.08336

核心创新点：

多模态特征融合架构

提出基于跨模态注意力机制的LiDAR-Radar点云融合框架（Talk2PC），通过动态权重分配策略融合LiDAR的高精度几何特征与雷达的运动多普勒特征，实现多源异构数据的语义对齐与互补。

稀疏-密集点云协同增强模块

设计分层特征提取网络，针对雷达点云稀疏性与LiDAR点云密集性的差异，采用自适应体素化与稀疏卷积联合优化策略，提升目标检测与定位的鲁棒性。

时序动态融合机制

引入基于时空变换的序列建模模块，通过雷达速度信息与LiDAR几何变化的关联建模，增强动态场景下目标轨迹预测与3D包围框回归的时序一致性。

跨模态弱监督对齐损失

提出多任务学习框架，结合点云级对比损失（PointCL）与语义掩码对齐损失（SMA Loss），优化多模态特征空间分布，缓解标注数据依赖问题。

多传感器不确定性量化

构建基于贝叶斯深度学习的置信度评估模块，量化LiDAR/Radar在不同环境（如雨雾、光照变化）下的感知可靠性，动态调整融合策略权重。

Uni-Gaussians

论文标题：Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios
论文链接：https://arxiv.org/abs/2503.08317

核心创新点：

统一的高斯场景表示与分治渲染策略
提出动态高斯场景图（Gaussian scene graph），统一建模静态背景与动态实体（如刚性车辆、非刚性行人）。针对相机与LiDAR的传感器特性差异，分别采用栅格化（Rasterization）与高斯射线追踪（Gaussian Ray-Tracing）进行渲染：

相机图像：基于2D高斯基元（2D Gaussian primitives）的栅格化渲染，通过高效深度排序与Alpha混合实现实时性；
LiDAR点云：通过射线追踪计算高斯椭球与激光射线的交点，结合反射率（SH intensity）与射线丢弃概率（SH ray-drop probability）建模LiDAR的主动感知机制，解决传统栅格化导致的几何错位问题。

面向LiDAR仿真的2D高斯建模优化
引入2D高斯基元（而非传统3D高斯），避免体积辐射表示与表面几何的冲突，并新增球谐反射率（SH intensity）与球谐射线丢弃概率（SH ray-drop probability）属性，增强LiDAR强度与点云缺失概率的视角依赖性建模，提升几何重建精度。
动态场景的端到端联合优化
设计多任务损失函数，联合优化图像质量（L1、SSIM）、深度一致性（L1深度损失）、LiDAR强度（L2损失）、射线丢弃概率（L2损失）及法向一致性约束，实现动态场景的高保真仿真。

FASIONAD++

论文标题：FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback
论文链接：https://arxiv.org/abs/2503.08162

核心创新点：

双系统动态切换架构

提出FAst-Slow fusION（FASIONAD）框架，集成端到端（E2E）快速规划系统与基于视觉语言模型（VLM）的慢速推理系统。通过不确定性估计算法（Laplace分布建模）动态触发系统切换，在常规场景保持E2E实时性（3.6-7.1 FPS），复杂场景激活VLM深度推理。

信息瓶颈反馈机制

设计信息瓶颈（IB）模块过滤冗余感知信息，提取与规划强相关特征。通过知识蒸馏（KD）将VLM输出的高层语义（K维二进制规划状态向量）与IB过滤特征融合，实现跨模态特征对齐（LKD损失函数优化）。

规划导向VLM训练策略

开发视觉提示（Visual Prompt）与 BEV提示（Bird’s-Eye-View Prompt）双输入机制，将E2E生成的轨迹投影为前视图/俯视图语义提示。结合奖励引导的PPO训练策略（Lrvlm损失函数）和QA数据集自动标注，提升VLM在驾驶场景的推理可靠性。

双向知识增强技术

实现高层动作（HA）跨注意力机制，将VLM生成的元动作（Meta-Action）嵌入Ego Tokens指导规划；同时通过自适应反馈回路将VLM的规划状态向量反哺E2E系统，形成”感知-决策-反馈”闭环优化。

S3R-GS

论文标题：S3R-GS: Streamlining the Pipeline for Large-Scale Street Scene Reconstruction
论文链接：https://arxiv.org/abs/2503.08217

核心创新点：

多源数据融合框架

提出基于LiDAR点云与视觉图像的联合优化重建范式，通过几何-语义联合约束（Geometric-Semantic Constraint）实现多模态数据的高精度配准与特征对齐，解决动态场景下的数据异构性问题。

分层渐进式重建架构

设计分层优化策略（Hierarchical Optimization Strategy），将大规模场景分解为局部子地图（Submap），采用自适应数据筛选机制（Adaptive Data Filtering）动态剔除冗余观测，显著降低计算复杂度（时间复杂度降低至O(n log n)）。

动态场景建模模块

引入时空一致性约束（Spatiotemporal Consistency Constraint）与实例级运动补偿（Instance-level Motion Compensation），通过语义分割与光流估计分离静态背景与动态目标，实现复杂交通场景的鲁棒重建。

轻量化神经辐射场集成

提出混合表示学习框架（Hybrid Representation Learning），结合体素化高斯溅射（Voxelized Gaussian Splatting）与稀疏体素哈希（Sparse Voxel Hashing），在保证渲染质量（PSNR≥32.5dB）的同时，实现千平方公里级场景的实时渲染（50+ FPS）。

端到端可微重建流水线

构建自监督优化框架（Self-supervised Optimization Framework），通过可微分渲染与物理约束正则化，实现从原始传感器数据到最终三维模型的端到端联合优化，减少人工干预。

发表回复取消回复

往期评论