原文链接:https://zhuanlan.zhihu.com/p/30125364498
ICCV截稿了,最近arxiv上很多工作放出来,快速和大家过一下最新的文章。
- 上交&上海AI Lab提出首个全流程LLM协同驾驶系统CoLMDriver;
- Nullmax提出HiP-AD:自动驾驶分层多粒度端到端规划算法;
- 港大&上海AI Lab提出JiSAM
- :通过最小化现实世界数据减轻自动驾驶中的标签负担和Corner CaseV-Max:自动驾驶强化学习的进一步探索;Uni-Gaussians:视觉&点云联合重建大一统框架,视觉重建PSNR逼近OmniRe,点云重建大幅超越LiDAR4D;
CoLMDriver
- 论文标题:CoLMDriver: LLM-based Negotiation Benefits Cooperative Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.08683
- 代码链接:https://github.com/cxliu0314/CoLMDriver

核心创新点:
- 首个全流程LLM协同驾驶系统
- CoLMDriver首次实现了从传感器输入到控制信号输出的完整LLM协同驾驶框架,突破了传统优化与学习方法在动态交互场景中的泛化瓶颈,通过自然语言协商机制实现车辆间灵活决策。
- Actor-Critic反馈驱动的LLM协商模块
- 提出基于强化学习Actor-Critic范式的多轮语言协商机制,利用评估器(Critic)对协商结果从安全性(Safety)、效率(Efficiency)和多车共识(Consensus)三个维度实时反馈,引导LLM(Actor)动态优化合作策略,显著提升协商收敛速度与稳定性(实验显示评分提升30%+)。
- 动态时空图分组机制
- 通过构建时空车辆图(Spatiotemporal Vehicle Graph),基于车辆路径点预测的安全评分(Safety Score)动态划分冲突车辆组,结合深度优先搜索(DFS)与历史组融合策略,实现高效局部协商,减少冗余通信(实验验证分组机制提升驾驶评分11%)。
- 意图-路径点协同生成架构
- 设计视觉语言模型(VLM)驱动的意图规划器与Transformer-based路径点生成器,将高层语义意图(如“左转”“减速”)转化为可执行的几何路径点,并通过PID控制器生成实时控制信号,解决LLM在连续空间规划中的固有缺陷。
- InterDrive
- 高交互评测基准
- 基于CARLA仿真平台构建包含10类挑战性场景(如无信号灯交叉路口、车道合并、密集变道)的InterDrive Benchmark,覆盖2-8车交互任务,引入共识成功率(Success Rate)等指标,为多车协同驾驶提供标准化评估体系。
HiP-AD
- 论文标题:HiP-AD: Hierarchical and Multi-Granularity Planning with Deformable Attention for Autonomous Driving in a Single Decoder
- 论文链接:https://arxiv.org/abs/2503.08612
- 代码链接:https://github.com/nullmax-vision/HiP-AD

核心创新点:
- 多粒度规划查询表示(Multi-Granularity Planning Query Representation)
提出分层路径点设计,将规划轨迹解耦为时间(Temporal)、空间(Spatial)和驾驶风格(Driving-Style)三类异构路径点。通过多粒度采样策略(如时间频率、空间间隔、速度区间)增强轨迹表征多样性,提供密集监督信号。其中:
- 时间路径点(2Hz/5Hz)优化纵向控制
- 空间路径点(2m/5m间隔)提升横向控制精度
- 驾驶风格路径点(低速/中速/高速)实现复杂场景自适应决策
- 几何感知可变形注意力机制(Planning Deformable Attention)
基于规划轨迹的几何先验,通过可变形注意力动态采样图像特征。区别于传统全局注意力,该机制仅关注轨迹邻域内的视觉特征,实现稀疏场景表征学习,有效避免碰撞风险。 - 统一解码器架构(Unified Decoder Framework)
在单解码器内完成感知-预测-规划全流程交互:
- 时序交互模块 :融合历史状态与当前观测
- 协同交互模块 :实现检测、地图、规划任务的BEV空间跨模态对齐
- 任务可变形注意力 :差异化提取多视角图像特征(检测/地图任务采用稠密采样,规划任务基于轨迹几何约束稀疏采样)
JiSAM
- 论文标题:JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data
- 论文链接:https://arxiv.org/abs/2503.08422

核心创新点:
- 仿真数据增强机制
- 提出基于球坐标系的抖动增强(Jittering Augmentation),通过模拟LiDAR传感器噪声模型(r,θ,φ方向高斯噪声)提升仿真数据的样本效率,克服传统仿真数据信息密度低的问题。
- 领域自适应骨干网络
- 设计领域感知输入模块(Domain-aware Backbone),通过分离仿真/真实数据的输入层(3D稀疏卷积核),在保持参数增量<0.025%的前提下,有效融合不同领域特征(如真实数据的强度信息与仿真数据的几何特征)。
- 基于记忆的跨域对齐损失
- 提出扇区化特征对齐(Sectorized Alignment),将场景划分为Nsc个扇区并离散化航向角,构建记忆库存储真实特征分布。通过双向MSE损失对齐仿真特征与记忆库特征,显著缩小仿真到现实的域间差距(如点云局部分布差异)。
V-Max
- 论文标题:V-Max: Making RL practical for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.08388

核心创新点:
- 标准化RL训练框架
- 基于Waymax
- 构建开源JAX框架 ,整合强化学习(RL)全流程工具:
- 观察函数 :支持多模态输入(轨迹、道路图、交通灯),提供可配置的特征提取(如Base/Segment/Lane/Road模式)。
- 奖励设计 :结合安全(碰撞/闯红灯惩罚)、导航(路径追踪)与行为(舒适性/速度限制)的多目标奖励函数。
- 编码器架构 :适配Transformer模型(如LQ、MTR、Wayformer),提升动态交互与场景表征能力。
- 多数据集加速仿真
- 通过ScenarioMax 扩展支持多数据集(WOMD、nuPlan、Argoverse 2),实现跨场景标准化仿真,解决数据分布偏移问题。
- 硬件加速(GPU/TPU)支持百万级FPS仿真 ,突破传统RL样本效率瓶颈。
- 增强评估体系
- 指标创新 :集成nuPlan驾驶质量评估(如责任碰撞、舒适性),新增红绿灯违规检测与多车道占用评分。
- 对抗测试 :集成ReGentS生成对抗场景,量化策略鲁棒性。
- 实证贡献
- 大规模基准测试揭示:
- LQ编码器 在Transformer模型中表现最优(97.4%场景完成率)。
- 导航奖励 显著提升路径追踪效率(Progress指标提升58%)。
- 多数据集训练增强泛化能力(跨WOMD/nuPlan评估V-Max Score达0.84)。
Talk2PC
- 论文标题:Talk2PC: Enhancing 3D Visual Grounding through LiDAR and Radar Point Clouds Fusion for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.08336

核心创新点:
- 多模态特征融合架构
- 提出基于跨模态注意力机制的LiDAR-Radar点云融合框架(Talk2PC),通过动态权重分配策略融合LiDAR的高精度几何特征与雷达的运动多普勒特征,实现多源异构数据的语义对齐与互补。
- 稀疏-密集点云协同增强模块
- 设计分层特征提取网络,针对雷达点云稀疏性与LiDAR点云密集性的差异,采用自适应体素化与稀疏卷积联合优化策略,提升目标检测与定位的鲁棒性。
- 时序动态融合机制
- 引入基于时空变换的序列建模模块,通过雷达速度信息与LiDAR几何变化的关联建模,增强动态场景下目标轨迹预测与3D包围框回归的时序一致性。
- 跨模态弱监督对齐损失
- 提出多任务学习框架,结合点云级对比损失(PointCL)与语义掩码对齐损失(SMA Loss),优化多模态特征空间分布,缓解标注数据依赖问题。
- 多传感器不确定性量化
- 构建基于贝叶斯深度学习的置信度评估模块,量化LiDAR/Radar在不同环境(如雨雾、光照变化)下的感知可靠性,动态调整融合策略权重。
Uni-Gaussians
- 论文标题:Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios
- 论文链接:https://arxiv.org/abs/2503.08317

核心创新点:
- 统一的高斯场景表示与分治渲染策略
提出动态高斯场景图(Gaussian scene graph),统一建模静态背景与动态实体(如刚性车辆、非刚性行人)。针对相机与LiDAR的传感器特性差异,分别采用栅格化(Rasterization)与高斯射线追踪(Gaussian Ray-Tracing)进行渲染:
- 相机图像:基于2D高斯基元(2D Gaussian primitives)的栅格化渲染,通过高效深度排序与Alpha混合实现实时性;
- LiDAR点云:通过射线追踪计算高斯椭球与激光射线的交点,结合反射率(SH intensity)与射线丢弃概率(SH ray-drop probability)建模LiDAR的主动感知机制,解决传统栅格化导致的几何错位问题。
- 面向LiDAR仿真的2D高斯建模优化
引入2D高斯基元(而非传统3D高斯),避免体积辐射表示与表面几何的冲突,并新增球谐反射率(SH intensity)与球谐射线丢弃概率(SH ray-drop probability)属性,增强LiDAR强度与点云缺失概率的视角依赖性建模,提升几何重建精度。 - 动态场景的端到端联合优化
设计多任务损失函数,联合优化图像质量(L1、SSIM)、深度一致性(L1深度损失)、LiDAR强度(L2损失)、射线丢弃概率(L2损失)及法向一致性约束,实现动态场景的高保真仿真。
FASIONAD++
- 论文标题:FASIONAD++ : Integrating High-Level Instruction and Information Bottleneck in FAt-Slow fusION Systems for Enhanced Safety in Autonomous Driving with Adaptive Feedback
- 论文链接:https://arxiv.org/abs/2503.08162

核心创新点:
- 双系统动态切换架构
- 提出FAst-Slow fusION(FASIONAD)框架,集成端到端(E2E)快速规划系统与基于视觉语言模型(VLM)的慢速推理系统。通过不确定性估计算法 (Laplace分布建模)动态触发系统切换,在常规场景保持E2E实时性(3.6-7.1 FPS),复杂场景激活VLM深度推理。
- 信息瓶颈反馈机制
- 设计信息瓶颈(IB)模块 过滤冗余感知信息,提取与规划强相关特征。通过知识蒸馏(KD)将VLM输出的高层语义(K维二进制规划状态向量)与IB过滤特征融合,实现跨模态特征对齐(LKD损失函数优化)。
- 规划导向VLM训练策略
- 开发视觉提示(Visual Prompt)与 BEV提示(Bird’s-Eye-View Prompt)双输入机制,将E2E生成的轨迹投影为前视图/俯视图语义提示。结合奖励引导的PPO训练策略(Lrvlm损失函数)和QA数据集自动标注,提升VLM在驾驶场景的推理可靠性。
- 双向知识增强技术
- 实现高层动作(HA)跨注意力机制 ,将VLM生成的元动作(Meta-Action)嵌入Ego Tokens指导规划;同时通过自适应反馈回路 将VLM的规划状态向量反哺E2E系统,形成”感知-决策-反馈”闭环优化。
S3R-GS
- 论文标题:S3R-GS: Streamlining the Pipeline for Large-Scale Street Scene Reconstruction
- 论文链接:https://arxiv.org/abs/2503.08217

核心创新点:
- 多源数据融合框架
- 提出基于LiDAR点云与视觉图像的联合优化重建范式,通过几何-语义联合约束 (Geometric-Semantic Constraint)实现多模态数据的高精度配准与特征对齐,解决动态场景下的数据异构性问题。
- 分层渐进式重建架构
- 设计分层优化策略 (Hierarchical Optimization Strategy),将大规模场景分解为局部子地图(Submap),采用自适应数据筛选机制 (Adaptive Data Filtering)动态剔除冗余观测,显著降低计算复杂度(时间复杂度降低至O(n log n))。
- 动态场景建模模块
- 引入时空一致性约束 (Spatiotemporal Consistency Constraint)与实例级运动补偿 (Instance-level Motion Compensation),通过语义分割与光流估计分离静态背景与动态目标,实现复杂交通场景的鲁棒重建。
- 轻量化神经辐射场集成
- 提出混合表示学习框架 (Hybrid Representation Learning),结合体素化高斯溅射(Voxelized Gaussian Splatting)与稀疏体素哈希(Sparse Voxel Hashing),在保证渲染质量(PSNR≥32.5dB)的同时,实现千平方公里级场景的实时渲染(50+ FPS)。
- 端到端可微重建流水线
- 构建自监督优化框架 (Self-supervised Optimization Framework),通过可微分渲染与物理约束正则化,实现从原始传感器数据到最终三维模型的端到端联合优化,减少人工干预。

发表回复