原文链接:https://mp.weixin.qq.com/s/F6so9rcpfk9jvEUENHoJoQ
10月26日,研究团队正式发布论文的最终版本。该工作已被NeurIPS 2025评为Spotlight论文,并同步开放全部数据资源与基线模型代码。我们对相关研究进行了深入解读。此次更新进一步彰显了V2X-Radar数据集在4D Radar多模态融合及复杂多样场景覆盖方面的独特优势,为车路协同感知能力的持续提升奠定了重要基础。

论文标题:V2X-Radar: A Multi-modal Dataset with 4D Radar for Cooperative Perception
论文地址:https://arxiv.org/pdf/2411.10962
代码仓库:https://github.com/yanglei18/V2X-Radar
数据集链接: https://huggingface.co/datasets/yanglei18/V2X-Radar

.研究背景
环境感知是自动驾驶系统中至关重要的基础环节。然而,现阶段主流的单车智能方案受限于感知视角与探测距离,仍存在较大的安全隐患。其根源在于单一车载传感器的观测范围有限,难以充分获取环境全局信息,从而影响路径规划与决策的可靠性。相比之下,车路协同技术通过整合多视角、多源传感信息,为突破单车感知的空间与安全边界提供了全新的解决路径。已有研究表明,该范式能够显著扩展系统的感知范围,减少视觉盲区,并提升环境感知的完整性与稳健性。
然而,当前主流的协同感知数据集(如 OpenV2V、V2X-Sim、DAIR-V2X)仍存在明显局限:多数仅包含 Camera 与 LiDAR 传感数据,忽略了 4D Radar 在复杂气象环境下的独特感知潜力。尽管 K-Radar、Dual-Radar 等单车数据集已证明 4D Radar 在雨、雾等恶劣条件中的鲁棒性优势,但在协同感知场景中,多模态数据集普遍缺乏对 4D Radar 的系统纳入,这一空白已成为制约车路协同感知进一步发展的关键瓶颈。
2.数据集亮点
多模态融合:在系统配置方面,车端平台与路侧单元均搭载激光雷达(LiDAR)、4D 毫米波雷达(4D Radar)以及多视角相机(Multi-view Cameras)等多模态传感器。LiDAR 能生成高密度点云数据,精确刻画目标的几何结构、空间位置与外形轮廓,测距精度可达厘米级。4D Radar 输出相对稀疏的点云信息,但其工作在 77GHz/79GHz 毫米波频段,具有较强的电磁穿透能力,因而在雨、雪、雾等复杂气象条件下表现出更高的感知稳定性。多视角相机则可采集高分辨率图像,提供丰富的语义与上下文信息,辅助系统进行环境语义理解与场景识别。
多样化场景:数据采集过程覆盖了多种气象条件(包括晴天、降雨、雾霭及降雪)与不同时段(白昼、黄昏、夜晚)的真实驾驶场景,重点聚焦于对单车自动驾驶具有高挑战性的复杂交叉路口区域。这类场景普遍存在视线遮挡与感知盲区问题,为研究协同感知的长尾场景建模与性能评估提供了宝贵的数据支撑。
多任务支持:该数据集进一步划分为三个功能性子集:其中,V2X-Radar-C 用于协同感知任务,V2X-Radar-I 面向路侧独立感知研究,V2X-Radar-V 则服务于车端本地感知场景。
总体而言,V2X-Radar 在数据构成与任务覆盖方面较现有协同感知数据集具有明显优势,其具体对比结果见表1。

3. 数据采集平台
数据采集系统由车端平台(如图2(a)所示)与路侧单元(如图2(b)所示)共同构成。两者均搭载激光雷达(LiDAR)、4D 毫米波雷达(4D Radar)以及多视角相机(Multi-view Cameras)等多模态传感器。系统通过 GPS/IMU 模块实现厘米级高精度定位,用于辅助车端与路侧点云的初始配准。同时,集成的 C-V2X 通信模块可支持实时数据交互与协同同步,关键系统参数如表2所示。


4. 传感器时空同步
时间同步:为确保车端平台与路侧单元各类传感器在统一的时间基准下工作,系统通过接收来自 GPS 卫星的 GNSS 信号,对两端设备的内部时钟进行同步校准,使其保持一致的 GNSS 时间参考。随后,利用时间同步盒对各传感器进行统一授时,从而实现多传感器间的高精度时间对齐。其整体原理如图8所示。
空间同步:通过系统化的传感器标定流程,实现了摄像头、LiDAR 与 4D Radar 之间的空间同步。具体而言,摄像头的内参标定采用棋盘格图案完成;LiDAR 相对于摄像头的外参通过提取点云与图像中的约 100 组对应特征点进行匹配,并通过最小化 2D–3D 点重投影误差(reprojection error)获取高精度外参结果。LiDAR 与 4D Radar 的空间标定则基于角反射器的约 100 对高强度回波点进行,以确保配准精度(标定效果见图3)。此外,车载 LiDAR 与路侧 LiDAR 的空间对齐通过点云配准完成,初始对齐由 RTK 定位信息提供,之后结合 CBM 算法与人工微调进一步优化其精度(同步效果如图4 所示)。



5.数据集采集与标注
数据采集:本次数据采集工作历时九个月,覆盖大学校园、公共道路及封闭测试园区等多样化场景,确保在晴、雨、雾、雪等多种气象条件以及白昼、黄昏、夜间等不同时间段下实现全方位采集(如图9所示)。总体上,系统共采集约15小时的行驶数据,累计约54万帧样本,涵盖了大量高复杂度的交叉路口及交通交汇场景(见图10)。在此基础上,研究团队从原始数据中人工筛选出40段具有代表性的序列,构建了V2X-Radar-C子集,每段时长为10–25秒,采样频率为10 Hz。同时,从中进一步提取10段仅包含车载端数据的序列形成V2X-Radar-V,及10段仅含路侧端数据的序列形成V2X-Radar-I。与V2X-Radar-C中的多视角协同配置相比,V2X-Radar-V与V2X-Radar-I分别聚焦于单端感知任务,覆盖了更为丰富的交通环境类型。三个子集共计包含约20K帧LiDAR数据、40K幅图像数据及20K组4D雷达数据。
数据标注:通过人工筛选,我们从原始数据中选取了40段典型的协同感知序列,构建了V2X-Radar-C子数据集。在此基础上,进一步扩展形成两个子集:补充10段仅包含车载端视角的数据,构建V2X-Radar-V车端感知子集;同时增加10段仅含路侧端视角的数据,形成V2X-Radar-I路侧感知子集。整体标注数据包含约20,000帧LiDAR点云、40,000幅高清图像以及20,000帧4D Radar点云。针对五类典型交通参与者——轿车、卡车、公交车、骑行者与行人——均进行了精确的三维边界框标注,累计标注数超过350,000个。


6. 任务定义
(1)单端3D目标检测任务
单端3D目标检测是指利用单一感知平台(即路侧单元或车载设备)所采集的传感器数据,独立完成三维目标识别与定位任务。该任务主要面临两项核心挑战:
- 单模态编码:需分别实现相机图像的三维几何映射、LiDAR点云的高效特征提取、4D雷达(含速度信息)的稀疏数据表征,确保各模态独立感知精度。
- 多模态融合:需解决跨模态时空对齐(坐标系/时序同步)、动态场景下的数据错位补偿,以及传感器异常时的鲁棒性保障,实现稳定融合检测。
该任务包含两种典型视角场景:
- 路侧视角检测:基于V2X-Radar-I数据集,通过部署在道路基础设施的雷达等传感器实现环境目标检测;
- 车载视角检测:基于V2X-Radar-V数据集,利用车辆自身搭载的传感器完成周围物体的三维感知。
在 V2X-Radar-I 与 V2X-Radar-V 两个单端感知子数据集上,我们分别评估了多种基于不同模态输入的主流感知算法,其性能结果见表3与表4。由结果可观察到:基于 LiDAR 的方法整体表现最优;尽管 4D Radar 的点云数据相对稀疏,但相关模型的检测精度仍高于仅依赖 Camera 的方法;而基于 Camera 的方法由于缺乏深度信息支撑,在目标空间定位与识别精度方面略逊一筹。

(2)车路协同3D目标检测任务
车路协同三维目标检测是指融合车载与路侧多源传感器数据,以自车为参考坐标系构建统一的三维环境感知模型,从而突破单视角带来的遮挡限制,并显著提升远距离目标的检测能力。该任务的研究仍面临若干关键技术挑战:
- 空间异步挑战:车端平台在实时定位过程中存在一定误差,导致其与路侧单元之间的动态空间同步精度受限。当执行跨平台的多源传感器数据空间对齐时,这类系统级坐标偏差可能引发针对同一目标的点云数据在空间位置上的明显错位,从而削弱协同感知算法的配准精度与整体检测性能。
- 时序异步挑战:在通信带宽受限的条件下,车路平台间的数据传输易受到网络延迟的影响,导致双方获取的数据难以严格对应于同一时间点,从而产生不可避免的时间异步。在动态交通场景中,这种时间不同步会使运动目标的点云轨迹在时空投影过程中出现“鬼影”现象,造成目标形态重建失真,最终影响协同感知算法的检测精度与稳定性。
在V2X-Radar-C数据集上,基于不同的模态数据,现有相关感知方法的性能表现情况如表5所示。基于表中数据分析可知:
协同感知优于单车感知:在不同模块传感器数据作为输入条件下,协同感知模型相比单车感知基线性能显著提升,验证了车路协同感知对单车感知增强的有效性。
通信延迟对协同感知影响显著:固定异步时延条件下(100ms延迟),主流方法(F-Cooper、CoAlign、HEAL)在0.7 IoU阈值时性能下降13.30%~20.49%,凸显降低通信延迟对协同鲁棒性的关键作用。

(3)LiDAR与4D Radar融合在恶劣天气下的互补感知
我们在车端数据子集中筛选包含雨、雾和雪等恶劣天气场景数据进行了消融实验,对比了仅使用LiDAR、仅使用4D Radar以及LiDAR与4D Radar融合的三种模型。结果如下:
- 1).在正常天气条件下,4D Radar模型的整体性能略低于仅使用LiDAR的模型;但在恶劣天气条件下,4D Radar模型的平均精度(mAP)比LiDAR模型高约 1–2 个百分点,展现出其在环境退化情况下的出色适应能力。
- 2).LiDAR与4D Radar 融合模型在所有对比中均取得了最高精度,说明两种传感器具有显著的互补优势:LiDAR提供精确的空间几何结构信息,而4D Radar在恶劣天气下则展现出更强的感知鲁棒性。

7.结论
在本研究中,我们提出了 V2X-Radar ——首个基于 4D 雷达(4D Radar) 的大规模真实场景多模态车路协同感知数据集。该数据集聚焦于复杂的十字路口场景,并涵盖不同时间与多种天气条件下的采集数据。除数据集与基准测试外,我们的研究还为学术界揭示了两个重要发现:(i) 在异步通信环境下存在显著的性能退化,这一结果暴露出现有协同感知方法在通信时延鲁棒性方面的关键弱点;(ii) 4D Radar 的独特优势 ——在恶劣天气条件下依然保持可靠感知,可有效补充基于 LiDAR 和摄像头的方法. 通过发布 V2X-Radar,我们不仅填补了协同感知研究中 4D Radar 领域的空白,还为研究上述挑战与验证潜在解决方案提供了统一平台。我们希望该数据集与基准能够激发更多关于时延容忍的协同感知模型与鲁棒的跨模态融合策略的后续研究。
8.局限性与未来工作
目前,V2X-Radar 数据集主要聚焦于三维目标检测任务,为多模态与多场景条件下的车路协同感知研究奠定了重要基础。然而,在时间维度覆盖与任务多样性方面仍存在一定局限,尚未纳入序列化或预测类感知任务。 未来,我们计划进一步扩展 V2X-Radar,构建更加全面的协同感知基准。具体而言,将新增 多目标跟踪(Multi-Object Tracking) 与 轨迹预测(Trajectory Prediction) 任务,以刻画场景的时序动态并支持时空推理。同时,我们还将引入 占用预测(Occupancy Prediction) 任务,将其建模为体素级语义分割问题,以区分动态与静态空间区域。
这些拓展工作旨在提升数据集的时空表达与语义理解能力,推动 V2X-Radar 向基于 世界模型(World Model) 的完整协同感知基准演进,为未来多智能体协同感知与推理研究提供坚实支撑。

发表回复