2025-09-18 苦战七年卷了三代！关于BEV的演进之路：哈工大&清华最新综述

原文链接：https://zhuanlan.zhihu.com/p/1951941490029885103

BEV作为智能驾驶的量产基石，它的发展过程是怎样的？盘点BEV的三代演进之路。

BEV感知已成为自动驾驶领域的基础范式，能够提供统一的空间表征，为鲁棒的多传感器融合和多智能体协作提供支持。随着自动驾驶车辆从受控环境向现实世界部署过渡，如何在复杂场景（如遮挡、恶劣天气和动态交通）中确保BEV感知的安全性和可靠性，仍是一项关键挑战。本文首次从安全关键视角对BEV感知进行全面综述，系统分析了当前主流框架及实现策略，并将其划分为三个渐进阶段：单模态车载感知、多模态车载感知和多智能体协作感知。此外，本文还研究了涵盖车载、路侧及协作场景的公开数据集，评估了这些数据集在安全性和鲁棒性方面的适用性。本文进一步指出了开放世界场景下的关键挑战（包括开放集识别、大规模未标注数据、传感器性能退化及智能体间通信延迟），并概述了未来研究方向，如与端到端自动驾驶系统的融合、具身智能及大型语言模型

的应用。

论文链接：https://arxiv.org/abs/2508.07560v1
论文标题：Progressive Bird’s Eye View Perception for Safety-Critical Autonomous Driving: A Comprehensive Survey

一、引言

随着智能交通的快速发展，自动驾驶车辆正从受控环境向现实世界部署过渡。作为自动驾驶系统的感知核心，实时、可靠的环境理解对保障行驶安全至关重要。然而，复杂场景（如光照变化、恶劣天气、交通拥堵及遮挡）会严重降低感知性能，进而影响下游决策与控制模块的正常工作。为提升感知系统的鲁棒性，近年来的研究探索了多传感器融合技术和多智能体协作感知技术，前者通过多模态传感器的互补性获取更全面信息，后者借助智能体间的信息交互拓展感知范围。尽管如此，如何实现异构模态数据的对齐，以及如何统一车载与基础设施平台的空间表征，仍是当前面临的核心挑战。

值得注意的是，BEV感知已成为自动驾驶领域的主流范式，其提供的统一空间表征能够同时促进多传感器融合和多智能体协作。鉴于BEV感知的核心地位，基于BEV的感知系统从“单模态”到“多模态”、再到“协作框架”的渐进式演进，已成为提升自动驾驶系统安全性与鲁棒性的关键方向。在后续章节中，本文将从三个关键维度系统综述BEV感知技术：BEV感知的本质是什么、为何BEV感知对自动驾驶安全至关重要、以及如何在多模态与多智能体场景中有效实现BEV感知。

BEV感知的本质（What）

BEV感知是一种高效的空间表征范式，能够将来自多种传感器模态（如相机、激光雷达（LiDAR）、毫米波雷达）的异构数据投影到统一的BEV坐标系中。通过这种投影，系统可构建周围环境的一致性结构化空间语义地图。由于消除了传感器特有的视角差异，这种自上而下的视角能够帮助系统准确感知和理解物体间的空间关系，大幅降低多视角与多模态数据融合的复杂度。

BEV感知的重要性（Why）

凭借统一且可解释的空间表征，BEV感知成为自动驾驶中多模态融合与多智能体协作感知的理想基础。通过将图像、LiDAR、雷达等异构传感器数据投影到统一的BEV平面，不同模态的信息可实现无缝对齐与集成。这种统一坐标系不仅简化了车载与路侧传感器的融合过程，还能支持多车辆与基础设施间的高效信息共享，从而突破单车辆感知的局限性。此外，BEV表征具备结构化、一致性的语义信息，能够为路径规划、车辆控制等下游任务提供支持，成为复杂协作驾驶场景中“感知-决策”环节的关键桥梁。

BEV感知的实现方式（How）

为应对日益复杂的动态交通场景挑战，感知系统持续探索新范式以提升安全性与鲁棒性。在本文综述中，我们将安全导向的BEV感知（SafeBEV

）的演进划分为三个主要阶段（如图1所示）：SafeBEV 1.0（单模态车载感知）、SafeBEV 2.0（多模态车载感知）和SafeBEV 3.0（多智能体协作感知）。各阶段的特征与技术进展将在后续章节详细阐述。

SafeBEV 1.0：单模态车载感知
该阶段采用单一传感器（如相机或LiDAR）实现基于BEV的场景理解。早期基于相机的方法依赖单应性变换，但在复杂场景中鲁棒性不足。近年来的方法转向数据驱动的BEV建模，大致分为稀疏范式与密集范式两类：稀疏方法通过估计深度信息将二维特征提升为三维点云，再体素化生成BEV，但性能受深度估计精度影响较大；密集方法采用多层感知机（MLP）或Transformer（如BEVFormer、PETR），通过非线性投影或跨视角注意力机制直接将二维特征映射到BEV空间。BEVDepth、BEVDet等混合设计则融合深度预测以优化密集BEV建模效果。对于LiDAR感知，主流流程通常通过点云体素化、稀疏卷积（SparseConv）或PointNet等技术提取BEV特征，在空间分辨率与计算效率间取得平衡。
SafeBEV 2.0：多模态车载感知
该阶段通过集成相机、LiDAR、雷达等异构传感器提升BEV感知性能，突破单模态系统的局限性，增强遮挡与恶劣天气下的鲁棒性。目前的融合策略主要分为五类：相机-雷达融合、相机-LiDAR融合、雷达-LiDAR融合、相机-LiDAR-雷达三模态融合及时间融合。每种模态组合均利用了不同传感器的互补特性：例如，相机的语义信息与LiDAR/雷达的几何信息结合可提升精度与可靠性；LiDAR的空间精度与雷达的速度感知能力结合可实现远距离、全天候感知；三模态全融合则能构建全面的BEV表征；时间融合进一步提升动态场景中的时间一致性。这些策略共同增强了现实自动驾驶场景中BEV感知的安全性、适应性与可靠性。
SafeBEV 3.0：多智能体协作感知
随着车联网（V2X）技术的发展，自动驾驶车辆可通过车-车、车-基础设施间的信息交互与联合推理，突破单智能体感知的局限性。通过在统一BEV空间中聚合多源传感器数据，协作感知能够实现全局环境建模，为动态交通中的安全导航提供关键支持。V2VNet、DiscoNet、CoBEVT等代表性框架通过特征压缩、带宽高效协议及分布式推理技术，在降低通信成本的同时实现实时、可扩展的协作。此外，多智能体观测的时空融合技术能够增强全局态势感知，提升对遮挡或远距离目标的感知能力。该范式还为群体决策、协作轨迹规划及多智能体控制等高层功能提供支持，是向大规模、安全、智能自动驾驶迈进的关键一步。

鉴于BEV感知技术的快速发展，已有部分综述文献涌现：Ma等人聚焦于纯相机BEV方法，总结了该领域三十年的发展历程；Li等人综述了车载层面的单目与多模态BEV感知技术；Zhao等人对车-车（V2V）协作范式进行了分类；Singh等人则研究了恶劣条件下的视觉-雷达融合技术。尽管这些工作从纯相机、多模态融合、V2V协作等视角提供了有价值的概述，但仍存在以下关键缺口：（1）从安全性与鲁棒性视角对BEV感知的分析不足；（2）对路侧BEV系统及更广泛的协作范式（如车-基础设施（V2I）、基础设施-基础设施（I2I））覆盖不够全面；（3）缺乏对大规模车载及多智能体数据集的深入探讨。此外，BEV感知与新兴范式（如端到端自动驾驶、大型语言模型、具身智能）的融合也尚未得到充分研究。

本文首次从安全性与鲁棒性视角，对车载及协作式BEV感知方法进行全面综述，将现有方法划分为单模态车载感知、多模态车载感知、多智能体协作感知三个阶段。此外，本文系统综述了关键公开数据集，评估了这些数据集对安全性与鲁棒性研究的支持程度，并建立了相应的评估指标与基准。为提升研究的可访问性与可复现性，本文维护了一个GitHub仓库，包含方法实现、数据集使用指南及示例代码。最后，本文指出了BEV感知在开放世界场景中面临的关键安全挑战（如开放集部署、大规模未标注数据、传感器性能退化、多智能体通信延迟），并探讨了其与具身智能、端到端自动驾驶、大型语言模型融合的未来趋势。

本文其余部分结构如下：第2章综述基于单模态车载传感器的BEV感知技术；第3章从安全性与鲁棒性视角探讨多模态融合策略

；第4章分析多智能体协作式BEV感知技术，包括路侧感知与V2X协作；第5章综述涵盖车载、路侧及协作场景的公开数据集，指出当前局限性与未来方向；第6章与第7章总结挑战，并概述面向现实自动驾驶的安全鲁棒型BEV感知的未来研究方向。

二、SafeBEV 1.0：基于车辆的单模态鸟瞰图感知

方法

基于车辆的单模态BEV感知是自动驾驶中的基础阶段，它仅通过相机或LiDAR这一种传感器，就能实现高效的俯视视角场景理解。尽管该方法具有系统复杂度低、计算成本低的优势，但其在恶劣条件下的鲁棒性仍有限：基于相机的方法对光照变化、遮挡和深度估计误差较为敏感，而基于激光雷达的方法则面临点云数据稀疏性和天气导致的性能衰减问题。

基于视觉的鸟瞰图感知（BEV Camera）

基于车辆侧纯相机的鸟瞰图感知面临一个核心挑战：如何从二维（2D）图像中推断出空间一致性的鸟瞰图表示。近年来的相关研究进展通常采用两阶段流程：先从透视视角图像中提取特征，再将这些特征空间投影到鸟瞰图平面，以完成目标检测、地图分割等下游任务（见图3（a））。表1根据相机配置（单目相机、多相机）和特征转换策略（3D到2D、2D到3D），对代表性方法进行了分类。其中，“3D到2D方法”会先推断中间3D几何信息，再进行投影；“2D到3D方法”则通过鸟瞰图映射直接学习空间推理能力。本节将综述各类方法的核心假设、编码机制和空间转换设计。

单目相机（Monocular）

2D到3D方法（2D-to-3D Methods）

为解决单目BEV感知中固有的深度模糊问题，现有方法通常采用两阶段策略：先从透视视角图像中提取2D特征，再通过深度估计将这些特征提升到3D空间，从而实现向BEV平面的准确投影。

“伪激光雷达”方法（Pseudo-LiDAR Methods）：这类方法将单目或双目图像转换为深度图，再将深度图反向投影到3D空间，以模拟激光雷达点云。例如，AM3D通过将单目3D检测框架与特征融合相结合，进一步提升了检测精度；Simonelli等人则通过引入3D置信度估计模块，增强了方法的可靠性。
深度分布方法（Depth Distribution Methods）：这类方法将每个像素的深度建模为概率分布，并直接将其投影到鸟瞰图空间，无需显式构建点云即可实现高效的几何推理。例如，OFT（正交特征变换）通过将图像特征正交投影到鸟瞰图，并沿高度轴聚合特征，解决了透视畸变问题；CaDDN（分类深度分布网络）在此基础上，通过预测分类深度分布，并利用激光雷达监督的投影几何，增强了单目输入下的鸟瞰图特征表示。

3D到2D方法（3D-to-2D Methods）

与依赖深度估计的2D到3D方法不同，3D到2D方法利用预定义的3D先验知识，引导图像平面特征向鸟瞰图空间投影。

基于逆透视映射的方法（IPM-based Methods）：这类方法利用逆透视映射（IPM）整合几何先验，实现从图像平面到鸟瞰图域的特征转换。早期研究通过相机成像原理，解决了单目输入中固有的深度模糊问题，从而将透视视角的分割结果投影到鸟瞰图空间。在此基础上，Kim等人将校正后的前视图像与逆透视映射相结合，并利用卷积神经网络（CNNs）直接在鸟瞰图空间中进行目标检测，为逆透视映射引导的鸟瞰图感知奠定了基础框架。
基于多层感知机的方法（MLP-based Methods）：另一类研究方向探索利用多层感知机（MLP）架构，以数据驱动的方式学习从透视视角到鸟瞰图表示的隐式映射，无需显式构建几何模型。例如，PYVA引入循环MLP框架以增强空间一致性，并结合基于Transformer的模块实现跨视角对齐；BEV-LaneDet（鸟瞰图车道检测网络）则通过虚拟相机设计和基于特征金字塔网络（FPN）的特征聚合策略，进一步改进了几何归一化和多尺度融合效果。
基于Transformer的方法（Transformer-based Methods）：近年来出现的一种新范式是利用Transformer架构，通过基于注意力的机制实现视角转换，通常会用到鸟瞰图查询（BEV queries）和解码器模块。例如，PON（极线特征投影网络）率先将极线特征投影到鸟瞰图中，用于语义分割；STSU（结构化查询Transformer）通过在统一Transformer中引入结构化查询，实现了道路拓扑估计与目标检测的联合任务；为实现细粒度空间推理，TIIM将视角转换建模为序列到序列的过程，并引入双注意力机制；PanopticBEV（全景鸟瞰图网络）利用两个专用Transformer分别处理垂直区域和平面区域的投影；HFT（混合特征变换）则融合了“相机感知”和“相机无关”两条路径，以增强鸟瞰图特征表示。

多相机（Multi-camera）

2D到3D方法（2D-to-3D Methods）

在多相机配置中，2D到3D方法的原理与单目相机系统类似，但多相机系统能提供更优的空间推理能力和更密集的场景重建效果。

“伪激光雷达”方法（Pseudo-LiDAR Methods）：基于双目视觉的方法利用更密集的深度线索生成伪激光雷达点云，相比单目估计能提供更精细的空间细节。然而，双目视觉的视场有限，限制了全局感知能力，因此研究人员开发了“距离感知增强”技术。例如，Pseudo-LiDAR++通过改进双目深度估计优化了早期设计；E2E Pseudo-LiDAR（端到端伪激光雷达）引入可微坐标变换，支持端到端训练；后续研究还通过引入“置信度感知深度优化”和“高效双目匹配”技术，进一步提升了方法的精度和运行效率。
深度分布方法（Depth Distribution Methods）：另一类主流策略是估计每个像素的深度分布，并将图像特征转换到3D空间。例如，LSS（ Lift, Splat, Shoot）通过估计概率深度分布，并利用外积运算将图像特征投影到3D体素中，生成统一的鸟瞰图特征图；在此范式基础上，BEVDet、BEVDepth和MatrixVT等方法采用LSS风格的视角转换，并通过架构优化，解决了原始框架在精度、效率和可扩展性方面的局限性。

3D到2D方法（3D-to-2D Methods）

单目相机场景中3D到2D方法的有效性，推动了其在多相机系统中的应用——多相机的标定视图能增强空间上下文建模，减少遮挡影响。

基于多层感知机的方法（MLP-based Methods）：这类方法为多视角图像特征到鸟瞰图域的映射提供了轻量且高效的方案。例如，NEAT（神经注意力场网络）采用基于MLP的隐式解码器融合特征，实现鸟瞰图分割与运动规划的联合任务；VPN（视觉关系网络）引入基于MLP的视觉关系模块，聚合跨视角的多尺度上下文特征；为提升对相机标定噪声的鲁棒性，Sun等人提出双空间位置编码方案，并结合MLP融合，实现准确的鸟瞰图地图预测。
基于Transformer的方法（Transformer-based Methods）：Transformer通过隐式深度建模和全局特征聚合，在多相机鸟瞰图感知中展现出巨大潜力。例如，LaRa（激光雷达辅助鸟瞰图网络）整合几何感知的射线嵌入和交叉注意力，增强空间推理能力；PETR（位置嵌入转换网络）通过端到端架构消除显式视角转换，解决了DETR3D的投影伪影问题；PolarFormer、PolarDETR和Ego3RT利用极坐标先验，丰富鸟瞰图特征编码；GraphDETR3D采用动态图机制，将目标查询与图像中的信息区域关联，缓解深度不确定性；CoBEVT（协同鸟瞰图Transformer）则通过协同Transformer设计，实现高效的多视角鸟瞰图分割。

精度-鲁棒性-安全性分析

纯相机鸟瞰图感知的性能高度依赖输入质量和算法的抗干扰能力：2D到3D方法通过估计深度并将特征提升到3D空间，提升了空间感知能力，但在低光照、遮挡或恶劣天气等不利条件下，其可靠性会显著下降；3D到2D方法通过将结构先验直接融入鸟瞰图表示，避开了显式深度预测步骤，但可能会损失几何保真度。因此，在纯视觉鸟瞰图感知系统中，如何平衡“准确3D重建”与“高效鸟瞰图表示”，仍是一个核心挑战。

基于激光雷达的鸟瞰图感知（BEV LiDAR）

基于激光雷达的鸟瞰图方法主要通过特征提取和视角转换生成鸟瞰图特征图，进而实现目标检测（如表1所示）。与相机相比，激光雷达能提供更丰富的深度线索，但存在点云数据稀疏的问题。根据“特征提取与投影的先后顺序”，这类方法通常分为两类：Pre-BEV方法（投影前先进行特征提取）和Post-BEV方法（投影后再进行特征提取）。

Pre-BEV方法（投影前特征提取）

Pre-BEV方法通常分为体素基方法（voxel-based）和点-体素混合基方法（point-voxel-based）。其中，体素基方法将点云离散为规则网格，以实现结构化处理；点-体素混合基方法则旨在结合点云基方法的几何精度和体素基方法的计算效率。

基于体素的方法（Voxel-based Methods）

体素基方法将不规则的点云转换为密集的体素网格，以便进行3D卷积处理。例如，SECOND（稀疏卷积目标检测网络）在VoxelNet的基础上引入稀疏卷积，降低计算开销；Voxel R-CNN采用两阶段框架，在保证精度的同时降低成本；InfoFocus通过“密度感知增强”技术，优化了稀疏条件下的粗体素特征；VoTr（体素Transformer）和SST（稀疏Transformer）等基于Transformer的变体，则将注意力机制与稀疏卷积结合，进一步提升特征提取能力和可扩展性。

点-体素混合方法（Point-voxel-based Methods）

这类方法整合了点云基特征和体素基特征的优势。例如，PV-RCNN（点-体素R-CNN）、PVGNet（点-体素图网络）和PV-RCNN++通过高效的融合策略，实现了精度提升、成本降低和推理加速；HVPR（混合体素点表示网络）引入基于注意力的多尺度特征模块，提取尺度感知表示，缓解了点云固有的稀疏性和不规则性问题；Pyramid R-CNN（金字塔R-CNN）则通过引入感兴趣区域（RoI）网格金字塔、基于网格的注意力和密度感知半径预测模块，进一步解决了这些挑战。

Post-BEV方法（投影后特征提取）

传统激光雷达感知流水线通常依赖体素基表示，并通过3D卷积或稀疏3D卷积处理，这类方法计算开销大，难以在实时工业系统中部署。Post-BEV方法通过将特征提取步骤转移到鸟瞰图空间，完全避开了3D卷积，从而解决了这一局限性。

早期方法如RT3D（实时3D检测网络）和PIXOR（像素级目标检测网络），将3D点云投影到2D网格或类图像表示中，实现高效目标检测；为解决距离和分辨率变化导致的特征畸变，BirdNet提出尺度不变编码方案；PointPillars（点柱网络）和PillarNet（柱网络）通过对“伪图像特征”应用2D卷积，增强鸟瞰图表示；PolarNet（极坐标网络）利用极坐标系建模径向空间依赖关系；近年来的研究则采用基于注意力的编码器-解码器架构（如SalsaNet和CenterFormer），提升复杂驾驶场景下的检测鲁棒性。

精度-鲁棒性-安全性分析

在雨、雾、灰尘等恶劣天气下，纯激光雷达系统会因信号散射和吸收而性能衰减，导致噪声增加、探测距离缩短和点云返回不完整。这些问题会加剧点云稀疏性和遮挡影响，增加遗漏行人、小型障碍物等关键目标的风险。因此，要解决这一问题，需要开发对“数据不完整”和“传感器性能衰减”具有鲁棒性的特征提取机制。

挑战与局限性（Challenges and Limitations）

基于相机或激光雷达的单模态鸟瞰图感知，能以较低成本实现目标检测和地图构建，但在复杂条件下仍存在明显不足：基于相机的方法在低光照和恶劣天气下性能下降，而激光雷达虽能提供准确深度信息，却面临点云稀疏、噪声干扰和硬件脆弱性问题，容易遗漏远距离或低反射率目标。此外，透视视角转换过程会阻碍3D结构恢复，导致遮挡或不平坦地形场景下的高度估计和空间推理能力受限。为解决这些局限性，近年来的研究主张采用多模态融合技术，整合视觉线索与深度线索，以提升感知精度、鲁棒性和安全性。

三、SafeBEV 2.0：基于车辆的多模态鸟瞰图感知方法

基于车辆的多模态鸟瞰图感知通过整合相机、激光雷达、雷达等异构传感器数据，突破了单模态系统的局限性，提升了遮挡和恶劣天气下的感知鲁棒性，从而增强对环境的理解能力。本章将多模态融合策略分为五类：相机-雷达融合、相机-激光雷达融合、雷达-激光雷达融合、相机-激光雷达-雷达融合以及时间融合（如表2所示）。根据融合阶段的不同，每类策略又可进一步分为单阶段融合（SSF） 和多阶段融合（MSF）：单阶段融合在单一节点完成数据融合，效率高；多阶段融合则通过迭代式跨模态交互，实现更优的特征对齐与协同。

相机-雷达融合

相机能提供高分辨率语义信息，适用于目标识别，但在低能见度条件下性能衰减；毫米波雷达在恶劣条件下仍能实现稳定测距，但缺乏语义细节。二者融合可增强鲁棒性和场景理解能力，其鸟瞰图融合流水线如图4所示。

单阶段融合方法

CRAFT（相机-雷达融合Transformer）：将雷达回波与图像检测框结合，以极低的计算成本提升检测性能，但对雷达特征的利用不够充分。
CRN（相机-雷达融合网络）：将图像特征投影到鸟瞰图中，并与雷达特征拼接，改善几何对齐效果，但性能高度依赖深度估计精度。
RCFusion（雷达-相机特征融合网络）：利用注意力机制，将基于特征金字塔网络（FPN）提取的图像特征与雷达鸟瞰图特征对齐，但可能存在视角错位问题。
Redformer（雷达增强Transformer）：在鸟瞰图空间中应用跨模态注意力，提升融合质量，但会增加模型复杂度。

多阶段融合方法

CRFNet（相机-雷达融合网络）：采用早期多尺度融合策略，但跨模态特征的丰富度不足。
CenterFusion（中心融合网络）：以图像检测框引导雷达特征提取，效果较好，但对图像的依赖性强。
Rvnet（雷达-视觉网络）：通过并行子模块与中间交互实现特征融合，提升空间预测精度，但会增加延迟。
Radiant（雷达-图像关联网络）：通过优化框偏移量实现跨模态一致性，但增加了模型复杂度。
BEVCar（鸟瞰图车辆感知网络）：利用雷达在鸟瞰图中实现图像补全，但存在转换误差。
RCBEV（雷达-相机鸟瞰图网络）和SparseFusion3D（稀疏传感器融合3D网络）：通过跨视角Transformer和稀疏补全技术增强3D检测性能，但以牺牲效率为代价。
LXL（激光雷达排除型轻量级3D检测网络）：利用雷达改进深度估计，但对噪声敏感。

相机-激光雷达融合

图像能提供丰富的纹理信息，激光雷达可提供精确的空间数据，二者有效融合可显著提升感知精度和鲁棒性。

单阶段融合方法

BEVFusion（鸟瞰图融合网络）：将分别编码的图像特征和激光雷达特征投影到统一的鸟瞰图空间，简化流程，但缺乏深度特征交互。
BEVFusion-MIT（MIT版鸟瞰图融合网络）：引入轻量级编码器和压缩技术，降低复杂度和延迟，提升部署效率，但灵活性有所下降。
UVTR（统一视图Transformer）：利用Transformer统一鸟瞰图特征，性能优异，但对数据规模和参数调优较为敏感。
FusionFormer（融合Transformer）：通过多尺度Transformer和模态注意力提升精度和鲁棒性，但Transformer骨干网络会增加延迟和参数量。

总体而言，单阶段融合方法适用于实时场景，但在复杂场景中难以捕捉细粒度特征交互。

多阶段融合方法

MV3D（多视图3D检测网络）：率先实现跨尺度鸟瞰图融合，但受早期技术限制，性能有限。
PointAugmenting（点云增强网络）：通过图像引导注意力优化点云特征，提升稀疏场景下的检测性能，但会增加计算量，且对图像的依赖性强。
SDVTracker（自动驾驶车辆跟踪网络）：通过深度融合实现跟踪任务的时空一致性，但受数据规模和效率限制。
TransFusion（Transformer融合网络）：采用基于Transformer的融合策略，提升小型目标检测精度，但成本较高。
AutoAlign（自动对齐网络）和AutoAlignV2（自动对齐网络V2）：通过学习对齐参数，解决空间/语义错位问题，提升泛化能力。
BEVFusion4D（4D鸟瞰图融合网络）：引入时空融合实现4D感知，但对资源需求较高。
Fast-CLOCs（快速相机-激光雷达目标候选融合网络）：通过级联融合平衡速度与精度，适用于实时场景。

雷达-激光雷达融合

激光雷达能提供高精度3D几何信息，是定位和地图构建的关键，但在恶劣天气、低光照和远距离场景下性能衰减；毫米波雷达在这些场景下仍能保持鲁棒性，并可提供可靠的速度测量，是激光雷达的理想补充。二者融合可实现更具韧性的全方位感知，如图4所示。

单阶段融合方法

RadarNet（雷达网络）：在体素级对雷达和激光雷达特征进行早期融合，提升远距离目标检测性能；同时通过基于注意力的晚期融合改进“雷达-目标关联”，且无需依赖密集标注。但该方法的性能对体素分辨率和场景变化较为敏感，且易受雷达噪声影响。

多阶段融合方法

InterFusion（交互融合网络）：提出轻量级架构，通过角度补偿和跨模态匹配实现雷达与激光雷达数据的渐进式对齐，降低计算成本和融合伪影。但该方法的效果依赖预处理质量，且缺乏语义级特征建模，在复杂场景下鲁棒性有限。

相机-激光雷达-雷达融合

随着自动驾驶技术的快速发展，整合相机、激光雷达和雷达的多模态传感器数据，已成为提升感知精度和鲁棒性的必要手段。三种模态各有优势与局限，因此设计合理的融合策略，对实现复杂动态环境下的可靠感知至关重要。

单阶段融合方法

HydraFusion（ Hydra融合网络）：采用动态融合策略，根据驾驶场景自适应选择早期、中期或晚期融合，提升复杂条件下的鲁棒性，但对场景理解的准确性要求高，增加了系统复杂度。
FUTR3D（未来3D检测网络）：引入带有“模态无关采样器”的Transformer，实现跨异构传感器的端到端3D检测，灵活性强，但计算成本高，在数据稀疏或恶劣环境下实时性下降。
BEVGuide（鸟瞰图引导网络）：通过“位置感知、传感器无关”的注意力机制，在鸟瞰图空间中实现融合，无需空间扭曲，效率较高。但固定的鸟瞰图分区方式可能导致局部信息丢失，影响表示质量。

多阶段融合方法

CLR-BNN（相机-激光雷达-雷达贝叶斯神经网络）：利用贝叶斯神经网络整合三种模态特征，提升不确定性估计和变条件下的鲁棒性，但计算成本增加，实时性下降。
Hidden Gems（隐藏特征挖掘网络）：提出多阶段跨模态监督框架，利用深度和流场一致性引导雷达表示学习（基于雷达场景流范式）。该方法虽能改进语义和运动建模（尤其对远距离或小型目标），但增加了训练复杂度，且需要高质量跨模态监督数据。

时序融合

时间融合通过整合多帧时空特征，增强动态场景理解和目标检测能力。根据融合阶段，可分为单阶段融合（效率高但时间深度有限）和多阶段融合（时间建模更优但计算成本高）。

单阶段融合方法

这类方法在统一步骤中融合多帧鸟瞰图特征，通常利用注意力机制提升效率：

MotionNet（运动网络）：采用时空金字塔从多帧点云中提取上下文信息。
FIERY（未来实例预测网络）：通过3D融合聚合连续鸟瞰图特征，实现未来预测。
BEVerse（鸟瞰图全场景网络）：在融合前对齐历史鸟瞰图特征，解决自车运动干扰问题。
BEVDet4D（4D鸟瞰图检测网络）：通过跨帧融合改进速度估计。
StreamPETR（流式PETR网络）：采用基于查询的时间传播策略。
BEVENet（鸟瞰图高效网络）：设计专用模块实现时间感知表示。

多阶段融合方法

这类方法通过跨帧或跨尺度聚合时间特征，提升特征关联效果：

STA-ST（时空注意力-空间变换网络）：采用多尺度融合增强动态场景理解。
ST-P3（时空P3网络）：通过双路径设计建模过去和未来状态。
SOLOFusion（单阶段目标定位融合网络）：对齐并迭代融合鸟瞰图特征，保证帧间一致性。
Fast-BEV（快速鸟瞰图网络）：利用快速射线变换将特征高效投影到多尺度鸟瞰图。
BEVFormer（鸟瞰图Transformer）：引入基于查询的框架，实现灵活特征交互。
PETRv2（PETR网络V2）和UniFusion（统一融合网络）：通过交叉注意力整合自车运动和目标运动。
DfM（动态特征匹配网络）和DORT（循环动态目标建模网络）：分别通过帧间匹配和循环融合进一步优化特征表示。

挑战与局限性

多模态融合通过利用相机、激光雷达和雷达的互补优势，缓解了“光照敏感”“点云稀疏”等单模态局限，提升了自动驾驶的安全性和鲁棒性，但仍面临关键挑战：

标定与同步：异构传感器的分辨率和噪声特性差异大，需精确标定和时间同步，否则会导致下游任务性能衰减。
环境干扰：恶劣天气、遮挡和能见度不一致会进一步影响传感器可靠性，增加融合难度。
实时性约束：计算资源限制了实时推理能力，需在精度与效率间权衡。
视野局限：车载融合系统的视野有限，难以检测遮挡或稀有目标。

通过车联网（V2X）实现的协同感知，可通过车辆与基础设施间的数据共享扩展感知范围，提升场景感知能力，从而缓解上述问题。

四、SafeBEV 3.0：基于多智能体协作的BEV感知方法

随着SafeBEV从1.0阶段演进至2.0阶段，车载BEV感知的鲁棒性已得到提升，但仍受限于遮挡、感知范围有限及传感器布局等问题。SafeBEV 3.0将这一范式进一步推进至多智能体协作层面，借助路侧基础设施与车车通信，提升空间覆盖范围与系统冗余度。

路侧BEV感知方法

路侧BEV感知利用固定在高处的传感器（如相机、激光雷达），实时检测交通参与者的类别、位置、速度及朝向。与车载传感器相比，路侧设备具有更强的抗遮挡能力，且能提供更广阔、更稳定的感知覆盖范围（如图6所示）。本节将代表性路侧BEV方法按模态类型分为三类——BEV相机、BEV激光雷达与BEV融合，并在表3中按传感器类型、任务及代码可用性对这些方法进行汇总。

BEV相机

为扩大感知范围并确保鲁棒性与准确性，基于相机的路侧BEV方案受到越来越多的关注。这类方法受益于相机技术的成熟性与成本效益，且路侧设备的固定安装方式可最大限度减少动态标定误差。通过利用路侧基础设施采集的视觉数据，此类系统通常通过“图像编码—2D到3D投影—基于体素的空间推理”这一流程，实现目标检测与车道线估计。

传统基于深度的BEV方法常面临2D到3D映射不准确的问题。为解决这一问题，BEVHeight利用路侧相机的安装高度预测每个像素的高程信息，从而提升检测鲁棒性；BEVHeight++进一步融合深度与高度信息，增强几何可靠性。CoBEV则向端到端BEV检测方向发展，在远距离场景、相机噪声及场景参数变化下仍能保持鲁棒性。BEVSpread提出一种改进的体素池化机制，通过解决近似偏差减少定位误差。针对多相机系统，CBR提出无标定BEV表征框架，以应对安装差异与标定噪声；RopeBEV则进一步解决多视图融合中的稀疏感知问题。

精度—鲁棒性—安全性分析：基于相机的路侧感知缓解了车载系统的关键局限性（如遮挡、视野狭窄），通过扩大可观测区域、减少视野盲区，同时提升安全性与感知冗余度。然而，纯视觉方法易受环境因素影响导致性能下降，且缺乏主动感知能力，这限制了其适应性与测距精度。因此，在安全关键场景中，激光雷达通常被视为确保可靠性的必要补充。

BEV激光雷达

在路侧BEV感知中，激光雷达相比相机传感器具有固有优势。它能采集高精度3D点云，提供准确的空间几何信息，且在相机易失效的复杂光照条件下仍能保持稳定性能，从而提升感知可靠性与安全性。

基于激光雷达的路侧BEV感知面临的核心挑战是：如何从复杂静态背景中可靠分离动态目标。为解决背景干扰问题，Zhang等人利用激光雷达的强度与测距信息提取静态场景特征；Cui等人通过融入激光雷达的结构线索改进车道检测；Wu等人则扩大了检测范围并降低计算开销。针对低密度激光雷达数据，Lin等人提出一种地面分割算法，通过准确识别地面点提升车道线标记识别效果。在此基础上，CetrRoad采用可变形交叉注意力机制改进目标级感知，实现了当前最优性能。此外，安装在基础设施上的激光雷达系统已能实现多类别目标的实时分析，包括行人与车辆的定位、速度估计及方向跟踪，为路侧智能化提供关键支持。

精度—鲁棒性—安全性分析：尽管基于激光雷达的路侧BEV感知仍处于早期部署阶段，但其已展现出更优的深度估计与远距离跟踪能力。然而，单纯依赖激光雷达的单模态方案在恶劣天气下仍易出现性能下降，鲁棒性受限；同时，其高昂的成本与复杂的部署流程也制约了大规模应用的可扩展性。

BEV融合

基于单一感知模态的路侧BEV感知系统存在固有局限性，会影响感知精度与鲁棒性。为克服这些挑战，多模态融合成为关键技术路径——通过整合异质传感器的互补信息，实现更可靠、更全面的环境感知。

路侧BEV融合方法可有效弥补单模态系统的不足。例如，BEVRoad采用跨模态融合技术，即使在复杂条件下也能实现准确的速度与定位估计，同时改善遮挡处理效果；HSRDet通过构建精细的场景表征，并利用基于注意力的融合方式生成鲁棒的BEV特征，提升感知保真度。此外，一种基于融合的跟踪框架整合注意力机制，在速度估计、跟踪范围、轨迹恢复及抗目标丢失能力等方面均有提升。这些研究共同凸显了“相机—激光雷达融合”在实现可靠、全面的路侧BEV感知中的重要性。

精度—鲁棒性—安全性分析：多模态融合通过发挥相机与激光雷达的互补优势，显著增强了路侧BEV感知的鲁棒性与准确性。然而，要确保基于融合的系统具备安全性与完整性，仍需应对重大技术挑战，包括：针对传感器故障或数据损坏的鲁棒容错能力，以及对异质传感器数据的精确时空标定能力。因此，研发自适应、高弹性的融合算法，仍是开发安全、可扩展路侧BEV感知系统的关键研究方向。

挑战与局限性

尽管路侧BEV感知具有提升安全性的潜力，但仍面临固有挑战。基于相机的方法对光照与天气敏感，且缺乏精确的深度估计能力；纯激光雷达方法虽具备几何准确性，但在恶劣条件下数据稀疏性增加、语义信息有限。多模态融合虽能通过利用互补传感器提升鲁棒性，但也增加了同步、标定及容错设计的复杂度。此外，路侧系统的固定视角限制了感知覆盖范围，难以实现全方位的场景感知。这些挑战表明，需通过多智能体协作式BEV感知，借助多智能体间的协作实现更广阔、更具弹性的环境感知。

协作式BEV感知方法

为克服车载BEV系统的局限性（如遮挡、视野狭窄、鲁棒性不足），协作式BEV感知支持车辆与基础设施间的实时信息交互。该范式大幅扩大了空间覆盖范围，提升了检测精度，并增强了系统级弹性。

如图7所示且如表3汇总，协作框架按智能体类型可分为车车协作（V2V）、车路协作（V2I）、路路协作（I2I）及车联网协作（V2X）。每种协作类型均支持跨智能体的单模态与多模态传感器融合——前者指融合来自多车辆、多基础设施节点的同质数据，后者指融合异质数据。以下小节将综述三类代表性协作范式（V2V、V2I、V2X/I2I）的最新方法，重点分析其在精度、鲁棒性及安全性方面的贡献。

车-车（V2V）协作式BEV感知

V2V协作式BEV感知是解决车载中心化感知固有局限性（尤其是遮挡、感知范围受限及环境冗余不足）的关键方案。通过实现多车辆间的实时信息交互，V2V框架构建分布式协作网络，显著扩大空间感知范围，提升非视距场景下的远距离检测能力，并增强BEV表征的完整性与鲁棒性。

单模态V2V融合

该领域早期研究聚焦于融合多车辆间的同质传感器数据（如相机图像、激光雷达点云）。在基于视觉的系统中，Transformer架构因其全局上下文建模能力被广泛采用，例如CoBEVT采用轴向注意力实现高效多智能体BEV融合；TempCoBEV融入时间建模以缓解通信延迟与数据错位问题；CoCa3D则通过协作式深度估计，证明了其在远距离目标检测中的优势。在基于激光雷达的框架中，研究重点集中于几何对齐与时间一致性——例如，CoBEVFlow通过运动建模补偿时间异步性；V2VNet利用图神经网络实现结构化特征聚合；LCRN-V2VAM则通过不确定性感知注意力与特征修复模块，增强通信质量下降时的鲁棒性。

多模态V2V融合

为进一步提升感知精度与弹性，近年来的研究探索了多模态V2V融合技术，即联合利用多车辆的异质传感器数据。这类方法将视觉输入的语义丰富性与激光雷达的几何精确性相结合，实现更全面的BEV场景感知。例如，V2VFormer++提出全局—局部Transformer框架，通过动态通道融合实现可扩展、高效的多模态聚合；CoBEVFusion采用双窗口交叉注意力机制，同时提升语义分割与3D检测性能；HM-ViT设计异质模态Transformer，实现灵活的传感器对齐；MCoT则利用几何先验优化BEV特征的对齐与融合粒度。

精度—鲁棒性—安全性分析：V2V协作式BEV感知通过车车协作，显著提升了空间感知完整性、检测精度与系统鲁棒性。单模态方法架构简洁、通信开销低，但仍受限于传感器自身的固有约束；多模态融合虽能提供更丰富的表征，但增加了同步与标定的复杂度。未来研究应聚焦于：将V2V与更广泛的V2X框架整合、研发延迟感知的自适应融合算法、提升系统在实际部署场景下的鲁棒性。

车路（V2I）协作式BEV感知

V2I协作式BEV感知利用路侧基础设施的互补优势，增强车载感知系统性能。与动态的车载传感器不同，路侧设备（如高处安装的相机、激光雷达）具有固定、稳定的视野，能对盲区及复杂路口进行持续监测。通过与车辆进行实时信息交互，V2I协作显著提升了BEV场景感知能力，尤其在遮挡密集、城市环境复杂等车载感知不足的场景中效果显著。

单模态V2I融合

单模态V2I方法通过对齐与融合车辆和基础设施节点的同质传感器数据，构建统一的BEV表征。在基于相机的融合中，从路侧与车载图像中提取的BEV特征被聚合，以缓解视角遮挡并扩大视野——例如，VIMI引入动态增强模块以减少投影损失与标定漂移；BEVSync通过专用的“提取器—补偿器”机制，补偿时间不同步问题；VI-BEV则通过跨传感器交互建模，进一步增强空间特征一致性。在基于激光雷达的流程中，CoFormerNet采用时空调制注意力处理数据延迟与错位；CenterCoop通过高效的中心化编码降低通信带宽需求；V2IViewer则将检测、压缩与对齐模块整合为端到端架构。

多模态V2I融合

为解决单传感器系统的局限性，多模态V2I融合整合异质数据源（如路侧激光雷达与车载相机），丰富BEV表征。这类跨模态流程将视觉的语义丰富性与点云的几何精确性相结合。例如，V2I-BEVF通过带可变形注意力的双分支Transformer实现BEV特征对齐；MSMDFusion引入多深度投影与门控卷积，支持多尺度语义整合；V2I-Coop聚焦于风险感知检测，通过细粒度多模态协作实现；CO³则利用对比学习实现无监督跨模态表征对齐；VICOD采用多阶段融合与边界框对齐，增强后期检测的鲁棒性。

精度—鲁棒性—安全性分析：V2I协作感知通过提供高处、稳定的视角及跨智能体冗余，对车载感知形成有效补充。与V2V范式相比，V2I在结构化环境中覆盖更稳定，能有效缓解遮挡导致的失效问题。然而，实际应用中仍面临挑战：路侧基础设施部署有限、传感器标定要求高、通信延迟等。未来研究可探索：可扩展的V2X混合框架（动态平衡V2V与V2I的贡献）、异步输入下的自标定机制、基于学习的协议（用于动态城市环境中鲁棒的多模态对齐）。

车联网（V2X）与路路（I2I）协作式BEV感知

为实现动态交通环境下的全面场景感知，V2X与I2I协作式BEV感知将信息共享范围扩展至单个智能体之外，整合车辆与基础设施节点的数据。该范式提升了空间覆盖范围，缓解了遮挡问题，并在复杂场景中提供更丰富的上下文感知能力（如图7所示）。

近年来已有相关框架探索这一方向。例如，BEV-V2X通过云端或路侧单元聚合多车辆的BEV表征，实现更准确、全局一致的占用预测；V2X-BGN引入全局非极大值抑制机制，结合融合后优化，提升遮挡场景下的检测性能。同时，H-V2X与InScope数据集为高速公路与基础设施中心化协作感知提供了大规模基准，助力解决实际场景中的可扩展性与评估挑战。

精度—鲁棒性—安全性分析：尽管V2X与I2I协作式BEV感知大幅提升了空间覆盖范围与环境感知能力，但仍受限于以下问题：持续遮挡、智能体间标定误差、跨平台感知质量异质性。通信约束（如带宽限制、同步延迟）进一步影响实时性能与融合可靠性；基础设施节点的静态特性可能在动态场景中产生盲区；此外，智能体间检测先验的不一致性可能损害全局一致性与决策安全性。这些问题共同构成了在复杂交通条件下实现准确、鲁棒、安全的BEV感知的重大障碍。

挑战与局限性

尽管多智能体协作式BEV感知潜力巨大，但仍面临通信可靠性、时空对齐及系统可扩展性三大关键挑战。V2V需应对动态拓扑与异质传感器问题；V2I则受限于基础设施覆盖范围有限与部署成本高昂；多模态融合进一步增加了标定与容错设计的复杂度。未来研究应聚焦于：研发自适应融合架构、设计轻量化且任务感知的协同策略（以应对部分观测、数据异步及多样交通条件）。构建“感知—通信—计算”一体化设计，是实现鲁棒、可扩展V2X协作感知的关键。

五、BEV感知数据集

在自动驾驶系统中，感知性能直接关系到系统整体的安全性与稳定性，而高质量数据集是感知算法研发与评估的核心基础。因此，设计完善的数据集对于提升BEV感知的鲁棒性与安全性至关重要。

车载BEV数据集

本节综述自动驾驶领域的车载数据集，将其分为单模态与多模态两类，总结其核心特征、应用场景、研究价值及固有挑战，为后续研究奠定基础。表4从任务类型、采集场景、帧率、地理覆盖范围等维度，对这些数据集进行系统性对比。

单模态车载BEV数据集

单模态车载数据集由安装在单个车辆上的单一类型传感器（如相机、激光雷达）采集的连续感知数据构成。这类数据集是语义分割、目标检测等任务专项研究的基础工具，同时为评估单个传感器的性能极限提供了可控平台。其标准化结构支持全面分析模型行为、鲁棒性瓶颈及不同运行场景下的失效模式。

多个基准数据集针对关键安全场景设计：SynFog通过物理散射模型生成真实雾天场景；VPGNet提升复杂天气与光照条件下的车道检测性能；IDD捕捉非结构化环境中的复杂交通动态；StreetHazards利用合成危险场景评估模型泛化能力；CamVid提供详细标注用于路口分析。这些资源为研究不同运行条件下传感器的专项能力提供了支持。

当前单模态数据集在安全验证方面面临重大挑战，尤其在极端场景表征上存在不足。真实世界边缘场景（如暴风雪、碰撞场景）的稀缺性，以及合成数据与真实场景的差异，限制了对鲁棒性的全面评估。未来发展应优先关注三方面：（1）提升基于物理的仿真保真度；（2）系统性采集稀有安全关键场景；（3）整合可量化安全指标，为自动驾驶感知系统建立严格的验证框架。

多模态车载BEV数据集

多模态数据集整合了来自异质传感器的时间同步数据，是构建鲁棒自动驾驶感知系统的基础。其核心技术价值在于：支持传感器融合策略的研发——通过利用模态间的互补性克服单一传感器的局限性（如相机在弱光下失效、激光雷达在雾天性能下降），从而提升系统在多样环境中的适应性。

数据集的演进为自动驾驶研究奠定了重要里程碑：KITTI通过立体相机与激光雷达，在结构化道路场景中建立了基础基准；nuScenes增加传感器多样性，引入雷达、6D位姿标注及复杂天气场景；RADIATE聚焦低能见度场景，通过雷达—相机融合应对雨雪雾等天气；Argoverse2强调复杂城市交互，提供3D车道拓扑与详细行为标注；Waymo通过大规模城市与高速公路数据（包括稀有事故案例），推动安全验证技术发展。

尽管在传感器多样性与场景覆盖方面取得进展，多模态数据集仍存在关键缺口。极端恶劣条件（如暴风雪、浓雾）及关键事件（如路口碰撞、紧急避让）的表征不足，限制了边界场景的验证；传感器标定不一致、事故数据隐私受限等技术障碍也阻碍了研究进展。未来工作应聚焦于：1）采集边缘场景数据（如施工区域、雨天遮挡下的行人横穿）；2）标注细粒度状态信息（如黑冰、隐藏交通标志）；3）研发“仿真到真实”迁移方法（实现传感器退化效果的精确模拟）。这些努力对于实现开放环境下自动驾驶系统的认证至关重要。

多智能体协作感知数据集

近年来，多智能体感知数据集在传感器多样性、协作能力及复杂交通场景表征方面取得显著进展，为基于BEV的协作感知研究提供了关键基础。表5汇总了V2V、V2I、V2X、I2I及路侧场景下的代表性数据集，重点突出其设计特征、传感器模态、支持任务及与安全关键BEV应用的相关性。

路侧感知数据集

路侧感知利用固定路侧单元（RSU）实现高精度、广范围的环境感知。与车载系统相比，路侧单元具有高处、稳定的视角，可缓解遮挡问题并消除自车运动干扰。作为互补模态，路侧感知扩大了感知范围，支持多智能体协作，并为安全关键BEV任务提供增强支持。本节将代表性路侧数据集分为“独立路侧数据集”与“路路协作（I2I）数据集”两类，综述其在提升安全性、鲁棒性与协作能力方面的作用。

独立路侧感知数据集

独立路侧感知通过安装在灯杆、门架等固定位置的路侧单元实现，具有稳定、抗遮挡的视角及广阔的时空覆盖范围。与车载传感器相比，其高处、静态的部署方式支持对路口、拥堵区域及远距离目标的可靠监测。作为独立且互补的感知模态，路侧感知在提升自动驾驶系统安全性、鲁棒性与协作能力方面发挥关键作用。

早期数据集（如Ko-PER、CityFlow）聚焦于目标重识别，但在规模与标注质量上存在局限；IPS300+提升了路口场景的空间覆盖范围；LUMPI与TUMTraf-I增加了多传感器与时间多样性；针对高速公路场景，TUMTraf-A9捕捉了多样道路类型与天气条件；Rope3D支持单目3D检测；RoScenes聚焦拥堵建模；H-V2X通过雷达—视觉融合增强恶劣条件下的适应性。

尽管取得这些进展，现有路侧数据集仍存在不足：极端天气事件、稀有安全关键事件的覆盖不足，遮挡相关的详细标注缺失；同时，静态部署方式导致的空间多样性有限，制约了模型在更广泛场景中的泛化能力。未来数据集应重点关注动态环境、异质传感器整合及部署可扩展性，以全面支持鲁棒的路侧BEV感知研发。

路路协作（I2I）感知数据集

I2I感知数据集支持多个路侧单元间的协作感知，克服了单个路侧单元在空间覆盖、遮挡缓解及感知连续性方面的局限性。通过融合分布式异质节点的数据，这类数据集支持在密集城市区域与长距离道路网络中构建鲁棒的环境模型，与基于BEV的协作感知需求高度契合。

代表性研究包括RCooper与InScope：RCooper提供了路口、走廊等场景的大规模真实世界数据，包含多样的激光雷达—相机配置，支持3D检测与跟踪任务；InScope通过多激光雷达融合强调遮挡感知，并引入盲区覆盖评估指标（针对受限视角场景）。这些数据集凸显了I2I配置在复杂布局、遮挡及多智能体交互场景中提升感知弹性的潜力。

然而，现有I2I数据集仍面临跨路侧单元标定、时间同步及部署可扩展性等挑战；此外，多数数据集未能捕捉长期动态或稀有事件场景。未来工作应聚焦于标准化设计、异质传感器整合及部署多样性，以实现智能基础设施网络中可扩展、鲁棒的BEV感知。

5.2.2 车车（V2V）感知数据集

V2V协作感知通过多车辆间的实时信息交互提升环境感知能力，扩大感知范围并增强复杂场景下的鲁棒性。近年来的V2V数据集通过支持同步多智能体数据采集、多模态感知及多样交通条件，为基于BEV的协作研究提供了支持。

最新V2V数据集通过增加智能体数量、增强传感器融合及模拟真实环境，解决了单智能体系统在空间与时间上的局限性。例如，OPV2V为理想同步条件下的BEV特征融合建立了基准；OPV2V+进一步提升智能体多样性；OPV2V-H融入异质激光雷达—相机融合；V2V4Real搭建了仿真与真实数据的桥梁，支持3D检测与跟踪；LUCOOP与MARS提供了多车辆在多样环境中的记录数据，其中MARS重点关注恶劣天气与密集交通场景；V2V-QA探索了大语言模型在联合推理与规划中的整合应用。

尽管这些数据集在遮挡处理、远距离检测及鲁棒性提升方面取得进展，但仍存在不足：多数数据集缺乏对稀有事件、遮挡智能体及近碰撞事件的细粒度标注；短序列长度限制了长期推理能力；此外，标定误差、雷达覆盖不足、缺少高精地图等因素，进一步制约了其在实际场景中的应用。

车路（V2I）感知数据集

V2I协作感知整合路侧单元与车载传感器数据，提升遮挡、高速交通及弱光条件下的鲁棒性与准确性。近年来的V2I数据集为动态、安全关键环境中基于BEV的多智能体感知提供了支持。

V2I数据集在规模、细节及环境多样性方面持续演进，以满足智能交通系统的需求：DAIR-V2X-C为城市BEV感知提供高质量多模态数据；V2X-Seq包含丰富的轨迹标注，支持预测与风险评估；HoloVIC与TUMTraf-V2X聚焦遮挡频发的路口场景，捕捉复杂交互与高分辨率场景；OTVIC提供多视角、多模态数据，适用于高速、噪声环境；V2X-Radar通过雷达整合提升恶劣天气下的性能。

这些数据集显著推进了安全关键V2I场景中的BEV感知，尤其在遮挡、密集交通场景中效果突出，支持轨迹预测、遮挡感知检测等细粒度任务，且覆盖范围广、空间精度高。然而，仍存在地理多样性不足、环境变异性有限、路侧单元异质性低等局限。

车联网（V2X）感知数据集

V2X感知整合V2V与V2I协作，通过融合车辆与基础设施的多模态传感器数据，扩大感知范围，增强时间一致性与场景理解能力，为基于BEV的稳健自动驾驶提供支持。

近年来的V2X数据集不断演进，以支持多样智能体配置、复杂环境条件及先进多任务学习：V2X-Sim 2.0开创了协作感知多任务仿真的先河；DOLPHINS、V2X-Traj与V2XPnP通过序列动态建模多智能体交互；为应对恶劣条件，V2XSet与SCOPE模拟真实世界噪声与不确定性；DeepAccident、Adver-City与V2X-R聚焦极端天气与安全关键事件中的鲁棒性；V2X-Real、Multi-V2X与WHALES通过异质协作与多样场景扩展可扩展性，支持3D标注与动态调度。

这些数据集为复杂场景中的感知融合、交互建模及全天候感知提供了支持。然而，仍面临标注成本高、地理多样性不足、稀有事件覆盖有限等挑战。未来进展需依赖“真实—仿真混合数据集”的构建、更广泛的环境多样性覆盖，以及更强的泛化能力（以支持可扩展的实际V2X部署）。

数据集中的安全性与鲁棒性

安全性与鲁棒性是可靠自动驾驶的核心前提，尤其在复杂、不确定环境中。作为感知系统研发与基准测试的基础，数据集必须能够有效支持这些关键能力的评估。为此，本节从安全导向视角评估BEV感知数据集，重点分析其对真实世界多样、复杂条件的表征能力。图8汇总了各数据集在关键场景上的覆盖情况。本节按三个演进阶段对数据集进行分类分析：SafeBEV 1.0（单模态）、SafeBEV 2.0（多模态）、SafeBEV 3.0（多智能体协作）。

SafeBEV 1.0数据集

单模态车载数据集基于相机、激光雷达等单个传感器构建，是早期BEV感知研究在受限感知条件下的基础基准。这类数据集通常针对单一任务设计，复杂度较低，但环境多样性有限。为提升恶劣条件下的鲁棒性，Foggy-C、ACDC与SynFog通过合成方法引入天气变化，模拟雾、雨、弱光环境；针对动态复杂场景，KITTI MOTS与IDD分别提供运动分割数据与多样交通模式数据。然而，这些数据集在安全关键场景支持上仍存在不足，如事故预测、长期时间推理、传感器退化及真实光照条件等场景的覆盖缺失；此外，合成数据与真实世界的领域差异，也制约了模型的泛化能力。

SafeBEV 2.0数据集

多模态车载数据集整合异质感知模态，从多视角捕捉驾驶环境，从而增强系统鲁棒性，支持具备安全意识的自动驾驶感知。代表性数据集（如Cityscapes、ApolloScape、nuScenes）聚焦密集城市场景与多样交通环境，支持复杂环境中的鲁棒感知；在事故预测方面，Lyft L5提供时间维度丰富的序列数据，助力早期风险检测；此外，Argoverse、SYNTHIA与nuScenes在恶劣天气、光照变化及传感器退化场景的覆盖上较为全面，增强了系统在真实世界不确定性下的鲁棒性。尽管具备这些优势，多数数据集在高风险场景（如碰撞倾向交互、极端环境条件）的支持上仍显不足，表明在安全关键场景建模方面仍有提升空间。

SafeBEV 3.0数据集

多智能体协作数据集通过智能体间协作，增强单车辆系统的感知能力，实现更广阔的感知覆盖与更强的复杂交通环境适应性。通过智能体间协作，这类数据集支持遮挡感知、轨迹预测及远距离安全推理——这些都是鲁棒BEV感知的关键组成部分。仿真数据集（如OPV2V、DOLPHINS、Adver-City）覆盖遮挡、长期动态及恶劣天气场景；DeepAccident聚焦稀有碰撞事件，支持安全关键学习；真实世界数据集（如DAIR-V2X-C、V2X-Traj、RCooper）通过异质传感器应用，解决密集城市环境、盲区缓解及基础设施协作中的挑战。然而，仍存在智能体间标定困难、语义对齐不足、稀有事件覆盖有限等局限，凸显了对更可扩展、标准化真实世界基准的需求。

局限性与未来工作

尽管从单模态系统发展到多智能体协作，当前BEV数据集仍面临关键局限：安全关键场景（如稀有事故、遮挡、边缘案例）的表征不足，限制了真实世界鲁棒性的评估；时间不连续性与传感器退化建模不足，阻碍了预测能力与不确定性感知的研发；尽管SafeBEV 3.0数据集引入空间多样性与多智能体协作，但在标准化标定、精确同步及跨区域/跨基础设施可扩展性方面仍有欠缺。推进安全自动驾驶需突破静态标注的局限，向动态场景演进、因果交互建模及不确定性量化方向发展；弥合“仿真到真实”差距、实现大规模协作、使数据集设计与真实世界风险分布对齐，是实现开放环境下鲁棒BEV感知的关键。

BEV数据集上的鲁棒性与安全性基准测试

自动驾驶的安全性与可靠性取决于感知算法在挑战性条件（如传感器失效、恶劣天气、弱光）下的鲁棒性。本节遵循nuScenes-C与BEV-Robust的标准化协议，评估代表性BEV模型在各类干扰下的性能。表6汇总了不同干扰类型下的模型性能，重点分析其在安全关键场景中的抗干扰能力与失效模式。

评估指标

为评估BEV模型在极端条件下的性能，采用四个代表性指标：平均精度（mAP）衡量检测准确性；nuScenes检测得分（NDS）在mAP基础上整合五个真阳性指标，更全面地评估3D检测与语义一致性；平均干扰误差（mCE）通过对比模型在干扰条件下与基准模型（DETR3D）的NDS差异量化鲁棒性，数值越低表示性能越好；平均相对鲁棒性（mRR）衡量模型在干扰条件下相对于清洁数据的性能保留率，数值越高表示抗干扰能力越强。其中，mAP与NDS评估准确性，mCE与mRR评估恶劣条件下的鲁棒性。

基于基准的鲁棒性分析

基准测试结果显示，无论采用何种模态，BEV感知算法在干扰及极端条件下均会出现显著性能下降。单模态模型（如BEVDet、BEVDepth）尤为敏感：在BEV-Robust基准中，BEVDet在噪声干扰下mAP降至3.3%，模糊干扰下mAP降至11.6%，NDS均低于11%；BEVDepth在相同干扰下表现相近，mAP仅为5.1%，NDS为12.7%。在nuScenes-C基准中，BEVDet、BEVerse等模型的mCE超过120%，mRR下降超过50%，凸显其在恶劣环境中的鲁棒性不足。

相比之下，多模态融合方法的抗干扰能力显著提升。BEVFusion与TransFusion在各类干扰下的mAP与NDS始终保持在60%以上，与清洁数据条件相比性能下降不足10%；BEVFormer在nuScenes-C干扰条件下也表现稳健，mCE低于102%，mRR高于96%。这些结果凸显了传感器冗余与有效融合策略在缓解性能崩溃中的优势。

尽管取得这些进展，所有模型仍存在不可忽视的性能下降，表明当前BEV系统与安全关键部署需求之间仍存在差距。这些发现表明，需持续研究干扰感知训练、不确定性建模及更贴近真实世界抗干扰需求的基准测试协议。

局限性与未来工作

尽管当前基准为BEV模型鲁棒性评估提供了有价值的参考，但多数基准仍局限于单车辆场景，忽视了多智能体协作感知的独特挑战；现有评估覆盖的干扰类型范围较窄，未能捕捉传感器错位、智能体间异步、大规模遮挡等真实世界复杂性；此外，多数基准依赖静态或合成干扰，缺乏对时间演进、长尾事件或复合失效的动态建模。尽管多模态融合展现出潜力，但其融合策略在传感器输入退化或冲突时的鲁棒性仍显不足。

为解决这些差距，未来需研发统一的、干扰感知的评估协议，实现跨多样传感器与智能体交互的泛化评估。这包括：构建反映真实世界风险的对抗性或仿真增强基准；设计超越mAP、NDS的鲁棒性指标（如时间稳定性、不确定性校准、任务级安全指标）；开发整合V2X通信噪声与异质智能体行为的可扩展基准，以推进安全关键环境中的系统级抗干扰能力。

六、挑战

本节重点阐述阻碍BEV感知在自动驾驶实际部署中的四大关键挑战。

开放世界目标类别的泛化能力

大多数BEV感知系统是在闭集假设下开发的，即目标类别是固定且预先已知的。然而，现实世界环境本质上是开放的，自动驾驶车辆需要与训练过程中未接触过的分布外目标类别进行交互。这种差异严重影响了现有BEV系统的鲁棒性与安全性。当前的核心挑战在于，如何在杂乱或动态场景中实现类别无关的感知，同时保证空间精度。开放世界感知带来了新的问题：（1）区分新类别与已知类别；（2）在无显式标注的情况下泛化到未见过的语义类别；（3）在增量学习新类别时避免灾难性遗忘。

近期研究主要聚焦于具有泛化能力和丰富语义的框架。基于相机的占用网络通过建模体素占用率而非边界框，实现了类别无关的空间推理。视觉-语言模型（如CLIP、SEEM）借助大规模预训练和语言提示，实现零样本或少样本检测。YOLO-World、YOLO-UniOW、YOLOE等方法通过集成视觉-语言模型，进一步拓展了开放词汇检测能力。SAM、DINO等基础模型也为开放世界BEV感知提供了强大的视觉先验。

多智能体感知标注数据不足

多智能体协同感知（MACP）通过融合空间分布车辆的感知数据提升环境感知能力。尽管数据采集具备可行性，但标注仍是主要难题。与单智能体数据集不同，多智能体协同感知需要同步的多视角序列数据，并附带掩码、轨迹等详细标注，这对时空精确对齐提出了极高要求。此外，传感器配置的差异性、通信延迟以及动态环境条件，进一步增加了标注的复杂性，制约了数据的可扩展性。

为缓解这一问题，近期研究主要从以下方向展开：（1）自监督学习，利用对比目标在无标注情况下提取特征；（2）伪标注，通过教师-学生模型利用SAM、CLIP、DINO等基础模型的预测结果生成标注；（3）半监督学习，通过基于一致性的训练融合带标注与无标注数据；（4）合成数据生成，利用CARLA等模拟器或世界模型生成可扩展的多智能体数据集。尽管这些方法具有潜力，但在标注质量、跨智能体对齐以及面向实际应用的域泛化方面，仍面临诸多挑战。

传感器不确定性下的鲁棒性

在多传感器融合BEV系统中，传感器不确定性与故障仍是核心挑战。雨、雪、雾、弱光等恶劣条件会降低传感器输入质量，引入噪声、数据缺失或伪影。遮挡、设备故障、链路中断等硬件问题，以及标定误差、灵敏度漂移等时间漂移问题，进一步增加了异常风险。随着传感器数量与多样性的增加，至少一个传感器发生故障的概率（按单传感器故障率计算，概率为）会急剧上升，且通常远高于

，从而显著提升系统级安全风险。这些问题导致在实际部署中难以维持稳定的BEV感知性能。

近期研究通过不确定性建模与鲁棒训练策略应对上述挑战。贝叶斯神经网络能够显式量化认知不确定性与偶然不确定性；AugMix、CutMix、点云稀疏化等数据增强方法提升了系统对传感器退化的抵抗能力；近期提出的弹性感知框架可根据实时传感器质量评估，动态调整推理路径。然而，在传感器条件高度可变且不可预测的场景下，尤其是面向安全关键型应用时，如何实现持续稳定的BEV感知，仍是尚未解决的挑战。

多智能体通信延迟

在多智能体BEV感知中，及时可靠的通信对于融合分布式车辆与基础设施节点的空间和语义信息至关重要。但现实世界中的网络存在带宽有限、同步偏移、延迟波动等问题，导致特征数据过时或对齐偏差，进而降低感知精度。在高速行驶或交通拥堵场景中，即使微小的延迟也可能危及安全关键决策。此外，传感器采样异步、视角异构以及传输协议差异等问题，进一步破坏了时间对齐，严重影响了协同感知的鲁棒性，尤其是当智能体必须依赖过时或不完整观测数据时。

为解决这些问题，近期研究提出了延迟感知流水线，包括特征压缩、异步融合、预测性感知框架等方法。尽管取得了这些进展，但在通信不确定性下实现可扩展、实时的多智能体BEV感知，仍是安全稳健自动驾驶系统部署过程中亟待解决的关键挑战。

七、展望

随着BEV感知从静态场景解析向智能自适应驾驶演进，未来的发展将依赖于认知推理、行为建模与基础模型。本节阐述四个新兴方向：7.1节探讨具身智能体中认知驱动的BEV感知；7.2节研究行为对齐的端到端驾驶；7.3节讨论基于基础模型的泛化能力提升。

具身智能体中认知驱动的BEV感知

当前BEV感知算法虽能将多模态特征融合为空间语义地图，但缺乏对动态环境的适应性与主动交互能力。具身智能通过闭环反馈整合感知、决策与动作，使智能体在现实场景中实现上下文感知行为。未来的BEV系统不应局限于静态地图构建，而需通过与环境的交互，实现感知与动作的无缝衔接。

这种整合主要体现在三个维度：（1）场景理解与预测：智能体需解读复杂交通场景、推断其他交通参与者的意图，并预测环境变化，从而实现主动适应；（2）感知引导的决策制定：实时感知数据需同时驱动紧急避让等即时反应与变道、超车等长期机动决策；（3）协同交互：稳健的车联网（V2X）技术与车-人交互将支持通过隐式通信实现协同行为，形成类似群体生物的集体智能。

行为对齐的端到端BEV驾驶

传统模块化流水线将感知、规划与控制分离，在复杂场景中常面临效率低下与延迟问题。端到端自动驾驶通过直接将传感器输入映射为规划/控制输出，改善了各模块间的协同性与实时响应能力。近期端到端自动驾驶研究强调“行为对齐”的重要性，即确保驾驶策略不仅能完成导航任务，还需展现类人、安全且符合社会规范的驾驶行为。

尽管取得了一定进展，这类模型仍面临收敛速度慢、行为可解释性差、鲁棒性不足等挑战。引入锚点路径（如稀疏路点、候选轨迹）作为辅助监督信号，可降低策略不确定性并引导决策过程；闭环强化学习通过实时反馈进一步优化策略，形成自适应的“感知-决策-控制”循环。为解决数据稀缺问题并提升对长尾场景的泛化能力，NeRF、扩散模型等生成式方法可合成多样化、高保真的数据，支持大规模训练。

基于基础模型的可泛化BEV感知

传统BEV感知模型通常在“行人、车辆、公交车”等闭集类别上训练。但现实世界环境具有开放性，这种固定标签空间限制了模型对新目标或意外场景的识别能力，带来安全隐患。基础模型通过大规模数据预训练，具备广泛的视觉表征能力与跨任务泛化能力。

将基础模型应用于自动驾驶时，其能有效融合相机、激光雷达（LiDAR）、高清地图等多模态数据，实现丰富的语义理解，并具备三大核心优势：（1）提升对各类交通参与者与长尾目标的识别能力，增强安全性；（2）强化复杂场景中的推理能力，支持轨迹预测与意图推断，为高层决策提供支撑；（3）通过场景级问答与推理实现内在可解释性，增强用户信任。此外，基础模型强大的迁移能力使其能通过少量微调快速适应新场景，加速BEV感知的实际部署进程。

八、结论

本文首次对车载与协同BEV感知方法进行了系统、全面的综述，重点关注安全性与鲁棒性。我们将现有方法划分为三个递进阶段——单模态车载感知、多模态车载感知、多智能体协同感知，清晰阐述了BEV感知系统的演进历程，并针对不同应用场景，深入评估了各阶段方法的优势与局限性。

此外，本文分析了具有代表性的公开数据集，建立了标准化的评估协议与基准，为未来研究与开发提供了宝贵资源。为促进研究的透明度与可复现性，我们发布了一个开源仓库，包含方法实现代码与数据集使用指南。最后，本文指出并讨论了BEV感知面临的关键挑战（包括开放世界部署、大规模无标注数据、传感器退化、多智能体通信延迟等），并探讨了其与具身智能、端到端自动驾驶等技术融合的未来方向。期望本综述能为相关领域研究提供基础性参考，推动安全、稳健、智能的BEV感知系统进一步发展。

2025-09-18 苦战七年卷了三代！关于BEV的演进之路：哈工大&清华最新综述

一、引言

BEV感知的本质（What）

BEV感知的重要性（Why）

BEV感知的实现方式（How）

二、SafeBEV 1.0：基于车辆的单模态鸟瞰图感知

方法

基于视觉的鸟瞰图感知（BEV Camera）

单目相机（Monocular）

多相机（Multi-camera）

精度-鲁棒性-安全性分析

基于激光雷达的鸟瞰图感知（BEV LiDAR）

Pre-BEV方法（投影前特征提取）

Post-BEV方法（投影后特征提取）

精度-鲁棒性-安全性分析

挑战与局限性（Challenges and Limitations）

三、SafeBEV 2.0：基于车辆的多模态鸟瞰图感知方法

相机-雷达融合

单阶段融合方法

多阶段融合方法

相机-激光雷达融合

单阶段融合方法

多阶段融合方法

雷达-激光雷达融合

单阶段融合方法

多阶段融合方法

相机-激光雷达-雷达融合

单阶段融合方法

多阶段融合方法

时序融合

单阶段融合方法

多阶段融合方法

挑战与局限性

四、SafeBEV 3.0：基于多智能体协作的BEV感知方法

路侧BEV感知方法

BEV相机

BEV激光雷达

BEV融合

挑战与局限性

协作式BEV感知方法

车-车（V2V）协作式BEV感知

车路（V2I）协作式BEV感知

车联网（V2X）与路路（I2I）协作式BEV感知

挑战与局限性

五、BEV感知数据集

车载BEV数据集

单模态车载BEV数据集

多模态车载BEV数据集

多智能体协作感知数据集

路侧感知数据集

5.2.2 车车（V2V）感知数据集

车路（V2I）感知数据集

车联网（V2X）感知数据集

数据集中的安全性与鲁棒性

SafeBEV 1.0数据集

SafeBEV 2.0数据集

SafeBEV 3.0数据集

局限性与未来工作

BEV数据集上的鲁棒性与安全性基准测试

评估指标

基于基准的鲁棒性分析

局限性与未来工作

六、挑战

开放世界目标类别的泛化能力

多智能体感知标注数据不足

传感器不确定性下的鲁棒性

多智能体通信延迟

七、展望

具身智能体中认知驱动的BEV感知

行为对齐的端到端BEV驾驶

基于基础模型的可泛化BEV感知

八、结论

发表回复 取消回复

Categories

Archives

发表回复取消回复