原文链接:https://mp.weixin.qq.com/s/fMNgstvSkaELUqvS4jM24Q
UniLION 震撼发布,由香港大学、华中科技大学和百度联合研发。这一创新的统一自动驾驶框架通过线性组 RNN 技术,成功解决了处理大规模点云数据和多视角图像时的计算效率问题,为自动驾驶领域带来了全新的技术范式。
摘要
尽管 Transformer 在各个领域展示了卓越的能力,但其二次方复杂度的注意力机制在处理长序列数据时引入了显著的计算开销。本文提出了一种统一的自动驾驶模型 UniLION,它基于线性组 RNN 运算符(即对分组特征执行线性 RNN)高效处理大规模 LiDAR 点云、高分辨率多视角图像,甚至时序。值得注意的是,UniLION作为单一多功能架构,且无需显式的时序或多模态融合模块,便可无缝支持多种不同设置(即LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temporal LiDAR-Camera)。
此外,UniLION 在广泛的核心任务中持续提供具有竞争力甚至最先进的性能,包括 3D 感知(如 3D 物体检测、3D 物体跟踪、3D 占用预测、BEV 地图分割)、预测(如运动预测)和规划(如端到端规划)。这种统一的范式自然简化了多模态和多任务自动驾驶系统的设计,同时保持卓越的性能。最终,我们希望 UniLION 能为自动驾驶领域的 3D 基础模型开发提供全新视角。
项目链接:https://github.com/happinesslz/UniLION
项目简介
UniLION 是一种基于线性组RNN(也可以看作为linear attention)的统一自动驾驶模型,它能够高效处理大规模 LiDAR 点云、高分辨率多视角图像和时间序列数据。UniLION作为单一多功能架构,且无需显式的时序或多模态融合模块,便可无缝支持多种不同设置(即LiDAR-only、Temporal LiDAR、LiDAR-Camera和Temporal LiDAR-Camera)。
研究背景与挑战
当前自动驾驶系统在处理多模态数据和时序信息时面临以下挑战:
- 计算效率问题:传统的 Transformer 模型在处理长序列数据时,其二次方复杂度的注意力机制引入了显著的计算开销。
- 多模态融合复杂性:现有方法通常需要专门设计的融合模块来整合来自不同传感器的信息,增加了系统的复杂性。
- 时序信息处理:有效地处理和整合时序信息对于准确的环境感知和预测至关重要,但这通常需要额外的专用模块。
- 多任务学习难度:在单一框架中同时处理感知、预测和规划等多种任务具有挑战性,往往需要复杂的架构设计。

UniLION 的创新点
UniLION 展现出四个显著特点:
- 统一的 3D 骨干网络:基于线性组 RNN,UniLION 提供了一个统一的 3D 骨干网络,能够无缝处理不同模态和时序信息,无需任何显式融合模块。
- 线性计算复杂度:利用线性组 RNN 的线性计算复杂度,直接将多视图像、LiDAR 点云和时序信息,直接转成token进行拼接(类似VIT形式),在3D空间中进行统一的融合,消除了对显式融合模块的需求。
- 紧凑统一的 BEV 表示:UniLION 能够将异构多模态信息和时间序列压缩成紧凑、统一的鸟瞰图 (BEV) 特征表示,作为多种下游任务的共享特征。
- 多任务并行学习:UniLION采用多任务共享的 BEV,能够通过并行多任务学习,无缝处理感知、预测和规划等多种自动驾驶任务。
技术架构

UniLION Block
UniLION Block 是 UniLION 架构的核心组件,它由以下部分组成:
- UniLION Layer:利用线性组 RNN 操作符实现长距离特征交互。每个 UniLION Layer 包含两个线性组 RNN 操作符,分别基于 X 轴和 Y 轴窗口划分执行特征交互,从而获得更充分的特征表示。
- 3D 空间特征描述器:解决将 3D 体素特征展平为 1D 序列时可能丢失的空间信息问题。该描述器由 3D 子流形卷积、LayerNorm 层和 GELU 激活函数组成,为 UniLION Layer 提供丰富的 3D 局部位置感知信息。
- 体素合并与体素扩展:体素合并用于特征下采样,体素扩展用于特征上采样,使网络能够获取多尺度特征。这些操作专为高度稀疏的点云数据设计,解决了不规则数据格式的处理问题。
- 自回归体素生成:通过利用线性组 RNN 的自回归能力,在前景体素周围生成扩散体素,解决体素合并可能导致的信息丢失问题。该策略通过沿不同方向扩散选定的前景体素,并利用 UniLION Block 的自回归能力有效生成扩散特征。
UniLION Block 采用层次化结构,能够更好地提取多尺度特征,为下游任务提供丰富的特征表示。

统一特征表示 (Unified Feature Representation)
与传统方法不同,UniLION 不需要额外设计的融合模块来实现多模态或时序融合。其统一特征表示能力主要体现在以下两个方面:
多模态特征学习:
- LiDAR 点云提供精确的几何结构,而相机图像贡献丰富的语义外观信息,两者在自动驾驶场景中展现出强互补性。
- UniLION 首先将点云量化为体素,并使用体素特征编码器(VFE)提取 LiDAR 体素特征。
- 对于多视角图像,采用图像骨干网络提取特征,并通过深度预测网络将图像特征转换为相机体素特征。
- 将 LiDAR 体素特征和相机体素特征连接,生成多模态体素特征,并通过体素合并策略处理重叠的多模态体素。
- 最终将合并后的多模态体素直接输入 UniLION 3D 骨干网络,在 3D 空间中进一步提取多模态特征。
时序特征学习:
- 时序信息对自动驾驶系统的准确运动预测和轨迹规划至关重要。
- 对于当前帧的多模态体素,UniLION 从时序记忆库中获取历史多模态体素(如果可用)。
- 使用数据集提供的变换矩阵进行空间对齐,确保跨时间帧的空间一致性。
- 将历史体素和当前体素连接构建时序体素,并采用体素合并策略处理跨时间帧可能占据相同 3D 位置的多个体素。
- 直接将合并后的体素输入 UniLION 3D 骨干网络,自适应学习时序信息。
通过线性组 RNN 强大的长距离建模能力,UniLION 能够将多视角图像、LiDAR 点云和时间信息整合到统一的 3D 骨干网络中,无需额外的融合模块,为下游任务提供紧凑统一的特征表示。

动态多任务损失 (Dynamic Multi-task Loss)

实验结果与分析
UniLION在多种自动驾驶任务上展现出卓越的性能,通过一系列实验验证了其有效性、鲁棒性和灵活性。
整体性能表现
UniLION在nuScenes数据集上的实验结果表明,它在3D物体检测、多目标跟踪、BEV地图分割和3D占用预测等任务上均达到了具有竞争力甚至最先进的性能。基于Swin-Tiny图像骨干网络的UniLION的多模态版本模型,在3D物体检测上达到了74.9% NDS和72.2% mAP,在多目标跟踪上达到了76.2% AMOTA,在BEV地图分割上达到了72.3% mIoU,在3D占用预测上达到了50.8% RayIoU。对于最强的时序多模态UniLION,在所有评估任务中均达到了最先进或极具竞争力的性能表现:检测任务达到75.4% NDS和73.2% mAP,跟踪任务达到76.5% AMOTA,地图分割达到73.3% mIoU,占用预测达到51.3% RayIoU,车辆运动预测达到0.57 minADE,行人运动预测达到0.37 minADE,以及规划任务中极低的0.18%碰撞率,值得注意的是,我们在规划任务中没有使用自车状态信息。

不同图像骨干网络的影响
我们提供了一个轻量级版本的UniLION,采用ResNet-50作为图像骨干网络,图像分辨率为256×704。与基础模型(使用Swin-tiny作为图像骨干网络,分辨率为384×1056)相比,轻量级版本仍然获得了令人满意的性能:73.6% NDS、70.8% mAP(3D检测)、75.0% AMOTA(多目标跟踪)、71.8% mIoU(地图分割)和50.2% RayIoU(3D占用)。这表明即使在计算资源受限的情况下,UniLION也能保持良好的性能。
不同线性RNN操作符的灵活性
为了验证框架的灵活性,我们评估了另一种代表性的线性RNN操作符RWKV。虽然UniLION-RWKV的性能略低于UniLION-Mamba,但它仍然在多个自动驾驶任务上取得了优异的结果,有效地证明了我们框架的灵活性。在使用Swin-Tiny时,与RWKV相比,UniLION使用Mamba产生了一致的性能提升(0.6% NDS、0.8% mAP、1.1% AMOTA、0.3% mIoU和0.9% RayIoU)。

组件消融研究
我们对UniLION的各个组件进行了消融研究,包括3D空间特征描述器和体素生成模块:
- 3D空间特征描述器:将3D空间特征描述器集成到基线模型中,带来了显著的性能提升(0.7% NDS、0.8% mAP、1.9% AMOTA、0.5% mIoU和1.1% RayIoU)。这证明了所提出的3D空间特征描述器在补偿线性RNN有限的空间建模能力方面的有效性。
- 体素生成模块:体素生成模块通过增强前景体素特征表示,相比基线模型提升了0.6% NDS、1.1% mAP、2.7% AMOTA、0.1% mIoU和0.3% RayIoU的性能。
- 组件组合:当所有组件结合使用时,UniLION达到了73.6% NDS、70.8% mAP、75.0% AMOTA、71.8% mIoU和50.2% RayIoU,相比基线模型分别提升了0.7% NDS、1.8% mAP、3.1% AMOTA、1.6% mIoU和1.8% RayIoU。

动态损失机制的有效性
动态损失机制在大多数任务上带来了一致的性能提升:检测任务提升了0.3% NDS,跟踪任务提升了0.9% AMOTA,地图分割任务提升了0.6% mIoU。然而,我们观察到3D占用预测任务性能略有下降。这可能是因为动态损失机制鼓励UniLION优先考虑整体任务平衡,这可能会以牺牲个别任务优化为代价,特别是对于占用预测任务。

多任务学习的影响
我们研究了联合训练对不同任务性能的影响。当联合训练3D检测和地图分割任务时,地图分割任务的性能显著提升(71.7% mIoU vs. 68.3% mIoU)。当进一步加入占用预测任务时,模型在检测任务上性能略有下降,但在占用预测任务上获得了2.7% RayIoU的显著提升,这表明检测任务通常可以增强3D占用估计能力。总体而言,我们的联合训练方法相比单任务模型达到了可比甚至更优的性能,证明了UniLION 3D骨干网络提取的紧凑BEV特征表示的有效性。

窗口大小和组大小的鲁棒性
UniLION的一个基本优势在于通过线性RNN实现长距离依赖建模的能力。为了评估我们方法的泛化能力和参数敏感性,我们对不同窗口大小和组大小进行了全面的鲁棒性分析。实验表明,UniLION在不同窗口和组大小配置下表现出显著的稳定性和一致性能。这表明UniLION具有良好的外推能力,不过度依赖手工设计的先验知识。

传感器错位的鲁棒性
传感器错位问题可能出现在大多数自动驾驶系统中。因此,探索对传感器错位的鲁棒性对于确保自动驾驶系统的安全至关重要。我们模拟了LiDAR和相机模态之间的传感器错位,具体而言,”低”、”中”和”高”错位级别分别表示相机外参矩阵沿垂直方向旋转1.5°、3.0°和5.0°,并平移0.15m、0.30m和0.50m。
在低错位级别下,UniLION在不同任务上保持了与对齐模型相当的性能。此外,即使在高错位级别下,我们的UniLION也仅出现了适度的性能下降(0.8% NDS、1.3% mAP、1.0% AMOTA、0.3% mIoU和1.4% RayIoU),展示了强大的鲁棒性。值得注意的是,尽管存在相机-LiDAR错位,多模态UniLION仍然始终优于仅使用LiDAR的UniLION。这些实验有力地证明了UniLION对传感器错位挑战的鲁棒性。

计算效率分析
UniLION通过线性组RNN的线性计算复杂度,显著降低了计算资源需求和推理时间。与基于Transformer的方法相比,UniLION在处理大规模点云数据和高分辨率多视角图像时展现出更高的计算效率,同时保持了卓越的性能。这使得UniLION更适合实际自动驾驶系统的部署,特别是在计算资源受限的环境中。

结论
通过上述实验结果和分析,我们证明了UniLION作为一种统一的自动驾驶框架的有效性、鲁棒性和灵活性。它不仅能够在多种自动驾驶任务上达到具有竞争力甚至最先进的性能,而且具有良好的计算效率和对传感器错位的鲁棒性。这些特性使UniLION成为一个有前途的自动驾驶基础模型,为未来的研究和应用提供了新的可能性。
主要贡献
- 统一的多模态处理:基于线性组 RNN 的卓越长程建模能力和线性计算复杂度,UniLION 能够将多视角图像、LiDAR 点云和时间信息整合到统一的 3D 骨干网络中,消除了通常需要的手工设计融合模块。
- 紧凑统一的特征表示:UniLION 有效地将异构多模态信息和时间序列压缩成紧凑、统一的鸟瞰图特征表示,作为无缝处理多种感知、预测和规划任务的通用基础。
- 卓越的多任务性能:UniLION 在 3D 感知(3D 物体检测、3D 物体跟踪、占用预测、地图分割)、预测(运动预测)和规划(端到端规划)任务上达到了具有竞争力甚至最先进的性能,突显了我们方法在应对自动驾驶挑战方面的通用性和有效性。
- 计算效率优势:UniLION 通过线性组 RNN 的线性计算复杂度,显著降低了计算资源需求和推理时间,使其更适合实际自动驾驶系统的部署。
未来展望
作为一种统一的自动驾驶框架,UniLION 为自动驾驶领域的 3D 基础模型开发提供了全新视角。我们期待这种统一框架能够简化多模态和多任务自动驾驶系统的设计,同时保持卓越的性能,为未来的研究和应用带来新的可能性。
在未来的工作中,我们计划进一步探索:
- 扩展支持更多传感器模态:将 UniLION 扩展到支持更多传感器类型,如毫米波雷达、超声波等,进一步增强其感知能力。
- 实际系统应用验证:将 UniLION 应用于实际自动驾驶系统,验证其在真实世界中的有效性和鲁棒性。
- 大规模预训练:探索在更大规模数据上进行预训练,进一步提升 UniLION 的泛化能力和表现。

发表回复