2025-06-25 端到端自动驾驶成共识:BEV+Transformer重构技术路线

原文链接:https://kjj.hebi.gov.cn/ztzl/kpzl/art/2024/art_aa6282633a50461a82411bd78fa041f8.html

城市NOA(从高速到城区)成为自动驾驶新的战场,各车企纷纷发布新产品、立下新目标,要在高阶辅助驾驶的赛场上大展身手。感知模块作为自动驾驶流程中的第一环,也是将物理世界与车机大脑相连接的重要一环。如何让汽车像人类一样,将“眼前所看”转化为“脑中所想”,进一步变成“所作所为”,对于算法模型有很大的考验。基于Transformer模型的BEV技术成为当下的热门选择。

一、BEV+Transformer定义

BEV即鸟瞰图视角,是自动驾驶跨摄像头和多模态融合背景下的一种视角表达形式。

它的核心思想是将传统自动驾驶2D图像视角加测距的感知方式,转换为在鸟瞰图视角下的3D感知。从实现任务来说,BEV的核心是将2D图像作为输入,最终输出一个3D的框架,在这个过程中,如何将不同传感器的特征实现最优表达是难点。

目前行业有两种常见的方式,一种是正向思维,采用自底向上、从2D到3D的方式,先在2D视角去每个像素的深度,再通过内外参投影到BEV空间,通过多视角的融合生成BEV特征,但对深度的估计一直都是难点。

另一种方法是逆向思维,采用自顶向下、从3D到2D的方式,先在BEV空间初始化特征,在通过多层Transformer与每个图像特征进行交互融合,最终再得到BEV特征。因为Transformer的存在,使得“逆向思维”成为了可能。

Transformer是一种基于注意力机制的神经网络模型,由谷歌在2017年提出。与传统神经网络RNN和CNN不同,Transformer不会按照串行顺序来处理数据,而是通过注意力机制,去挖掘序列中不同元素的联系及相关性,这种机制使得Transformer可以适应不同长度和不同结构的输入。

二、为什么需要基于Transformer的BEV

基于需要达到识别准,精度高,方便和激光、毫米波雷达做前融合等条件,具体延展来看,BEV可以带来四大优势。

第一,BEV视角下的物体,不会出现图像视角下的尺度和遮挡问题。由于视觉的透视效应,物理世界物体在2D图像中很容易受到其他物体遮挡,2D感知只能感知可见的目标,而在BEV空间内,算法可以基于先验知识,对被遮挡的区域进行预测。

第二,将不同视角在BEV下进行统一表达,能极大方便后续规划和控制任务。主流规划和控制算法,不论上游传感器信息来自什么视角,经过融合之后,都会转换到以自车为中心坐标系中(Vehicle Coordinate System,VCS),对VCS来说,最适合的其实就是BEV视角,也就是BEV感知结果输出的空间是规划和控制任务的标准输入。

第三,BEV能够给系统带来巨大的提升。摄像头感知算法工作在2D空间,而雷达感知算法工作在3D空间,在对2D与3D几何关系融合过程中,会丢失大量的原始信息,采用BEV感知系统中,摄像头、激光雷达、毫米波雷达感知均在BEV空间中进行,融合过程提前。BEV还可以引入过去时间片段中的数据,实现时序融合,最终使感知效果更加稳定、准确。

第四,BEV能够实现端到端优化。感知任务中的识别、跟踪和预测本质是一个串行系统,系统上游误差会传递在下游误差,在BEV空间内,感知和预测都在同一个空间进行,可以通过神经网络做到端到端的优化,输出“并行”结果,而整个感知网络可以以数据驱动方式来自学习,实现快速迭代。

可以理解为,BEV可以实现将360度环视的时间、空间融合,再加上Transformer架构可以输出静态的车道线、红绿灯、道路边缘信息等,以及动态的有行人、两轮车、汽车等,同时还应用了端到端的预测能力,结合时序帧能对周边的车辆做未来3-6秒的轨迹预测。这也意味着,端到端的算法有了闭环的希望。

三、BEV+Transformer劣势

一是Transformer模型体量惊人,其运算还会消耗大量的存储及带宽空间,对芯片来说,除了需要进行相应算子适配以及底层软件优化外,在SOC(System On Chip)层面需要对缓存和带宽要求进行增加。二是基于Transformer模型需要海量数据,会使得汽车数据采集、训练、标注的成本大幅度上升。

四、行业进展

特斯拉是第一个在工业界采用BEV+Transformer进行视觉感知任务的企业。在其感知任务中,首先利用主干网络对各个摄像机进行特征提取,再利用Transformer将多摄像机数据从图像空间转化为BEV空间。在这个空间里面,通过深度学习去完成一个特征的融合,然后再通过一个3D的解码器,直接端到端输出最后的一个3D检测和道路结构信息,这样下游的规划与控制直接可以在BEV的空间上去进行。

基于以上实践,众多车企以及智驾供应商都开始尝试BEV+transformer,车企里的代表比亚迪、蔚来、理想、小鹏、华为;智驾供应商里面的百度Apollo、毫末智行、地平线、小马智行、轻舟智航等等。其中,极越01已经实现了“BEV+Transformer”的“纯视觉”方案的量产,成为国内唯一量产“纯视觉”智驾方案的厂商。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论