2023-12-25 自动驾驶感知融合原理浅析-BEVFormer

BEVFormer，基于Transformer及可变注意力机制(Deformable Attention)等，利用多相机图像的空时域(SpatioTemporal)信息对自动驾驶车辆周边场景进行统一鸟瞰图(BEV，Bird’s-Eye-View)表示，以支持三维检测、地图分割等三维视觉感知任务及规划的BEV生成框架。

BEVFormer

一、模型框架

BEVFormer框架主要包括6个编码器层(Encoder Layers)，每个编码器基于Transformer标准定义增加鸟瞰图查询(BEV Queries)、空域交叉注意力(Spatial Cross-Attention)及时域自注意力(Temporal Self-Attention)模块。

BEV查询(BEV Queries)特征信息量，通过注意力机制从多个相机的视图查询BEV空间特征。

空域交叉注意力(Spatial Cross-Attention)模块，BEV查询特征信息量可用该模块从多个相机的视图中查询、聚合与BEV相关的空间特征。

时域自注意力(Temporal Self-Attention)模块，BEV查询特征信息量，可用该模块从历史BEV特征信息中查询、聚合与BEV相关的时域特征。

推理流程。

在t时刻，多个相机的图像通过ResNet-101等骨干网络(Backbone Network)获得不同相机视图像的特征。

编码器层(Encoder Layer)基于时域自注意力(Temporal Self-Attention)模块，利用BEV查询(BEV Queries)特征信息量从历史BEV特征信息中查询相关的时域信息。

编码器层基于空域交叉注意力(Spatial Cross-Attention)模块，利用BEV查询(BEV Queries)特征信息量从多个相机的特征图中获取相关的空域信息。

编码器层执行前馈网络计算，输出时域及空域注意力等BEV特征信息，作为下一编码器层的输入。

编码器栈生成t时刻的BEV特征后，分别基于三维检测Head、地图分割Head预测三维目标边框及语义地图。

二、BEV查询特征量(BEV Queries)

BEVFormer查询特征信息量Q，对应预定义的一组网格状可学习参数(Grid-Shaped Learnable Parameters)。特征量形状，H*W*C，H、W对应BEV平面空间高、宽，C表示特征维度。

单元查询特征量，Qp，位于BEV查询特征量的p(x,y)位置，对应于BEV平面空间的网格单元区域(Grid Cell Region)。每个网格单元对应现实空间s米。BEV查询特征量的中心对应现实空间的车辆位置。

三、空域交叉注意力(SCA，Spatial Cross-Attention)

1、模块定义

基于可变注意力(Deformable Attention)模块改进的可用于三维场景的注意力机制，利用每个BEV单元查询特征量(Qp)与相机视图中的兴趣区域进行注意力计算。

将BEV查询特征量平面的每个单元查询特征量提升(Lift)为柱状单元查询特征量(Pillar-Like Query)，从柱状单元采样三维参考点，投影到二维视图，形成单元查询特征量(Qp)的二维参考点。

投影后的二维点所在的视图中，围绕这些二维参考点进行特征采样。

对采样的特征进行加权和计算，得到空域交叉注意力。

空域交叉注意力定义。

DeformAttn，可变注意力机制，用于计算BEV单元查询特征量与相机视图参考点的关联度。

P(p,i,j)，投影函数，用于计算第i个相机视图的第j个参考点。

Ft，t时刻的相机视图特征。上标i表示第i个相机t时刻的视图特征。

Nref，每个BEV单元柱查询特征量对应的三维参考点数量。

Vhit。BEV单元柱查询特征量对应的三维参考点投影到的相机的二维视图。

2、参考点计算

计算以车辆位置为坐标原点，位于BEV查询特征量p(x，y)位置的BEV单元查询特征量(Qp)在现实空间中的位置(Real World Location)。

在BEV查询特征量的z轴垂直方向选Nref个z坐标(z’)，形成Nref个三维参考点(x’，y’，z’)。

通过相机的投影矩阵将Nref个三维参考点(x’，y’，z’)投影到二维视图，得到投影后的二维参考点坐标。

四、时域自注意力(TSA，Temporal Self-Attention)

基于可变注意力(Deformable Attention)模块及历史BEV特征信息可表示当前环境的注意力机制。

时域自注意力定义。

DeformAttn，可变注意力机制，用于计算BEV单元查询特征量与BEV查询特征量、对齐后的历史查询特征量的关联度。

Q，t时刻的BEV查询特征量。

Bt-1，t-1时刻的BEV特征量。

B’，基于汽车运动对Bt-1与Q进行对齐后的特征量。对齐的目的在于使同一网格的特征对应现实空间中的相同的位置。

∆p，时域自注意力偏移，可通过Q及对齐后的BEV特征量(B’)预测。

五、任务端(Task Heads)

1、检测端(Detection Head)

基于二维可变检测器(Deformable DETR，Detection Transformer)改进的三维检测器，利用单尺度(Single-Scale)BEV特征信息量(Bt)作为解码器输入，预测三维边框及速度。利用L1损失函数监督三维目标边框回归，不需非最大值抑制(NMS，Non Maximum Suppression)计算。

2、分割端(Segmentation Head)

基于二维全景分割器(Panoptic SegFormer)实现地图分割。

分割端框架。

Deformable DETR

可变检测器，基于Transformer及多尺度(Multi-Scale)可变注意力模块，融合可变卷积模块的稀疏空域采样特性以提高目标检测性能的检测器框架。

可变注意力模块框架。

框架图左侧，目标单元查询特征信息量zq，参考点pq，编码器输出的特征图；居中，多端(Head)情况，目标查询量通过交叉注意力机制(去掉Softmax)得到注意力点相对于参考点的偏移量∆pmqk，特征图参考点进行位置及偏移加权得到位置加权特征值；右侧，多端情况，目标查询量通过交叉注意力机制得到QK注意力权重Amqk，Amqk与位置加权特征值聚合得到聚合采样值(Aggregated Sampled Values)，对特征值进行加权计算。

可变注意力机制定义。

DETR

DETR，基于Transformer(Encoder-Decoder)框架，通过基于集合(Set)的匈牙利损失函数(Hungarian Loss)及二分图匹配法(Bipartite Matching)直接计算、预测目标边框。

模型框架。

BEVFormer基于Transformer、多相机视图及可变注意力机制实现自动驾驶BEV视图，改进了目标检测及地图分割等方法。

参考:

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers.

2023-12-25 自动驾驶感知融合原理浅析-BEVFormer

发表回复取消回复

Categories

Archives

2023-12-25 自动驾驶感知融合原理浅析-BEVFormer

发表回复 取消回复

Categories

Archives

发表回复取消回复