2024-12-04 清华提出BEV感知和强化学习融合方法：实现感知和决策的无缝衔接

端到端自动驾驶为传统模块化系统提供了一种简化的替代方案，将感知、预测和规划集成在一个框架内。虽然深度强化学习（DRL）最近在这一领域获得了关注，但现有方法往往忽视了DRL的特征提取和感知之间的关键联系。在本文中，作者通过将DRL特征提取网络直接映射到感知阶段来弥补这一差距，从而通过语义分割实现更清晰的解释。通过利用鸟瞰图（BEV）表示，作者提出了一种基于DRL的新型端到端驾驶框架，该框架利用多传感器输入来构建对环境的统一3D理解。这个基于BEV的系统提取关键环境特征并将其转换为DRL的高级抽象状态，从而促进更明智的控制。大量的实验评估表明，作者的方法不仅提高了可解释性，而且在自动驾驶控制任务中也明显优于最先进的方法，将碰撞率降低了20%。

图1｜基于深度强化学习构建感知驱动的端到端自动驾驶模型

端到端自动驾驶能够将感知、预测和规划统一为单一集成模型，为传统模块化方法提供了替代方案。与经典系统相比，其中感知、预测和规划的独立模块容易出现错误传播和计算复杂度高的问题。由于它可以大大减少手动规则代码的编写，端到端已逐渐成为智能网联汽车智能开发的主流趋势。

最近的进展已将深度强化学习（DRL）应用于端到端自动驾驶，其中系统将环境和车辆状态信息编码为高维潜在特征表示。从这些表示中，DRL代理输出用于自主导航的驾驶策略。然而，现有的研究通常将特征提取视为一个孤立的组件，而没有明确地将其连接到感知模块，这在传统驾驶系统中至关重要。在本文中，作者通过将DRL的特征提取网络映射到感知阶段来弥补这一差距，更重要的是，利用语义分割解码以结构化的方式解释提取的特征。

鸟瞰视图（BEV）表示已成为捕捉驾驶场景的有效手段，尤其是在城市环境中。BEV将多传感器输入整合到统一的三维空间中，提供对车辆周围环境的全面了解。在本文的框架中，BEV特征作为DRL策略的输入，该策略输出驾驶控制信号。虽然BEV提供了一种强大的特征表示方法，但提取这些特征并将其转换为适合DRL的抽象状态的过程仍然具有挑战性。为了克服这个问题，作者提出了一个富有表现力且高效的神经网络来从BEV输入中提取相关特征并将它们直接映射到自动驾驶系统的感知阶段。通过将语义分割纳入特征解码过程，作者旨在提供对环境的更清晰的解释，使DRL代理的决策更加透明和明智。

本文提出了一种基于DRL的端到端自动驾驶框架，该框架集成了BEV。该系统结合了面向不同方向的摄像头的输入，并构建了驾驶环境的BEV表示。神经网络模块旨在从BEV数据中提取显著特征，捕获有关周围环境和车辆自身状态的相关信息。然后将提取的BEV特征输入到DRL代理中，该代理学习直接从感官输入中解码适当的驾驶策略，而无需对环境进行显式建模。通过结合BEV表示，所提出的框架旨在为DRL代理提供对驾驶场景的更全面和结构化的理解，并增强代理推理环境和做出更明智决策的能力，从而提高自动驾驶性能。据作者调研，本文是第一个将BEV和深度强化学习相结合用于端到端自动驾驶的解决方案。

■3.1 传统模块化方法

传统的自动驾驶模块化方法由四个主要模块组成：感知、预测、规划和控制。每个模块都会影响整体性能。早期的感知模块依赖于传统的计算机视觉算法，例如边缘检测、角点检测和目标跟踪。基于传统机器学习的车辆轨迹预测方法包括卡尔曼滤波器、贝叶斯网络和马尔可夫方法。相比之下，深度学习方法通常使用长短期记忆（LSTM）编码器-解码器结构。规划模块分为全局和局部路径规划，为车辆的低级控制器计算轨迹点，控制模块根据驾驶轨迹生成安全可靠的实时指令。这种模块化设计的一个关键优势是它的可解释性；它将复杂的系统分解为独立但相互关联的模块，每个模块专注于一项特定的任务，使理解和分析变得更容易。

■3.2 深度强化学习方法

深度强化学习是一种强大而有效的方法，可以获得性能卓越的端到端自动驾驶策略。使用强化学习进行端到端自动驾驶的研究有很多。相关的文献提出了一个框架，旨在促进复杂城市自动驾驶环境中的无模型深度强化学习。也有文献提出在模拟环境中进行强化学习，以开发能够控制全尺寸真实车辆的驾驶系统。驾驶策略利用从单个摄像头捕获的RGB图像及其语义分割作为输入数据。最近也有人提出了一个全面的决策框架，融合了规划和学习的原则。这种融合利用蒙特卡洛树搜索和深度强化学习来应对环境多样性、传感器信息不确定性以及与其他道路使用者的复杂交互等挑战。

■3.3 自动驾驶可解释性

自动驾驶是一项高风险、安全至关重要的应用。可解释性结合了可解释性（人类可理解性）和完整性（详尽解释），对于用户和交通参与者信任和接受自动驾驶系统至关重要，研究人员还依靠可解释性来优化和提高驾驶算法的性能。随着端到端自动驾驶的发展，对可解释性的需求变得越来越重要。深度强化学习模型由多层和复杂的神经网络组成，通常使其决策过程和特征表示难以理解。视觉分析是增强这些模型可解释性的关键方法。本文提出了一种从鸟瞰图（BEV）进行的深度强化学习特征提取网络，将感知任务与特征解码和可视化相结合，提高了端到端自动驾驶算法的性能和可解释性。

端到端算法框架由于其更简洁的算法流程和更强的泛化性能，在自动驾驶领域引起了极大的关注。在之前的端到端自动驾驶方法的基础上，作者使用安装在汽车上的多个摄像头作为端到端自动驾驶算法的输出，输出控制油门、刹车和方向盘转角的控制信号。

▲图2｜提出框架的神经网络架构

■4.1 问题定义

■4.2 基于强化学习的自动驾驶

强化学习已被证明是解决部分可观马尔可夫决策过程的强大技术。通过将自动驾驶过程建模为POMDP，可以利用强化学习来得出最佳驾驶策略。在本文中，作者采用近端策略优化（PPO）算法作为核心强化学习方法。PPO以其在连续控制任务中的稳定性和效率而闻名，使其非常适合自动驾驶应用。本文提出的方法中的网络架构采用Actor-Critic架构，具体细节如图2所示。深度强化学习系统的输入不仅包括道路特征（如道路状况、车道标记等）、车辆特征（如速度、方向等）和导航特征，还包括来自环视摄像头的图像。每个观察都有一个单独的通道来提取特征，并且RNN捕获特征的时间依赖性。最后，将各通道的特征集中起来，交给评价网络和行动网络进行决策和估计。

道路特征和车辆特征的特征提取器网络基于MLP主干架构，环视摄像头图像的特征提取器网络基于名为SC Block的BEV特征提取网络。通过将BEV特征提取网络集成到行动网络中，作者基于DRL的自动驾驶系统对周围环境有了更清晰、更全面的了解，从而显著提高了决策性能。下一节将讨论BEV特征提取网络及其实现的细节。

■4.3 BEV特征提取网络

传统的图像特征提取算法通常在与输入图像相同的坐标系中处理，而无需坐标变换。然而，自动驾驶算法感知空间中的其他输入位于BEV空间坐标系中。不同的坐标系会导致特征融合过程中出现错误。该网络背后的核心思想是将原始图像数据转换为3D表示并将其投影到BEV网格中，该过程可分为两个主要步骤：Lift和Splat。

●Lift步骤

●Splat步骤

■4.4 潜在特征的语义分割

深度强化学习中的输入特征提取网络对算法的整体性能有显著影响，但其与最终结果的关系往往不明确。为了解决这个问题，作者使用语义分割解码和可视化中间特征，以评估本文提出的特征提取网络的性能。

语义分割是自动驾驶中的一项关键感知任务。它提供了必要的背景信息，使系统能够了解道路布局并识别行人、车辆和障碍物。在深度强化学习中，输入特征提取网络处理信息以得出额外的环境特征，与传统感知模块的目标保持一致。本文提出了一种解码机制，利用语义分割将提取网络中的潜在特征转换为可解释的输出。在本文中，作者利用语义分割来可视化BEV特征提取网络的性能。本文使用预先训练的ResNet作为语义分割的解码器主干网络。BEV特征提取网络输出的潜在特征首先经过卷积层进行简单的特征提取，然后由骨干网络进一步处理以获得更高级的特征。然后通过上采样和特征串联将低级特征组合在一起以保留空间信息，该网络可以有效地生成鸟瞰图语义分割结果。

图3｜强化学习训练过程中DRL与Ours-3方法的奖励函数变化曲线

为了验证鸟瞰空间中表征特征对基于强化学习的自动驾驶方法的性能，作者分别使用三台摄像机和六台摄像机测试了作者提出的两种基于BEV空间表征特征和强化学习的自动驾驶算法（Ours-3和Ours-6）。并与其他基于强化学习的自动驾驶算法（DRL和DRL-pan）进行了比较。

■5.1 实验设定

作者使用CARLA作为训练和测试自动驾驶算法的模拟器，自动驾驶汽车配备RGB摄像头来感知周围环境。

DRL方法配备了三个具有60度视野（FOV）的摄像头，可以观察前方180度内的图像。基于DRL方法，DRL-pan使用三个FOV为120度的摄像头，可以360度查看车辆周围环境。

Ours-3的摄像头设置与DRL-pan完全相同。Ours-6使用六个FOV为60的摄像头来查看车辆周围环境的360度视图。图3显示了以三个摄像头为输入的DRL方法和作者提出的方法在训练过程中奖励函数的变换。

作者选取CARLA中的Town03地图和拥堵程度较低的交通流，训练了四种基于强化学习的自动驾驶算法（DRL、DRLpan、Ours-3、Ours-6），低拥堵交通中有50名行人和50辆汽车。测试在CARLA的Town01 Town07中进行，低拥堵交通和高拥堵交通相结合。在自动驾驶过程中，如果发生碰撞，任务失败，反之，如果128步内没有发生碰撞，任务成功。自动驾驶的评估指标为碰撞率、相似度、时间步长和航点距离。碰撞率是指行驶过程中发生碰撞的概率，相似度是指行驶过程中车辆运动方向与当前车辆位置指向下一个规划路线航点方向的余弦相似度的平均值，时间步长是指驾驶任务成功或失败前的行驶时间，航点距离是指行驶过程中车辆位置与下一个规划路线航点之间距离的平均值。

表1｜在七种场景中评估低拥堵水平下的自动驾驶策略性能

5.2 不同地图下自动驾驶评估

为了全面评估本文提出的自动驾驶算法的性能，作者在Town03地图上训练了强化学习算法，并在Town01至Town07的7张地图上验证了算法的性能。结果如表II所示，作者的方法在大多数地图上取得了最佳结果，并且在碰撞率，相似度和时间步长三个指标上取得了平均水平。在7张地图的平均值上，与DRL方法相比，作者的-6降低了22％的碰撞率，提高了3％的相似度，并将时间步长提高了11.92。在航点距离上，作者的方法也在5张地图上取得了最佳结果。这有力地证明了BEV空间中的特征表示增强了强化学习代理的空间理解能力，从而大大提高了自动驾驶的性能。

出乎意料的是，DRL和DRLpan使用了相同的特征提取网络和相同数量的摄像机，使用更大视野摄像机的DRLpan方法可以比DRL获得更多的环境中的信息来辅助自动驾驶决策。然而，DRLpan方法在碰撞率、相似度和时间步长三个指标上比DRL方法差很多。实验间接证明了特征提取网络shufflenet的表达能力有限，从而限制了整体强化学习的性能。相反，当作者提出的方法分别使用3个摄像机和6个摄像机的输入时，摄像机数量的增加将大大提高整体自动驾驶算法的性能。

图4｜本文方法的可解释性的说明

■5.3 交通拥堵环境下自动驾驶评估

在高拥堵环境中，由于动态交通参与者数量的增加，自动驾驶系统的性能面临更大的挑战。为了评估本文提出的基于BEV的自动驾驶算法在这种情况下的稳健性，作者在各种CARLA地图上使用低和高交通密度进行了测试。高拥堵场景涉及100名行人和100辆车，与低拥堵设置相比，复杂性增加了一倍。这些实验的结果显示在表II中，其中将本文的算法（Ours-3和Ours-6）与基线方法（DRL和DRL-pan）进行了比较。正如预期的那样，由于遇到障碍物和其他交通参与者不可预测的行为的可能性更高，所有方法在高交通密度下的碰撞率都会增加。然而，作者提出的方法，特别是Ours-6，表现出明显更好的防撞能力。与DRL相比，Ours-6在测试地图上将碰撞率平均降低了18%，证明了即使在交通繁忙的情况下，BEV特征表示增强的空间理解也是有效的。

除了碰撞率之外，其他评估指标，如相似性、时间步长和航点距离，进一步说明了作者的方法在处理拥堵方面的卓越性能。Ours-6保持高度相似性，即使被众多其他车辆包围，也能确保车辆更精确地遵循计划路线。Ours-6实现的时间步长始终更长，表明该算法可以在长时间内成功穿越拥堵环境而不会发生碰撞。

最后，作者的方法的航点距离仍然很低，证明车辆在复杂的交通情况下更接近最佳路线。

表2｜评估七种场景下自动驾驶策略在高拥堵水平下的表现

■5.4 可解释性

为了评估本文提出的框架的可解释性，作者使用几个随机选择的采样帧进行了实验。图4显示了BEV特征提取网络获得的潜在变量的语义分段（鸟瞰图）解码结果。由于CARLA模拟器和nuScenes数据集之间的领域差距，单独对nuScenes进行预训练不能很好地推广到CARLA中的模拟环境。这些数据集之间的传感器配置、交通场景和环境动态的差异可能会导致转移到新领域时解码精度较差。图4显示，使用深度强化学习对模型进行微调后，解码质量得到显著提高。微调使模型适应CARLA环境的特定特征，使其能够生成更清晰、更准确的BEV掩码。这些掩码有效地捕捉了物体和障碍物的空间布局，为决策过程提供了可解释的见解。

本文中提出了一种用于自动驾驶的新型端到端控制框架，该框架利用基于DRL的方法来集成感知和控制。作者的方法采用BEV特征提取网络将视觉输入转换为潜在特征，然后使用语义分割对其进行解码以提高可解释性。作者通过将问题构建为部分可观察的马尔可夫决策过程来解决部分可观察性的挑战，从而增强了系统在环境数据不完整的情况下进行明智控制的能力。作者的方法通过提供强大的特征提取和解释机制，展示了自动驾驶的重大进步。它不仅提高了端到端控制策略的可解释性，还有助于使自动驾驶系统更加透明和可靠。未来的工作将侧重于改进深度预测和摄像头参数集成，以提高BEV特征提取的准确性和稳健性。此外，作者计划探索现实世界的实现，以评估本文的方法在不同驾驶环境中的实际可行性。

2024-12-04 清华提出BEV感知和强化学习融合方法：实现感知和决策的无缝衔接

发表回复取消回复

Categories

Archives

2024-12-04 清华提出BEV感知和强化学习融合方法：实现感知和决策的无缝衔接

发表回复 取消回复

Categories

Archives

发表回复取消回复