原文链接:https://mp.weixin.qq.com/s/6l41wPaKIMtgiCzTpdfvRg
- 论文链接:https://arxiv.org/pdf/2505.06737
摘要
本文介绍了用于自动驾驶中强化学习的风险感知目标。由于强化学习(RL)具有强大的决策能力,因此它是实现自动驾驶的一种有前景的方法。RL通过在交通场景中的试错来学习驾驶策略,这由结合驾驶目标的奖励函数来引导。该奖励函数的设计目前没有得到足够重视,从而导致奖励定义不明确以及存在各种隐患。特别地,安全性一直仅作为对碰撞的惩罚。这使得与导致碰撞的行为相关的风险无法解决,限制了RL在现实世界场景中的适用性。为了解决这些缺陷,本项工作着重于通过定义一组驾驶目标并且对其进行分层结构化来改进奖励函数的设计。此外,本文还讨论了以归一化的方式来设计这些目标,以确定其对整体奖励的贡献。本文基于两维椭圆函数和责任敏感安全性(RSS)概念的扩展,为各种驾驶交互引入了一种新的风险感知目标。本文评估了所提出的奖励在具有不同交通密度的无信号交叉路口场景中的有效性。本文方法相比于基线奖励将碰撞率平均降低了21%,并且在路线进度和累积奖励方面始终优于基线奖励,这证明了其在维持高性能的同时促进更安全驾驶行为的能力。
主要贡献
本文的主要贡献总结如下:
1)目标的分层结构化:本文引入了一种结构化奖励函数,它将驾驶目标分层地组织为有向图;
2)改进目标设计:本文为每个驾驶目标提出了细化且归一化的表示,以提高互操作性和可比性;
3)风险感知目标:本文开发了一种驾驶风险目标,它通过两维的椭圆模型来结合几何和动态风险因素。
论文图片和表格






总结
本文引入了一种分层奖励函数来增强自动驾驶中的强化学习(RL),它提供了一种结构化的方法来平衡安全性、进度、舒适性和规则服从性。奖励函数采用归一化的目标和系统性的权重设置方法,确保了在管理驾驶任务中固有的冲突目标方面的透明度和可扩展性。本文方法的一项关键贡献为风险感知目标,它结合了最坏情况分析和两维的椭圆函数来建模交互的几何和动态方面,使智能体能够有效地预测和减轻风险。本项工作进一步详细介绍了椭圆参数如何适应驾驶场景中常见的各种交互类型。本文通过在奖励结构的不同子集上训练DQN智能体来评估所提出的奖励函数的影响。结果表明,驾驶风险目标显著增强了智能体的风险感知能力和驾驶行为,同时保持了高效的进度,这展现了其推进安全且可靠驾驶智能体的潜力。

发表回复