2024-08-14【同济大学和香港中文大学】混合交通中自动驾驶汽车变道的人类反馈强化学习

论文链接:https://arxiv.org/pdf/2408.04447

摘要

本文介绍了混合交通中自动驾驶汽车变道的人类反馈强化学习。新兴的自动驾驶领域需要自动驾驶汽车(AVs)与人类驾驶汽车无缝集成,其要求更可预测的AV行为以及增强与人类驾驶员的交互。由于类人驾驶(特别是高速公路上的变道行为)对安全性和交通流具有重大影响,因此这是一个关键的研究领域。传统的基于规则的决策方法往往无法概括不同驾驶场景中人类行为的细微差别,而为基于学习的方法设计奖励函数则会引入复杂性。本文研究了人类反馈强化学习(RLHF)模仿自动驾驶汽车中类人变道决策的应用。初始的RL策略经过预训练,以确保安全变道。随后,该策略被用于采集数据,然后由人类对数据进行标注,以训练奖励模型,该模型能够辨别与人类偏好一致的变道。这种基于人类信息的奖励模型取代了原始的奖励模型,引导策略优化以反映类人偏好。本文通过开发和评估障碍物丰富环境和混合自主交通场景中保守和激进的变道模型,证明了RLHF在产生类人变道方面的有效性。实验结果突出了RLHF在使自动驾驶汽车变道行为多样化方面的潜力,表明其在增强自动驾驶汽车融入人类驾驶交通结构方面的可行性。

主要贡献

本文的主要贡献总结如下:

1)本文将类人变道问题转换为马尔可夫决策过程(MDP);

2)本文利用人类反馈强化学习(RLHF)算法来微调变道决策,以改进策略;

3)本文在仿真平台内验证了RLHF在避障和混合自主交通场景中的有效性。

论文图片和表格

总结

本文提出了一种用于道路网络中车辆变道决策的模型。本文使用RLHF来理解和建模真实的人类偏好,这些偏好用于拟合奖励模型来引导RL的训练。本文的目标是实现类似人类的自动驾驶汽车变道决策。本文使用SUMO平台对两种不同的场景进行实验,即避障和混合自主交通。通过预训练的变道模型,本文采集保守和激进的人类标注数据,使用LSTM算法训练奖励模型,然后通过PPO算法对其进行微调,以分别获得保守和激进的RLHF模型。本文通过实验结果中车辆变道决策风格的不同偏好,验证了RLHF方法的有效性。

本项工作可以在若干个方向上扩展。首先,考虑在实车实验中进一步测试该算法的有效性。其次,将RLHF扩展到其它复杂的场景中,例如十字路口处自动驾驶汽车的决策。第三,将模型扩展到多智能体交互领域。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论