
论文链接:https://arxiv.org/pdf/2403.20116.pdf
代码链接:https://reachpranjal.github.io/lego-drive/
摘要
本文介绍了LeGo-Drive:语言增强的目标导向的闭环端到端自动驾驶。现有的视觉语言模型(VLMs)基于其丰富的场景理解,估计长期轨迹路径点或者一组控制行为,作为闭环规划的反应式解决方案。然而,这些估计是粗略的,并且受到其“世界理解”的影响,这可能由于感知误差而生成次优决策。
本文引入了LeGo-Drive,其旨在通过以端到端的方式基于给定的语言命令作为中间表示来估计目标位置,从而解决这个问题。估计的目标可能会落在一个不期望的区域,从而导致无法规划。因此,本文提出了以端到端的方式来训练架构,从而同时迭代优化目标和轨迹。本文通过在不同仿真环境中进行的综合实验来验证所提出方法的有效性。结果表明,在标准自动驾驶指标方面有明显改进,其目标是达到81%的成功率。本文进一步展现了LeGo-Drive在不同驾驶场景和语言输入中的多功能性,突出了其在自动驾驶汽车和智能交通系统中的实际部署潜力。
主要贡献
本文的主要贡献总结如下:
1)本文提出了一种新型的基于规划引导的端到端LLM的目标点导航解决方案,其通过与环境动态交互并且生成无碰撞轨迹来预测和改进所需状态;
2)本文通过不同的复杂指令进行大量的闭环实验,以测试所提出的模型在具有不同光照和天气条件的不同仿真环境下的效果。
论文图片和表格









总结
本项研究通过将自动驾驶作为一个目标点导航问题来求解,揭示了所提出的端到端方法与传统解耦方法相比具有显著优势。目标预测模块与基于微分优化器的轨迹规划器的联合训练突出了本文方法的有效性,从而提高了准确性并且改进了上下文感知的目标预测,最终实现了更平滑的无碰撞导航轨迹。此外,本文还展现了所提出模型对当前视觉语言模型的适用性,以实现丰富的场景理解,并且通过正确的推理来生成详细的导航指令。

发表回复