原标题:CarLLaVA: Vision language models for camera-only closed-loop driving
论文链接:https://arxiv.org/pdf/2406.10165
展示视频:https://www.youtube.com/watch?v=E1nsEgcHRuc&feature=youtu.be
作者单位:Wayve 图宾根大学 图宾根人工智能中心
Outstanding Champion & Innovation Award @ CARLA Autonomous Driving Challenge 2024

论文思路:
在这份技术报告中介绍了CarLLaVA,这是一种用于自动驾驶的视觉语言模型(VLM),专为CARLA Autonomous Driving Challenge 2.0开发。CarLLaVA使用LLaVA VLM的视觉编码器和LLaMA架构作为骨干,仅依靠相机输入,无需复杂或昂贵的标签,即可实现最先进的闭环驾驶性能。此外,本文还展示了预测驾驶输出时的语言评论的初步结果。CarLLaVA采用了一种半解耦的输出表示方式,既包含路径预测(path predictions)也包含航点(waypoints),从而在横向控制上利用路径的优势,在纵向控制上利用航点的优势。本文提出了一种高效的训练方法,可以在大规模驾驶数据集上训练,而不会在简单、琐碎的数据上浪费计算资源。CarLLaVA在CARLA Autonomous Driving Challenge 2.0的传感器赛道上名列第一,表现超过之前的最先进方法458%,并且比最佳的同期提交高出32.6%。
论文设计:
自动驾驶领域的趋势正在转向端到端解决方案,这一点在最近的工业进展和CARLA Leaderboard 1.0上的最先进性能中得到了体现。CARLA Leaderboard 1.0上大多数表现优异的条目依赖于昂贵的LiDAR传感器,唯一的例外是TCP,它采用的是仅依靠相机的方法。此外,多任务学习已经成为提高性能的常见策略。然而,这需要获取诸如鸟瞰图语义、深度或语义分割等标签,这些在现实世界中获取成本高昂。这使得从使用模拟器的研究中获得的洞察难以以可扩展和经济高效的方式迁移到真实世界的驾驶中。相比之下,CarLLaVA仅依赖于常见且易于获取的驾驶数据,如相机图像和驾驶轨迹,是一种仅依靠相机的方法。
此外,大多数最先进的CARLA方法使用的是在ImageNet上预训练的ResNet风格的骨干网络。然而,最近在预训练技术方面的进展,如CLIP、MAE和DINO,已经展示了使用Vision Transformers (ViTs) 相较于传统的CNN编码器在特征学习方面的优势。此外,最先进的视觉语言模型(VLMs)通过微调CLIP编码器,展示了细致的图像理解能力,表明存在强大的视觉特征。CarLLaVA利用了这一点,使用了LLaVA-NeXT的视觉编码器,该编码器在互联网规模的视觉语言数据上进行了预训练。尽管现代VLMs的规模在部署到实际车辆时可能被视为推理时间的一个问题,但最近的几项工作表明这是一个可以解决的工程问题。
在这份技术报告中,本文详细描述了本文的驾驶模型CarLLaVA,包括以下特性和优势:
- 仅使用相机且无需昂贵的标签:本文的方法仅使用相机输入,消除了对鸟瞰图(BEV)、深度或语义分割等额外昂贵标签的需求。这种无需标签的方法减少了对大量标注数据集的依赖,使其更容易在实际车辆上部署。
- 视觉语言预训练:本文的方法利用了在互联网规模的视觉语言数据上预训练的视觉编码器。本文证明了这种预训练可以有效地转移到驾驶任务上,与从驾驶数据中从头开始训练相比,驾驶性能得到了显著提升。
- 高分辨率输入:本文注意到,CLIP视觉编码器的默认分辨率不足以支持高质量驾驶。类似于LLaVA,本文将输入图像分割成小块,使VLM能够访问驾驶图像中的细节,如远处的交通信号灯和行人。与LLaVA不同的是,本文不使用小分辨率的全局块,以减少token的数量。
- 高效的训练方法:本文提出了一种高效的训练方法,更充分地利用有趣的训练样本,显著减少了训练时间。
- 半解耦的输出表示:本文提出了一种半解耦的(Semi-Disentangled)表示方式,包含时间条件的航点(waypoints)和空间条件的路径航点(path waypoints),从而实现更好的控制。

图1. CarLLaVA基础模型架构。(C1T1)图像被分割成两部分,每部分独立编码后再拼接,降采样并投射到一个预训练的大型语言模型中。输出采用了一种半解耦的表示方式,包含时间条件的航点和空间条件的路径航点,以实现更好的横向控制。
实验结果:

图2. 生成语言的定性示例。红色:预测路径,绿色:预测航点,蓝色:目标点。

表1. Leaderboard 2.0结果。CarLLaVA在排行榜上取得了最先进的性能。图例:L: LiDAR,C: 相机,R: 雷达,M: 地图,priv: privileged,OD: 目标检测(3D位置和姿态),IS: 实例分割,SS: 语义分割,D: 深度,BS: 鸟瞰图语义。

表2. 本文模型不同部分的消融实验,展示了半解耦输出表示的优越性以及正确的早停阈值对结果的重大影响。默认配置的得分以灰色突出显示。所有数字均为官方排行榜得分。


总结:
在这份报告中,本文介绍了CarLLaVA,它是2024年CARLA Autonomous Driving Challenge 2.0的获胜作品。CarLLaVA利用了视觉语言预训练,仅使用相机图像作为输入。通过采用半解耦的输出表示和高效的训练方法,CarLLaVA在横向和纵向控制方面展示了卓越的性能。其无需昂贵标签或传感器即可运行的能力,使其成为一种可扩展且成本效益高的解决方案。结果表明,相较于以前的方法有了显著的改进,展示了视觉语言模型在现实世界自动驾驶应用中的潜力。
引用:
Renz K, Chen L, Marcu A M, et al. CarLLaVA: Vision language models for camera-only closed-loop driving[J]. arXiv preprint arXiv:2406.10165, 2024.

发表回复