2025-05-20 LangCoop:自动驾驶首次以“人类语言”的范式进行思考与交流~

原文链接:https://zhuanlan.zhihu.com/p/1907601223407892139

LangCoop: Collaborative Driving with Language

项目主页(含视频)https://xiangbogaobarry.github.io/LangCoop/)
GitHubhttps://github.com/taco-group/LangCoop)
论文地址https://www.arxiv.org/pdf/2504.13406


动机:从“数据共享”走向“语言协作”

车连万物(V2X

, Vehicle-to-Everything)是智能交通系统的未来核心,通过车与车(V2V)、车与路(V2I)、车与人(V2P)之间的协作,有望显著提升自动驾驶的安全性与效率。

然而,当前流行的协作范式(early collaboration, intermediate collaboration, late fusion)存在以下挑战:

  • 通讯负担重:原始特征或多模态数据的传输带宽开销巨大
  • 模型异构性:不同车辆使用不同模型时,信息难以有效兼容
  • 信息表达力不足:融合后丢失了大量细节和上下文

随着大规模视觉语言模型

(VLMs)的崛起,我们提出:

既然人类可以用自然语言交流复杂的感知和决策,为什么车辆不能?

LangCoop 利用大模型的视觉理解与推理能力,对周围环境进行感知,并生成语言描述,从而在异构体之间实现低带宽、高语义、强泛化的通讯。


LangCoop 的核心理念

LangCoop 在理论与实证上系统性验证了自然语言作为通信媒介的独特优势:

  • 低通信成本:语言具有极高的信息压缩比,每条消息 < 2KB
  • 跨模型/跨主体通用性:自然语言是普适的“世界语”,可被人类和不同模型理解
  • 保持上下文与关键推理信息:语言具备对抽象、高层语义的表达能力
  • 表达非结构化知识:如“前方事故多发,请减速慢行”,难以用向量编码表述但可用语言直观表达

M3CoT

:模块化语言链式推理架构

我们进一步提出了 Mixture Model Modular Chain-of-Thought (M³CoT) 架构。该模块充分挖掘不同VLM模型的特长,如:

:数字与符号推理能力强GPT-4V:图像理解能力优秀Deepseek-VL

  • :语言联想与发散能力强

M³CoT 通过模块化任务分工(如场景理解、对象分析、意图规划等),实现多个异构 VLM 的协同推理,显著提升了感知-决策一体化能力。


实验亮点:语言也能开车!

CARLA

闭环仿真中,LangCoop 展现出超越传统协作范式的能力:

  • 驾驶得分高达 48.8,路线完成率 90.3%
  • 显著优于非协作基线
  • ️ 通信数据量 < 2KB,极度轻量
  • 可适配异构主体,无需共享底层模型或向量空间
  • 多个大VLM(未进行finetune)即可具备基本驾驶能力

未来展望:从实验室走向真实世界

LangCoop 为下一代通用型、可解释、可拓展的协同自动驾驶系统奠定了基础。未来,我们希望将其进一步拓展至更广泛的 V2X 场景:

与车联网(V2X)系统融合

  • 支持语言格式的数据共享协议,实现人与车、车与路之间的无缝对话

️ 车-基础设施协作(V2I)

  • 自然语言可用于描述道路施工、红绿灯状态、突发状况等非结构化信息,提高系统反应力和人类理解性

车-人交互(V2P)

  • 车辆可向行人或非智能交通参与者发出语言提示(如“请先过马路”),实现主动对话式安全机制

通用协作代理

  • 借助语言,车辆可以与无人机、清障机器人、甚至交警指挥系统协作,共同完成复杂任务

跨模态知识迁移

  • 未来可探索如何将语言与图像、BEV地图、3D点云等模态融合,使得语言通讯更结构化、具备可验证性

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论