2025-04-18 清华最新Driving-RAG!精准场景搜索让自动驾驶决策又快又准~

原文链接:https://mp.weixin.qq.com/s/87vgCBAQZIx2jLDe2ULT5A

驾驶场景通常被定义为在特定时空范围内环境和驾驶行为的综合表示。它们系统地描述了各种交通参与者的状态和任务以及周围环境,包括道路网络和基础设施。场景数据在与智能车辆和机器人相关的任务中发挥了重要作用,如预测、规划、控制和测试。

在人工智能和大型模型的时代,自动驾驶和智能车辆系统的发展越来越依赖于大量的场景数据。一方面,场景数据需要被良好地存储和标记,以协助自动驾驶模型的高效训练和测试。典型的场景平台包括OpenScenario、MetaScenario和CommonRoad等。特别是,之前关于场景的工作实现了高效的数据存储,并提出了Graph-DTW度量来标记复杂交互和边缘场景,便于收集大量有价值的样本。另一方面,高效的搜索能力对于场景数据也是必不可少的。许多研究表明,利用以往的经验和知识可以使车辆做出更明智的决策并有效执行驾驶任务。一个突出的应用是将大型语言模型(LLMs)与检索增强生成(RAG)系统相结合,通过及时获取类似场景来生成准确且上下文相关的响应。RAG框架可以支持在线应用,如车辆规划和决策,以及离线应用,如场景生成和模拟。然而,实现类似场景的高效检索以及增强RAG应用仍然是具有挑战性的。

首先,传统的场景嵌入方法存在准确性或效率的问题,需要在向量空间中进行对齐,以便更好地区分场景,从而实现高效的搜索。其次,应建立针对场景分布的高效多级场景相似性搜索方法。具体来说,在第一层级,各种类型的驾驶场景涵盖了不同的车辆行为和交互。在第二层级,即使在同一个专家索引集群中,场景数据仍然多种多样。然后为了增强 RAG 的应用,需要重新组织检索结果。考虑到向量嵌入的可解释性相对有限,数据库中距离最近的场景之外的场景仍有可能跻身最接近的匹配行列,并能提供有价值的参考。

为了解决上述问题,本文提出了Driving-RAG框架,以促进场景嵌入、索引和增强RAG应用。我们在典型的轨迹规划任务中展示了所提框架的有效性,例如匝道和交叉口等复杂交互场景,展示了其在RAG应用中的优势。

论文链接:https://arxiv.org/pdf/2504.04419

Driving-RAG算法框架

本文提出的Driving-RAG算法框架的整体流程图如下图所示。具体而言,该框架包含对齐场景嵌入模型、用于场景向量相似性搜索的HNSW-TSD算法以及用于增强LLM生成的检索重组。

对齐场景嵌入模型

RGCN输出的特征将进行汇总,然后通过多头注意力机制捕捉时间图上下文之间的连接,然后通过将多头注意力的结果拼接到一起,得到最终的注意力结果。为了训练模型,首先,我们在自编码器架构中使用 RGCN 特征进行图恢复任务,该任务可以预测图的连接关系。虽然网络的自学习能力可以提取基本特征,但无法捕捉有效场景比较所需的更易识别和更复杂的特征。

接下来,我们利用下图的Graph-DTW场景距离度量,该度量集成了最优传输和 DTW 来计算场景距离。先前的研究已经证明Graph-DTW 可以有效地衡量场景之间的差异。虽然它能够对收集到的场景进行准确的标记,但嵌入任务会变得非常耗时。通过利用训练场景集中的距离标签,RGCN 和 Transformer 模型的理解和拟合能力,使我们能够提取更丰富的特征,这些特征既能解释场景的语义关系,又能反映场景的时空演变,最终提升嵌入效果。

训练过程类似于对比学习。一方面,通过图结构恢复来保持对场景的基本理解,约束可以防止场景距离过拟合。另一方面,时空特征的提取使场景嵌入距离更接近GraphDTW距离,从而可以有效区分场景。从嵌入性能的角度来看,当编码嵌入之间的距离与场景度量的距离紧密匹配,并且恢复后的图表现出较高的交并比 (IoU) 时,我们认识到该模型成功提取了有用的特征并实现了对齐。训练过程的损失函数设计为:

用于有效场景搜索的HNSW-TSD算法

考虑到场景数量众多,不同的交互类型已被分类并归因于基于车辆运动流的多个专家集。当车辆执行特定的在线或模拟任务并向专家数据库寻求帮助时,检索到的场景与提示场景具有相同的交互类型至关重要。该方法确保搜索结果提供更相关、更准确的参考。然后,利用上述嵌入模型,我们可以获取场景向量并在数据库系统中进行高效搜索。为此,我们在设计了一种新的向量搜索机制HNSW-TSD,该机制结合了HNSW和典型场景数据,其整体算法流程如下所示。

该算法支持基于构建的场景数据库灵活调整参数。前三个步骤只需执行一次,且更新周期较长;后两个步骤通过频繁的批量请求进行高效搜索。这种方法使我们能够以更高效且准确率中性的方式搜索相似场景。

基于RAG应用识别场景

虽然场景图数据以向量形式嵌入以实现快速检索,但其表示形式可能仍然缺乏一定的可解释性。因此,可以利用图关系的原生知识来处理一小部分搜索结果。通过向量搜索和规则知识的融合,可以保证用于 RAG 的外部场景数据的相关性。

最后,如下面的两图所示,我们设计了简洁的提示,其中包含说明、场景、任务、思路链 (CoT) 以及基于先前研究的参考案例。LLM 根据对 CoT 问题的理解进行回答并提供规划结果。LLM 进一步自我解释场景,并提供适当的警告,并确保从外部数据库中学习相关知识。

实验结果&评价指标

我们对模型的有效性进行了验证,并探索了不同嵌入维度的效果,如下表所示。

对于两种场景类型,嵌入距离都接近 Graph-DTW 标记的距离,这表明该模型能够衡量场景差异,无论是提示与数据库之间的距离,还是提示与其他提示之间的距离。场景图结构的 IOU 指标也很高,这表明该模型保持了对基本场景的理解,并实现了特征对齐。

此外,我们对设计模型的各个部分进行了消融研究,如下图所示。首先,如果没有RGCN的图解析或图恢复任务的帮助,网络对场景图的理解会变弱,这体现在 IOU 的急剧下降上,同时也影响了场景距离的学习。其次,如果没有距离对比学习的帮助,距离估计会出现显著偏差,这表明自学习无法学习到易于识别的特征来区分场景。第三,Transformer 的注意力机制可以进一步促进这两个训练任务的学习。

在本文中,我们也通过实验的方式更好地证明 HNSW-TSD 算法的有效性,我们在相对较大的数据规模上进行了验证。我们设计的索引机制在搜索方法,比如Flat、IVF、PQ和HNSW下进行了比较。其相关实验结果如下图所示。

可以看出,在典型场景数据下,所有基础搜索算法的速度都提高了近一个数量级,而搜索精度则保持在同一水平,与最佳 Flat 结果相比没有任何损失。其中,HNSW-TSD 算法性能显著优于 IVF、PQ、Flat 等算法,在典型场景数据库中仅需 3 毫秒即可完成搜索任务。

我们也进行了参数敏感性分析,并比较了基于HNSW32方法下的不同参数搜索性能,如下表所示。

最后,我们通过典型的 LLM-RAG 轨迹规划应用程序来说明搜索场景数据的有效性,相关的实验数据如下表所示。

与传统的基于多项式的规划方法相比,LLM 具有一定的推理能力,具有完善的场景描述和目标函数,显著减少了驶出可驾驶区域和目标混淆的情况。无论使用全场景数据还是典型场景数据进行向量 HNSW 相似性搜索,规划结果都得到了显著提升。尤其是在所选数据库中,RAG 显著提升了搜索速度,同时仍保持了与全场景数据相当的有效性。

为了更加直观的展示提出算法的有效性,我们选取两个典型案例来说明,如下图所示。

结论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论