原文链接:https://zhuanlan.zhihu.com/p/1897451927333225588
端到端自动驾驶近年来取得了显著进展。以往的端到端自动驾驶方法通常将规划和运动任务解耦,视为独立模块。这种分离忽视了规划可以从运动任务中遇到的分布外数据中学习的潜在好处。然而,统一这些任务带来了重大挑战,例如构建共享上下文表示和处理其他车辆状态的不可观测性。为了解决这些挑战,我们提出了TTOG,一种新颖的两阶段轨迹生成框架。在第一阶段,生成一组多样的轨迹候选,而第二阶段则通过车辆状态信息对这些候选进行细化。为了缓解其他车辆状态不可用的问题,TTOG采用了一个基于自车数据训练的状态估计器,并将其扩展到其他车辆。此外,我们引入了ECSA(等变上下文共享场景适配器)以增强不同代理之间的场景表示泛化能力。实验结果表明,TTOG在规划和运动任务上均达到了最SOTA的性能。值得注意的是,在具有挑战性的开环nuScenes
数据集上,TTOG将L2距离误差减少了36.06%。此外,在闭环Bench2Drive数据集上,我们的方法实现了驾驶得分(DS)提高22%,显著优于现有基线。
简介
随着深度学习的快速发展,自动驾驶技术正从传统的手工设计、模块化架构向端到端架构演进。与分别处理多个子任务的传统方法不同,端到端自动驾驶系统力求无缝集成并联合优化多个子任务。这些系统以传感器数据作为输入,直接输出未来轨迹或控制信号。由于其整体优化能力和避免跨模块误差累积的优势,端到端自动驾驶算法最近取得了显著进展。
作为规划任务的关键输入,运动预测的性能直接影响规划结果的准确性和鲁棒性。目前最先进的方法通常使用串行结构连接运动模块和规划模块,或将两者设计为并行结构。这种串行或并行设计不仅限制了任务之间的深入信息交互,还可能导致错误传播和性能瓶颈,未能充分利用两项任务之间的协同潜力。

最近,一些端到端自动驾驶研究尝试整合来自规划和运动任务的输入,并设计复杂的交互模块来模拟现实世界中的任务交互。然而,这些方法往往依赖于大量手工规则或复杂结构,未能充分挖掘任务间的内在关系。本文中,我们提出了TTOG,一种重新定义规划任务作为运动预测特殊情况的新方法。这使得规划任务能够利用其他车辆的数据进行训练,从而学习数据集中自车未曾遇到的场景。一个简单的方法是训练一个不区分其他车辆和自车的统一解码器,同时执行运动和规划任务的预测,从而实现运动数据的重用。通过共享解码器参数,该方法可以直接将其他车辆数据的知识转移到自车的规划任务中。
然而,将运动数据用于规划任务面临两个关键挑战。首先,其他车辆的自状态本质上是不可用的,导致直接使用运动数据训练时数据不完整。其次,规划任务的输入通常是从自车视角收集的,而运动数据是从其他车辆视角观察的。这种视角差异导致数据分布和上下文表示的重大不一致。
为了解决上述挑战,本文设计基于两个关键组件:
- 等变上下文共享场景适配器:为了确保提取的场景特征对于旋转和平移是不变的,同时能够高效地在多个代理之间共享,TTOG 集成了等变图神经网络
- 来构建场景编码器。具体来说,TTOG 采用了一种分层图表示框架来建模多代理交互。从自车的视角来看,代理被聚类成不同的组,每组表示为一个子图。这些子图通过等变图神经网络(EGNN)处理,以捕捉局部等变关系。随后,每个子图内的所有节点都被聚合为一个全局节点,代表该组的集体状态。这些全局节点随后形成一个更高级别的全局图,进一步由EGNN处理以学习全面的全局交互。更新后的全局节点通过基于集合的自注意力机制将信息传播回每个子图中的节点,从而实现递归的全局关系传播并促进自适应的组内交互。
- 统一两阶段轨迹解码器:为了解决数据模式缺失问题并使轨迹解码器在运动和规划任务之间共享参数,我们将规划任务分解为两个子任务:1)轨迹提议生成,利用在线映射任务的结果,TTOG 生成多样化的轨迹提议,这些提议与场景信息融合并解码。除了监督预测轨迹与真实轨迹之间的L2偏差外,TTOG 将这些提议视为伪标签,并监督它们与预测轨迹的分布差异,促进多模态轨迹输出;2)轨迹过滤和优化,第一阶段的候选轨迹被编码并与自车的状态融合,在第二阶段进行过滤和优化以得出最终的规划轨迹。在训练过程中,TTOG 统一了运动和规划的第一阶段,同时训练了一个自状态预测器,根据历史自状态和场景上下文估计当前状态。在测试过程中,TTOG 将此预测器扩展到其他车辆,实现了运动和规划预测的完全统一。
总体而言,本文的主要贡献如下:
- TTOG 引入了一种统一运动和规划任务的新方法,使规划任务能够从运动数据中受益,显著提高了规划任务的性能和泛化能力。
- 为了解决运动和规划任务之间的数据视角不一致问题,TTOG 提出了等变上下文共享场景适配器(ECSA)。该适配器利用等变图神经网络(E-GNN)和集合注意力机制,从多代理交互中提取旋转和平移不变的场景特征,实现高度共享且一致的场景表示。
- 为了解决运动和规划任务之间的数据模式不一致问题,我们提出了一种统一的两阶段轨迹解码器(UTTD)。该解码器将规划任务分解为两个子任务,并引入了一个额外的车辆状态估计器,实现运动和规划解码器之间的参数共享。
- 在开环评估数据集nuScenes和闭环数据集Bench2Drive上的广泛实验表明了我们方法的有效性。TTOG 取得了显著的改进,L2位移误差减少了22%,驾驶得分增加了34%。
相关工作回顾
端到端自动驾驶
端到端自动驾驶直接将原始传感器输入数据映射到未来的自车轨迹,消除了手工规则。早期的方法通常采用过程隐式架构,没有辅助任务监督(例如检测、在线地图绘制、运动预测),导致可解释性差和优化困难。闭环方法在闭环仿真中学习车辆动作,但难以应对仿真场景与真实场景之间的分布差距,限制了其实际应用性。
最近的方法,如UniAD整合了感知、预测和规划模块以优化轨迹,实现了最先进的性能。VAD引入了矢量化场景表示和明确的规划约束,而VADv2通过多模态轨迹增强了多样性。GraphAD通过场景图对动静态交互进行建模,PPAD迭代细化运动和规划输出。SparseDrive结合了对称稀疏感知,但缺乏运动-规划互动,这一局限由DiFSD解决。尽管这些方法有所进步,它们未能利用运动数据进行规划,错失了从分布外场景中学习的机会。我们的UniMP明确解决了这一差距。
运动与规划的集成
传统的模块化自动驾驶系统通常将预测和规划视为顺序独立的任务。虽然这考虑到了周围交通对自车的影响,但未能模拟交通参与者如何对自车行为作出反应。最近的方法越来越多地将预测和规划集成到联合或相互依赖的步骤中。在本节中,我们将运动与规划的集成分为三类进行回顾:
1) 串行集成
串行集成将规划和运动作为通过可微接口连接的独立任务执行,从而实现端到端训练。通常,运动预测模块的输出作为规划任务的先验条件。
虽然这种方法部分模拟了自车与其他代理之间的交互,但它依赖于自车优先让行其他车辆的假设,导致过于保守的驾驶策略。
2) Co-leader集成
共同领导集成框架旨在独立构建运动和规划模块,同时建立它们之间的迭代交互机制。该方法模拟SVs(周围车辆)潜在未来行为对EV(自车)规划及其对替代自车轨迹的随机响应的影响。DTPP通过基于Transformer的条件预测模块扩展了该框架,能够同时预测所有代理在多个EV计划下的行为。一些方法致力于在一个单帧内模拟多个SV轨迹对EV轨迹选择的潜在影响,从而最小化未来碰撞概率以规避最坏情况风险。其他方法专注于构建迭代交互机制以递归优化运动和规划结果。DIFSD重新反馈基于运动输出的规划结果,作为下一次运动规划的先验约束。DriveWorld利用世界模型估计自车和其他车辆轨迹之间的相互影响,随后进行轨迹优化。
3) 联合集成
联合集成范式旨在同时输出运动和规划结果。该范式基于一个假设,即对于EV和SVs集体存在一个全局最优结果。具体来说,EV的轨迹是通过涉及所有代理的全局优化过程得出的。作为开创性工作,Gameformer同时输出运动和规划结果,并将其交互建模为level-k博弈,其中解码器根据前一层所有代理的预期行为迭代更新个体预测,以模拟代理间的交互。类似地,SafePathNet使用transformers进行联合预测和规划,然后根据估计的概率和避碰进行排序。
最近的端到端方法GenAD采用自回归生成解码器联合回归SV和EV轨迹。然而,这些方法的前提是SV的行为和状态模型完全已知。相比之下,Unimp通过预训练规划任务使用运动数据,使规划任务受益于运动任务,同时解决了获取SV状态的挑战。
方法详解
图2展示了所提出的TTOG的架构,该架构引入了一种新颖的端到端范式,整合了运动预测和轨迹规划。该框架通过联合学习,能够从运动数据中全面转移知识,从而增强规划性能。核心创新包括两个主要组件:1) 等变上下文共享场景适配器,它将交通代理和地图元素表示为图节点,动态地将它们划分为子图组,并通过子图间的连接保持全局拓扑结构。随后,等变图神经网络处理层次图结构,通过传播跨组交互来学习多尺度关系,以保持几何等变性。2) 统一的两阶段轨迹解码器解码过程包括提案生成阶段:生成基于结构化场景图的多模态轨迹假设。可能性感知细化阶段:通过整合自我状态动态来执行情境感知轨迹优化。为了实现统一预测,使用历史观察和环境背景训练辅助自我状态预测器。在推理过程中,该概率估计器对称地应用于所有代理,在相同的几何学习框架内实现统一的运动预测和自我规划。





实验结果分析
实验设置
数据集
对于开环测试,TTOG在广泛采用的开环基准数据集NuScenes上进行了全面实验,涵盖了检测、在线映射、运动预测和规划任务。NuScenes数据集包括1000个驾驶序列,每个序列持续20秒,并包含40个标注的关键帧。每个数据样本包括由周围摄像头拍摄的六张图像,提供360°视野。点云由LiDAR和雷达传感器收集。在我们的实验中,我们仅使用图像数据作为模型输入,忽略了LiDAR数据。
对于闭环测试,TTOG在闭环基准数据集Bench2Drive上进行了评估,任务包括检测、在线映射、运动预测和规划。Bench2Drive是一个大规模专家数据集,包括开环和闭环评估,具有三个不同的数据分区:小型(10个片段)、基础(100个片段)和大型(10,000个片段)。开环训练数据包括两百万个完全标注的帧,每个关键样本以10 Hz标注,包括3D边界框、深度和语义分割,这些传感器配置包括LiDAR、六个摄像头、五个雷达、IMU/GNSS模块和BEV相机,并集成HD地图数据。对于闭环测试,Bench2Drive系统地收集了来自220条路线的数据,均匀分布在44个交互场景(如变道、超车和绕行)、23种天气条件(包括晴天、雾天和雨天)和CARLA v2中的12个不同城镇(包括城市、农村和大学环境)。
对于少样本测试,TTOG方法通过利用运动数据来增加稀缺的规划样本,从而提高端到端方法的性能。为了验证这一点,我们策划了两个少样本测试数据集——nuScenes-fs和Bench2drive-fs——通过以下系统过程:我们应用OPTICS自适应聚类算法对验证集中自车轨迹进行聚类,按群体大小对聚类进行排序,并从k个最小的聚类中选择样本来构建我们的少样本数据集。
规划评估指标
对于开环规划评估,我们采用传统的L2误差和碰撞率(CR)作为指标,与SparseDrive的计算方法一致。关于闭环规划评估,我们遵循Bench2Drive数据集设置,测量驾驶评分(DS)和成功率(SR(%))。此外,我们引入了一种新的度量标准CEGR(跨车辆效率增益比),用于评估运动数据利用率和模型收敛速度。


实现细节
TTOG采用SparseDrive作为其基线框架,并遵循SparseDrive建立的两阶段训练协议。对于nuScenes数据集,我们使用750个片段进行训练,150个片段用于验证。第一阶段专注于训练检测和在线映射任务,采用3e-4的学习率,进行80个epoch,批次大小为4。随后,第二阶段致力于运动预测和规划任务,保持相同的学习率和批次大小,进行10个epoch。对于Bench2Drive数据集,我们使用基础规模配置进行实验,分配950个片段用于训练,50个片段用于验证。为了适应其不同的采样频率,我们调整了训练计划如下:在第一阶段,我们采用3e-4的学习率,批次大小为4,进行8个epoch;在第二阶段,我们保持相同的学习率和批次大小,进行2个epoch。
主要结果
规划结果
在NuScenes(开环),表2展示了各种端到端方法在L2距离误差和碰撞率方面的比较评估。我们提出的方法TTOG表现出最先进的性能,在所有评估指标上显著优于基于LiDAR和基于摄像头的方法。与我们的基线方法SparseDrive相比,我们的TTOG方法实现了显著更低的L2误差0.40(m)和减少的碰撞率0.09%。这34.42%的L2误差减少证明了我们在实现更精确和安全的轨迹预测方面的有效性。在SOTA基于摄像头的方法如UniAD、VAD和GenAD中,我们的TTOG模型在准确性和安全性方面都优于它们。此外,尽管LiDAR在深度感知方面具有固有优势,但TTOG在L2误差和碰撞率方面超越了所有基于LiDAR的方法(IL、NMP、FF和EO)。这突出了TTOG的ECSA模块的优势,该模块通过强大的特征提取有效地补偿了摄像头深度信息的不足。

对于CEGR指标,在Bench2Drive(开环和闭环),如表4所示,实验结果表明我们提出的TTOG方法在这两种评估中均表现出优越性能。与SparseDrive基线相比,TTOG显著减少了平均L2误差(开环指标)从0.83m到0.74m,表明更精确的轨迹预测。对于闭环指标,TTOG优于SparseDrive,驾驶评分从42.12提高到45.23,成功率从15.10%提高到16.01%。此外,TTOG在所有评估指标上超过了最先进的方法(UniAD和VAD)。
此外,如表5所示,我们评估了最先进的端到端自动驾驶方法在Bench2Drive基准上的性能,评估了包括合并、超车、紧急制动、让路和交通标志识别在内的关键驾驶能力。对比的方法包括AD-MLP、UniAD-Tiny、UniAD-Base、VAD、SparseDrive(基线)以及我们提出的方法TTOG。实验结果表明,TTOG在所有评估指标上始终优于基线,在合并方面相对提高了16.18%,在超车方面提高了24.29%,在紧急制动方面提高了20.00%。值得注意的是,TTOG在让路(21.50%)和交通标志识别(23.03%)方面表现出显著提升,最终平均性能达到21.12%,相较于SparseDrive的18.60%有了实质性进步。

TTOG的卓越性能源于其新颖的运动感知统一训练整合,使得可以在多样化的规划任务中进行联合优化。与现有方法独立处理驾驶子任务不同,TTOG利用运动先验来增强泛化能力,从而产生更强大和自适应的自动驾驶系统。这种统一的学习范式不仅提高了特定任务的性能,还确保了在各种驾驶场景中的可扩展性,突显了TTOG作为下一代自动驾驶汽车基础框架的潜力。
在Bench2Drive-fs和nuScenes-fs(开环),表3总结了在NuScene-fs和Bench2Drive-fs验证数据集上的规划性能,评估了关键指标:L2误差和碰撞率。我们将TTOG与SparseDrive(基线)、VAD和UniAD(先前的最先进方法)进行了比较。结果表明,TTOG在少样本驾驶场景中的有效性,特别是在平衡预测精度和安全性方面。在NuScene-f s中,TTOG显著优于基线。它将平均L2误差降低到0.80,优于SparseDrive(0.99,减少19%)和VAD(1.20,减少33%)。特别是,TTOG还将碰撞率降低到0.03,分别比SparseDrive(0.09)和VAD(0.47)提高了3倍和15.7倍。
这些收益来自于TTOG在训练期间整合运动数据,这缓解了少样本规划中的数据稀缺问题。在Bench2Drive-fs中,虽然改进不如前者明显,但TTOG仍然实现了比SparseDrive低0.07的L2误差。这一较小的差距可能源于Bench2Drive-FS对场景分配的固有偏见及其有限的少样本实例,这降低了TTOG运动增强训练的影响。然而,TTOG仍保持0.00的碰撞率,超过所有其他方法,强调了其在安全关键规划中的稳健性。总体而言,TTOG通过有效利用运动数据进行少样本规划,始终优于其他方法。其对运动和规划任务的联合优化提高了准确性和安全性,尤其是在NuScenes-fs和Bench2Drive-fs中。
消融实验
TTOG中不同模块的作用 在NuScens和Bench2Drive数据集上:
表6展示了TTOG模型在NuScenes和Bench2Drive数据集上的消融研究,分析了不同模块(UMP、ESCA和UTTD)对性能指标的影响,包括L2(m)、Col. Rate和CEGR(L2)。UMP模块通过统一运动和规划任务简化了模型架构。然而,实证结果揭示了在NuScenes上的次优表现,特别是在L2(m)和CEGR(L2)指标上。这表明简单地统一任务无法考虑到运动和规划任务之间的固有差异,从而导致性能下降。随着ESCA模块的引入,TTOG在Bench2Drive和NuScenes数据集上表现出显著改进。

特别是在NuScenes数据集上,在t=2时,L2(m)误差降至0.51米,碰撞率(Col. Rate)降至0.22%,CEGR(avg)达到4.89。ESCA模块通过等变操作统一视角,使模型能够更好地从运动数据中学习。随着UTTD模块的引入,TTOG的整体性能进一步显著提高。在NuScenes数据集和Bench2Drive上,CEGR(L2)分别达到了12.58和2.56,表明模型在运动学习和轨迹预测方面的强大能力。与其他模块相比,UTTD有效地统一了运动和规划任务,导致模型性能显著提升。

在NuScens-fs和Bench2Drive-fs数据集上:表7展示了TTOG模型在NuScenes-fs和Bench2Drive-fs数据集上的消融研究结果。实验分析了不同模块(UMP、ESCA和UTTD)对关键指标的影响,包括L2(m)、Col.Rate和CEGR(L2)。UMP模块通过统一运动和规划任务简化了模型架构。然而,其在两个少样本数据集上的表现并不令人满意,特别是在CEGR(L2)指标上。在NuScenes-fs和Bench2Drive在t=2s时,UMP的CEGR(L2)为-4.30和-2.28,表明运动学习存在显著困难。这一局限性源于UMP未能考虑任务差异和视角变化,损害了少样本适应能力。ESCA利用等变操作增强运动学习和视角适应,在NuScenes-fs(t=2s)上实现了0.57m L2、0.18%(Col. Rate)和-2.53 (CEGR)。UTTD在统一运动和规划的同时保留了任务区分,交付了卓越的表现(AVG) 0.77m(L2)、0.0%(Col. Rate)、4.62(CEGR)。完全集成维持了TTOG的最佳指标,表明ESCA的适应能力和UTTD的任务感知设计协同改善了运动和规划任务的少样本学习。而且完全集成维持了TTOG的最佳指标,表明ESCA的适应能力和UTTD的任务感知设计协同改善了运动和规划任务的少样本学习。

在Bench2Drive(闭环)数据集上:如表8所示,我们的系统评估通过四个关键指标检查了TTOG的表现:成功率(SR)、驾驶评分(DS)和量化路线完成和驾驶质量的运动数据学习能力的CEGR(DS)/CEGR(SR)。统一方法UMP显示了有限的闭环效果(SR: 38.70%, DS: 10.00, CEGR(SR): -3.46, CEGR(DS):-14.21),揭示了在处理运动和规划任务之间的时间、分布和视角差异方面的基本限制。ESCA模块展示了可测量的改进(SR: 42.35%, DS: 15.00, CEGR(SR): 0.63, CEGR(DS): 0.00),证实了其在减轻视角变化以获得更好泛化方面的有效性。而UTTD模块实现了卓越的轨迹预测(SR: 44.70%, DS: 15.45, CEGR(SR): 2.71, CEGR(DS): 1.27),验证了其任务感知统一策略以增强运动和规划理解。值得一提的是,结合的模块提供了最先进的性能(SR: 45.35%, DS: 16.36, CEGR(SR): 3.27, CEGR(DS): 3.86),并展示了协同效益:ESCA的视角鲁棒性补充了UTTD的结构化任务统一,用于可靠的现实世界驾驶。

运动数据量对TTOG的影响
基于表9和图4,实验展示了不同运动数据量对模型性能的影响。结果表明,能够从运动数据中学习的TTOG在训练过程早期显示出快速收敛和显著的性能提升。具体来说,在仅仅两个epoch之后,TTOG达到了显著的性能水平,L2和Col.Rate大幅减少。另一方面,无法从运动数据中学习的SparseDrive在训练期间表现出较慢的收敛。直到最后一个epoch才达到最佳性能。相比之下,TTOG在第六个epoch收敛到接近最优的性能水平,展示出其利用运动数据并将其转化为有用规划数据的卓越能力。
否则,在前两个epoch中,随着运动数据量的增加,TTOG模型的CEGR表现出显著的改进。特别是当运动量从1,632扩展到3,426时,CEGR从11.02急剧上升到24.96。随着运动量的进一步增加,CEGR在第6个epoch稳定在19.07左右,并在此后保持稳定。这表明TTOG高效地利用运动数据进行早期优化,并通过快速收敛实现高性能。
可视化

我们在NuScene-fs和Bench2Drive-fs上可视化TTOG的性能,重点关注少样本驾驶场景。对于NuScene-fs,我们选择了涉及转弯和换道的四个场景,而Bench2Drive-fs则包括转弯、换道和刹车。如图6和图5所示,TTOG在所有少样本数据集中均表现出稳健的性能,尤其是在刹车和换道场景中。这突显了其有效从其他车辆数据中转移知识以增强自身驾驶技能的能力。

结论
在这项工作中,我们提出了TTOG,一种端到端的自动驾驶框架,利用运动数据来增强模型的学习能力并提高少样本性能。具体来说,TTOG采用基于图的等变结构,统一自车和其他车辆的观察视角,确保跨车辆视角的一致性。我们进一步引入了一种新颖的解码器架构,联合优化运动预测和规划任务。为了进行评估,我们通过子采样NuScenes和Bench2Drive验证集构建了一个少样本基准。
广泛的实验表明,TTOG在轨迹预测方面显著优于最先进的端到端方法。我们的工作旨在推进社区对运动数据利用及其对规划任务益处的理解。
局限性和未来工作。尽管TTOG有效地统一了运动规划和轨迹优化任务,但其车辆状态估计器在处理遮挡或传感器缺失场景时表现出有限的可靠性,特别是对于具有不完整模态输入的周围车辆。这一局限性促使我们未来的研究重点放在感知不确定性下的鲁棒多智能体状态估计上。

发表回复