2026-02-05 英伟达最新FastDriveCoT！CoT思维链推理加速3-4倍…

原文链接：https://mp.weixin.qq.com/s/gQGTnTg5Q983UNR1c1PCCw

英伟达团队的一篇新工作 — FastDriveCoT，把思维链的过程加速了3-4倍。做VLA部署的公司和同学可以重点关注下，主要实现方式如下：

将思维链轨迹格式化为结构化模板；
把推理过程分解为多个子任务；
并行解码，加速结构化的思维链推理；
构建了依赖图和动态规划的算法，以适应不同字段长度的变化。

这篇工作不仅局限于自驾领域，可以将思维链的过程模板化，都可以借鉴本文的思路进行加速。

思维链（CoT）推理提升了自动驾驶中视觉-语言-动作（VLA）模型的决策能力，但其自回归特性带来了显著的推理耗时，使其难以应用于实时场景。为解决这一问题，本文提出了FastDriveCoT——一种新的并行解码方法，用于加速模板结构化的思维链推理。该方法将推理过程分解为包含多个独立子任务的依赖图，例如识别关键目标和总结交通规则等，其中部分子任务可并行生成。通过在单次前向传播中同时生成多个独立的推理步骤，本文大幅减少了串行计算量。实验表明，在多种模型架构下，该方法实现了3-4倍的思维链生成加速比，且端到端耗时显著降低，同时保留了思维链推理带来的原始下游任务性能提升。

论文标题：Accelerating Structured Chain-of-Thought in Autonomous Vehicles
论文链接：https://arxiv.org/abs/2602.02864

一、背景回顾

近年来，语言已成为机器人系统中的关键模态，推动了具身操作和自动驾驶等领域的发展。随着大语言模型（LLMs）和视觉-语言模型（VLMs）的快速进步，语言已越来越多地融入感知和决策流程，将视觉-动作（VA）模型转变为视觉-语言-动作（VLA）模型。与传统VA模型相比，VLA模型受益于语言接地能力，能够更好地解读用户意图、分解任务，并运用常识推理实现更类人的行为。

这一方向的代表性技术是思维链（CoT）提示法，该方法以牺牲部分推理效率为代价换取推理准确性的提升。通过鼓励VLA模型将复杂问题分解为一系列简单子问题，思维链利用推理时的缩放特性改善策略性能。除提示法外，思维链还被整合到训练流程中，例如在监督微调（SFT）中使用精心构建的思维链数据集。随着DeepSeek v3的发布，基于扩展结构化思维链轨迹的推理在机器人领域获得了广泛关注，并自然延伸至自动驾驶车辆（AVs）领域。

自动驾驶与纯语言任务或操作任务的核心区别在于其对推理速度的严格要求。在典型的自动驾驶策略中，决策必须以高频率（通常为10Hz或更高）更新，以安全响应快速变化的环境，这对每个规划周期内可生成的token数量施加了严格限制。然而标准的思维链轨迹通常包含多个模板（例如环境描述、关键目标识别、元动作预测等），这些阶段会额外产生数百个token，导致显著的推理开销，使其在自动驾驶中的应用面临挑战。

尽管自回归解码的串行特性使得思维链推理成为推理过程中的瓶颈，但自动驾驶中的推理包含多个高度独立的组件，因此适合并行化处理。与人类驾驶员类似，自动驾驶智能体可以并行评估道路条件、交通标志和关键目标等环境因素。自动驾驶场景的这一特性使其具备高度并行化的潜力，这与近年来专注于通用推理任务（如数学运算）的研究形成鲜明对比——这些通用任务中可分解的独立子任务数量通常有限且具有任务特异性。此外，自动驾驶智能体为确保安全驾驶，通常遵循基于固定观测因素集的结构化推理模式。这种规律性无需其他领域所需的临时任务分解，从而能够采用更复杂的算法协调思维链轨迹的并行生成。

本文的主要贡献：基于上述思路，英伟达的团队提出了FastDriveCoT——一种用于加速自动驾驶任务中思维链推理的方法。

该方法引入了一种系统化的方式，将思维链轨迹格式化为结构化模板。为最大化并行化程度，本文采用一种优化算法，基于通用依赖图动态识别可并行生成的字段；
此外针对并行解码策略优化了大语言模型的推理过程，尤其关注字段的排列和合并方式。实验表明，FastDriveCoT显著加速了思维链生成，与自回归解码相比实现了3.1至4.1倍的加速比，同时保留了思维链推理带来的下游任务性能提升；
进一步验证了这些发现适用于多种场景，包括自回归框架和Transfusion框架下的元动作预测和轨迹生成任务。

二、FastDriveCoT详解

大语言模型（LLMs）中的标准自回归生成在现代GPU上受内存限制（源于KV缓存操作），因此单次前向传播仅生成一个token的方式无法充分利用硬件的计算能力。这种GPU利用率不足为并行解码创造了机会——并行解码技术可同时生成多个token以提升效率。

尽管已有研究探索了通过任务分解实现并行解码，但这些工作主要集中在数学、编程等通用推理领域。这些领域通常需要复杂的、特定于任务的分解策略，且本身可并行化的程度有限，导致加速效果不佳。相比之下，自动驾驶（AV）任务通常遵循标准化的思维链（CoT）模式，从环境描述逐步过渡到关键目标识别，最终实现元动作预测。这种结构化的推理过程天然适合细粒度的任务分解，从而使思维链生成具备高度并行化的潜力。

为提升自动驾驶任务的推理效率，提出了FastDriveCoT — 一种利用上述结构化推理过程的并行解码方法。首先，本文设计了适用于自动驾驶任务标准化思维链模式的模板化思维链；其次，为管理并最大化并行化程度，本文构建了依赖图和动态规划算法，以适应不同字段长度的变化；最后，本文详细阐述了注意力掩码、位置ID、填充和KV缓存的处理方案，该实现充分考虑了大语言模型推理中的关键瓶颈，以确保最优性能。FastDriveCoT的整体框架如图2所示。

模板化思维链（Template CoT）

本文的思维链模板将自动驾驶推理任务分解为一系列特定字段。初始字段用于捕捉驾驶环境及其中的关键实体，包括光照、道路条件、天气、路口类型、道路类型、车道、关键目标、交通灯、交通标志和其他交通规则。其中，“关键目标”字段专门涵盖车辆、行人、骑行者、障碍物或其他与驾驶安全相关的物体，且每个关键目标需额外标注相对位置、物体类型和相关说明。后续字段用于对场景进行结构化总结，包括交通规则摘要、非交互元素和交互元素摘要。模板最终以自车（ego vehicle）的预期行收尾。每个字段均支持填充不同长度的自由格式自然语言文本。本文提出的思维链模板仅为示例，实际应用中可根据具体场景和系统配置进行调整。

部分字段（如车道和关键目标）可能包含数量可变的实例。例如，车道配置会随车辆行驶而变化，关键目标的数量也因场景而异。若采用简单的单字段自由格式描述所有实例，会导致生成过程缓慢且串行化。为实现并行化，本文为这些多实例字段设计了两阶段生成流程：

阶段1（枚举）：模型首先生成高层概览。对于车道字段，需确定不同的分析时间范围；对于关键目标字段，则需枚举每个待描述的独立目标。
阶段2（细化）：模型随后对阶段1中枚举的每个实例进行详细描述。

该结构支持对多个车道时间范围或多个关键目标的详细描述进行并行生成，显著提升了推理效率。为简化实现，本文为多实例字段设定了固定数量的“插槽”：模板中为车道分配了3个时间范围插槽，为关键目标分配了4个插槽，这些数量对应于训练数据中观察到的各类别最大实例数。若实际实例数少于分配的插槽数，剩余插槽将填充“N/A”占位符。更具适应性的方案可根据阶段1的枚举结果动态调整模板，这一方向将留待未来研究。

所有字段均采用“字段名称：字段内容”的格式逐行排列，各行拼接后形成完整的思维链文本，其长度通常为300-500个token。

依赖图（Dependency Graph）

思维链模板中的字段存在多种依赖关系：部分字段（如天气和道路条件）相互独立，可并行解码；另一些字段则存在依赖关系，需遵循特定的生成顺序。例如，交通规则摘要需在交通标志和交通灯字段生成完成后才能生成；对于车道、关键目标等多实例字段，枚举阶段必须先于细化阶段执行。这种生成顺序在推理过程中需严格遵守。

管理这些依赖关系需要一种能够适应多种关系结构的通用方法，而字段长度的可变性（不同字段长度不同，同一字段在不同场景下长度也可能变化）进一步增加了难度，使得固定解码调度方案不可行。为解决这些挑战并优化性能，本文引入了依赖图这一数据结构，其能够动态跟踪生成过程，并在每一步识别出所有满足前置条件、可并行解码的字段。

依赖图是一种有向无环图（DAG），其中每个节点代表模板中的一个字段。从字段A对应的节点指向字段B对应的节点的有向边，表示字段B的生成直接依赖于字段A的完成。图3展示了简化的依赖图示例。该依赖图设计直观且灵活，仅需基于直接依赖关系构建，可迁移至任意可分解的推理任务。

本文采用动态规划（DP）算法基于依赖图全自动调度并行解码过程：

初始化：就绪集包含所有源节点（即无入边的节点）；
迭代生成：直至所有字段生成完成，每轮迭代执行以下操作：

对就绪集中的所有字段，在大语言模型的单次前向传播中并行生成一个token；
当某个字段生成完成时，其对应节点向所有依赖它的节点发送信号；
当一个节点收到所有前置节点的信号后，立即加入就绪集。

算法1给出了该过程的伪代码。本文的调度算法在前置传播次数方面具有最优性——能够以最少的前置传播次数完成所有字段的生成，该最小值等于关键路径的长度（即依赖图中任意依赖链上token累积数量的最大值）。后续实验将证明，这种最小化前置传播次数的最优性直接转化为调度算法的最大化加速比。

语言模型推理

三、实验结果分析

实验设置

模型：本文在三种不同架构和规模的基础模型上评估FastDriveCoT：Qwen2-0.5B、Qwen3-1.7B和Qwen2.5-VL-3B。对于本身不支持视觉输入的Qwen2-0.5B和Qwen3-1.7B，本文使用DINOv2从输入帧中提取特征，并将其作为连续输入提供给语言模型；同时，通过小型MLP将1.6秒的轨迹历史编码为单个嵌入，作为大语言模型的额外输入。

在思维链输出后，本文进一步生成元动作和未来轨迹以评估模型的驾驶性能，并探索了两种架构：

纯自回归Transformer（VLA-AR）：将思维链、元动作和未来轨迹token化为离散序列，采用下一个token预测损失进行训练，并通过自回归方式解码；
Transfusion：思维链和元动作的处理方式与VLA-AR一致，但未来轨迹通过流匹配（flow matching）建模，且共享相同的Transformer骨干网络。

对于架构1的轨迹表示，本文采用自编码预训练分词器将每个6.4秒的未来轨迹压缩为6个离散token；对于架构2的轨迹表示，首先将未来轨迹转换为64个10Hz的（∆x, ∆y, ∆yaw）动作，通过正弦位置编码和MLP进行嵌入，生成64个连续嵌入，最后通过轻量级MLP将嵌入解码回（∆x, ∆y, ∆yaw）动作空间。

为评估该方法的有效性，本文设置了两个基线：

无思维链（No CoT）：端到端训练的模型，不生成中间思维链，用于衡量引入思维链对整体性能的贡献；
自回归思维链（Autoregressive CoT）：使用完整的思维链模板，但通过标准自回归解码串行生成字段，用于单独量化并行解码带来的效率提升。

数据：为评估FastDriveCoT的效率和任务性能，本文使用了大型内部数据集，包含来自25个国家、2500多个城市的多辆自动驾驶车辆的20,000小时驾驶数据¹。该数据集涵盖多种道路条件、天气状况、昼夜场景和交通流量，本文使用轨迹数据和前后视摄像头的同步记录（下采样至320×512分辨率）进行训练和测试。本文采用包含Qwen2.5-VL-72B的自动标注流水线生成结构化思维链数据：对每个数据点，随机采样一个时间戳，向模型输入对应的2Hz前视视频和轨迹历史，通过约束解码确保输出严格遵循预定义模板。该流水线最终生成717,344个高质量训练样本和950个测试样本。

评估指标：为验证FastDriveCoT在提升计算效率的同时保持高任务性能的能力，本文采用以下评估指标：

思维链生成时间（CoT Time）：从模型接收输入到思维链生成完成的延迟，直接衡量FastDriveCoT针对核心推理组件的加速效果；
总时间（Overall Time）：从模型输入到最终轨迹输出的总延迟，衡量实际应用中的端到端效率提升；
元动作交并比（Meta-Action IOU）：模型预测6.4秒时间范围内的元动作序列，通过计算每个0.1秒时间间隔内预测动作与真实动作的交并比（IOU）评估，反映模型的场景理解能力和高层决策质量；
轨迹平均位移误差（Trajectory ADE）：通过计算预测轨迹与真实轨迹的平均位移误差（ADE），评估最终运动规划的准确性。

训练与推理配置：模型从预训练 checkpoint 初始化，根据需要添加随机初始化的嵌入层和网络层；在717,344个样本的数据集上训练50,000步，采用批次大小64、AdamW优化器，学习率设置为3×10⁻⁵，采用余弦衰减调度。

所有推理实验均在单块NVIDIA A100 80GB SXM GPU上进行，大部分计算采用BFloat16精度，输入轨迹历史处理和最终输出对数概率（logits）计算采用Float32精度。实现基于PyTorch的缩放点积注意力（SPDA）：基线模型的标准因果掩码使用FlashAttention-2，并行解码所需的自定义掩码使用xFormers。为确保延迟测量的准确性，采用CUDA事件计时器，并丢弃每次运行的前10次迭代以消除内核预热效应。

主要结果

效率：如表1所示，与标准自回归基线相比，FastDriveCoT实现了3.1-4.1倍的思维链生成加速比，端到端推理总时间的加速比为1.9-3.1倍（具体取决于后续元动作和轨迹生成所占的时间比例）。

这种显著的加速效果通过缓解自回归推理的高昂延迟，使思维链在实际应用中具备可行性。此外，该性能提升在所有测试的模型架构和规模中均保持一致，证明了FastDriveCoT在多种视觉-语言模型（VLMs）和大语言模型（LLMs）中的通用性。

任务性能：表1进一步表明，引入思维链对元动作和轨迹生成均带来显著收益：在Qwen2.5-VL 3B模型的3秒轨迹预测任务中，性能提升最为明显——平均位移误差（ADE）从无思维链基线的0.617降至自回归思维链的0.511，FastDriveCoT的并行解码思维链进一步降至0.482；在Qwen2 0.5B、Qwen3 1.7B等其他模型的长时（6.4秒）轨迹预测任务中，平均位移误差（ADE）也实现了显著降低，证实了思维链在自动驾驶任务中的普遍有效性。

将并行解码方法与自回归思维链基线对比发现，FastDriveCoT保持了极具竞争力的性能：在VLA-AR架构实验中，并行方法的性能略优于自回归基线（本文推测这是由于结构化解码过程天然促进了对模板格式的严格遵循）；在Transfusion架构实验中，尽管轨迹平均位移误差（ADE）较自回归思维链略有下降，但FastDriveCoT仍显著优于无思维链基线。综上，FastDriveCoT在所有实验中均实现了计算效率的显著提升，同时持续保留了思维链带来的任务准确性改善。

Inference分析

为深入理解FastDriveCoT的加速来源，本文基于Qwen2 0.5B + VLA-AR配置对推理过程进行了详细分析。

分析聚焦于依赖图中的关键路径——即必须串行生成的最长依赖token链。如图4a所示，思维链生成时间与关键路径上的token数量呈强线性关系。这一结果证实，延迟的主要决定因素是串行前向传播次数，而非单次前向传播生成的token数或所有字段的总token数。该发现为未来研究指明了两个有前景的方向：

通过显式设计思维链模板以最小化关键依赖路径长度，可进一步提升推理速度；
由于并行生成更多token不会增加延迟，FastDriveCoT可支持智能体在生成“全面推理”思维链的同时，并行生成“快速响应”轨迹（仅含少量或不含思维链），且无额外时间成本。这种双响应系统的应用将留待未来研究。

另一关键发现来自加速比与并行度的关系（如图4b所示）：相对加速比定义为自回归基线的思维链生成时间与FastDriveCoT的比值，平均并行度定义为单次前向传播处理的平均token数。图中显示二者呈强线性关系，证实加速比与并行度直接成正比；同时观察到加速比始终略低于平均并行度（该规模下平均并行度近似等于FastDriveCoT的加速比），本文推测这一微小差异源于FastDriveCoT使用的自定义注意力掩码对应的注意力内核效率较低。这一优化方向将留待未来研究。

四、结论

本文提出了FastDriveCoT——一种基于并行解码的方法，用于加速自动驾驶任务中模板结构化思维链（CoT）的推理过程。该方法采用直观且具有通用性的依赖图，结合全自动优化动态规划算法，能够动态识别可并行生成的字段。实验结果表明，FastDriveCoT在多种视觉-语言模型（VLM）和大语言模型（LLM）架构及规模下，均实现了显著的思维链推理速度提升（3-4倍），同时保留了思维链带来的下游任务性能改善，包括元动作预测准确性和轨迹生成质量的提升。

2026-02-05 英伟达最新FastDriveCoT！CoT思维链推理加速3-4倍…

发表回复取消回复

Categories

Archives

2026-02-05 英伟达最新FastDriveCoT！CoT思维链推理加速3-4倍…

发表回复 取消回复

Categories

Archives

发表回复取消回复