2025-09-28如何向一段式端到端注入类人思考的能力？港科OmniScene提出了一种新的范式…

原文链接：https://mp.weixin.qq.com/s/P1-cCpJ9Xy6qV5nZXvUiCg

人类视觉能够将2D观察结果转化为以自身为中心的3D场景理解，这一能力为理解复杂场景和展现自适应行为提供了基础。然而当前自动驾驶系统仍缺乏这种能力—主流方法在很大程度上依赖于基于深度的三维重建，而非真正的场景理解。

为解决这一局限，港科、理想和清华的团队提出一种全新的类人框架OmniScene。首先本文引入OmniScene视觉-语言模型（OmniVLM），这是一种结合环视感知与时序融合能力的VLM框架，可实现全面的4D场景理解。其次通过师生结构的OmniVLM架构与知识蒸馏，将文本表征嵌入3D实例特征中以实现语义监督，既丰富了特征学习过程，又明确捕捉了类人的注意力语义信息。这些特征表征进一步与人类驾驶行为对齐，形成更贴近人类认知的“感知-理解-行动”架构。

此外本文提出分层融合策略（HFS），以解决多模态融合过程中模态贡献不平衡的问题。该方法能在多个抽象层级上自适应校准几何特征与语义特征的相对重要性，实现视觉模态与文本模态互补信息的协同利用。这种可学习的动态融合机制，使得异质信息能够被更细致、更有效地挖掘。

本文在nuScenes数据集上对OmniScene进行了全面评估，并与十多种当前主流模型在各类任务上进行基准对比。结果表明，OmniScene在所有任务中均实现了更优性能，为感知、预测、规划和视觉问答（VQA）任务建立了新的基准。值得注意的是，OmniScene在视觉问答性能上实现了21.40%的显著提升，充分证明了其强大的多模态推理能力。

项目链接：https://github.com/ocean-luna/OmniScene
论文链接：https://arxiv.org/abs/2509.19973

一、引言

近年来，自动驾驶技术取得了显著进展，其核心领域（包括感知、运动预测和规划）均实现了突破。这些技术进步共同为更精准、更安全的驾驶性能奠定了基础。在此背景下，端到端（E2E）自动驾驶作为一种创新范式逐渐受到关注。通过利用大规模数据集，端到端方法能够学习将原始传感器输入直接映射为预测的规划轨迹，从而不再依赖手动的中间处理环节，同时提升了系统的适应性与可扩展性。

然而，传统的端到端自动驾驶系统在生成未来规划轨迹或低级控制指令时，往往未能有效整合感知与场景理解模块。这种整合缺失使其难以融入关键的上下文信息（如交通动态和导航约束），而这些信息对于稳健的自动驾驶至关重要。在复杂且模糊的场景中，这种局限尤为突出——此时单一的感知或简单的预测无法满足场景理解需求，例如处理复杂的交通交互或遵守交通规则等场景。

与之相反，人类视觉会持续将感知输入转化为场景理解，并根据不断变化的驾驶环境（如交通信号灯、行人活动和车道标线）调整注意力焦点。这种具备注意力感知能力的场景理解，是人类拥有卓越驾驶能力的关键所在。因此构建一种能够实现类人场景理解的统一方法，对于自动驾驶系统的智能决策与安全规划至关重要。

近年来，基于注意力感知的规划技术试图通过引入自注意力、空间注意力和局部特征提取模块等机制，增强端到端自动驾驶系统的性能。尽管这些努力取得了一定进展，但现有方法仍常依赖低级特征或静态启发式规则，缺乏明确的类人注意力建模，无法在复杂、动态的环境中实现自适应调整。更重要的是，即便视觉-语言模型（VLMs）的出现带来了强大的语义抽象能力，多模态融合仍停留在表面层面：视觉模态与文本模态通常被独立或依次处理，而非深度整合。这一局限导致互补信息未被充分利用——高层语义、注意力推理与几何上下文未能有效结合以指导规划过程。

因此自动驾驶领域的有效场景理解需要一种与人类认知对齐的多模态融合策略，能够联合聚合3D特征、视觉特征与语义特征，从而在动态驾驶场景中实现更贴近人类的上下文感知与优先级判断。

受上述挑战启发，本文提出OmniScene框架（如图1所示），这是一种旨在通过类人场景理解推动自动驾驶系统发展的创新方案。该方法主要解决以下三个核心问题：

如何实现4D场景理解？ 实现鲁棒的4D场景理解需要融合感知表征与概念表征，弥合从视觉传感器提取的原始几何结构与人类认知特有的高层语义解读之间的差距。3D几何特征能够捕捉场景中的空间结构与动态关系，而文本语义特征则可编码环境元素的上下文、意图与抽象推理信息。这种双维度整合模拟了人类解读视觉刺激的过程——在这一过程中，感知信息会持续通过认知推理进行调节，以支持复杂动态环境下的驾驶决策。

在本文方法中，从传感器数据中提取的多视图3D几何特征可重建目标的空间布局与运动状态，为定位、避障和运动规划等任务提供精确基础。与此同时，由大型视觉-语言模型生成的语义特征能够提供更高层次的理解，包括注意力线索、导航目标和潜在风险，为类人判断提供必要的上下文感知。这些互补模态的融合产生了一种统一的表征，使自动驾驶系统不仅能以几何精度“观察”环境，还能以类似人类推理的方式“理解”场景。这种范式提升了场景理解的可解释性与稳健性，使自动驾驶系统能够在复杂交通场景中做出合理且可靠的决策。

如何在场景理解中实现类人注意力？ 在场景理解中实现类人注意力，不仅需要被动感知，还需对视觉线索进行选择性优先级排序与上下文解读——这与熟练驾驶员在复杂环境中分配认知资源的方式类似。在本文框架中，这一能力通过OmniScene视觉-语言模型（OmniVLM）实现，该模型专门设计用于处理多视图、多帧视觉输入，以实现全面的场景感知与注意力推理。

借助先进的语义推理能力与大规模多模态知识，OmniVLM能够直接从解析后的传感器输入和跨视角、跨时间帧的环境标注中，生成注意力描述与决策依据。这些输出不仅捕捉了显式的场景元素，还包含了潜在的依赖关系与任务相关优先级，与人类观察和推理过程中形成的精细注意力图谱高度相似。

为实现高效部署，本文设计了师生结构的OmniVLM架构：原始的大规模OmniVLM作为教师模型，将其注意力知识（如空间注意力分布及相应的语义依据）迁移到轻量级的学生模型中。通过知识蒸馏，学生模型能够学习选择性地关注关键区域（如人行横道、交通信号灯和附近行人），同时抑制无关的背景信息——这一过程与人类感知的注意力机制高度一致。最终，OmniVLM实现了稳健且可解释的场景理解，并具备类人注意力行为，同时兼顾几何真实性与语义抽象性。这一设计使注意力感知型驾驶智能体能够在动态且安全关键的场景中，进行精细的上下文敏感推理与自适应驾驶。

如何为端到端自动驾驶实现多模态学习？ 通用的3D场景理解侧重于空间中几何结构与目标关系的重建和解读，而自动驾驶则需要更多能力：对空间布局的准确感知必须与语义解读和上下文感知推理紧密结合。在真实驾驶环境中，智能体不仅需要建模各类动态与静态目标的位置和运动，还需理解其语义意义并预测其随时间的演变。

为满足这些需求，本文提出一种超越传统几何分析的分层融合策略（HFS）。该方法将以目标为中心的3D实例表征与多视图视觉输入、文本线索衍生的语义注意力相结合，并通过显式建模时间依赖关系实现整合。这种多层框架能够生成统一的表征，既捕捉细粒度的空间结构，又包含高层的时间语义优先级。通过将4D推理能力与上下文和意图的自适应解读能力相结合，本文方法推动了自动驾驶场景理解技术的发展。

本文在nuScenes数据集上对OmniScene进行了测试。与十多种当前主流模型的对比结果表明，本文方法实现了显著性能提升，充分证明其在增强感知、规划和整体驾驶性能方面的有效性。

二、相关工作回顾

A. 多模态信息融合机制

近年来，基于注意力的融合机制与可学习融合策略已成为多模态信息融合的主流范式，可有效应对模态异质性与模态失衡问题。这些方法在捕捉跨模态交互、动态适配各模态相关性方面已展现出显著成效，因此特别适用于自动驾驶、机器人等复杂任务场景。

基于注意力的融合机制借助注意力的优势对模态间依赖关系进行建模，使模型能够聚焦于信息最丰富的特征。基于Transformer的架构已成为该方法的核心基础，其通过自注意力与交叉注意力机制对不同模态的特征进行融合。例如，TransFuser利用Transformer整合视觉与激光雷达（LiDAR）特征，在三维目标检测与场景理解任务中实现了最优性能；类似地，跨模态注意力网络通过注意力对视觉与文本特征的重要性进行加权，在图像-文本匹配、视觉问答等任务中提升了性能。这些方法在捕捉长程依赖关系与复杂模态交互方面表现出色，但通常需要大量计算资源，这在实时系统中的应用受到了限制。

另一方面，可学习融合机制因其能够根据任务需求动态调整各模态贡献度的特性而受到关注。这类方法引入权重、系数等可学习参数，在训练过程中实现特征的自适应融合。例如，“模态感知融合”（Modality-Aware Fusion）通过设计可学习系数平衡视觉与激光雷达特征的重要性，提升了自动驾驶任务的鲁棒性；另一类典型方法是“动态融合网络”（Dynamic Fusion Networks），其利用门控机制根据当前上下文的相关性对模态进行选择性融合。这些策略在处理模态失衡问题时效果显著——当某一模态因自身信息丰富度或任务相关性而占据主导地位时，可学习机制能动态调整融合过程，确保所有模态都能为最终输出提供有效贡献，进而同时提升模型性能与可解释性。

B. 端到端自动驾驶

端到端自动驾驶系统通过在统一目标函数下对所有模块进行联合训练，最大限度减少了流水线中的信息损失，从而在整体性能上实现了显著提升。近年来，ST-P3、UniAD等统一框架开创了基于视觉的端到端系统，其将感知、预测与规划模块无缝整合，在复杂驾驶场景中实现了最优性能。在这些进展的基础上，VAD、VADv2等后续研究引入了向量化编码方法，提升了场景表示的效率与可扩展性，使系统能更稳健地处理动态环境。

近期，Ego-MLP、BEVPlanner、PARA-Drive等方法探索了模块化架构中的新型设计方向，重点关注自车状态建模与创新性架构设计，以进一步提升驾驶性能。这些方法通过引入更丰富的自车状态表示及其与环境的交互信息，突破了端到端系统的性能边界。

本研究在基于视觉的端到端自动驾驶基础上，融入了类人注意力文本信息。通过利用自然语言描述关键驾驶线索（如“前方有行人横穿马路”“前方红灯需刹车”），使模型能够明确捕捉并优先关注与人类注意力对齐的兴趣区域。这一改进不仅提升了系统的可解释性，还确保模型决策与人类推理过程更紧密地对齐，尤其在安全关键场景中效果显著。

C. 自动驾驶中的视觉-语言模型

尽管视觉-语言模型（VLM）在各类通用任务中取得了显著进展，但其在自动驾驶领域的应用仍面临诸多独特挑战。这些挑战源于以下需求：为模型注入驾驶领域专属知识、准确解读复杂交通场景、确保输出满足自动驾驶系统的实时安全性与推理要求。

首要挑战是如何有效融入驾驶领域专属文本提示，以传递驾驶环境中独特的语义信息与注意力线索。与通用视觉-语言任务不同，自动驾驶要求模型理解细微的指令（如“在人行横道前礼让行人”“前方红灯需刹车”），并能针对安全关键线索动态调整推理过程。现有基于VLM的系统往往采用通用提示或依赖大规模视觉-语言预训练，难以充分捕捉安全驾驶决策所需的场景专属信息。

此外，将VLM整合到端到端自动驾驶流水线中也面临进一步挑战。Drive-with-LLMs、DriveGPT4等方法已证明利用VLM进行轨迹预测与规划的可行性，但这些方法通常依赖真值感知数据或领域专属微调，限制了其在多样化真实场景中的泛化能力。ELM、DriveVLM等其他研究强调了大规模跨领域预训练的重要性，但在使模型输出与人类决策过程及可解释性对齐方面仍存在挑战。类似地，VLM-E2E探索了在鸟瞰图（BEV）空间中融合多模态驾驶员注意力，但基于BEV的整合可能会丢失细粒度三维空间上下文，削弱语义-几何对齐效果。

另一关键问题是缺乏针对城市与高速公路环境复杂性设计的高质量、驾驶专属视觉-语言数据集。尽管近期研究已开始填补这一空白，但仍需进一步捕捉罕见、长尾或安全关键场景——这些场景对于确保模型稳健性至关重要。综上，尽管VLM为自动驾驶提供了极具潜力的能力，但要推进其应用，需针对性解决领域专属语义、数据稀缺、实时可解释性及整合等问题。本研究旨在通过设计驾驶注意力提示、开发端到端视觉-语言推理新方法，填补安全关键驾驶场景中的这些空白。

三、算法详解

本节将全面介绍OmniScene框架（如图2所示）。该系统的输入包括环视图像、操作指令与用户提示。这些多模态输入首先由学生端OmniVLM模块处理，生成描述观测场景的简洁文本标注；同时，环视图像通过视觉编码层提取视觉特征。生成的文本标注随后输入至分层融合策略（HFS）模块，通过预训练CLIP模型转换为文本特征表示。之后三维实例特征、视觉特征与文本特征进行融合，形成全面的特征表示，为感知、预测、规划等下游任务提供支持。

A. 预备知识

1）最大化互信息

2）最小化条件熵

3）跨模态目标的统一优化

B. 师生架构的OmniVLM

1）Teacher–Student架构

图3详细展示了基于教师端OmniVLM的数据生成流程，该流程为学生端模型适配提供基础。流程首先从知识挖掘开始：从Bench2Drive与nuScenes数据集中系统提取真值标注、机动信号与领域专属驾驶规则。在真值标注提取中，动态障碍物的选取范围为：自车前后20米半径内、距离自车约15米的区域，以及自车前方50米半径内、后方30米半径内、距离自车约30米的区域，确保包含每条车道中最近的目标；交通标志标注基于自车前方30米半径内、距离自车约30米的目标；交通信号灯识别范围为自车前方50米半径内、距离自车约30米的区域。这些元素共同捕捉了环境特征的多样性（包括天气条件、动态交通参与者、静态场景细节），为复杂真实驾驶场景的整体建模提供支持。

基于上述结构化知识库，教师端OmniVLM自动生成包含环境上下文、类人注意力焦点与推理步骤的增强文本描述，形成高质量视觉-文本配对数据，为下游学习与模型适配提供支持。

在后续微调阶段，核心任务是利用Bench2Drive与nuScenes的精选数据对，适配轻量级学生端OmniVLM。学生端模型的精简设计大幅降低了计算与内存开销，使其能部署在车载嵌入式系统等资源受限平台上，同时保持场景理解与驾驶决策推理能力。这种师生策略不仅提升了自动驾驶任务的可解释性与运行效率，还确保了在硬件资源有限的实际场景中实现快速推理与动态适配。

本架构的关键设计考量之一是多视图、多帧视觉输入策略。具体而言，系统利用自车上安装的6个摄像头同步采集视频流，实现对周围环境的360度全面覆盖。与仅依赖前视图像、缺乏全局态势感知的传统方法不同，本方法通过时空丰富的视觉上下文捕捉关键的侧方与后方信息，为稳健场景理解提供支持。这种多视图、多帧范式使模型突破了以往方法的条件独立性假设，充分挖掘视觉与语言模态间的协同关系。

为进一步提升类人注意力语义与动态环境建模能力，本研究提出全局多模态对齐策略。该策略联合考虑多视图、多帧视觉特征与细粒度文本信息，通过可学习相似度矩阵实现整合。与单独处理各摄像头视图或帧不同，对齐机制聚合所有视图与时间片段的特征，在统一特征空间中实现多视图-多帧图像嵌入与语义文本嵌入的对齐。基于语义相关性的自适应加权确保构建具备全局性与时间感知性的联合表示。这一策略生成了稳健、抗干扰的场景表示，对安全高效的自动驾驶至关重要。

2）OmniScene标注

C. 分层融合策略

类人注意力从视觉观测中捕捉丰富语义线索，为主要编码几何与结构属性的三维实例特征提供互补信息。为实现全面场景理解，本研究提出分层融合策略，实现两种模态的有效整合。该融合策略的细节如图4所示。

1）三维实例初始化

2）4D时空融合

3）视觉可变形聚合

4）文本条件聚合

5）深度优化

D. 基于视觉的端到端模型

1）多模态预测与规划

2）分层规划选择

3）训练目标

四、实验结果设置

A. 数据集

本研究采用nuScenes基准数据集，这是一个用于自动驾驶研究的大规模多模态数据集。该数据集包含1000个多样化的城市驾驶序列，每个序列时长20秒，且以2Hz的频率进行密集标注，涵盖了各类交通场景、道路布局和天气条件。数据通过一套360°全环绕传感器套件采集，该套件包括6个同步摄像头、1个激光雷达（LiDAR）、5个雷达以及1个IMU/GNSS单元，可提供互补的几何信息和语义信息。对于摄像头子系统，每帧图像的内参和外参校准数据均已提供，能够实现精确的多视图空间配准。该数据集包含140万张摄像头图像、超过39万次激光雷达扫描数据，以及针对23个以上目标类别的细粒度3D边界框标注，目标类别包括车辆、行人、自行车和交通元素等。其在规模和传感器多样性上的丰富性，使nuScenes成为评估自动驾驶中感知、预测和规划算法的标准基准数据集。

B. 评价指标

本研究遵循已有的基准协议，对自动驾驶的多项任务进行了全面评估。

3D目标检测：采用平均精度均值（mAP）、综合检测得分（NDS）以及多项误差指标进行量化评估，包括平移误差（mATE）、尺度误差（mASE）、方向误差（mAOE）、速度误差（mAVE）和属性预测误差（mAAE）。
多目标跟踪：采用平均多目标跟踪精度（AMOTA）、平均多目标跟踪精度（AMOTP）、召回率（Recall）和身份切换次数（IDS）作为评估指标。
运动预测：评估基准与相关研究一致，包含四项关键指标：最小平均位移误差（minADE）、最小最终位移误差（minFDE）、遗漏率（MR）和端到端预测准确率（EPA）。
规划评估：采用两项主要指标：轨迹L2误差（与相关研究的实现保持一致）和碰撞率。针对以往碰撞评估方法中的两个关键局限性，本研究进行了改进：一是传统的0.5米网格分辨率占用图方法因量化误差无法准确检测与小型障碍物的碰撞；二是现有方法忽略了运动过程中自车航向的动态变化。为解决这些问题，本研究提出的增强型评估协议通过以下两点实现改进：（1）对自车与障碍物进行精确的边界框相交检测，消除网格量化误差；（2）从轨迹点中估计偏航角，以充分考虑车辆朝向的变化。为保证对比公平性，本研究使用相关基线模型的官方权重，通过改进后的碰撞检测框架对其重新评估。该严谨的评估协议能更准确地衡量复杂驾驶场景下的规划性能。
视觉问答（VQA）评估：采用CIDEr（CI-r）、BLEU-1（BL-1）、BLEU-4（BL-4）、METEOR（ME-R）和ROUGE-L（RO-L）作为性能基准，从语言质量和视觉-语言对齐度两个维度对模型进行全面评估。

C. 实现细节

五、实验结果分析

A. 定量结果

1）感知性能

表1和表2展示了在nuScenes验证集上的感知结果，包括检测性能和跟踪性能。所提模型的nuScenes检测得分最高，达到0.526，且平均平移误差（mATE）最低，为0.555米，在检测精度和定位精度上均优于SparseDrive和UniAD。同时，该模型在方向误差（mAOE）、速度误差（mAVE）和属性预测误差（mAAE）上也取得了最低值，且平均精度均值（mAP）和尺度误差（mASE）保持竞争力，进一步验证了其在复杂城市环境中强大的感知能力。

在跟踪任务上，所提模型在平均多目标跟踪精度（AMOTP）、召回率（Recall）和身份切换次数（IDS）上表现最佳：AMOTP为1.235，召回率为0.528，身份切换次数仅为503次，显著优于所有现有基线模型。尽管SparseDrive的平均多目标跟踪精度（AMOTA）略高，但所提方法通过提升召回率和减少身份切换次数，在跟踪鲁棒性上更具优势。这些综合结果表明，该模型在城市自动驾驶场景中能够实现可靠的检测和跟踪性能。

2）预测性能

表3展示了在nuScenes验证集上的预测结果。所提方法在所有指标上均优于现有基线模型：最小平均位移误差（minADE）和最小最终位移误差（minFDE）分别低至0.61米和0.96米，表明轨迹预测精度更高；遗漏率（MR）最低，为0.128，端到端预测准确率（EPA）最高，为0.488，体现出该方法在运动预测中的可靠性和高效性。值得注意的是，该方法在性能上持续超越SparseDrive和UniAD等当前最优方法，充分证明了其在复杂城市驾驶场景中的有效性。

3）规划性能

表4展示了在nuScenes验证集上的规划性能，对比对象涵盖基于激光雷达、基于视觉和基于大语言模型（LLM）的多种方法。所提方法在几乎所有指标上均取得最佳结果：轨迹L2误差平均值最低，为0.58米；在所有预测时域下均表现领先，1秒、2秒和3秒时的L2误差分别为0.28米、0.55米和0.91米，优于所有现有方法。在碰撞率方面，该方法在所有时间步均保持最低或接近最低水平：1秒时碰撞率为0%，2秒时为0.04%，表明其在短期规划中的安全性更优；3秒时碰撞率为0.19%，与其他领先方法持平或更优。

与GenAD、UAD、SparseDrive等近期性能优异的基于视觉的方法，以及VLP-VAD、Senna等基于LLM的方法相比，所提方法在精度和安全性上均展现出明显优势。这些结果充分证明了该方法在复杂自动驾驶场景规划任务中的有效性和鲁棒性。

4）视觉问答（VQA）任务性能

表5展示了在nuScenes数据集上的综合性能对比。所提模型在所有评估指标上均较现有基线模型有显著提升：OmniVLM 7B模型的CIDEr（CI-r）得分为87.39，比最佳基线模型（InternVL3 14B，得分70.01）高出24.9%；其BLEU-1（BL-1）得分为38.4，比最佳基线模型（Qwen2VL 72B，得分25.76）高出49.0%。OmniVLM 3B模型的BLEU-4（BL-4）和ROUGE-L（RO-L）得分最高，分别为7.42和28.97，其中BLEU-4得分较Qwen2VL 72B（得分4.46）提升了66.5%，ROUGE-L得分较Qwen2VL 72B（得分26.56）提升了9.1%。在大多数任务中，OmniVLM 3B和7B模型均持续优于Qwen2.5VL、InternVL3等主流模型，充分证明了该方法的鲁棒性和有效性，也凸显了其在复杂城市环境中实现全面场景理解与推理的显著优势。

B. 定性分析

图5展示了十字路口不同驾驶意图下的定性可视化结果。所提OmniScene模型联合利用多视图感知、轨迹预测和文本化驾驶员注意力，对复杂的十字路口场景进行解读。多视图摄像头图像从不同视角捕捉了各类动态智能体和静态障碍物；预测的多模态轨迹对应直行、左转、右转等不同转向意图，展示了可行的未来运动趋势；文本化驾驶员注意力则通过突出影响自车决策的关键目标（如行人、施工人员、停放的公交车）和上下文线索，提供了详细的语义解释。这些全面的可视化结果表明，该方法能够准确感知场景细节、推断驾驶意图，并为复杂城市十字路口场景下安全可靠的运动规划提供可解释的推理依据。

图6展示了SparseDrive、OmniScene与真值（Ground Truth）的定性鸟瞰图（BEV）可视化对比，场景为自车前方出现多名行人、需进行紧急避障操作的复杂情况。多视图摄像头图像捕捉了十字路口处行人与车辆的位置和运动状态。在鸟瞰图中，OmniScene的轨迹预测和障碍物定位能力更优：其预测轨迹与真值高度匹配，且能有效适应动态智能体的存在。与SparseDrive相比，OmniScene提供了更精准的避障路径，体现出其在感知关键障碍物和制定更安全、更可靠的规划决策方面的优势。这些结果凸显了OmniScene在处理行人密集、安全要求高的复杂城市场景中的优越性。

C. 消融实验

1）OmniScene中各设计的有效性

在nuScenes验证集上，本研究针对OmniScene的关键架构设计开展了全面的消融实验，评估其在感知、预测和规划任务中的有效性。如表6所示，深度细化（DR）、自车实例初始化（EII）、时空解耦交叉注意力（TDCA、SDCA）、文本条件聚合（TCA）等每个组件，均对整体检测和跟踪性能有逐步提升作用。值得注意的是，时空注意力模块持续提升平均精度均值（mAP）和综合检测得分（NDS），有助于改善目标定位和分类效果；而引入文本条件聚合则显著提升了跟踪稳定性，具体表现为平均多目标跟踪精度（AMOTA）和召回率（Recall）的提升。

表7进一步展示了这些设计对预测和规划结果的影响。集成所有所提模块后，模型在轨迹预测任务中的最小平均位移误差（minADE）和最小最终位移误差（minFDE）最低，且规划精度最高、各时间步的碰撞率均降低。特别是文本条件聚合和交叉注意力机制的引入，使模型能更有效地利用上下文信息，从而实现更安全、更准确的运动规划。

总体而言，消融实验结果清晰表明：在OmniScene中，多模态文本线索、时空注意力模块与细化策略的结合，是其在复杂城市驾驶环境中实现感知-规划全流程均衡且优异性能的关键。

2）多模态运动规划的讨论

表8展示了多模态运动规划中轨迹模式数量的消融实验结果。随着模式数量的增加，规划精度和安全性均会受到影响：当使用6种模式时，模型性能最优，平均L2误差最低（0.58米），平均碰撞率最低（0.08%）；若轨迹模式数量较少（如1种或2种），则L2误差和碰撞率会略有上升，表明运动多样性不足；反之，若使用10种模式，L2误差会显著增加至0.70米，说明模式数量过多可能引入预测不确定性，降低规划精度。这些结果表明，选择合适的轨迹模式数量对于平衡预测多样性和规划精度至关重要。

3. 在其他端到端模型上的泛化性

为严格评估模型的泛化能力，本研究将文本交互引导模块集成到ST-P3中，通过融合文本特征与鸟瞰图（BEV）特征，使模型在感知和规划过程中能够同时利用语义信息和空间信息。

表9展示了该集成方案的定量结果。本研究系统地评估了感知、预测和规划性能，其中感知任务报告了车辆和行人的交并比（IoU），预测任务报告了交并比（IoU）、全景质量（PQ）、分割质量（SQ）和识别质量（RQ），规划任务则评估了1秒、2秒和3秒时的L2位置误差及对应时间域的碰撞率。

引入文本交互引导模块后，ST-P3在大多数指标上均有显著提升：感知任务中，车辆和行人的交并比（IoU）以及整体IoU均有所提高；预测任务中，交并比（IoU）、全景质量（PQ）和识别质量（RQ）均有性能提升，分割质量（SQ）保持稳定；规划任务中，增强后的模型在所有时间步的L2误差均降低，轨迹预测精度更高，且2秒和3秒时的碰撞率降低，表明其在较长时域内的规划安全性更优。

为进一步直观展示这些改进，图7呈现了nuScenes数据集中的4个复杂场景。在所有场景中，ST-P3的未来预测结果均存在错误，而所提方法生成的轨迹与道路布局高度吻合，预测准确。具体而言，在第1、3和最后一个场景中，ST-P3错误地预测了右转、直行和静止意图，而自车实际正在执行左转、停车和直行操作；相比之下，所提方法借助模块提供的基于注意力的文本监督，准确预测了这些场景下的控制动作。这些结果凸显了仅依赖鸟瞰图（BEV）特征进行未来动作预测的局限性，同时证明了引入文本引导所带来的互补优势。

综合来看，定量和定性结果均验证了所提文本交互引导模块在ST-P3上的泛化能力和有效性，凸显了其在提升端到端自动驾驶模型感知和规划性能方面的潜力。

4. 实时性能评估

实验设置如下：在单块A800 GPU上测试OmniVLM 7B和3B模型，在两块A800 GPU上评估Qwen25VL 32B模型。如表10所示，OmniVLM 3B模型在输入和输出速度上均较Qwen25VL 32B有显著提升，输入速度提升约3.51倍，输出速度提升约2.33倍，充分体现了其在处理复杂多模态输入和快速生成输出方面的效率优势。在A800平台上，OmniVLM 3B模型表现出色：仅需88毫秒即可处理300个输入令牌，且在输出令牌限制为10-20个时能高效生成结果。尽管Qwen25VL 32B在两块A800 GPU上测试，但其计算效率仍落后于OmniVLM 3B。OmniVLM 3B的总处理时间在113毫秒到139毫秒之间，与路径优化、障碍物检测或碰撞避免等应用的实时性要求高度契合。因此，该模型可作为自动驾驶系统中实时任务的即插即用模块，实现处理速度和通信效率的平衡。

六、结论

本研究提出了OmniScene——一种用于端到端自动驾驶的注意力增强型多模态4D场景理解框架。该框架将几何感知3D推理与视觉-语言建模中的高层4D语义抽象相结合，并通过分层融合和类人注意力机制实现二者的对齐，最终生成统一、可解释的场景表示，从而提升复杂驾驶环境下的感知、预测和规划能力。

借助教师-学生OmniVLM设计，该框架能将细粒度注意力知识高效迁移到轻量级模型中，在不损失性能的前提下实现部署。在nuScenes基准数据集上开展的大量实验表明，相比当前最优基线模型，OmniScene取得了显著的性能提升，充分证明了类人对齐多模态融合在安全关键型推理中的有效性。

未来工作将围绕以下方向展开：一是探索在OmniScene范式内实现更广泛的多模态融合；二是研究在长尾分布和罕见交通场景下提升模型泛化能力的策略。