原文链接:https://mp.weixin.qq.com/s/PNKddsY-MctSryScY6wE-g
3D场景理解构成了自动驾驶系统的基石,对规划和导航等下游任务产生了直接的影响。在各种 3D 场景理解任务中,3D占用预测任务在自动驾驶系统中发挥着至关重要的作用。它的目标是从有限的观察中预测整个场景中每个体素的语义占用。考虑到激光雷达在准确的几何信息捕获方面的强大性能,在之前的一些方法中激光雷达点云被作为优先的输入模态。由于其造价比较昂贵,近年来转向以视觉为中心的解决方案。
尽管基于以视觉为中心的方法取得了重大进展,但它们主要集中在增强对当前场景的更好感知。对于路径规划而言,自动驾驶汽车不仅需要理解当前的场景,还需要基于对世界动态特性的理解来预测未来场景的演变。因此,4D占用预测被引入来预测给定历史观测的未来3D占用率。
最近的一些研究旨在通过学习 3D 占用世界模型来实现这一目标。然而,在处理图像输入时,这些方法遵循一条迂回的路径,如下图(b)所示。通常,采用预先训练的 3D 占用模型来获得当前占用,然后将其输入到预测模块以生成未来占用。预测模块包括将占用编码为离散标记的标记器、生成未来标记的自回归架构和获得未来占用的解码器。在这种重复的编码和解码过程中很容易发生信息丢失。因此,现有方法严重依赖 3D 占用标签作为监督来产生有意义的结果,导致显著的标注成本。

与 3D 占用标签相比,2D 标签相对容易获取。最近,使用纯 2D 标签进行自监督学习在 3D 占用预测任务中显示出一些有希望的结果,如上图(a)所示。通过利用体积渲染,使用 2D 深度图和语义标签来训练模型。然而,在 4D 占用预测任务中还没有类似的尝试。
基于以上观察,我们提出了 PreWorld,一种半监督的以视觉为中心的 3D 占用世界模型,旨在满足训练期间 2D 标签的利用率,同时在 3D 占用预测和 4D 占用预测任务中实现具有竞争力的性能,如上图(c)所示。
在nuScenes数据集上的大量实验验证了我们的方法的有效性和可扩展性,并证明了PreWorld在3D占用率预测、4D占用率预测和运动规划任务中实现了具有竞争力的性能。
文章链接:https://arxiv.org/abs/2502.07309
网络模型结构&细节梳理
4D Occupancy预测任务的回顾






状态条件预测模块
在本文中,我们更倾向于采用直接的方式,这使我们能够同时优化 3D 占用模型和预测模块。具体而言,我们采用了状态条件预测模块代替了场景标记器、自回归架构以及解码器。提出的状态条件预测模块的整体网络结构如下图所示。

不失一般性,我们的预测模块仅由两个 MLP 组成。我们证明,即使没有复杂的设计,这种简单的架构仍然可以实现与最先进方法相当甚至更好的结果。这种设计表明,以前在训练期间单独优化预测模块的做法有其局限性。通过同时优化占用网络和预测模块,3D 占用世界模型可以实现更强大的性能。此外,我们的模块可以选择性地将速度、加速度和历史轨迹等自车状态信息纳入网络当中。
此外,这种架构还为我们带来了额外的好处。鉴于之前的预测模块将场景编码为离散标记,它们无法像自监督的 3D 占用模型那样通过体积渲染直接监督带有 2D 标签的未来预测。由于我们的模块保留了未来场景的体积特征,因此它提供了以自监督方式训练 3D 占用世界模型的机会。
时间二维渲染自监督






两阶段训练范式

实验结果&评价指标
3D占用预测实验结果
我们首先将 PreWorld 模型的 3D 占用预测性能与 Occ3D-nuScenes 数据集上的最新方法进行比较。如下表所示,PreWorld 实现了 34.69 的 mIoU,超过了之前最先进的方法 OccFlowNet,其 mIoU 为 33.86,以及使用 2D、3D 或组合监督的其他方法。这凸显了 PreWorld 在感知当前场景方面的有效性。此外,所提出的2D预训练阶段将性能提高了0.74mIoU,几乎所有类别(包括静态和动态)都有所改善。这些结果强调了所提出的 2D 预训练阶段对于增强场景理解的重要性。

此外,我们进一步将 PreWorld 的定性结果与最新的全监督方法 SparseOcc 和自监督方法 RenderOcc进行了比较,如下图所示。RenderOcc 可以将场景体素投影到多视图图像上,以从各个射线方向获得全面的监督,从而从 2D 标签中捕获丰富的几何和语义信息。然而,如最后一栏所示,它在预测看不见的区域和理解整体场景结构方面遇到了困难。另一方面,SparseOcc 在预测场景结构方面表现出色。

然而,由于对 3D 占用标签中的小物体和长尾物体的监督不足,它在预测电线杆和摩托车等物体时经常会遇到信息丢失的情况,如第二行和最后一行所示。相比之下,我们的模型最初是用 2D 标签进行预训练的,从而对场景的几何和语义有了足够的理解。在微调阶段,使用 3D 占用标签进一步优化模型,使 PreWorld 能够更好地预测场景结构。因此,PreWorld 在整体结构预测方面的表现与 SparseOcc 相当,但在预测细粒度局部细节方面表现出明显的优势,凸显了我们训练范式的优越性。
4D占用预测实验结果
下表展示了PreWorld算法模型与现有基线模型OccWorld和OccLLaMA相比的 4D 占用预测性能。当仅使用 3D 占用监督时,我们的方法在未来 3 秒间隔内实现了最高的 mIoU,优于基线。这证明了我们的训练方法在端到端占用特征提取和预测模块中的有效性。与 3D 占用预测的结果类似,结合 2D 预训练阶段可进一步改善所有未来时间戳的 mIoU 和 IoU。鉴于 2D 标签比昂贵的 3D 占用标记更容易获得,PreWorld 的两阶段训练范式带来的性能提升是值得注意的。

运动规划实验结果
下表进一步比较了运动规划任务的结果。在不纳入自车状态信息的情况下,我们的模型的表现与占用世界模型甚至一些精心设计的规划模型相当。当使用与 OccWorld 和 OccLLaMA 相同的配置(以灰色表示)时,我们的方法实现了 SOTA 性能并获得了显着改进,并通过预训练阶段进一步增强。由于 PreWorld 遵循直接训练范式,以原始图像作为输入并产生规划结果,因此自车状态的影响与世界模型基线的影响明显不同。我们将这种差异归因于先前工作中观察到的“捷径”效应。

消融实验分析
接下来,本文分析了2D预训练阶段不同监督属性的有效性。预训练的好处在 3D 占用预测和 4D 占用预测中都是一致的。因此,为了节省计算资源,我们对 3D 占用预测任务进行了消融实验。如下表所示,随着 RGB、深度和语义属性在预训练阶段逐步添加,最终的 mIoU 结果稳步提高。这证明了三个 2D 监督属性的有效性,即使是最简单的 RGB 属性也能提高性能。

为了验证我们方法的可扩展性,我们对预训练和微调阶段使用的数据规模进行了消融研究,如下表所示。首先,引入预训练阶段可以持续提高所有微调数据规模的性能,其中更大的预训练规模可带来更好的结果。其次,当微调数据集较小(150 个场景)时,这意味着昂贵的 3D 占用标签有限,预训练阶段显着将 mIoU 从 18.66 提升到 25.02。通过预训练,在较小数据集(450 个场景)上微调的模型实现了与没有预训练但在较大数据集(700 个场景)上微调的模型相当的性能,mIoU 分别为 33.37 和 33.95。这些结果凸显了我们的两阶段训练范式的有效性和可扩展性。

结论
在本文中,我们提出了PreWorld算法模型,一种用于自动驾驶的半监督以视觉为中心的 3D 占用世界模型。我们提出了一种新颖的两阶段训练范式,使我们的方法能够利用丰富且易于访问的 2D 标签进行自监督预训练。通过大量实验,我们证明了 PreWorld 在 3D 占用预测、4D 占用预测和运动规划任务中的鲁棒性。
‘

发表回复