2025-09-12 华为坚定要走的世界模型路线，到底是什么？

原文链接：https://mp.weixin.qq.com/s/gdoOaYU0x1YY7fB2Wuy8CQ

目前业内对下一代量产方案的技术路线产生了分歧，以华为、蔚来为代表的世界-行为流派坚持follow世界模型路线。在辅助驾驶技术路线的选择上，当头部车企押注VLA（视觉语言行为模型），一些公司却认为WA（世界行为模型）才是能真正实现自动驾驶的终极方案。这引起了很多小伙伴的关注，今天自动驾驶之心就为大家剖析一下世界模型！

世界建模已成为人工智能研究领域的基石，它使智能体能够理解、表示并预测其所处的动态环境。尽管以往研究在很大程度上侧重于2D图像和视频数据的生成式方法，但却忽视了一个快速发展的研究方向——即利用RGB-D图像、占用网格（occupancy grids）和激光雷达（LiDAR）点云等原生3D与4D表示进行大规模场景建模。与此同时，“世界模型”缺乏标准化的定义和分类体系，导致文献中出现了零散且有时不一致的表述。为填补这些空白，新加坡国立大学孔令东博士领衔的这篇综述，首次针对3D与4D世界建模及生成展开全面综述：我们明确了相关精确定义，提出了涵盖基于视频（VideoGen）、基于占用网格（OccGen）和基于激光雷达（LiDARGen）方法的结构化分类体系，并系统总结了适用于3D/4D场景的数据集与评估指标。此外还探讨了实际应用场景，指出了当前面临的开放挑战，并强调了具有潜力的研究方向，旨在为该领域的发展提供一个连贯且基础性的参考框架。

论文链接：https://arxiv.org/abs/2509.07996
开源汇总：https://github.com/worldbench/survey

一、引言

世界建模已成为人工智能（AI）与机器人领域的一项基础性任务，其核心目标是使智能体具备理解、表示并预测其所处动态环境的能力。近年来，生成式建模技术（包括变分自编码器（VAEs）、生成对抗网络（GANs）、扩散模型（diffusion models）和自回归模型（autoregressive models））取得了显著进展，通过实现复杂的生成与预测能力，极大地丰富了该领域的研究内容。

然而，这些进展在很大程度上集中于2D数据，主要是图像或视频。与之形成对比的是，现实世界场景本质上处于3D空间中且具有动态特性，通常需要利用原生3D与4D表示的模型。这类表示包括RGB-D图像、占用网格、激光雷达点云，以及能够捕捉时间动态的时序形式。这些模态可提供明确的几何信息和物理基础，对于自主驾驶、机器人等嵌入式系统（embodied systems）和安全关键系统（safety-critical systems）而言至关重要。

除上述原生格式外，世界建模的研究也已拓展至相邻领域。部分研究关注视频、全景或基于网格（mesh）的数据，此类系统具备大规模、通用的视频-网格生成能力；与此同时，另一类研究聚焦于3D物体生成以用于资产创建，这类研究专长于可控且高保真的物体合成。此外，头部企业发起的工业项目已启动了雄心勃勃的世界建模计划，其目标应用场景涵盖交互式机器人、沉浸式仿真到大规模数字孪生等，这凸显了该领域在学术界和工业界日益增长的重要性。

尽管发展势头迅猛，“世界模型”（world model）这一术语本身仍存在歧义，在不同文献中的用法不一致。部分研究将其狭义地解读为感官数据（如图像、视频）的生成式模型，而另一些研究则将其范围拓展至包括预测性预测（predictive forecasting）、仿真器（simulators）和决策框架（decision-making frameworks）。此外，现有综述大多侧重于2D模态或仅视觉模态，而对原生3D与4D数据所特有的挑战和机遇探讨不足。这导致相关文献呈现碎片化状态，缺乏统一的框架或分类体系。

研究贡献

为填补上述空白，本综述首次针对3D与4D世界建模及生成展开全面综述。主要贡献包括以下三方面：

明确了“世界模型”和“3D/4D世界建模”的精确定义，为研究社区提供统一的术语和概念清晰度；
提出了方法学的分层分类体系，根据表示模态（即基于VideoGen、OccGen、LiDARGen模型的世界建模）对现有方法进行分类；
全面涵盖了专门适用于3D/4D场景的数据集和评估协议，为现有及未来世界建模与生成方法的全面基准测试提供支持。

综述范围

与以往综述不同（以往综述多侧重于2D生成式模型，或在有限语境中广义定义世界建模），本综述明确聚焦于利用原生3D与4D表示的方法。这一专项聚焦包括采用RGB-D、体素占用网格、激光雷达点云及其时空形式的方法。通过突出这些模态，本综述不仅填补了关键的知识空白，还为旨在开发稳健且通用的3D/4D生成式模型的研究者提供了基础性参考框架。

综述结构

综述剩余部分的结构如下：第2节介绍预备知识，详细阐述世界建模相关的基本概念、定义和关键生成范式；第3节提出新的分层分类体系，详细介绍VideoGen、OccGen和LiDARGen方法，并对它们各自的优势与局限性进行对比分析；第4节系统总结并分类了世界建模任务中广泛使用的数据集和评估指标，同时对该领域近期方法进行基准测试；第5节综述了3D/4D世界模型在自主驾驶、机器人和仿真环境等领域的实际应用；第6节讨论了主要挑战，并强调了具有潜力的未来研究方向，为该领域的持续创新铺路；最后，第7节总结了本综述中的核心观点。

二、预备知识

在本节中，我们定义理解3D和4D世界建模所需的关键概念，并建立统一的数学符号。这包括对关键表示、生成式和预测式世界模型的定义，以及模型分类的详细说明。

3D和4D表示

为了系统分析3D/4D世界模型，我们首先介绍作为生成和预测任务中输入、输出或中间状态的基础场景表示。这些表示在捕捉空间几何、时间动态和语义上下文的方式上存在差异。

模型分类

这四类模型共同构成了3D/4D世界建模的功能范畴。尽管它们的目标都是生成物理和语义上连贯的场景，但在利用历史观测、条件信号和交互循环的方式上存在差异，可应用于从大规模数据合成、策略评估到交互式仿真和场景修复等多个领域。

生成模型

生成模型是3D/4D世界建模的算法核心，使智能体能够在多种条件下学习、想象和预测感知数据。它们提供了合成真实且物理合理场景的机制，不同范式在质量、可控性和效率方面存在不同的权衡。典型的生成模型家族包括变分自编码器、生成对抗网络、扩散模型和自回归模型。

三、方法：层次化分类体系

在本节中，我们基于表示模态对现有3D和4D世界建模方法进行标准化分类。分别介绍基于视频生成、占用生成和激光雷达生成模型的世界建模方法，并进行详细讨论。

基于视频生成的世界建模

基于视频的生成已成为一种新范式，它通过提供视觉线索和时间动态来建模复杂的现实世界场景。这类模型通过生成多视角或第一视角视频序列，可合成训练数据、预测未来结果并创建交互式仿真环境。根据核心功能，现有方法可分为三类：数据引擎、动作解释器和神经仿真器。表2总结了这些领域下的现有模型。

数据引擎

生成式3D数据引擎侧重于生成多样化且可控的驾驶场景，以支持感知、规划和仿真任务。该方向的研究涵盖三个主要应用场景。

感知数据增强：生成式场景合成可缓解真实世界数据稀缺问题，并解决长尾感知挑战。早期研究聚焦于基于鸟瞰图（BEV）的真实街道场景生成。BEVGen采用自回归Transformer和跨视角转换，生成与给定BEV布局空间对齐的周围环境图像；BEVControl以扩散模型为核心，提升合成数据质量，尤其针对具有挑战性的长尾场景。

此后，MagicDrive在驾驶场景生成和数据增强方面取得显著进展，它结合3D几何、语义描述和相机姿态生成高保真图像。后续研究引入了更精细的条件控制：例如，SyntheOcc利用3D语义多平面图像实现全面的空间对齐条件控制；PerLDiff提出透视布局扩散模型，充分利用透视3D几何提升真实性和一致性。

此外，Panacea、DrivingDiffusion和SubjectDrive等方法分别引入4D注意力、关键帧和主体控制，以提升3D可控多视角视频的时间连贯性和数据多样性；NoiseController通过多级噪声分解和多帧协同去噪增强时空一致性。针对长时程视频生成，DiVE、MagicDrive-V2和Cosmos-Drive利用Diffusion Transformer（DiT）的灵活性和可扩展性生成更长视频；Glad采用 latent 变量传播技术；STAGE通过分层时间特征迁移以流式方式生成长视频。另有研究（如UniScene和BEVWorld）探索多模态数据合成以扩展应用场景，支持利用多模态信息的下游感知任务。

这些进展通过生成捕捉现实世界变异性、多样化、可控且长时程的训练数据，为鲁棒、可扩展的自动驾驶感知系统提供了支持。

面向规划的数据挖掘：除感知任务外，数据引擎还可挖掘稀缺且安全关键的场景，用于规划任务。Delphi采用基于扩散的长视频生成框架，并结合基于预训练视觉语言模型的故障案例驱动方法，合成与故障场景相似的数据，从而提升端到端自动驾驶系统的样本效率和规划性能；DriveDreamer-2通过大型语言模型（LLM）将用户查询转换为智能体轨迹，再利用这些轨迹生成符合交通规则的高清地图（HDMap），用于极端场景生成；Nexus通过具有独立噪声状态的细粒度token仿真常规和挑战性场景，提升反应性和目标条件控制能力，并收集专用极端场景数据集以补充挑战性场景生成；Challenger利用物理感知的多轮轨迹优化识别对抗性机动行为，并通过定制评分函数促进既真实又具有挑战性的行为，且这些行为可与下游视频合成兼容。

场景编辑与风格迁移：现有诸多方法还将世界模型用于场景编辑和风格迁移，以丰富自动驾驶仿真和数据增强工具库。早期方法主要利用场景描述或参考图像进行基础外观修改（如天气、光照调整），并依赖边界框或高清地图进行元素级调整。然而，新方法探索了更丰富的表示形式，以实现精确的场景操控和多样化的外观控制：

WoVoGen通过世界体素感知合成确保跨传感器一致性；SyntheOcc利用占用网格实现遮挡感知的场景编辑；SimGen通过仿真器条件级联扩散缩小仿真与真实世界的差距；DrivePhysica利用CARLA仿真器仿真复杂驾驶场景（如加塞），并引入运动表示学习和实例流引导以保证时间连贯性；GeoDrive则集成显式3D几何条件和动态编辑功能，支持交互式轨迹和物体操控。

动作解释器

基于动作的生成模型通过动作引导的世界生成和预测驱动的动作规划，连接智能体意图与环境动态，实现结果预测，并通过将控制指令映射到合理的未来场景，统一低层机动与高层推理。

动作引导的视频生成：基于动作条件的生成模型使智能体能够根据预期机动预测未来结果，有效连接低层控制输入与高保真的未来视频序列生成。GAIA-1开创了融合视频、文本和动作输入的生成模型，可合成具有详细自车行为和场景属性控制的真实驾驶场景；GAIA-2扩展该框架，纳入智能体配置、环境因素和道路语义信息；GenAD进一步提升泛化能力，发布OpenDV数据集，并提出支持零样本、语言和动作条件预测的模型。

Vista在多种场景中实现鲁棒的动作条件控制；GEM输出多模态结果，并支持精确的自车运动控制；MaskGWM利用基于掩码的扩散提升保真度和长时程预测性能。为解决长视频合成中的误差累积问题，InfinityDrive和Epona分别提出记忆注入和前向链式训练策略。此外，DrivingWorld根据预定义轨迹生成场景，可作为神经驾驶仿真器；DriVerse、MiLA、PosePilot和LongDWM等方法则分别聚焦于轨迹对齐、时间稳定性、姿态可控性和无深度引导等方向。

这些进展共同推动基于动作条件的生成模型向更高精度、时间连贯性和鲁棒性发展。

预测驱动的动作规划：另一类研究方向从当前观测和自车动作中预测未来状态，使规划器能在执行动作前评估结果。与纯反应式方案不同，这类方法强调前瞻式决策，让智能体能够“虚拟测试”多种未来可能性，避免在现实世界中进行不安全的试错。

DriveWM生成候选机动的视频序列，并利用基于图像的奖励对轨迹进行评分选择；DriveDreamer提出ActionFormer，用于预测未来状态和自车-环境交互；ADriver-I将多模态LLM与自回归控制信号和世界演变预测相结合；Vista集成不确定性感知奖励模块，实现鲁棒的动作评估；DrivingGPT和DrivingWorld等类GPT设计通过联合建模视觉和动作token，基于下一个token预测实现规划；Doe-1等集成框架将感知、预测和规划统一，用于闭环自动驾驶；VaVAM将视频扩散与动作专家系统结合，支持决策制定；ProphetDWM进一步将 latent 动作学习与状态预测耦合，用于长时程规划。

总体而言，通过仿真多样化未来场景并利用反馈，预测驱动模型提升了端到端自动驾驶的泛化能力和安全性。

神经仿真器

闭环仿真器生成真实的虚拟世界，支持有效的规划、决策和交互。根据场景建模方式的差异，近期方法可大致分为两类。

生成驱动的仿真：近期自动驾驶生成式仿真器的研究利用条件生成框架创建交互式高保真环境。DriveArena构建首个闭环框架，包含两个核心组件：用于大规模交通合成的TrafficManager和用于自回归场景生成的WorldDreamer；DreamForge在此基础上，通过集成物体级位置编码（辅以新型时间注意力机制）增强长时程场景建模能力；DrivingSphere进一步引入4D语义占用建模，统一静态环境和动态物体，并结合视觉合成模块确保多视角视频生成的时空一致性；UMGen仿真自车与用户定义智能体之间的行为交互；Nexus根据智能体决策动态更新环境，并通过nuPlan闭环基准进行严格验证；GeoDrive通过几何感知场景建模和精确控制模块，优化面向超大场景（VLA）系统的轨迹规划。

这些进展使生成式仿真从被动环境渲染转向能够支持智能体交互和反馈驱动适应的闭环系统。

以重建中心的仿真：基于重建的仿真器采用神经场景重建技术（如NeRF和3D高斯溅射（3D GS）），将驾驶日志转换为交互式神经环境。例如，StreetGaussian将动态城市街道表示为一组带有语义logit和3D高斯的点云，每个点云要么与前景车辆关联，要么与背景关联。

其他关键实现包括：HUGSIM将物理约束与3D GS集成，用于合成激进驾驶行为；UniSim和UniGaussians通过高斯基元蒸馏生成同步的多模态传感器输出；OmniRe通过神经场景图表示进一步增强动态实体建模。

尽管传统3D GS方法在视角外推时容易产生伪影，但新方案通过集成3D场景生成模型作为数据基础，提升了重建鲁棒性：ReconDreamer采用渐进式细化消除动态场景中的重影效应；Stage-1通过多视角点云补全实现可控4D合成。这些建模方法显著提升了对新视角的处理能力，有效缩小了仿真环境与真实世界环境之间的保真度差距。

基于占用生成的世界建模

基于占用网格的生成模型通过提供以几何为中心的表示，对3D世界的语义和结构细节进行编码。这类模型通过生成、预测或仿真3D/4D空间中的占用状态，为感知提供几何一致的框架，实现基于动作的未来预测，并支持真实的大规模仿真。根据核心功能，现有方法可分为三类：场景表示器、占用预测器和自回归仿真器。表3总结了这些领域下的现有模型。

场景表示器

基于占用的3D和4D生成模型旨在学习结构化3D场景表示，将占用网格视为下游任务的几何一致中间表示。这种范式可提升感知鲁棒性，并为3D场景生成提供结构指导，主要应用于两个场景。

3D感知鲁棒性增强：占用表示已成为一种强大的中间模态，可通过生成建模技术提升感知鲁棒性。SSD是该方向的开创性工作，它采用离散和 latent 扩散模型生成场景级3D分类数据，学习将稀疏占用输入映射为密集语义重建结果；SemCity通过将扩散过程以初始语义场景补全（SSC）输出为条件，进一步提升几何和语义保真度，减少重建场景中的不一致性。

生成一致性引导：其他研究利用占用网格指导高保真、时间连贯的场景合成：WoVoGen提出4D时间占用体素，驱动多视角视频生成，确保世界内部和跨传感器一致性；UrbanDiff将语义占用网格作为几何先验，用于3D感知图像合成；DrivingSphere将动态4D占用场景转换为时间连贯的视频（通过语义渲染）；UniScene将基于高斯的渲染与先验引导稀疏建模相结合，实现视频和激光雷达的统一合成，从而将占用生成推广到多模态场景。

这些方法共同凸显了占用网格作为统一结构先验的作用——它能生成空间和时间上一致、且结构保真度高的输出。

OCC预测器

4D占用预测模型基于自车动作和历史观测预测未来占用状态，可实现环境变化的预判。该能力主要有两个用途：作为自监督预训练任务构建通用3D/4D模型；作为动态预测器实现行为感知、可控的未来场景生成。

预测模型预训练：已有多种方法将占用预测作为 pretext任务，从激光雷达序列中学习丰富的时空特征，并通过自监督学习构建通用生成模型：EmergentOcc引入可微渲染，从4D占用预测结果中重建点云，实现基于原始序列的自监督训练；UnO对连续4D占用场建模，实现感知与预测任务的联合学习。

此外，UniWorld、UniScene和DriveWorld等大规模预训练框架结合图像和激光雷达数据，学习基础占用模型，这些模型可通过微调应用于检测和规划等下游任务，减少对密集标注的依赖并提升泛化能力。

基于自车条件的占用预测：另有方法结合历史观测和自车智能体动作进行占用预测，支持行为感知和可控预测：OccWorld在3D占用空间中联合建模自车运动和周围环境演变；OccSora生成基于轨迹条件的4D占用，支持长时程预测。后续研究进一步提升了模型的可控性、保真度、时间连贯性和效率。

此外，Cam4DOcc及其后续改进方法将世界模型集成到端到端规划中，增强生成能力；OccLLaMA和Occ-LLM以语义占用为共享表示，统一视觉、语言和动作模态，支持具身问答任务；UniOcc构建结合真实和仿真数据的基准，实现标准化评估。

这些工作表明，占用预测既是一种强大的自监督学习目标，也是建模动态、基于动作的世界状态的关键工具。

自回归仿真器

基于占用的自回归仿真器生成大规模、时间连贯的4D占用，用于真实的交互式仿真。它们作为感知、规划和决策任务的基础仿真器，研究聚焦于两个方向：生成可扩展的无界环境；建模长时程动态以支持可控闭环仿真。

可扩展开放世界生成：研究人员探索了coarse-to-fine和outpainting策略，以构建大规模、无界3D占用环境：PDD提出尺度可变扩散框架，从粗布局到精细细节逐步生成户外场景；XCube采用基于分层体素的 latent 扩散实现多分辨率生成；SemCity添加场景编辑操作功能；InfiniCube和X-Scene将基于体素的占用与一致的视觉合成相结合，构建真实、可编辑的仿真世界。

这些工作构建了可扩展的基于占用的表示，为具身智能体提供交互式、可扩展的环境。

Long-Horizon动态仿真：另有研究聚焦于自回归4D占用生成，以仿真世界的动态演变：OccSora生成基于轨迹条件、时长16秒的序列；DynamicCity支持基于布局和指令条件的生成，可实现可控场景合成和智能体交互；DrivingSphere构建包含静态背景和动态物体的4D世界，用于闭环仿真；UniScene生成基于布局条件的4D占用，且包含丰富的语义和几何细节。

这些方法通过集成空间结构和时间连贯性，为具身智能体仿真和决策制定创建了真实、可控的环境。

基于激光雷达生成的世界建模

基于激光雷达的生成模型通过从点云建模复杂场景，提供几何感知且外观不变的表示。它们支持鲁棒的3D场景理解和高保真几何仿真，相比基于图像和占用的方法，在几何保真度和环境鲁棒性方面具有优势。根据核心功能，这类方法可分为三类：数据引擎、动作预测器和自回归仿真器。表4总结了这些领域下的现有模型。

数据引擎

基于激光雷达的数据引擎可缓解大规模激光雷达训练数据稀缺问题（由于采集成本高和标注难度大），通过生成多样化且可控的点云实现。这类模型能提升感知鲁棒性、实现几何精确的场景补全，并支持稀缺或跨模态场景合成。近期方法聚焦于四个主要应用场景。

感知数据增强：基于激光雷达的生成建模可为3D检测和分割等核心感知任务提供数据增强支持，且重点关注几何保真度和传感器真实性。早期方法主要通过建模不确定性和空间结构合成真实激光雷达扫描数据：DUSty是基于生成对抗网络（GAN）的框架，通过将底层深度图与测量不确定性显式解耦，合成真实激光雷达扫描；DUSty v2扩展DUSty，引入隐式神经表示，使模型能生成任意分辨率的激光雷达距离图像；LiDARGen率先将朗之万动力学（Langevin dynamics）应用于激光雷达点云生成，性能优于GAN和变分自编码器（VAE）。

作为首个将去噪扩散范式应用于该领域的工作，LiDARGen启发了众多基于去噪扩散概率模型（DDPM）的后续研究：R2DM通过显式位置编码，利用标准化DDPM过程实现更高精度的激光雷达点云生成；R2Flow利用流匹配技术显著加速激光雷达点云生成；LiDM、RangeLDM和3DiSS采用 latent 扩散技术，先通过预训练VAE将原始尺度数据压缩为低维 latent 变量，再在该 latent 空间训练扩散模型，最后将生成的输出重建到原始分辨率，在保证质量的同时大幅提升生成速度；LiDARGRIT通过VQ-VAE将 latent 空间离散化，并利用自回归Transformer生成 latent 编码，还引入射线丢失估计损失以显式增强射线丢失噪声建模；SDS提出多视角激光雷达场景生成的同步扩散采样方法，通过同时生成所有视角，实现比单独生成各视角更优的几何一致性；SPIRAL率先生成带分割标注的激光雷达数据，并引入新型闭环推理策略，增强几何与语义的一致性；La La LiDAR提出基于布局引导的生成框架，将基于场景图的布局扩散与前景感知控制注入器相结合，实现物体关系的显式建模和可控场景生成；Veila引入基于单目RGB图像引导的全景激光雷达生成条件扩散框架，解决了可靠条件控制、跨模态对齐以及维持RGB视场之外结构连贯性的挑战。

这些进展通过生成捕捉真实世界传感特征、多样化、可控且几何保真的训练数据，为基于激光雷达的感知任务提供了支持。

场景补全：3D场景补全旨在从稀疏或遮挡的激光雷达扫描中重建密集且连贯的3D几何结构，近期生成式方法在提升几何保真度和可控性方面取得进展：UltraLiDAR利用VQ-VAE为激光雷达点云引入离散体素表示，实现高效、可控的稀疏到密集补全；LiDiff和DiffSSC利用DDPM的去噪过程重新定位重复点，在致密化激光雷达点云的同时补全遮挡区域；LiDAR-EDIT基于UltraLiDAR（用于背景补全）和AnchorFormer（用于前景物体合成），支持激光雷达场景的灵活编辑（包括物体移除和插入）；LiDPM通过增强对大幅度噪声的去噪能力，将LiDiff扩展为不仅能从稀疏输入，还能从纯高斯噪声中生成密集点云，从而实现全新场景的合成。类似地，Distillation-DPO通过集成分数蒸馏（Score Distillation）和Diffusion-DPO技术，同时提升LiDiff的补全质量和推理效率；SuperPC提出统一框架，将点云转换为适用于补全、上采样、去噪和着色任务的表示特征，避免了因依次应用独立模型而导致的误差累积。

稀缺条件建模：为提升3D感知在恶劣条件下的鲁棒性，近期方法探索了针对安全关键场景的可控激光雷达生成：Text2LiDAR提出基于Transformer的架构，集成文本信息实现文本控制的激光雷达点云生成；WeatherGen针对雨、雪、雾等恶劣天气条件，在统一的可控生成模型中生成高质量激光雷达点云，并通过这些条件下的3D物体检测任务验证了生成点云数据的实用价值；OLiDM通过两阶段流水线解决物体级保真度限制：先生成前景物体，再将其作为场景生成的条件，确保物体级和场景级的可控性和高质量；LOGen提出物体级点云生成模型，以合成交通参与者，且生成过程以物体相对于传感器的相对姿态和距离为条件。

多模态生成：近期有多种方法探索多模态生成，通过合成对齐的激光雷达和图像数据实现：X-Drive引入双分支扩散架构，用于联合生成自动驾驶场景中对齐的激光雷达点云和多视角相机图像，其核心创新是跨模态极线条件模块，可提升点云和图像模态之间的一致性；此外，X-Drive支持基于异构输入（包括文本描述、物体边界框以及来自图像或激光雷达的传感器数据变体）的可控3D场景生成。

动作预测器

作为动作预测器的基于激光雷达的世界模型，可根据历史观测，在给定未来状态条件下生成未来激光雷达序列。

时序建模：Copilot4D提出一种构建世界模型的可扩展方法，主要通过两个步骤实现：（1）利用VQ-VAE模型对复杂、非结构化的点云输入进行token化；（2）将掩码生成图像Transformer（Masked Generative Image Transformer）重构为离散扩散模型，以支持并行去噪和解码。Copilot4D以1-3秒的历史激光雷达帧和未来自车动作为输入，预测未来1-3秒的高质量激光雷达帧。

ViDAR以历史相机帧为输入，预测未来激光雷达帧作为输出，该框架还可用于感知、预测和规划等任务的预训练。

多模态动作预测器：BEVWorld引入多模态tokenizer，将生成能力扩展到环视图像和激光雷达点云；DriveX支持多模态输出（包括点云、相机图像和语义地图），通过采用解耦 latent 世界建模策略（将用于空间建模的世界表示学习与用于未来状态预测的 latent 未来解码分离），有效简化非结构化场景中复杂动态的建模过程；HERMES集成大型语言模型（LLM），除激光雷达外还生成未来帧的文本描述，从而增强人机交互能力。

自回归仿真器

作为自回归仿真器的世界模型旨在生成时间连贯的激光雷达序列，用于真实的交互式仿真。它们作为感知、规划和决策任务的基础，重点关注几何保真度和时间连贯性。根据数据生成范式，现有方法可分为两类。

序列自回归激光雷达生成：HoloDrive提出自回归框架，通过在2D生成模型中引入深度预测分支提升2D和3D表示之间的对齐，从而联合生成多视角相机图像和激光雷达点云；LiDARCrafter将La La LiDAR的基于布局两阶段框架扩展到4D领域，结合自回归激光雷达序列生成器，支持细粒度控制、长时程时间连贯性和多样化编辑能力。

基于网格的场景尺度仿真：LidarDM通过移除多帧中的动态物体，从点云中构建网格；然后以BEV布局为条件训练扩散模型，使其能生成网格世界；通过将带有运动轨迹的动态物体融入该网格世界，并对场景进行射线投影，LidarDM可合成长序列激光雷达点云。

四、数据集&评测

数据集

评测指标和协议

定量实验与分析

视频生成模型基准测试

总体而言，研究结果表明，仅依靠图像级真实感生成不足以提升下游任务的性能；对几何结构、时间一致性及运动动力学进行显式建模至关重要。融入此类先验知识的模型不仅能提升检测与分割效果，还能通过减少碰撞事件和轨迹误差，为更安全的规划提供支持。

出色的分割保真度进一步证明，多视图模型与结构感知模型在捕捉全局布局方面具备显著优势，但这些模型与真实数据之间的性能差距仍十分显著 —— 这一现象凸显了将生成保真度与任务级效用进行对齐所面临的挑战。

OCC生成模型基准测试

LiDAR生成模型基准测试

定性实验和分析

五、应用场景

3D与4D世界建模凭借其强大的通用性，已在多个领域实现部署应用。其中，（1）自动驾驶领域借助该技术支持仿真、评估与场景合成；（2）机器人技术利用其实现导航、操作及可扩展仿真；（3）视频游戏与扩展现实（XR）通过该技术优化内容生成、沉浸式渲染及自适应环境构建；（4）数字孪生依托该技术实现城市级重建、事件回放与场景编辑；（5）新兴应用场景则涵盖科学发现、医疗健康、工业生产及灾害响应等领域。这些应用共同表明，世界建模在跨领域整合感知、预测与生成能力方面发挥着关键作用。

自动驾驶

3D与4D世界建模为自动驾驶提供了系统性基础，可支持交通仿真、性能评估及场景合成。该技术能够构建可控、可交互且对安全性要求极高的环境，而这类环境在现实世界中难以轻松复现。以下将介绍其三大主要应用方向：

交通仿真：世界模型能够构建具备异质智能体、多样化运动模式及物理一致性交互的真实交通仿真器。与仅基于图像的平台相比，体素表示（如占据栅格）、多帧激光雷达点云或场景级网格等技术可提供更丰富的几何信息与时间连贯性。现代交通仿真系统还支持对可控参数（如交通密度、智能体意图、天气状况）进行调整，并引入随机扰动，从而提升下游决策策略的鲁棒性与泛化能力。

闭环评测：除静态基准测试外，闭环测试方案通过将生成模型与智能体结合，可在长时域内评估“感知→规划→控制”全流程性能。这类模型通过联合建模自车行为与周边交通动态，能够构建可实时响应用户操作的环境。这使得在分布偏移、罕见事件及故障恢复等场景下评估系统鲁棒性的过程更具可扩展性；同时，借助高清地图、文本查询、自车轨迹等模块化条件控制手段，还可实现针对性压力测试。

场景合成：世界模型能够生成现实数据集中代表性不足的罕见或安全关键驾驶场景，这对评估自动驾驶系统的鲁棒性至关重要。典型场景包括严重遮挡、突发闯入、多智能体冲突及恶劣天气等情况。通过高清地图、语义掩码、场景图或文本提示等手段实现的可控生成，可支持针对性测试；而基于物理规律与运动感知的模型能够确保场景动态可行性，随机采样则可进一步扩大罕见事件的覆盖范围。以激光雷达为核心的技术（如LiDARCrafter）还将这一能力扩展到了具备时间连贯性的4D序列生成任务中。

机器人技术

3D与4D世界建模有望通过支持导航、操作及仿真，进一步提升机器人智能水平。该技术可提供时空定位、物理推理及可扩展的合成环境，而这些正是构建鲁棒决策策略的关键要素。

嵌入式导航：机器人可借助世界模型感知并预测动态场景布局，从而在结构化与非结构化环境中实现长时域探索、避障及定位。在拥挤或存在遮挡的场景中，预测未来状态尤为关键——此时，多帧激光雷达数据、体素化占据栅格及预测动态模型可提供可靠的时空线索。近期研究还将视觉、拓扑及语言信号相结合，以实现指令遵循与自适应决策。

以目标中心的操作：针对该任务，世界模型能够捕捉物体几何特征与物理状态变化，帮助机器人预测接触动力学，并规划稳定的抓取或重排动作。网格、关键点图、体素嵌入等表示方法可支持细粒度控制，并实现对新物体的泛化。将可微物理与生成模型相结合，能够生成物理一致性预测结果，进而为各类操作任务提供优化方向。

用于仿真的场景生成：生成模型能够构建多样化的合成环境，降低训练与评估过程中手动设计环境的成本。通过在布局、语义及动态特性方面引入程序性变化，可让机器人接触到更广泛的场景，从而提升其鲁棒性及“仿真→现实”迁移能力。从网格到体素网格、点云等灵活的场景表示方式，还可进一步实现与物理仿真器及照片级渲染器的整合。

视频游戏与扩展现实（XR）

世界模型通过自动化内容生成、支持沉浸式渲染及构建可响应用户操作的自适应环境，为游戏与XR领域带来变革。

程序性世界生成：生成模型可自动设计大规模虚拟世界，支持开放式探索与涌现式游戏玩法。程序性生成流程能够整合地图、玩家状态或语言提示，突破手动资产创建的限制，实现内容生产规模化。保持时间与语义连贯性是确保世界动态演变可信度的关键；而点云、体素、神经辐射场等多样化场景表示方式，则在真实感、风格化与效率之间取得了平衡。

交互式场景渲染：沉浸式XR需要对动态场景进行实时渲染——在此过程中，用户需在不断变化的几何结构与光照环境中自由移动。神经辐射场（NeRF）、高斯溅射（Gaussian Splatting）等神经表示技术推动了照片级真实感合成的发展，而其时间扩展版本还可对运动与状态变化进行建模。为确保连贯性与用户舒适度，系统需在任意视角下保持几何保真度，根据用户操作调整场景内容，并采用高效处理流程以维持高帧率。

可交互环境适配：自适应世界可通过调整几何结构、布局及智能体行为，维持游戏挑战性与用户参与度。3D/4D模型支持实时场景变换，例如根据玩家交互修改地形、破坏建筑结构或生成实体。通过利用先验知识或高层指令，这类系统能够在保持风格、物理规律与叙事连贯性的同时，提升沉浸感、重玩价值与游戏体验个性化程度。

数字孪生

3D与4D世界建模是城市数字孪生的核心支撑技术，可实现大规模重建、事件回放与交互式编辑。这些能力为智慧城市中的规划、分析与仿真任务提供了有力支持。

城市级场景建模：数字孪生通过整合多模态感知数据（包括激光雷达、RGB-D、航空摄影测量、无人机测绘等），捕捉静态基础设施与动态活动信息。该技术可应用于交通监控、基础设施规划、灾害响应等场景；而动态建模则能仿真行人和车辆流动，为容量规划提供依据。近期在流式处理流程与4D压缩技术方面的进展，进一步确保了时间连贯性，使数字孪生能够部署于城市级规模场景。

事件回放与预测：世界模型能够从稀疏传感器日志中重建过去或假设的事件，为事故分析、施工监控、应急响应等任务提供支持。可回放的4D场景有助于厘清事件因果关系，而其预测扩展功能则能通过假设分析仿真评估干预措施效果。在此过程中，确保与传感器真值的对齐是保障模型可靠性的关键。

场景控制与编辑：交互式工具允许用户对城市数字孪生内容进行操作，以支持仿真与可视化任务，例如移除车辆、调整天气、修改布局等。这类可控性不仅优化了规划流程，还为城市级规模的沉浸式分析提供了可能。

其他新兴应用场景

除自动驾驶与机器人技术外，3D与4D世界建模正逐步拓展至科学、医疗、工业及安全关键领域。这些应用充分体现了该技术在建模复杂时空系统方面的通用性。

科学发现与环境建模：世界模型能够从多模态观测数据中捕捉自然动态规律，为预测与探索性仿真提供支持。其应用场景包括气候与天气预报、冰川退缩或洪水监测、野火蔓延仿真等。通过直接从数据中学习规律，世界模型可作为物理求解器的补充，显著提升仿真迭代效率。

医疗与生物力学：生成式3D模型能够复现解剖结构变形与组织运动规律，为手术训练、手术规划与术中导航提供支持。预测性运动模型通过多视角捕捉与体素重建技术，可助力康复治疗、假肢设计及损伤预防——具体而言，该模型能够预测关节运动轨迹，为相关任务提供数据支撑。

工业流程与制造仿真：基于世界模型的虚拟原型设计技术可支持机器人装配、物料搬运、质量检测等工业任务。通过对组件交互过程进行时域仿真，不仅能减少高成本的物理试验，还可对生产效率与故障恢复能力进行分析。

安全、国防与灾害响应：合成环境可用于仿真战术行动、危险环境与人员疏散过程。动态场景建模技术还能通过预测建筑坍塌、火势蔓延或化学物质扩散，为灾害防范提供支持，并助力应急响应方案测试。

六、挑战与未来方向

在本节中，我们将重点阐述世界模型面临的关键挑战（包括基准测试、长时程保真度、物理真实性、效率及跨模态一致性），并概述未来的研究方向。

标准化基准测试与评估

自动驾驶领域世界模型发展的一大障碍在于，目前缺乏通用的标准化基准和评估协议。现有研究往往采用不同的数据集或临时指标，这使得人们难以对不同模型的性能进行有意义的比较，也无法准确评估这些模型在各种真实场景下的实际表现。建立统一的基准能够提供一个全面的评估框架，涵盖物理合理性、时间一致性、可控性等关键指标。此外，标准化评估应同时包含闭环仿真测试和真实世界场景测试，以验证模型在不同交通密度、天气条件和复杂城市结构下的性能。未来的研究必须致力于开发这类基准，确保不同方法之间能够进行公平且透明的比较。

高保真长时序生成

自动驾驶世界模型面临的另一项关键挑战是，如何在较长的时间范围内实现高保真生成。尽管短期预测在捕捉即时交互时可能具有较高的准确性，但在较长序列中，微小误差往往会不断累积，导致生成的场景出现不真实行为，场景一致性也会随之下降。动态城市环境中，多智能体间的交互以及环境因素的影响持续变化，这进一步加剧了在保证高视觉保真度的同时维持长时程一致性的难度。要解决这些问题，需要采用先进的生成技术，探索新的训练范式和内存机制，通过有效抑制长时程偏差，实现可靠的长时程仿真。

物理保真度、可控性与泛化性

从生成能力来看，当前自动驾驶领域的世界模型在确保物理真实性、实现细粒度可控性以及达成稳健泛化性方面存在严重不足。这些模型常常会生成不符合物理规律的事件，例如无形变的碰撞效果以及缺乏时间一致性的物体。此外，它们的编辑能力仍较为粗糙，通常只能调整交通智能体的位置或外观，而无法对建筑、交通标志等环境元素进行精细化控制。更为关键的是，这些模型往往会对训练数据产生过拟合，无法泛化到新的城市环境或识别罕见物体，从而限制了其在现实世界中的应用。未来的研究必须克服这些挑战，构建更真实、可控且具备泛化能力的世界模型。

计算效率与实时性能

当前自动驾驶世界模型的另一项紧迫局限体现在计算效率和实时响应能力上。现有方法通常依赖复杂的架构和多步采样策略，这会导致显著的延迟和内存开销，进而影响其在大规模数据生成和仿真中的实用性。未来的研究应优先关注稀疏计算和推理加速技术，以开发出既精准又具备响应能力，同时还能保持可扩展性的世界模型。

跨模态生成一致性

当前的世界模型在实现一致的跨模态生成方面常常面临困难。在跨模态生成中，视觉、几何和语义模态必须协同作用，共同构建出对环境的连贯表示。模态间的错位可能导致生成的图像与底层3D结构相互冲突，进而影响下游感知和规划任务的可靠性。要克服这些问题，需要构建一体化的架构，该架构既能从多种传感器数据中联合学习，又能在生成过程中施加严格的一致性约束。此外，确保细粒度的空间对齐和时间同步对于准确建模真实驾驶环境中的动态交互至关重要。未来的研究应致力于解决这一基础性挑战，实现不同数据流的协调统一。

七、结论

本综述首次对3D和4D世界建模与生成领域进行了系统性综述，明确了相关定义，将现有方法按视频生成（VideoGen）、占用率生成（OccGen）和激光雷达生成（LiDARGen）分类，构建了层级化的分类体系，并总结了适用于该领域的数据集、评估方法及应用场景。

通过将研究重点从单纯的视觉真实性转向几何基础建模，原生3D和4D表示使模型能够实现合理性、可控性与物理一致性，进而承担起数据引擎、动作解释器、神经仿真器和场景重建器等多种角色。尽管该领域发展迅速，但仍面临诸多挑战，例如如何将模型扩展到现实世界的复杂场景、如何对齐多模态信号，以及如何建立针对可控性、安全性和泛化性的标准化评估体系等。

展望未来，融合生成与预测范式、整合语言与推理能力、推进仿真与数字孪生生态发展，将是该领域极具潜力的研究方向。同样重要的是，学术界和工业界需共同努力，为3D/4D世界模型创建开放基准、可复现代码库和大规模数据集，这将加速该领域的发展进程，并确保不同方法之间的可比性。

我们期望本综述能够为该领域提供一个连贯的理论基础和具有前瞻性的发展路线图，推动强大、可解释且具备泛化能力的世界模型的发展，为下一代具身人工智能（embodied AI）的发展提供支撑。