2025-11-24 港科广LiSTAR：自动驾驶4D LiDAR世界模型！

一、研究背景与挑战

4D LiDAR数据（3D空间+时间维度）的高保真、可控合成，是构建自动驾驶可扩展仿真环境的核心需求。但该任务面临三大固有挑战：

现有LiDAR生成方法虽有进展，但仍受限于笛卡尔体素化的几何失真、时间连贯性不足和可控性薄弱等问题，难以满足自动驾驶仿真对真实性和精准性的要求。

论文标题：LiSTAR: Ray-Centric World Models for 4D LiDAR Sequences in Autonomous Driving
论文链接：https://arxiv.org/abs/2511.16049
项目主页：https://ocean-luna.github.io/LiSTAR.gitub.io/

二、核心创新设计

LiSTAR通过三大协同创新，构建了端到端的生成式世界模型，同时解决几何保真、时间连贯性和可控合成问题：

混合圆柱-球面（HCS）坐标体素化

射线中心时空注意力（START）模块

专门设计用于建模LiDAR序列的时空依赖，由两个核心组件构成：

空间射线中心注意力（SRA）：将特征沿射线维度展开，通过自注意力聚合所有射线的全局上下文，精准捕捉视线方向上的遮挡关系和空间关联，在可控计算成本内保留细粒度结构；
循环移位时间因果注意力（CSTA）：解决球形坐标展开后的方位角边界不连续性（0°/360°接缝处的几何割裂问题），同时通过严格的时间因果约束，确保预测仅依赖历史和当前信息，避免未来信息泄露，维持动态场景的时间连贯性（figure3）。

MaskSTART可控生成框架

为实现精准的场景合成，提出4D点云对齐体素布局作为条件输入，通过零初始化适配器融合布局特征与点云特征，避免训练初期对骨干网络的干扰。基于离散掩码生成机制，MaskSTART在VQ-VAE学习的紧凑token空间上操作，通过迭代掩码预测实现高效、高分辨率的布局引导生成，支持复杂场景结构的精细操控。

三、技术细节拆解

HCS-based 4D VQ-VAE

START模块的协同工作机制

SRA和CSTA的组合形成了对4D数据的全面建模能力：SRA聚焦射线维度的空间关联，解决LiDAR的原生几何特性；CSTA处理方位角边界问题和时间动态，确保序列连贯性。这种设计使模型能同时捕捉静态几何结构和动态运动模式，为高保真重建、预测和生成提供核心支撑（table5验证了两者协同的必要性）。

MaskSTART的预测与生成逻辑

预测任务：输入历史观测序列，对未来帧token施加随机掩码，模型学习基于历史上下文推断掩码token，通过分类器无关引导（CFG）平衡一致性和多样性，迭代优化高置信度token；
生成任务：以4D场景布局为条件，通过适配器网络提取布局特征并与token嵌入融合，经迭代掩码解码生成符合布局约束的新序列，3D布局保留的高度信息使垂直方向（如交通标志、红绿灯）的控制更精准（figure6）。