2025-11-24 港科广LiSTAR:自动驾驶4D LiDAR世界模型!

原文链接:https://mp.weixin.qq.com/s/75r1SOxdLjgnLnkm6GPtyA

一、 研究背景与挑战

4D LiDAR数据(3D空间+时间维度)的高保真、可控合成,是构建自动驾驶可扩展仿真环境的核心需求。但该任务面临三大固有挑战:

  • 传感器特性:LiDAR的球形采样几何与传统笛卡尔网格离散化不兼容,易产生量化失真和结构扭曲(figure1);
  • 数据特性:点云的时间稀疏性导致动态场景的时间连贯性难以维持,常出现表面闪烁或目标对齐不一致;
  • 可控性瓶颈:现有方法依赖2D BEV布局作为条件输入,扁平化3D空间信息,无法精准控制3D场景结构和目标操纵。

现有LiDAR生成方法虽有进展,但仍受限于笛卡尔体素化的几何失真、时间连贯性不足和可控性薄弱等问题,难以满足自动驾驶仿真对真实性和精准性的要求。

  • 论文标题:LiSTAR: Ray-Centric World Models for 4D LiDAR Sequences in Autonomous Driving
  • 论文链接:https://arxiv.org/abs/2511.16049
  • 项目主页:https://ocean-luna.github.io/LiSTAR.gitub.io/

二、核心创新设计

LiSTAR通过三大协同创新,构建了端到端的生成式世界模型,同时解决几何保真、时间连贯性和可控合成问题:

混合圆柱-球面(HCS)坐标体素化

射线中心时空注意力(START)模块

专门设计用于建模LiDAR序列的时空依赖,由两个核心组件构成:

  • 空间射线中心注意力(SRA):将特征沿射线维度展开,通过自注意力聚合所有射线的全局上下文,精准捕捉视线方向上的遮挡关系和空间关联,在可控计算成本内保留细粒度结构;
  • 循环移位时间因果注意力(CSTA):解决球形坐标展开后的方位角边界不连续性(0°/360°接缝处的几何割裂问题),同时通过严格的时间因果约束,确保预测仅依赖历史和当前信息,避免未来信息泄露,维持动态场景的时间连贯性(figure3)。

MaskSTART可控生成框架

为实现精准的场景合成,提出4D点云对齐体素布局作为条件输入,通过零初始化适配器融合布局特征与点云特征,避免训练初期对骨干网络的干扰。基于离散掩码生成机制,MaskSTART在VQ-VAE学习的紧凑token空间上操作,通过迭代掩码预测实现高效、高分辨率的布局引导生成,支持复杂场景结构的精细操控。

三、技术细节拆解

HCS-based 4D VQ-VAE

START模块的协同工作机制

SRA和CSTA的组合形成了对4D数据的全面建模能力:SRA聚焦射线维度的空间关联,解决LiDAR的原生几何特性;CSTA处理方位角边界问题和时间动态,确保序列连贯性。这种设计使模型能同时捕捉静态几何结构和动态运动模式,为高保真重建、预测和生成提供核心支撑(table5验证了两者协同的必要性)。

MaskSTART的预测与生成逻辑

  • 预测任务:输入历史观测序列,对未来帧token施加随机掩码,模型学习基于历史上下文推断掩码token,通过分类器无关引导(CFG)平衡一致性和多样性,迭代优化高置信度token;
  • 生成任务:以4D场景布局为条件,通过适配器网络提取布局特征并与token嵌入融合,经迭代掩码解码生成符合布局约束的新序列,3D布局保留的高度信息使垂直方向(如交通标志、红绿灯)的控制更精准(figure6)。

四、实验验证与性能表现

实验基于大规模nuScenes数据集,覆盖重建、预测、生成三大核心任务,全面验证了方法的优越性:

重建任务

相较于OpenDWM基线,IoU相对提升32%,MMD降低60%,Chamfer距离减少41%(table1)。定性结果显示,重建结果更完整(紫红色交集区域更密集),伪影(蓝色点)显著减少,且在3秒时间范围内保持稳定保真度(figure4、7)。

预测任务

在1秒未来预测中,Chamfer距离降低17%,L1中位数误差减少50%,大幅超越Copilot4D等现有方法(table2)。即使在2秒长时域预测中,仍能保持静态背景和动态目标的清晰结构,而基线方法会出现明显的细节退化(figure5、8)。

生成任务

MMD大幅降低76%,不同距离范围(30m、40m、70m)的Chamfer距离均减少50%以上(table3),生成的点云分布与真实数据高度一致,且能严格遵循4D布局约束,实现场景结构的精准控制。

消融实验验证

坐标系统对比:HCS显著优于笛卡尔和极坐标,IoU比极坐标提升16%,验证了其对LiDAR几何特性的适配优势(table4);

START模块有效性:SRA单独使用已能大幅提升性能(IoU从0.503升至0.554),加入CSTA后进一步优化至0.583,证明空间射线注意力和时空因果注意力的协同价值(table5)。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论