原文链接:https://zhuanlan.zhihu.com/p/32273152617
MiLA
- 论文标题:MiLA: Multi-view Intensive-fidelity Long-term Video Generation World Model for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.15875
- 项目主页:https://github.com/xiaomi-mlab/mila.github.io

核心创新点:
1. Coarse-to-(Re)fine 分层生成框架
提出两阶段视频生成流程:
- Coarse阶段:生成低帧率锚帧(Anchor Frames),作为全局场景结构基准;
- Refine阶段:基于锚帧通过插值生成高帧率视频,同时引入联合去噪与校正流(JDC),在插值过程中同步优化锚帧的静态结构保真度与动态物体连续性,有效抑制累积误差与运动失真。
2. 联合去噪与校正流(Joint Denoising and Correcting Flow, JDC)
- 通过噪声分解与重参数化技术,将锚帧噪声建模为结构化噪声(静态背景误差)与随机噪声(动态物体失真)的混合分布;
- 设计动态噪声调度策略,联合优化低帧率锚帧的校正与高帧率插值帧的平滑性,显著提升长视频的动态连贯性。
3. 时序渐进去噪调度器(Temporal Progressive Denoising Scheduler, TPD)
- 提出基于余弦退火函数的非均匀去噪策略,对时间邻近帧施加强时序依赖约束,优先去噪靠近条件帧的片段;
- 通过“快-慢”模式优化去噪轨迹,早期帧快速收敛以提供上下文,后期帧精细化调整,最终实现全序列同步高质量生成。
4. 多模态融合与多视角对齐机制
- 集成相机参数、路径点(Waypoints)与文本描述等多模态条件,通过傅里叶嵌入与MLP实现跨模态特征融合;
- 设计多视图增强空间注意力,扩展DiT模块的跨视图感受野,确保多视角视频的空间对齐与几何一致性。
BadToken
- 论文标题:BadToken: Token-level Backdoor Attacks to Multi-modal Large Language Models
- 论文链接:https://arxiv.org/abs/2503.16023

核心创新点:
1. 双模式后门行为定义
- Token-substitution :通过替换输出序列中的特定源词元(如”red”→”green”),实现语义翻转的隐蔽攻击
- Token-addition :在输出尾部注入预设恶意词元序列(如恶意URL),保持语义完整性的同时嵌入有害信息
2. 优化目标建模
- 提出有效性损失(Lbd)与 效用损失(Lcl)的联合优化框架,平衡攻击成功率与模型性能保持
- 引入嵌入损失(Lemb)约束视觉编码器,通过教师模型蒸馏保持多模态对齐特性
3. 跨任务泛化性
- 在图像描述、视觉问答等任务中验证攻击有效性(ASR>95%),且能规避现有防御(如输入净化、微调)
- 在自动驾驶(交通灯状态篡改)和医疗诊断(恶意用药建议注入)场景中验证实际威胁
4. 隐蔽性增强机制
- 通过触发器与目标词元的细粒度关联,实现仅修改关键词元 的高隐蔽攻击(ATS>0.75)
- 支持多目标攻击(同时嵌入多个触发器-目标词元对)
AutoDrive-QA
– Automated Generation
- 论文标题:AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models
- 论文链接:https://arxiv.org/abs/2503.15778

核心创新点:
1. 统一结构化评估框架的构建
- 提出AutoDrive-QA基准测试,通过整合多源异构数据集(DriveLM、NuScenes-QA、LingoQA),首次系统覆盖自动驾驶三大核心任务——感知(Perception)、预测(Prediction)和规划(Planning),并标准化问答格式,解决了现有评估体系碎片化的问题。
2. 领域导向的干扰项自动生成技术
- 基于大型视觉语言模型(VLMs)设计自动化流水线,结合驾驶领域错误模式(如传感器误判、逻辑不一致、领域概念误解等),生成高真实性干扰项(Distractors)。与传统方法相比,该方法通过任务特定错误建模(Task-Specific Error Modeling)显著提升干扰项的语义相关性与挑战性,减少因干扰项过于简单导致的评估偏差。
3. 零样本性能评估与细粒度错误分析
- 在零样本(Zero-Shot)设置下,验证多模型(如GPT-4V、Qwen2-VL系列)的性能边界。实验表明,模型在感知任务(平均74.94%)表现最优,预测任务(65.33%)挑战最大。进一步通过干扰项选择追踪,量化错误类型分布(如感知任务中45.74%为领域概念错误),揭示模型在视觉理解、逻辑推理等维度的薄弱环节。
4. 可扩展的评估方法论创新
- 提出多智能体协同过滤机制,结合生成-评估-优化循环,确保生成的多选题(MCQ)满足单正确解、无冗余干扰项等约束条件,同时支持大规模数据集的高效转换(如处理超50万QA对),为自动驾驶模型的迭代与跨数据集泛化提供标准化工具。
GASP
- 论文标题:GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving
- 论文链接:https://arxiv.org/abs/2503.15672
- 项目主页:https://research.zenseact.com/publications/gasp/

核心创新点:
1. 几何-语义联合预训练框架
提出统一的4D时空表征学习范式 ,通过三个协同任务实现多模态特征融合:
- 几何占用预测 :建模动态场景的连续4D占用场(3D空间+时间),捕捉环境结构演变
- 语义特征蒸馏 :预测DINOv2
- 视觉基础模型的高层语义特征,注入语义先验
- 自车路径预测 :通过隐式 ego-path occupancy 建模车辆可行空间,增强运动理解
2. 时空连续场表示
- 突破传统离散化预测局限,采用隐式神经场(Implicit Neural Fields) 表征时空连续的几何-语义信息,支持任意时空坐标(x,y,z,t)的查询,提升动态场景泛化能力。
3. 多源自监督信号融合
- 创新性整合三类自监督信号:
- LiDAR射线几何约束 (含缺失射线负样本挖掘)
- 图像语义特征蒸馏 (基于位置编码去噪的DINOv2特征)
- 自车运动轨迹先验 (多模态路径概率场建模)
4. 数据增强策略
- 提出旋转增强(±20°随机旋转) 消除方向偏置,结合缺失LiDAR射线推理 提升几何表征鲁棒性,在Argoverse2
等数据集实现语义占用预测(↑15.5mAP)、在线建图(↑5.8mIoU)等下游任务的显著提升。

发表回复