2025-08-29 告别高耗时!上交Prune2Drive:自动驾驶VLM裁剪利器,加速6倍性能保持

原文链接:https://mp.weixin.qq.com/s/q7FWqnyVdeB5kWBr6Pw1tw

研究背景与挑战

1.1 自动驾驶中VLMs的价值与瓶颈

1.2 现有token修剪方法的局限

为降低计算开销,视觉token修剪是主流策略之一(无需重训,轻量高效),但现有方法无法适配自动驾驶的多视图场景:

  • 单图适配性:仅针对单张图像设计,忽略多视图场景下的空间语义多样性与视图间冗余;
  • 注意力依赖:多依赖特定层的注意力权重选token,与Flash Attention等高效注意力实现不兼容,且易漏掉“语义重要但注意力得分低”的token;
  • 视图平等化:未考虑不同相机视图对驾驶决策的贡献差异(如前视图含更多关键信息,后视图冗余度更高),采用均匀修剪或手工设定比例,无法实现全局最优。

核心方法:Prune2Drive框架

Prune2Drive是首个针对自动驾驶多视图VLMs的即插即用视觉token修剪框架,通过两大创新平衡“计算效率”与“场景感知完整性”,整体架构如figure 3所示。

2.1 多样性感知token选择:T-FPS机制

受点云处理中“最远点采样(FPS)”启发,Prune2Drive提出Token-wise Farthest Point Sampling(T-FPS),核心目标是“最大化多视图token的语义与空间覆盖度”,而非仅依赖单个token的显著性。

2.1.1 设计逻辑

传统FPS通过欧氏距离选“最远点”以保留几何多样性,T-FPS则适配token嵌入空间特性:

  • 距离度量:采用余弦距离(而非欧氏距离)衡量token间语义相似性,避免因嵌入空间尺度差异导致的误选;
  • 核心原则:每次新增token时,选择“与已选token集合语义距离最大”的token,确保保留“非冗余且语义丰富”的信息,即使这类token的注意力得分较低。

2.1.2 执行步骤(对应Algorithm 1)

2.2 视图自适应修剪比例优化

为解决“不同视图贡献差异”问题,Prune2Drive设计视图自适应修剪控制器,将“视图专属修剪比例”转化为优化问题,实现“按需分配计算资源”。

2.2.1 优化目标建模

2.2.2 综合评价指标

2.2.3 优化效率

  • 数据集:从全训练集中随机选500个样本作为优化子集,兼顾多样性与避免数据泄露;
  • 优化器:采用Tree-structured Parzen(TPE)算法(基于贝叶斯推理的高效搜索),仅需10个H100 GPU小时即可收敛;
  • 鲁棒性:即使改用GridSearch或Evolutionary优化,性能仅轻微下降(table 4、table 5),证明框架对优化器不敏感。

实验设计与结果

实验针对两大自动驾驶多视图VLM基准数据集(DriveLM、DriveLMM-o1),验证Prune2Drive的“性能保留”与“效率提升”能力,对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法。

3.1 实验设置核心信息

  • 模型
    • DriveMM:基于LLaVA-OneVision-7B,在DriveLM等数据集上微调,视觉编码器为SigLIP(384×384分辨率);
    • DriveLMM-o1:基于InternVL2.5-8B,在DriveLMM-o1数据集上微调,支持动态图像分块以捕捉细节。
  • 评价指标
    • DriveLM:准确率、GPT评分、语言指标(BLEU-4、Rouge、CIDEr)、Match评分(检测框IoU)、平均得分(加权求和);
    • DriveLMM-o1:风险评估准确率、交通规则遵循度、场景感知与目标理解、相关性、缺失细节,整体推理得分(平均)。
  • 修剪比例:重点测试“修剪75%”(保留25%token)与“修剪90%”(保留10%token)两种场景。

3.2 核心结果:性能与效率的平衡

3.2.1 性能保留:接近原模型,部分指标更优

  • DriveLM(table 1)
  • 修剪75%(保留180 token/图):准确率0.80(原模型0.81),BLEU-4 0.60(高于所有基线),Match评分34.0(甚至超过原模型33.9),平均得分58.3(仅比原模型低0.8);
  • 修剪90%(保留72 token/图):平均得分57.4,比FastV(54.1)高3.3,比PACT(56.8)高0.6,证明极端修剪下仍能保留关键语义。

DriveLMM-o1(table 2)

修剪90%(保留25 token/图):风险评估准确率68.34(比PACT高1.33),场景感知与目标理解69.86(比FastV高3.43),整体推理得分68.3(比所有基线高1-3分),说明在危险场景中能更准确识别高风险目标。

3.2.2 效率提升:显著加速与降耗

table 3显示,在“保留10%token”场景下:

  • 速度:DriveMM上预填充阶段加速6.40×,解码阶段加速1.09×;DriveLMM-o1上预填充阶段加速2.64×,解码阶段加速1.04×;
  • 计算开销:DriveMM的FLOPs仅为原模型的13.4%,DriveLMM-o1为20.3%;KV缓存与其他基线相当(230MB/78MB),但性能更优;
  • 核心优势:在相同token保留率下,Prune2Drive的加速比与FLOPs降低幅度均优于FastV、SparseVLM,实现“效率更高且性能更好”。

3.3 消融实验:关键组件的必要性

关键发现与定性分析

4.1 定性对比:捕捉关键信息的能力

figure 1:对比FastV与Prune2Drive的场景描述——FastV错误识别“前视图白色直箭头”“后视图黑色交通标志”(红色文本),而Prune2Drive正确识别“前视图白色货车、摩托车”“后视图黑色轿车”(绿色文本),说明T-FPS选的token更能反映真实场景。

figure 4、figure 5

  • FastV存在“位置偏差”(红色框),因依赖注意力权重而过多保留后视图token,漏掉前视图关键车辆;
  • DART均匀修剪各视图,未考虑视图重要性,导致后右视图关键障碍物丢失;
  • Prune2Drive(绿色框)通过“视图自适应比例+T-FPS”,精准保留前视图的白色车、黑色车,以及后右视图的黑色车,关键语义无缺失。

4.2 核心优势总结

  1. 即插即用:无需重训VLM,不依赖注意力图,兼容Flash Attention等高效实现;
  2. 多视图适配:首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异;
  3. 性能-效率平衡:极端修剪(保留10%token)下仍仅降3-6%性能,同时实现6.4×加速与86%+FLOPs降低。

参考

[1]Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论