2025-08-29 告别高耗时！上交Prune2Drive：自动驾驶VLM裁剪利器，加速6倍性能保持

原文链接：https://mp.weixin.qq.com/s/q7FWqnyVdeB5kWBr6Pw1tw

研究背景与挑战

1.1 自动驾驶中VLMs的价值与瓶颈

1.2 现有token修剪方法的局限

为降低计算开销，视觉token修剪是主流策略之一（无需重训，轻量高效），但现有方法无法适配自动驾驶的多视图场景：

单图适配性：仅针对单张图像设计，忽略多视图场景下的空间语义多样性与视图间冗余；
注意力依赖：多依赖特定层的注意力权重选token，与Flash Attention等高效注意力实现不兼容，且易漏掉“语义重要但注意力得分低”的token；
视图平等化：未考虑不同相机视图对驾驶决策的贡献差异（如前视图含更多关键信息，后视图冗余度更高），采用均匀修剪或手工设定比例，无法实现全局最优。

核心方法：Prune2Drive框架

Prune2Drive是首个针对自动驾驶多视图VLMs的即插即用视觉token修剪框架，通过两大创新平衡“计算效率”与“场景感知完整性”，整体架构如figure 3所示。

2.1 多样性感知token选择：T-FPS机制

受点云处理中“最远点采样（FPS）”启发，Prune2Drive提出Token-wise Farthest Point Sampling（T-FPS），核心目标是“最大化多视图token的语义与空间覆盖度”，而非仅依赖单个token的显著性。

2.1.1 设计逻辑

传统FPS通过欧氏距离选“最远点”以保留几何多样性，T-FPS则适配token嵌入空间特性：

距离度量：采用余弦距离（而非欧氏距离）衡量token间语义相似性，避免因嵌入空间尺度差异导致的误选；
核心原则：每次新增token时，选择“与已选token集合语义距离最大”的token，确保保留“非冗余且语义丰富”的信息，即使这类token的注意力得分较低。

2.1.2 执行步骤（对应Algorithm 1）

2.2 视图自适应修剪比例优化

为解决“不同视图贡献差异”问题，Prune2Drive设计视图自适应修剪控制器，将“视图专属修剪比例”转化为优化问题，实现“按需分配计算资源”。

2.2.1 优化目标建模

2.2.2 综合评价指标

2.2.3 优化效率

数据集：从全训练集中随机选500个样本作为优化子集，兼顾多样性与避免数据泄露；
优化器：采用Tree-structured Parzen（TPE）算法（基于贝叶斯推理的高效搜索），仅需10个H100 GPU小时即可收敛；
鲁棒性：即使改用GridSearch或Evolutionary优化，性能仅轻微下降（table 4、table 5），证明框架对优化器不敏感。

实验设计与结果

实验针对两大自动驾驶多视图VLM基准数据集（DriveLM、DriveLMM-o1），验证Prune2Drive的“性能保留”与“效率提升”能力，对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法。

3.1 实验设置核心信息

模型：
- DriveMM：基于LLaVA-OneVision-7B，在DriveLM等数据集上微调，视觉编码器为SigLIP（384×384分辨率）；
- DriveLMM-o1：基于InternVL2.5-8B，在DriveLMM-o1数据集上微调，支持动态图像分块以捕捉细节。
评价指标：
- DriveLM：准确率、GPT评分、语言指标（BLEU-4、Rouge、CIDEr）、Match评分（检测框IoU）、平均得分（加权求和）；
- DriveLMM-o1：风险评估准确率、交通规则遵循度、场景感知与目标理解、相关性、缺失细节，整体推理得分（平均）。
修剪比例：重点测试“修剪75%”（保留25%token）与“修剪90%”（保留10%token）两种场景。

3.2 核心结果：性能与效率的平衡

3.2.1 性能保留：接近原模型，部分指标更优

DriveLM（table 1）：

修剪75%（保留180 token/图）：准确率0.80（原模型0.81），BLEU-4 0.60（高于所有基线），Match评分34.0（甚至超过原模型33.9），平均得分58.3（仅比原模型低0.8）；
修剪90%（保留72 token/图）：平均得分57.4，比FastV（54.1）高3.3，比PACT（56.8）高0.6，证明极端修剪下仍能保留关键语义。

DriveLMM-o1（table 2）：

修剪90%（保留25 token/图）：风险评估准确率68.34（比PACT高1.33），场景感知与目标理解69.86（比FastV高3.43），整体推理得分68.3（比所有基线高1-3分），说明在危险场景中能更准确识别高风险目标。

3.2.2 效率提升：显著加速与降耗

table 3显示，在“保留10%token”场景下：

速度：DriveMM上预填充阶段加速6.40×，解码阶段加速1.09×；DriveLMM-o1上预填充阶段加速2.64×，解码阶段加速1.04×；
计算开销：DriveMM的FLOPs仅为原模型的13.4%，DriveLMM-o1为20.3%；KV缓存与其他基线相当（230MB/78MB），但性能更优；
核心优势：在相同token保留率下，Prune2Drive的加速比与FLOPs降低幅度均优于FastV、SparseVLM，实现“效率更高且性能更好”。

3.3 消融实验：关键组件的必要性

关键发现与定性分析

4.1 定性对比：捕捉关键信息的能力

figure 1：对比FastV与Prune2Drive的场景描述——FastV错误识别“前视图白色直箭头”“后视图黑色交通标志”（红色文本），而Prune2Drive正确识别“前视图白色货车、摩托车”“后视图黑色轿车”（绿色文本），说明T-FPS选的token更能反映真实场景。

figure 4、figure 5：

FastV存在“位置偏差”（红色框），因依赖注意力权重而过多保留后视图token，漏掉前视图关键车辆；
DART均匀修剪各视图，未考虑视图重要性，导致后右视图关键障碍物丢失；
Prune2Drive（绿色框）通过“视图自适应比例+T-FPS”，精准保留前视图的白色车、黑色车，以及后右视图的黑色车，关键语义无缺失。

4.2 核心优势总结

即插即用：无需重训VLM，不依赖注意力图，兼容Flash Attention等高效实现；
多视图适配：首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异；
性能-效率平衡：极端修剪（保留10%token）下仍仅降3-6%性能，同时实现6.4×加速与86%+FLOPs降低。

参考

[1]Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

2025-08-29 告别高耗时！上交Prune2Drive：自动驾驶VLM裁剪利器，加速6倍性能保持

研究背景与挑战

1.1 自动驾驶中VLMs的价值与瓶颈

1.2 现有token修剪方法的局限

实验设计与结果

3.1 实验设置核心信息

3.2 核心结果：性能与效率的平衡

3.2.1 性能保留：接近原模型，部分指标更优

3.3 消融实验：关键组件的必要性

4.2 核心优势总结

参考

发表回复取消回复

Categories

Archives

2025-08-29 告别高耗时！上交Prune2Drive：自动驾驶VLM裁剪利器，加速6倍性能保持

研究背景与挑战

1.1 自动驾驶中VLMs的价值与瓶颈

1.2 现有token修剪方法的局限

实验设计与结果

3.1 实验设置核心信息

3.2 核心结果：性能与效率的平衡

3.2.1 性能保留：接近原模型，部分指标更优

3.3 消融实验：关键组件的必要性

4.2 核心优势总结

参考

发表回复 取消回复

Categories

Archives

发表回复取消回复