原文链接:https://mp.weixin.qq.com/s/q7FWqnyVdeB5kWBr6Pw1tw
研究背景与挑战
1.1 自动驾驶中VLMs的价值与瓶颈

1.2 现有token修剪方法的局限
为降低计算开销,视觉token修剪是主流策略之一(无需重训,轻量高效),但现有方法无法适配自动驾驶的多视图场景:
- 单图适配性:仅针对单张图像设计,忽略多视图场景下的空间语义多样性与视图间冗余;
- 注意力依赖:多依赖特定层的注意力权重选token,与Flash Attention等高效注意力实现不兼容,且易漏掉“语义重要但注意力得分低”的token;
- 视图平等化:未考虑不同相机视图对驾驶决策的贡献差异(如前视图含更多关键信息,后视图冗余度更高),采用均匀修剪或手工设定比例,无法实现全局最优。
核心方法:Prune2Drive框架
Prune2Drive是首个针对自动驾驶多视图VLMs的即插即用视觉token修剪框架,通过两大创新平衡“计算效率”与“场景感知完整性”,整体架构如figure 3所示。

2.1 多样性感知token选择:T-FPS机制
受点云处理中“最远点采样(FPS)”启发,Prune2Drive提出Token-wise Farthest Point Sampling(T-FPS),核心目标是“最大化多视图token的语义与空间覆盖度”,而非仅依赖单个token的显著性。
2.1.1 设计逻辑
传统FPS通过欧氏距离选“最远点”以保留几何多样性,T-FPS则适配token嵌入空间特性:
- 距离度量:采用余弦距离(而非欧氏距离)衡量token间语义相似性,避免因嵌入空间尺度差异导致的误选;
- 核心原则:每次新增token时,选择“与已选token集合语义距离最大”的token,确保保留“非冗余且语义丰富”的信息,即使这类token的注意力得分较低。
2.1.2 执行步骤(对应Algorithm 1)


2.2 视图自适应修剪比例优化
为解决“不同视图贡献差异”问题,Prune2Drive设计视图自适应修剪控制器,将“视图专属修剪比例”转化为优化问题,实现“按需分配计算资源”。
2.2.1 优化目标建模

2.2.2 综合评价指标

2.2.3 优化效率
- 数据集:从全训练集中随机选500个样本作为优化子集,兼顾多样性与避免数据泄露;
- 优化器:采用Tree-structured Parzen(TPE)算法(基于贝叶斯推理的高效搜索),仅需10个H100 GPU小时即可收敛;
- 鲁棒性:即使改用GridSearch或Evolutionary优化,性能仅轻微下降(table 4、table 5),证明框架对优化器不敏感。


实验设计与结果
实验针对两大自动驾驶多视图VLM基准数据集(DriveLM、DriveLMM-o1),验证Prune2Drive的“性能保留”与“效率提升”能力,对比基线包括FastV、SparseVLM、DART、PACT等主流无重训token修剪方法。
3.1 实验设置核心信息
- 模型:
- DriveMM:基于LLaVA-OneVision-7B,在DriveLM等数据集上微调,视觉编码器为SigLIP(384×384分辨率);
- DriveLMM-o1:基于InternVL2.5-8B,在DriveLMM-o1数据集上微调,支持动态图像分块以捕捉细节。
- 评价指标:
- DriveLM:准确率、GPT评分、语言指标(BLEU-4、Rouge、CIDEr)、Match评分(检测框IoU)、平均得分(加权求和);
- DriveLMM-o1:风险评估准确率、交通规则遵循度、场景感知与目标理解、相关性、缺失细节,整体推理得分(平均)。
- 修剪比例:重点测试“修剪75%”(保留25%token)与“修剪90%”(保留10%token)两种场景。
3.2 核心结果:性能与效率的平衡
3.2.1 性能保留:接近原模型,部分指标更优
- DriveLM(table 1):

- 修剪75%(保留180 token/图):准确率0.80(原模型0.81),BLEU-4 0.60(高于所有基线),Match评分34.0(甚至超过原模型33.9),平均得分58.3(仅比原模型低0.8);
- 修剪90%(保留72 token/图):平均得分57.4,比FastV(54.1)高3.3,比PACT(56.8)高0.6,证明极端修剪下仍能保留关键语义。
DriveLMM-o1(table 2):

修剪90%(保留25 token/图):风险评估准确率68.34(比PACT高1.33),场景感知与目标理解69.86(比FastV高3.43),整体推理得分68.3(比所有基线高1-3分),说明在危险场景中能更准确识别高风险目标。
3.2.2 效率提升:显著加速与降耗
table 3显示,在“保留10%token”场景下:

- 速度:DriveMM上预填充阶段加速6.40×,解码阶段加速1.09×;DriveLMM-o1上预填充阶段加速2.64×,解码阶段加速1.04×;
- 计算开销:DriveMM的FLOPs仅为原模型的13.4%,DriveLMM-o1为20.3%;KV缓存与其他基线相当(230MB/78MB),但性能更优;
- 核心优势:在相同token保留率下,Prune2Drive的加速比与FLOPs降低幅度均优于FastV、SparseVLM,实现“效率更高且性能更好”。
3.3 消融实验:关键组件的必要性

关键发现与定性分析
4.1 定性对比:捕捉关键信息的能力
figure 1:对比FastV与Prune2Drive的场景描述——FastV错误识别“前视图白色直箭头”“后视图黑色交通标志”(红色文本),而Prune2Drive正确识别“前视图白色货车、摩托车”“后视图黑色轿车”(绿色文本),说明T-FPS选的token更能反映真实场景。

figure 4、figure 5:


- FastV存在“位置偏差”(红色框),因依赖注意力权重而过多保留后视图token,漏掉前视图关键车辆;
- DART均匀修剪各视图,未考虑视图重要性,导致后右视图关键障碍物丢失;
- Prune2Drive(绿色框)通过“视图自适应比例+T-FPS”,精准保留前视图的白色车、黑色车,以及后右视图的黑色车,关键语义无缺失。
4.2 核心优势总结
- 即插即用:无需重训VLM,不依赖注意力图,兼容Flash Attention等高效实现;
- 多视图适配:首次考虑自动驾驶多视图的空间语义多样性与视图贡献差异;
- 性能-效率平衡:极端修剪(保留10%token)下仍仅降3-6%性能,同时实现6.4×加速与86%+FLOPs降低。
参考
[1]Prune2Drive: A Plug-and-Play Framework for Accelerating Vision-Language Models in Autonomous Driving

发表回复