2026-01-21 以DiffusionDriveV2为例，解析自动驾驶中强化学习的使用

2026-01-21

–

admin

–

原文链接：https://mp.weixin.qq.com/s/F7WYYSTzEDlIRr6FcfwOAg

引言

近年来大模型的快速发展将强化学习推向了从未有过的热度，成为了post-training不可缺少的一部分。在自动驾驶领域进入到E2E阶段后（直接学习人类司机轨迹，放弃传统感知->预测->规控），也迫切需要使用强化学习来解决很多模仿学习无法解决的问题。最直接的比如居中问题，人类司机开车不会太关注自己是否居中，天然的模型也无法从这样的人类轨迹中掌握居中驾驶行为，而强化学习正是解决这种问题的一把钥匙。

理解自动驾驶中的强化学习算法

PPO和GRPO是目前最主流的做法，本文也会直接从这两个算法切入，但其实从强化学习这个概念，最天然的想法是怎么直接利用Reward优化，有很多经典算法值得学习。很推荐大家阅读这篇文章 Proximal Policy Optimization (PPO) 算法理解：从策略梯度开始，知其所以然

PPO

DiffusionDriveV2

diffusiondrive v2架构

RL Loss理解

Intra-Anchor and Inter-Anchor GRPO

Intra-Anchor GRPO

#Inter-Anchor GRPO

按照anchor拆分的风险是，不同anchor之间没有全局约束，所以对A进一步优化

会避免优化方向的坍塌

其他改进

轨迹噪声：不能逐点加随机噪声，横向一个scale，纵向一个scale来确保加噪之后的轨迹比较正常
model selector：终于带model selector了

评价

本文借DiffusionDriveV2来帮助大家理解一下强化学习在自动驾驶中的使用，目前自动驾驶中的强化学习还远远不是最终形态，单步的约束本质上和模仿学习我理解不是特别大，期待闭环仿真的进步和更深入的RL的应用。

发表回复取消回复

往期评论

2026-01-21 以DiffusionDriveV2为例，解析自动驾驶中强化学习的使用

发表回复取消回复

Categories

Archives

2026-01-21 以DiffusionDriveV2为例，解析自动驾驶中强化学习的使用

发表回复 取消回复

Categories

Archives

发表回复取消回复