2026-01-21 以DiffusionDriveV2为例,解析自动驾驶中强化学习的使用

原文链接:https://mp.weixin.qq.com/s/F7WYYSTzEDlIRr6FcfwOAg

引言

近年来大模型的快速发展将强化学习推向了从未有过的热度,成为了post-training不可缺少的一部分。在自动驾驶领域进入到E2E阶段后(直接学习人类司机轨迹,放弃传统感知->预测->规控),也迫切需要使用强化学习来解决很多模仿学习无法解决的问题。最直接的比如居中问题,人类司机开车不会太关注自己是否居中,天然的模型也无法从这样的人类轨迹中掌握居中驾驶行为,而强化学习正是解决这种问题的一把钥匙。

理解自动驾驶中的强化学习算法

PPO和GRPO是目前最主流的做法,本文也会直接从这两个算法切入,但其实从强化学习这个概念,最天然的想法是怎么直接利用Reward优化,有很多经典算法值得学习。很推荐大家阅读这篇文章 Proximal Policy Optimization (PPO) 算法理解:从策略梯度开始 ,知其所以然

PPO

DiffusionDriveV2

diffusiondrive v2架构

RL Loss理解

Intra-Anchor and Inter-Anchor GRPO

Intra-Anchor GRPO

#Inter-Anchor GRPO

按照anchor拆分的风险是,不同anchor之间没有全局约束,所以对A进一步优化

会避免优化方向的坍塌

其他改进

  1. 轨迹噪声:不能逐点加随机噪声,横向一个scale,纵向一个scale来确保加噪之后的轨迹比较正常
  2. model selector:终于带model selector了

评价

本文借DiffusionDriveV2来帮助大家理解一下强化学习在自动驾驶中的使用,目前自动驾驶中的强化学习还远远不是最终形态,单步的约束本质上和模仿学习我理解不是特别大,期待闭环仿真的进步和更深入的RL的应用。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论