原文链接:https://www.toutiao.com/article/7576922246615171618/?channel=&source=news
这个世界唯一不变的就是变化。
随着自动驾驶算法范式的演进,多年来主导自动驾驶系统迭代的数据闭环体系也出现了重大转变。
01
谜底藏在谜面上,望文生义也能大致猜出数据闭环的定义,很显然,数据闭环就是以数据为主体的循环体系。
再深入一些,自动驾驶数据闭环以数据为核心主体,使其流转于采集、存储、清洗、挖掘、标注到模型训练、测试和部署上车的全过程。
通过闭环循环机制,对数据进行系统性的流转和全链路价值挖掘,形成自我增强的飞轮效应,驱动自动驾驶系统的迭代。
从输入到输出的完整闭环,同学们是不是找到了一点费曼学习法的影子了?

在日常生活里,一边努力挣钱一边追求幸福的大家经常会迷失在手段和目的的哲学之思里,在自动驾驶数据闭环体系里,手段与目的却遵循着辩证统一的逻辑。
一方面,数据作为模型进化的手段和必要介质,充当模型的燃料和错题集,直接服务于算法短板修复的目的,模型训练才是数据闭环体系的核心目的;
另一方面,数据驱动模型的优化,高质量模型部署到车端之后,覆盖更多的场景,吸引更多车辆加入数据收集的车队,驱动车辆网络采集更多更高质量的数据,模型本身又成了数据生产的工具。

以模型训练为中心,可以将数据闭环进一步划分为训练前、训练、训练后三个阶段。
训练前这个大阶段包含数据的触发采集、脱敏处理、网络传输、数据清洗、数据存储、场景挖掘和数据标注几个小阶段。
模型训练这个大阶段包含预训练、后训练、强化训练三个小阶段。
训练后这个大阶段包含仿真测试、模型评估、集成部署三个小阶段。

随着自动驾驶算法由分模块方案向端到端范式、传统端到端向生成式AI大模型的转变,数据闭环中有几个关键节点发生了重大的演变。
02
数据是人工智能时代最为重要的核心资产。
不过,既然作为资产,就要站在商业规律的角度,看看它产生的价值能不能有效地分摊采集、传输、清洗、挖掘和标注的成本,形成有效的商业闭环。
事实上,随着自动驾驶系统能力的升级,昔日的长尾场景越来越不能成其为Corner Case,导致实车采集的数据价值密度越来越低。
再叠加采集/存储/标注成本高、合规压力大等一系列问题,自动驾驶数据的来源正在经历从“重实车采集”到“虚实融合”的转型。

实车采集数据价值越来越低是自动驾驶系统能力升级导致的必然趋势。
举个例子,如果之前的系统无法很好地应对下雨和下雪场景,下雨和下雪时触发采集的驾驶场景数据都有很好的利用价值。
但随着系统能力的进步,以至于系统能够很好地应对下雨场景却还不能很好地应对下雪场景时。
那么,对于模型的迭代进步而言,下雨时触发采集的驾驶场景数据就基本上没有了价值,下雪时触发采集的驾驶场景数据才有真正的利用价值。

实车采集、传输、存储、标注成本高,仅有占比极低的数据为高价值有效数据,且存在长尾覆盖不足的缺陷。
在这样的情况下,通过物理规则学习与生成对抗实现低成本、高保真场景重建和生成的世界模型应运而生,成了虚拟数据生成的核心引擎。

在这里,世界模型发挥的两大作用是重建和生成,即利用NeRF和3D高斯溅射技术,基于真实路采数据进行场景重建,以及基于重建的场景,以Diffusion和Transformer技术进行合成数据的生成,进行长尾场景的补全和数据分布的优化。

放眼未来,随着世界模型能力的提升,在模型训练前这个阶段,数据来源避实向虚的趋势必将日益明显。
03
对于自动驾驶数据闭环,22年底横空出世的生成式AI大模型堪称改天换地、颠覆既有研发体系的大杀器。
在这之前,实车测试一直是自动驾驶数据闭环的主要工作流,不仅成本高、效率低,在很多场景下还会遭遇危险性十足、极大损害测试人员身体和心理健康的问题.
世界模型问世之后,一切都改变了。

在模型训练前的阶段,世界模型以场景重建和生成做数据增强,扩大数据的数量和多样性,给自动驾驶系统学习更多障碍物样本与交通规则提供源源不断的高质量素材。
在模型训练后的阶段,世界模型构建具备高度4D时空一致性的数字孪生环境,相当于打造了自动驾驶系统的考场,不仅可以凭借场景的完美复现助力闭环仿真测试,还能借助云端的高并发能力大幅度提升考试和测试的效率。

训练前阶段,世界模型生成数据的目的主要是为了改善训练数据的配比和均匀性,其占比远小于实车数据.
但在训练后阶段,仿真测试的占比远远超过了实车测试。也就是说,如果认为训练前的数据来源还是“虚实融合,以实为主”的话,训练后的模型验证就已经“脱实向虚”了。
这主要是由于,实车测试不仅成本高,无法完全复现发生问题时的场景,其效率还极其低下,根本无法满足自动驾驶飞速发展的时代需求。

根据理想汽车的统计数据,其2023年完全采用实车测试,测试成本为每公里18.4元。
进入2025,以仿真测试为主,测试成本为每公里0.53元,下降了30倍有余。
接受媒体采访时,理想汽车自动驾驶负责人郎咸朋表示理想汽车今年的实车测试里程只有两三万公里,其道理就来自于这里。
凭借在数据生成与仿真验证两大环节的革命性突破,世界模型破解了数据的困局,重构了系统训练和测试的流程,俨然已成为自动驾驶数据闭环的核心引擎。

发表回复