2024-10-08什么是端到端?端到端自动驾驶又有哪些瓶颈?

端到端(end-to-end)第一开始的意思是在AI领域,或者说写程序时的一个概念,端到端指的是输入是原始数据,输出是最后的结果,原来输入端不是直接的原始数据,而是在原始数据中提取的特征.端到端自动驾驶通过将传感器收集到的全面信息作为输入,在单一网络中直接生成车辆的控制指令或运动规划。 这种设计使得整个系统针对最终目标进行优化,而非仅仅针对某个独立的子任务,从而实现自动驾驶性能的全局最优化。 这个概念的解释非常的保守,其中有好几个坑,大家要仔细看一下。

其实更简单的理解,老王经常用GPT,ChatGPT就是一个端到端的AI模型,比如你输入文字语句,在界面中就可以直接得到AI认为的最终答案。那么在自动驾驶,或者严谨地说,在智能驾驶领域,端到端智能驾驶就是环境感知到决策规划再到行车控制是一体化的,说这个一体化其实不太好理解,我们应该理解在端到端出现之前,智能驾驶模块化时代是如何运作的,其实模块化已经足够先进和合理,因为模块化时代是把这内部的一切模块拆分成一个个典型任务,然后将这些模块化的分区任务分别交给专门的AI模型去处理。

比如说感知是激光雷达、预测是神经网络,道路规划是大模型,激光雷达类似的传感器负责感知和信号输入,神经网络模块负责在输入的信息中找到车辆周围的障碍物,然后大模型根据感知模块输入的信号综合判断最佳行驶路线,再把最终命令发送给控制模块,而最终的控制模块就不算是AI了,而是一般的MCU,比如转向机MCU、综合一点的还有动力域控,或者车身左右域控制器等等,其实这个是普通的智能驾驶模型,但这样明显会带来问题,就是每个模型子模块在训练、优化迭代的时候都会有巨量的工作量和研发投入,当企业意识到砸多少钱都无法突破瓶颈的时候,端到端架构就应运而生了,传统的模块化架构可以看作是生产线,输入参数,处理参数,执行参数,对吧?这个很好理解,但我们学过工艺或者尺寸链的人从机械角度就可以理解什么叫累积误差,同理,AI的系统模块,拆分任务之后每一级都会产生累计误差,而有时候累积误差会非常致命,而端到端架构中,输入传感器的感知信号,系统可以直接输出车辆所需要的控制信号,系统上限,可以说基本没有。下图大概展示了一些MCU的分布,主要是动力、转向

现在很多厂商在跟进端到端概念,比如特斯拉、英伟达这些大公司,从量产车来说,目前还做不到全员切换端到端,因为风险没有解决。其中一个就是XAI的问题,XAI全称叫做Explainable AI,就是可解释人工智能可解释机器学习,要关注人工智能做出的决策或预测背后的原因以此来提升人类对人工智能的控制能力。

说白了,XAI 就是反对机器学习有这么一个“黑箱”倾向,毕竟有时候,人工智能作出的决策,即便是它的设计者也无法解释为什么它做这个决定,我觉得ChatGPT或者类似的语言模型,偶尔胡言乱语一下无所谓,毕竟它的终端没有链接到车辆的MCU控制器,他不会突然给你在盘山道上打一把方向,也不会突然在前方空旷道路上为你的后车突然踩一脚刹车。但车辆智能驾驶的端到端概念不能放松警惕,目前还没有企业拍着胸脯说自己的端到端模型能达到100%安全。所以XAI的问题得不到解决,端到端问题就始终存在,而AI领域有一个共识,就是XAI问题只能去谈多与少,而不能去谈有和无,因为这个XAI问题一定是有的,毕竟,如果AI的行为全能解释不就等于没有AI嘛?

除了XAI以外,还有一个问题,就是训练模型成本的问题,这个不是老王的专长,但我查找了大量资料,我根据很多试验结果和论文,总结一句话——大家可以朴素理解,就是端到端没有办法闭环验证,为什么说分模块简单,因为像我们学习segment课程的时候我们只需要把控程序链,把标注做好,数据量足够多就行了,端到端不是这样的,端到端需要从感知信号到处理结束再给到执行模块的这个整条链路的学习。

换句话说得真出一次事儿,或者至少在模拟环境中出一次重大事故,端到端模型才能记得住,而且有时候还记吃不记打。那么这无疑拉高了训练成本和准确率,并且直接影响了这玩意儿出厂,因为商用是严肃的,一旦商用你必须得保证最痴呆低级的用户以及最严苛的使用场景以及最糟糕的天气环境下都能顺畅使用你的产品,这对实验室条件下看起来没那么大问题的理论模型提出了相当高的要求。

那我们说端到端有没有优势,当然有,没有优势那么多车企入局是找罪受么? 端到端真正的诱惑在于“陪审团机制”,或者专业称呼叫做MoE,这个o一定要小些,英文全称Mixture of Experts,中文有很多种翻译,最著名的就是专家的混合体这个称谓,也就是说在一个大模型中,有很多个专家,他们之间具备一定的共享沟通机制,他们之间会互相学习一些成熟经验,并且通过内部一致协调保证最后给到执行器的意见是一致的。

其实这也解释了很多人看一些企业的所谓“影子模式”的操作会感觉到这玩意儿很“鬼”,比如前车有违规压线或者双黄线掉头的情况,特斯拉影子模式有时候会不成熟地跟着一起走,因为内部的MoE根据他们的共享沟通机制发现,前车没有遇到问题,内部一致之后决定“铤而走险”,但随着系统成熟度变高,后续迭代的型号会逐渐修复这类非法学习的漏洞。其实说到修复也很容易理解,比如加入最基础的if-then的约束条件,给大模型输入很多红线、底线约束。

其实端到端还有很多诱惑,像目前市政主要关注的V2X也好,或者电动汽车车队控制也罢,主要为了实现端到端智能驾驶后针对特定路段的堵车进行缓解。

今后其实我们对端到端的展望,主要在于四个方面。

(i)使用概率机器人方法进行车辆定位、路径规划和自动泊车

(ii) 使用计算机视觉和深度学习进行端到端的行为克隆

(iii) 使用车对车通信和深度强化学习进行交叉路口遍历

(iv) 使用车对基础设施通信和物联网进行智能城市管理。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论