100万辆车、100座城市，解读长城毫末的数据自动驾驶时代

2023-01-05 21:13:28　来源: 电动星球News

长城旗下自动驾驶技术公司毫末智行举办了第7届AI Day。从去年开始，我们一直在关注着毫末智行。原因有很多：国内首批推出城市领航辅助驾驶的厂商（魏牌摩卡（参数丨图片））之一；高通进入智能驾驶市场的首批合作伙伴；首批宣布自研自动驾驶训练超算中心的国产厂商；等等。

到了2023年，毫末智行对自己定了个新目标：「冲刺进入自动驾驶3.0时代」。也就是依靠数据驱动，使用大模型训练，数据规模超过1亿公里的自动驾驶技术模式。为此，毫末智行搭建了号称「中国自动驾驶行业最大智算中心」雪湖·绿洲，并且为其打造了面向大规模训练的数据引擎、文件读写系统，号称训练效率提升了100倍。而站在消费者的角度，毫末智行还表示到2024年，长城旗下搭载其辅助驾驶技术的量产车，将会超过100万辆，重感知的城市NOH将会覆盖超过100座城市。

「2023城市NOH大规模落地、2024落地中国100城、2025全面迈向无人驾驶时代」，这是毫末智行CEO顾维灏今天下午做的总结。

毫末智行和长城汽车的智能驾驶真的要崛起了？超算中心和数据引擎对汽车行业有什么作用？

我们今天来看看毫末智行2023的第一场发布会。

一、自研超算和数据闭环直接上主菜：毫末智行的自研超算中心，「雪湖·绿洲」。

这一段先说雪湖，因为它是毫末智行在「大模型大数据」时代下的基石。持续迭代、模型训练、数据处理…毫末的自动驾驶数据闭环，其实就建立在雪湖的计算能力上。那雪湖的算力是多少？670Peta，也就是67亿亿次，由于深度学习和常规超算的算力精度不能直接比较，我们很难定位雪湖在超算界的排名——但可以简单对照一下，特斯拉自研的DOJO超算，算力大概是1800+PetaFLOPS。算力是基石，算力和数据的高效协同，才是最终决定数据闭环效率的关键。为此，毫末智行最终和字节跳动旗下的火山引擎共同打造雪湖。火山引擎此前已经有不少自动驾驶数据领域的运维积淀，同时提供了完整的服务工具链，包括数据快递、车端上传等等。那么，毫末智行如何利用雪湖的67亿亿次算力？

1.首先是提高小文件吞吐能力。

自动驾驶数据是由大量片段式短视频、多模态传感器信号组成的，顾维灏表示数据时代，自动驾驶的文件量可以达到百亿级别。于是，除了算力本身，毫末还要保证这些文件可以快速传输、快速读写。我们在今天AI Day之前采访了毫末智行技术副总裁艾锐，他表示目前业内自动驾驶训练的瓶颈并不是在GPU本身，而是在文件的传输和读写上。回到2021年特斯拉AI Day，DOJO服务器的介绍环节，几乎2/3都在强调带宽、速率和存储，留给算力的只有最后几分钟，文件传输的重要性也可见一斑。而除此之外，毫末还要克服transformer模型越来越大、算法迭代越来越快，对服务器本身提出的新要求。于是，火山引擎和毫末打造的雪湖，可以实现最高800G的网络带宽，而火山引擎提供的VePFS文件系统则可以实现2T每秒的读取速度，最高支持PB级别的数据量。除此以外，雪湖超算的芯片供应商——英伟达，帮助毫末在硬件层级实现了600G每秒的双向芯片级传输速度。最终，毫末表示雪湖对transformer类模型的有效算力，可以提升3倍以上。

2.然后，是提升自动驾驶数据的利用效率。

目前自动驾驶一个完整的数据文件，包括视频、毫米波、激光雷达等一系列信号，它们用时间戳的顺序串联起来，就是一个完整的clip片段。随着技术发展，如今单个clip文件越来越大，这里包含了传感器参数进步、数量增加，同时还包括多帧采样的进化（比如以前每秒只采样几帧，现在是整个clip都要做标注），最终的结果就是小文件越来越多。除了加大传输带宽以外，毫末还根据自动驾驶文件的特点，自研了一套文件系统，叫HMFS（毫末文件系统）。这套系统本质上是针对超大规模（百亿级）小文件的筛选、索引、整理、标记，可以理解为一个高效的档案室。具体有多高效？毫末表示小文件的读写延迟可以低至500微秒（0.5毫秒），艾锐告诉我们，只有达到这样的延迟，才能满足几百万个clip同时训练。顾维灏还表示，HMFS可以让百PB级别的数据筛选速度比以前提升10倍，从而进一步削减数据瓶颈，将GPU利用率从60%提升到接近80%。除此之外，毫末今天还发布了自己的多任务并行训练系统，号称可以将训练效率提升100倍。

3.算力、数据之间的高效协同，最终为快速迭代做准备。

今天毫末一次性披露了五个大模型，它们的核心目的，则是解决自动驾驶中的一些关键问题。

3.1.首先是视觉监督模型。4D Clip，指的是包含时间数据的完整自动驾驶场景。比如一个5秒的场景，可能包含150帧视频，以及其他的毫米波、激光雷达信号。4D Clip和以往隔一段时间标记一帧的自动驾驶训练相比，带来的不仅是训练量的负担，还要求训练者用更高效的方式标注海量数据。毫末的视觉监督模型，原理是基于Finetune预训练模型，先人工少量标注关键clip，训练出一个检测跟踪模型，然后提取海量视频里面的小部分关键帧，再用这个模型实现单帧到clip的转化。关键看疗效，毫末表示视觉监督模型降低了98%的标注成本，这个数字还是很吓人的。

3.2.3D重建模型3D重建其实很好理解，就是用算法还原2D视频拍到的3D世界。这里毫末也是使用了业界比较新的NeRF算法，NeRF一个经典应用是VR，苹果就曾展示过用10s短视频重构人类动作的NeRF应用；另一个就是购物软件中的拍照搜宝贝。将NeRF应用到自动驾驶训练中之后，毫末表示感知的错误率在原来的基础上降低30%以上。

3.3.多模态互监督互监督，本质上是一种「校对」，毫末的互监督是用激光雷达「监督」摄像头。互监督算是属于预训练的范畴，毫末是通过激光雷达的监督信号，提升视频数据对现实场景的表达准确度，顾维灏表示互监督的效果比毫末预期的要更好。

3.4.动态环境除了毫末，包括小鹏、蔚来等等，都在强调「重感知、轻地图」。以毫末为例，官方表示他们基本只会使用地图里面的「拓扑信息」，也就是基本只保留道路最关键的走向、转弯等等。即使这样，毫末突然发现地图具有延迟性，动态环境模型就是让车辆本身的感知能力进一步加强。以保定和北京为例，毫末的动态环境模型，号称可以在85%的路口上，实现95%的预测准确率。

3.5.人驾自监督人驾自监督就更好理解了，人类司机反哺数据训练，这种方法典例就是最近爆火的ChatGPT。毫末的人驾自监督，其实也是使用了ChatGPT背后的RLHF(Reinforcement Learning from Human Feedback，从人类反馈中强化学习），这种方法首见于2022年3月一篇论文《Training language models to follow instructions with human feedback》。简单解释下就是，人类司机的每一次接管，都会被认为是对人驾自监督模型的一次反馈feedback，最终毫末表示可以让一些公认的困难场景，例如掉头、环岛等，通过率提升30%以上。

二、100万辆、100座城以上说过的所有技术创新，最终都要为量产服务。

2023年毫末的目标，是提升HPilot的细分表现，比如复杂障碍物交互，以及更强的路口通过性，以及下半年会推送的「免教学长距离泊车」。到了2024，毫末将落地「全场景」NOH——有意思的是，小鹏也将全场景XNGP落地的时间定在了2024。这也意味着，业界正在将2024定义为「全场景辅助驾驶」的竞争大年。毫末智行董事长张凯今天下午说的，是到了2024年，全场景NOH将完整落地中国超过100个城市。而在此之前的2023，则是全行业为了全场景辅助驾驶，加速奔跑的一年。

回到毫末本身，张凯表示今年的毫末智行，在乘用车智能驾驶领域将会聚焦于装机量、落地城市，以及大模型训练——也就是小标题里面说的100万辆车、100座城市NOH落地城市。毫末手里的牌不少，长城和魏牌的量产和销量优势、高通方案的高算力（单芯片360T，四芯片1440T），以及这次公布的自研训练超算。但同样地，毫末面临的挑战也不少。比如，可以做全量数据采集的量产车够不够多？虽然艾锐向我们表示希望将一些功能和数据采集，做到算力更低的平台，但高算力方案的普及率，依然直接决定了一套数据闭环的量产天花板。希望毫末能够带给我们更亮眼的量产成果。（完）

100万辆车、100座城市，解读长城毫末的数据自动驾驶时代 | 硬核时间

发表回复取消回复

Categories

Archives

100万辆车、100座城市，解读长城毫末的数据自动驾驶时代 | 硬核时间

发表回复 取消回复

Categories

Archives

发表回复取消回复