2023-01-05 21:13:28 来源: 电动星球News
长城旗下自动驾驶技术公司毫末智行举办了第7届AI Day。从去年开始,我们一直在关注着毫末智行。原因有很多:国内首批推出城市领航辅助驾驶的厂商(魏牌摩卡(参数丨图片))之一;高通进入智能驾驶市场的首批合作伙伴;首批宣布自研自动驾驶训练超算中心的国产厂商;等等。
到了2023年,毫末智行对自己定了个新目标:「冲刺进入自动驾驶3.0时代」。也就是依靠数据驱动,使用大模型训练,数据规模超过1亿公里的自动驾驶技术模式。为此,毫末智行搭建了号称「中国自动驾驶行业最大智算中心」雪湖·绿洲,并且为其打造了面向大规模训练的数据引擎、文件读写系统,号称训练效率提升了100倍。而站在消费者的角度,毫末智行还表示到2024年,长城旗下搭载其辅助驾驶技术的量产车,将会超过100万辆,重感知的城市NOH将会覆盖超过100座城市。
「2023城市NOH大规模落地、2024落地中国100城、2025全面迈向无人驾驶时代」,这是毫末智行CEO顾维灏今天下午做的总结。
毫末智行和长城汽车的智能驾驶真的要崛起了?超算中心和数据引擎对汽车行业有什么作用?
我们今天来看看毫末智行2023的第一场发布会。
一、自研超算和数据闭环直接上主菜:毫末智行的自研超算中心,「雪湖·绿洲」。
这一段先说雪湖,因为它是毫末智行在「大模型大数据」时代下的基石。持续迭代、模型训练、数据处理…毫末的自动驾驶数据闭环,其实就建立在雪湖的计算能力上。那雪湖的算力是多少?670Peta,也就是67亿亿次,由于深度学习和常规超算的算力精度不能直接比较,我们很难定位雪湖在超算界的排名——但可以简单对照一下,特斯拉自研的DOJO超算,算力大概是1800+PetaFLOPS。算力是基石,算力和数据的高效协同,才是最终决定数据闭环效率的关键。为此,毫末智行最终和字节跳动旗下的火山引擎共同打造雪湖。火山引擎此前已经有不少自动驾驶数据领域的运维积淀,同时提供了完整的服务工具链,包括数据快递、车端上传等等。那么,毫末智行如何利用雪湖的67亿亿次算力?
1.首先是提高小文件吞吐能力。
自动驾驶数据是由大量片段式短视频、多模态传感器信号组成的,顾维灏表示数据时代,自动驾驶的文件量可以达到百亿级别。于是,除了算力本身,毫末还要保证这些文件可以快速传输、快速读写。我们在今天AI Day之前采访了毫末智行技术副总裁艾锐,他表示目前业内自动驾驶训练的瓶颈并不是在GPU本身,而是在文件的传输和读写上。回到2021年特斯拉AI Day,DOJO服务器的介绍环节,几乎2/3都在强调带宽、速率和存储,留给算力的只有最后几分钟,文件传输的重要性也可见一斑。而除此之外,毫末还要克服transformer模型越来越大、算法迭代越来越快,对服务器本身提出的新要求。于是,火山引擎和毫末打造的雪湖,可以实现最高800G的网络带宽,而火山引擎提供的VePFS文件系统则可以实现2T每秒的读取速度,最高支持PB级别的数据量。除此以外,雪湖超算的芯片供应商——英伟达,帮助毫末在硬件层级实现了600G每秒的双向芯片级传输速度。最终,毫末表示雪湖对transformer类模型的有效算力,可以提升3倍以上。
2.然后,是提升自动驾驶数据的利用效率。
目前自动驾驶一个完整的数据文件,包括视频、毫米波、激光雷达等一系列信号,它们用时间戳的顺序串联起来,就是一个完整的clip片段。随着技术发展,如今单个clip文件越来越大,这里包含了传感器参数进步、数量增加,同时还包括多帧采样的进化(比如以前每秒只采样几帧,现在是整个clip都要做标注),最终的结果就是小文件越来越多。除了加大传输带宽以外,毫末还根据自动驾驶文件的特点,自研了一套文件系统,叫HMFS(毫末文件系统)。这套系统本质上是针对超大规模(百亿级)小文件的筛选、索引、整理、标记,可以理解为一个高效的档案室。具体有多高效?毫末表示小文件的读写延迟可以低至500微秒(0.5毫秒),艾锐告诉我们,只有达到这样的延迟,才能满足几百万个clip同时训练。顾维灏还表示,HMFS可以让百PB级别的数据筛选速度比以前提升10倍,从而进一步削减数据瓶颈,将GPU利用率从60%提升到接近80%。除此之外,毫末今天还发布了自己的多任务并行训练系统,号称可以将训练效率提升100倍。
3.算力、数据之间的高效协同,最终为快速迭代做准备。
今天毫末一次性披露了五个大模型,它们的核心目的,则是解决自动驾驶中的一些关键问题。
3.1.首先是视觉监督模型。4D Clip,指的是包含时间数据的完整自动驾驶场景。比如一个5秒的场景,可能包含150帧视频,以及其他的毫米波、激光雷达信号。4D Clip和以往隔一段时间标记一帧的自动驾驶训练相比,带来的不仅是训练量的负担,还要求训练者用更高效的方式标注海量数据。毫末的视觉监督模型,原理是基于Finetune预训练模型,先人工少量标注关键clip,训练出一个检测跟踪模型,然后提取海量视频里面的小部分关键帧,再用这个模型实现单帧到clip的转化。关键看疗效,毫末表示视觉监督模型降低了98%的标注成本,这个数字还是很吓人的。
3.2.3D重建模型3D重建其实很好理解,就是用算法还原2D视频拍到的3D世界。这里毫末也是使用了业界比较新的NeRF算法,NeRF一个经典应用是VR,苹果就曾展示过用10s短视频重构人类动作的NeRF应用;另一个就是购物软件中的拍照搜宝贝。将NeRF应用到自动驾驶训练中之后,毫末表示感知的错误率在原来的基础上降低30%以上。
3.3.多模态互监督互监督,本质上是一种「校对」,毫末的互监督是用激光雷达「监督」摄像头。互监督算是属于预训练的范畴,毫末是通过激光雷达的监督信号,提升视频数据对现实场景的表达准确度,顾维灏表示互监督的效果比毫末预期的要更好。
3.4.动态环境除了毫末,包括小鹏、蔚来等等,都在强调「重感知、轻地图」。以毫末为例,官方表示他们基本只会使用地图里面的「拓扑信息」,也就是基本只保留道路最关键的走向、转弯等等。即使这样,毫末突然发现地图具有延迟性,动态环境模型就是让车辆本身的感知能力进一步加强。以保定和北京为例,毫末的动态环境模型,号称可以在85%的路口上,实现95%的预测准确率。
3.5.人驾自监督人驾自监督就更好理解了,人类司机反哺数据训练,这种方法典例就是最近爆火的ChatGPT。毫末的人驾自监督,其实也是使用了ChatGPT背后的RLHF(Reinforcement Learning from Human Feedback,从人类反馈中强化学习),这种方法首见于2022年3月一篇论文《Training language models to follow instructions with human feedback》。简单解释下就是,人类司机的每一次接管,都会被认为是对人驾自监督模型的一次反馈feedback,最终毫末表示可以让一些公认的困难场景,例如掉头、环岛等,通过率提升30%以上。
二、100万辆、100座城以上说过的所有技术创新,最终都要为量产服务。
2023年毫末的目标,是提升HPilot的细分表现,比如复杂障碍物交互,以及更强的路口通过性,以及下半年会推送的「免教学长距离泊车」。到了2024,毫末将落地「全场景」NOH——有意思的是,小鹏也将全场景XNGP落地的时间定在了2024。这也意味着,业界正在将2024定义为「全场景辅助驾驶」的竞争大年。毫末智行董事长张凯今天下午说的,是到了2024年,全场景NOH将完整落地中国超过100个城市。而在此之前的2023,则是全行业为了全场景辅助驾驶,加速奔跑的一年。
回到毫末本身,张凯表示今年的毫末智行,在乘用车智能驾驶领域将会聚焦于装机量、落地城市,以及大模型训练——也就是小标题里面说的100万辆车、100座城市NOH落地城市。毫末手里的牌不少,长城和魏牌的量产和销量优势、高通方案的高算力(单芯片360T,四芯片1440T),以及这次公布的自研训练超算。但同样地,毫末面临的挑战也不少。比如,可以做全量数据采集的量产车够不够多?虽然艾锐向我们表示希望将一些功能和数据采集,做到算力更低的平台,但高算力方案的普及率,依然直接决定了一套数据闭环的量产天花板。希望毫末能够带给我们更亮眼的量产成果。(完)

发表回复