2023-02-11自动驾驶芯片

1自动驾驶芯片概况

芯片按应用场景可分为消费芯片、工业芯片、汽车芯片和军工芯片等。汽车是芯片应用场景之一,汽车芯片需要具备车规级。  车规级芯片对加工工艺要求不高,但对质量要求高。需要经过的认证过程,包括质量管理标准ISO/TS 16949、可靠性标准 AEC-Q100、功能安全标准ISO26262等。

汽车内不同用途的芯片要求也不同,美国制定的汽车电子标准把其分为5级。汽车各系统对芯片要求由高到低依次是:动力安 全系统 > 车身控制系统 > 行驶控制系统 > 通信系统 > 娱乐系统。

车规级芯片特殊的技术和工艺要求挡住了企业进入的脚步。车规级芯片有着比消费级芯片更高的技术门槛,需满足温度、振 动、电磁干扰、长使用寿命等高要求,还要通过可靠性标准AEC-Q100、 质量管理标准ISO/TS16949、功能安全标准ISO26262 等严苛的认证流程,大部分芯片企业尚不具备转型进入能力。

目前,车规级芯片在传统汽车中的成本约为 2270 元 / 车,在新能源汽车中的成本约为 4540 元 / 车。随着汽车向电动化和智 能化发展,芯片的种类、数量和价格占比将进一步提高。

不同等级芯片技术要求

AEC-Q100 关键测试类别包括:Accelerated Environment Stress (加速环境应力);Accelerate Lifetime Simulation (加速寿命仿 真);Packaging/Assembly (封装/组装);Die Fabrication (芯片制程);Electrical Verification (电气验证);Defect Screening (不良品筛选);Cavity Package Integrity (腔体封装完整性)。  AEC 的系列文件正是希望通过消除制造商和采购商之间的误解,促进信息互换,改进产品,协助采购商在最短的时间内挑选 合适的产品。  AEC-Q100 自首次亮相以来经历了多次修订。 每次修订都与汽车行业的发展有关, AEC 的政策也会同步更新。在众多的AEC质 量认证标准中, AEC – Q102是针对分立光电半导体在汽车应用中, 基于失效机制的压力测试认证。这些测试主要测量 光电元 件的强度、安全性、可靠性和整体可行性。每个测试都有失败标准和验收标准。以激光组件为例, 包括单一纯激光芯片,及 激光芯片、光学元件和其他转换器的封装组合。

车规级芯片分为控制芯片、微处理器芯片、存储芯片、模拟芯片及功率器件等。

一体化 :云和边缘计算的数据中心,以及自动驾驶等超级终端领域,都是典型的复杂计算场景,这类场景的计算平台都是典型的大算 力芯片。大芯片的发展趋势已经越来越明显的从GPU、DSA的分离趋势走向DPU、超级终端的再融合,未来会进一步融合成超 异构计算宏系统芯片。  BOSCH给出了汽车电气架构演进示意图。从模块级的ECU到集中相关功能的域控制器,再到完全集中的车载计算机。每个阶段 还分了两个子阶段,例如完全集中的车载计算机还包括了本地计算和云端协同两种方式。

汽车电气架构特征

向先进制程延伸:高端自动驾驶芯片向先进制程延申:用于L1-L2 自动驾驶的芯片只需要28nm制程即可制造,L3 及以上的高阶自动驾驶对算力 的要求越发苛刻,规划中针对L4/L5 自动驾驶的SoC芯片普遍需要7nm,甚至5nm的先进制程。先进的制程可以影响功耗,先 进的制程又可以影响集成度;而功耗则影响可靠性,集成度影响性能。  目前的 5nm制程芯片尚处于研发或发布状态,均未进入量产阶段;不过 7nm芯片中,已有 Orin、FSD、EyeQ5、8155 等芯片实 现量产,其他芯片则在未来几年陆续实现量产,这预示着先进制程车用芯片开始进入量产加速期。

主流公司自动驾驶芯片制程对比

高算力 :自动驾驶时代算力不足问题逐步显现。 一方面,各大车厂正在全力备战高级自动驾驶的量产,多传感器融合已经成为高阶自 动驾驶应对复杂场景与安全冗余的必然趋势。处理这些数据需要非常强大的计算能力,L2级自动驾驶的算力要求大概是 10+TOPS,但是到了L4/L5级自动驾驶算力则需要达到1000+TOPS,同比翻了100倍。另一方面,包括安波福、博世等Tier1巨 头,以及大众、宝马等车企开始探索新型的电子电气架构,传统分布式的汽车电子电气架构正在向域集中式架构演进,从而 带动了高性能大算力芯片的需求急剧上涨。现阶段,汽车产业在芯片厂家的推动下进入了算力比拼时代。

各自动驾驶等级对算力需求

2 自动驾驶芯片架构分析

2.1 主流架构方案对比:三种主流架构

当前主流的AI芯片主要分为三类,GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构,属于通用型芯片。ASIC 属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算,但是在AI应用领域也是必不可少。

动驾驶芯片不同架构特点

GPU方案:GPU与CPU的架构对比

CPU遵循的是冯·诺依曼架构,其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单 元(Cache)和控制单元(Control),相比之下计算单元(ALU)只占据了很小的一部分,所以CPU在进行大规模并行计 算方面受到限制,相对而言更擅长于处理逻辑控制。  GPU(GraphicsProcessing Unit),即图形处理器,是一种由大量运算单元组成的大规模并行计算架构,早先由CPU中分出 来专门用于处理图像并行计算数据,专为同时处理多重并行计算任务而设计。GPU中也包含基本的计算单元、控制单元 和存储单元,但GPU的架构与CPU有很大不同,其架构图如下所示。  与CPU相比,CPU芯片空间的不到20%是ALU,而GPU芯片空间的80%以上是ALU。即GPU拥有更多的ALU用于数据并行处 理。

GPU与CPU区别

CPU 由专为顺序串行处理而优化的几个核心组成,而 GPU 则拥有一个由数以千计的更小、更高效的核心组成的大规模并 行计算架构,这些更小的核心专为同时处理多重任务而设计。  CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。CPU需要很强的通用性来 处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复 杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。

GPU加速技术简述

对于深度学习来说,目前硬件加速主要靠使用图形处理单元。相比传统的 CPU,GPU 的核心计算能力要多出几个数量 级,也更容易进行并行计算。  GPU 的众核体系结构包含几千个流处理器,可将运算并行化执行,大幅缩短模型的运算时间。随着 NVIDIA、AMD 等公司 不断推进其 GPU 的大规模并行架构支持,面向通用计算的 GPU已成为加速并行应用程序的重要手段。  目前 GPU 已经发展到了较为成熟的阶段。利用 GPU 来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行 计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。如果针对适当的深度神经网 络进行合理优化,一块 GPU 卡可相当于数十甚至上百台 CPU服务器的计算能力,因此 GPU 已经成为业界在深度学习模型 训练方面的首选解决方案。

当训练的模型规模比较大时,可以通过数据并行的方法来加速模型的训练,数据并行可以对训练数据做切分,同时采用 多个模型实例对多个分块的数据同时进行训练。在数据并行的实现中,由于是采用同样的模型、不同的数据进行训练, 影响模型性能的瓶颈在于多 CPU 或多 GPU 间的参数交换。根据参数更新公式,需要将所有模型计算出的梯度提交到参数 服务器并更新到相应参数上,所以数据片的划分以及与参数服务器的带宽可能会成为限制数据并行效率的瓶颈。  除了数据并行,还可以采用模型并行的方式来加速模型的训练。模型并行是指将大的模型拆分成几个分片,由若干个训 练单元分别持有,各个训练单元相互协作共同完成大模型的训练。

GPU 加速计算是指同时利用图形处理器 (GPU) 和 CPU,加快科学、分析、工程、消费和企业应用程序的运行速度。GPU 加速器于 2007 年由 NVIDIA率先推出,现已在世界各地为政府实验室、高校、公司以及中小型企业的高能效数据中心提供 支持。GPU 能够使从汽车、手机和平板电脑到无人机和机器人等平台的应用程序加速运行。  GPU 加速计算可以提供非凡的应用程序性能,能将应用程序计算密集部分的工作负载转移到 GPU,同时仍由 CPU 运行其 余程序代码。从用户的角度来看,应用程序的运行速度明显加快。  GPU当前只是单纯的并行矩阵的乘法和加法运算,对于神经网络模型的构建和数据流的传递还是在CPU上进行。CPU 与 GPU的交互流程:获取GPU信息,配置GPU id、加载神经元参数到GPU、GPU加速神经网络计算、接收GPU计算结果。

自动驾驶技术中最重要的技术范畴之一是深度学习,基于深度学习架构的人工智能如今已被广泛应用于计算机视觉、自 然语言处理、传感器融合、目标识别、自动驾驶等汽车行业的各个领域,从自动驾驶初创企业、互联网公司到各大OEM 厂商,都正在积极探索通过利用GPU构建神经网络实现最终的自动驾驶。  GPU加速计算诞生后,它为企业数据提供了多核并行计算架构,支撑了以往CPU架构无法处理的数据源。根据对比,为了 完成相同的深度学习训练任务,使用GPU计算集群所需要的成本只是CPU计算集群的200分之一。

GPU是自动驾驶与深度学习的关键

无论是让汽车实时感知周边实时环境,还是迅速规划行车路线和动作,这些都需要依赖汽车大脑快速的响应,因此对计 算机硬件厂商提出了巨大挑战,自动驾驶的过程中时刻需要深度学习或者人工智能算法应对无限可能的状况, 而人工智 能、深度学习和无人驾驶的蓬勃发展,带来了GPU计算发展的黄金时代。  GPU的另一个重要参数是浮点计算能力。浮点计数是利用浮动小数点的方式使用不同长度的二进制来表示一个数字,与 之对应的是定点数。在自动驾驶算法迭代时对精度要求较高,需要浮点运算支持。

FPGA方案:FPGA芯片定义及结构

FPGA(Field-Programmable Gate Array),即现场可编程门阵列,它是在PAL、GAL、CPLD等可编程器件的基础上进一步发 展的产物。它是作为专用集成电路领域中的一种半定制电路而出现的,既解决了定制电路的不足,又克服了原有可编程 器件门电路数有限的缺点。  FPGA芯片主要由6部分完成,分别为:可编程输入输出单元、基本可编程逻辑单元、完整的时钟管理、嵌入块式RAM、丰 富的布线资源、内嵌的底层功能单元和内嵌专用硬件模块。目前主流的FPGA仍是基于查找表技术的,已经远远超出了先 前版本的基本性能,并且整合了常用功能(如RAM、时钟管理和DSP)的硬核(ASIC型)模块。

FPGA工作原理

由于FPGA需要被反复烧写,它实现组合逻辑的基本结构不可能像ASIC那样通过固定的与非门来完成,而只能采用一种易 于反复配置的结构。查找表可以很好地满足这一要求,目前主流FPGA都采用了基于SRAM工艺的查找表结构,也有一些军 品和宇航级FPGA采用Flash或者熔丝与反熔丝工艺的查找表结构。通过烧写文件改变查找表内容的方法来实现对FPGA的重 复配置。  查找表(Look-Up-Table)简称为LUT,LUT本质上就是一个RAM。目前FPGA中多使用4输入的LUT,所以每一个LUT可以看成 一个有4位地址线的 的RAM。当用户通过原理图或HDL语言描述了一个逻辑电路以后,PLD/FPGA开发软件会自动计算逻辑 电路的所有可能结果,并把真值表(即结果)事先写入RAM,这样,每输入一个信号进行逻辑运算就等于输入一个地址 进行查表,找出地址对应的内容,然后输出即可。

可编程输入/输出单元简称I/O单元,是芯片与外界电路的接口部分,完成不同电气特性下对输入/输出信号的驱动与匹配 要求。FPGA内的I/O按组分类,每组都能够独立地支持不同的I/O标准。通过软件的灵活配置,可适配不同的电气标准与 I/O物理特性,可以调整驱动电流的大小,可以改变上、下拉电阻。目前,I/O口的频率也越来越高,一些高端的FPGA通 过DDR寄存器技术可以支持高达2Gbps的数据速率。  CLB是FPGA内的基本逻辑单元。CLB的实际数量和特性会依器件的不同而不同,但是每个CLB都包含一个可配置开关矩阵, 此矩阵由4或6个输入、一些选型电路(多路复用器等)和触发器组成。开关矩阵是高度灵活的,可以对其进行配置以便 处理组合逻辑、移位寄存器或RAM。在Xilinx公司的FPGA器件中,CLB由多个(一般为4个或2个)相同的Slice和附加逻辑构 成。每个CLB模块不仅可以用于实现组合逻辑、时序逻辑,还可以配置为分布式RAM和分布式ROM。

自动驾驶的“芯”杀手

自动驾驶和高级驾驶辅助系统(ADAS)细分市场正在经历蜕变,对计算和传感器功能提出了新的复杂需求。FPGA拥有其他 芯片解决方案无法比拟的独特优势,是满足自动驾驶行业不断发展变化的优良选择。FPGA是芯片领域的一种特殊技术, 一方面能够通过软件工具进行反复多次配置,另一方面拥有丰富的IO接口和计算单元。因此,FPGA能够根据应用场景的 具体需求,同时处理流水线并行和数据并行,天生具有计算性能高、延迟低、功耗小等优势。  FPGA具备高吞吐量、高能效以及实时处理等多项优点,非常契合自动驾驶所需要的技术需求。高级辅助驾驶系统(ADAS)、 车载体验(IVE)应用的标准和要求正在快速演变,系统设计人员关注的问题主要包括出色的灵活性和更快的开发周期,同 时维持更高的性能功耗比。通过可重新编程的FPGA和不断增多的汽车级产品相结合,支持汽车设计师满足设计要求,在 不断变化的汽车行业中始终保持领先。

适应性更强的平台

对于自动驾驶芯片来说真正的价值在于计算引擎的利用率,即理论性能和实际性能之间的差异。FPGA包含大量的路由链 路以及大量的小型存储。这些资源的组合使设计人员能够为其计算引擎创建定制的数据馈送网络,以获得更高的利用水 平。可编程逻辑为客户提供了高度的灵活性,以适应ADAS和自动驾驶等新兴应用领域不断变化的需求。利用改进的接口 标准、算法创新和新的传感器技术,都需要适应性强的平台,不仅可以支持软件更改,还可以支持硬件更改,而这正是 FPGA芯片的优势所在。  FPGA芯片拥有可扩展性。可拓展的芯片改变了可编程逻辑的数量,大多采用引脚兼容的封装。这意味着开发人员可以创 建单个ECU平台来承载低、中、高版本的ADAS功能包,并根据需要通过选择所需的最小密度芯片来缩放成本。

差异化解决方案

FPGA芯片允许开发人员创建独特的差异化处理解决方案,这些解决方案可以针对特定应用或传感器进行优化。这对于 ASSP芯片来说是无法实现的,即使是那些提供专用加速器的芯片,它们的使用方式也受到限制,而且基本上可以提供给 所有竞争对手。例如Xilinx的长期客户已经创建了只有他们可以访问的高价值IP库,并且这些功能可以被公司的各种产品 使用。从90 nm节点开始,对于大批量汽车应用,Xilinx的芯片就已经极具成本效益,有超过1.6亿颗Xilinx芯片在该行业获 得应用。

ASIC方案:ASIC定义及特点

ASIC 芯片可根据终端功能不同分为 TPU 芯片、DPU 芯片和 NPU 芯片等。其中,TPU 为张量处理器,专用于机器学习。如 Google 于 2016 年 5 月研发针对 Tensorflow 平台的可编程 AI 加速器,其内部指令集在 Tensorflow 程序变化或更新算法时 可运行。DPU 即 Data Processing Unit,可为数据中心等计算场景提供引擎。NPU 是神经网络处理器,在电路层模拟人类神 经元和突触,并用深度学习指令集直接处理大规模电子神经元和突触数据。  ASIC 有全定制和半定制两种设计方式。全定制依靠巨大的人力时间成本投入以完全自主的方式完成整个集成电路的设计 流程,虽然比半定制的 ASIC 更为灵活性能更好,但它的开发效率与半定制相比甚为低下。

ASIC 芯片非常适合人工智能的应用场景。例如英伟达首款专门为深度学习从零开始设计的芯片 Tesla P100 数据处理速度 是其 2014 年推出GPU 系列的 12 倍。谷歌为机器学习定制的芯片 TPU 将硬件性能提升至相当于当前芯片按摩尔定律发展 7 年后的水平。正如 CPU 改变了当年庞大的计算机一样,人工智能 ASIC 芯片也将大幅改变如今 AI 硬件设备的面貌。如大 名鼎鼎的 AlphaGo 使用了约 170 个图形处理器(GPU)和 1200 个中央处理器(CPU),这些设备需要占用一个机房,还 要配备大功率的空调,以及多名专家进行系统维护。而如果全部使用专用芯片,极大可能只需要一个普通收纳盒大小的 空间,且功耗也会大幅降低。  ASIC技术路线是有限开放,芯片公司需要面向与驾驶相关的主流网络、模型、算子进行开发。在相同性能下,芯片的面 积更小、成本更低、功耗更低。ASIC技术路线未来的潜力会很大,选择ASIC路线并不意味着要对不同车型开发不同的 ASIC,或进行不同的验证。因为不同车型需要实现的功能大致相同,而且芯片面对模型和算子进行有限开放,算法快速 迭代不会影响到芯片对上层功能的支持。车厂与芯片设计公司合作,进行差异化定制,或是更好的选择。因为即使是进 行差异化的定制,芯片内部50%的部分也是通用的。芯片设计公司可以在原有版本的基础上进行差异化设计,实现部分 差异功能

主流架构方案对比:三种主流架构

FPGA是在PAL、GAL等可编程器件的基础上进一步发展的产物。它是作为专用集成电路领域中的一种半定制电路而出现 的,既解决了定制电路的不足,又克服了原有可编程器件门电路数有限的缺点。 优点:可以无限次编程,延时性比较 低,同时拥有流水线并行和数据并行、实时性最强、灵活性最高。缺点:开发难度大、只适合定点运算、价格比较昂 贵。  图形处理器(GPU),又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设 备(如平板、手机等)上做图像和图形相关运算工作的微处理器。优点:提供了多核并行计算的基础结构,且核心数非 常多,可以支撑大量数据的并行计算,拥有更高的浮点运算能力。缺点:管理控制能力(最弱),功耗(最高)。  ASIC,即专用集成电路,指应特定用户要求和特定电子系统的需要而设计、制造的集成电路。目前用CPLD(复杂可编程 逻辑器件)和FPGA(现场可编程逻辑阵列)来进行ASIC设计是最为流行的方式之一。优点:它作为集成电路技术与特定用 户的整机或系统技术紧密结合的产物,与通用集成电路相比具有体积更小、重量更轻、功耗更低、可靠性提高、性能提 高、保密性增强、成本降低等优点。缺点:灵活性不够,成本比FPGA贵.

自动驾驶芯片不同架构特点

唯算力论的局限:TOPS算力不完全等于实际性能

随着ADAS、自动驾驶技术的兴起,以及软件定义汽车的逐步深入,智能汽车对于计算能力和海量数据处理能力等的需求 暴增,传统汽车的芯片“堆叠”方案已经无法满足自动驾驶的算力需求。芯片最终是为车企的车载计算平台服务的,在 “软件定义汽车”的情况下,解决智能驾驶系统计算平台的支撑问题,无法只通过芯片算力堆叠来实现。  芯片是软件的舞台,衡量芯片优劣的标准,要看芯片之上的软件能否最大化地发挥作用,算力和软件之间需要有效匹配。 两款相同算力的芯片比较,能让软件运行得更高效的芯片才是“好芯片”。决定算力真实值最主要因素是内存( SRAM和 DRAM)带宽,还有实际运行频率(即供电电压或温度),以及算法的batch尺寸。  单颗芯片算力TOPS是关键指标,但并非唯一,自动驾驶是一个复杂系统,需要车路云边协同。所以它的较量除了芯还有 软硬协同还有平台以及工具链等等。芯片算力的无限膨胀和硬件预埋不会是未来的趋势,硬件也需要匹配实际。高算力 背后是高功耗和低利用率的问题。

事件相机:简介及工作机制

事件相机的灵感来自人眼和动物的视觉,也有人称之为硅视网膜。生物的视觉只针 对有变化的区域才敏感,事件相机就是捕捉事件的产生或者变化的产生。  在传统的视觉领域,相机传回的信息是同步的,所谓同步,就是在某一时刻t,相机 会进行曝光,把这一时刻所有的像素填在一个矩阵里回传,产生一张照片。一张照 片上所有的像素都对应着同一时刻。至于视频,不过是很多帧的图片,相邻图片间 的时间间隔可大可小,这便是帧率(frame rate),也称为时延(time latency)。事 件相机类似于人类的大脑和眼睛,跳过不相关的背景,直接感知一个场景的核心, 创建纯事件而非数据。  事件相机的工作机制是,当某个像素所处位置的亮度发生变化达到一定阈值时,相 机就会回传一个上述格式的事件,其中前两项为事件的像素坐标,第三项为事件发 生的时间戳,最后一项取值为极性(polarity)0、1(或者-1、1),代表亮度是由低 到高还是由高到低。  就这样,在整个相机视野内,只要有一个像素值变化,就会回传一个事件,这些所 有的事件都是异步发生的(再小的时间间隔也不可能完全同时),所以事件的时间 戳均不相同,由于回传简单,所以和传统相机相比,它具有低时延的特性,可以捕 获很短时间间隔内的像素变化,延迟是微秒级的。

当今自动驾驶领域所运用的视觉识别算法,基本上都基于卷积神经网络,视觉算法的运算本质上是一次次的卷积运算。 这种计算并不复杂,本质上只涉及到加减乘除,也就是一种乘积累加运算。但这种简单运算在卷积神经网络中是大量存 在的,这就对处理器的性能提出了很高的要求。  以ResNet-152为例,这是一个152层的卷积神经网络,它处理一张224*224大小的图像所需的计算量大约是226亿次,如果 这个网络要处理一个1080P的30帧的摄像头,他所需要的算力则高达每秒33万亿次,十分庞大。

通过减少无效计算节约算力

自动驾驶领域99%的视觉数据在AI处理中是无用的背景。例如检测鬼探头,变化的区域是很小一部分,但传统的视觉处理 仍然要处理99%的没有出现变化的背景区域,这不仅浪费了大量的算力,也浪费了时间。亦或者像在沙砾里有颗钻石,AI 芯片和传统相机需要识别每一颗沙粒,筛选出钻石,但人类只需要看一眼就能检测到钻石,AI芯片和传统相机耗费的时 间是人类的100倍或1000倍。  除了冗余信息减少和几乎没有延迟的优点外,事件相机的优点还有由于低时延,在拍摄高速物体时,传统相机由于会有 一段曝光时间会发生模糊,而事件相机则几乎不会。此外事件相机拥有真正的高动态范围,由于事件相机的特质,在光 强较强或较弱的环境下,传统相机均会“失明”,但像素变化仍然存在,所以事件相机仍能看清眼前的东西。

3 自动驾驶芯片部分重点企业分析

英伟达:从游戏显卡到自动驾驶芯片

英伟达拥有极具前瞻性且清晰的战略能力。英伟达是全球最大的智能计算平台型公司,公司从早期专注PC图形计算,后来逐 步将重点扩展到AI领域,并在3D图形的持续需求与游戏市场规模扩张推动下,利用GPU架构,创建VR、HPC(高性能计算)、 AI平台。英伟达在独立显卡、GPU领域有超过70%的市场份额。除了优秀的硬件性能外,2006年英伟达开发了基于GPU的 “CUDA”开发平台,让只做3D渲染的GPU实现通用计算功能,GPU 的应用领域从游戏扩展至高性能计算、自动驾驶等多个领 域。

革命性CUDA架构

到了2005年,主要的GPU制造商都使用顶点着色单元和像素渲染单元两种计算资源。然而,合理配置这两种资源的问题却始 终没有得到完美解决。特别是两种处理器数量的最佳比例是随应用的变化而变化的,因此经常出现一种处理器不够用、而另 一种处理器闲置的情况,这就限制了高性能运算技术的发展。让原本只做3D渲染的GPU技术通用化,有重大战略意义。  通过CUDA(Compute Unified Device Architecture)技术,英伟达给GPU装备了一组完全相同的、具有较强编程能力的内核,根 据任务情况在顶点和片元处理任务之间动态分配。从G80开始,英伟达GPU体系结构已经全面支持通用编程,同时英伟达也推 出了CUDA编程技术,为GPU通用程序设计提供了第一套完整工具。

围绕CUDA架构构筑生态系统

在软件层面,英伟达面向GPU开发的应用软件接口CUDA经久不衰,CUDA整套软件非常完善,与自家GPU自然适配,能快速搭 建神经网络加速软件框架,所以CUDA在早期被很多厂家用于神经网络加速,这也为其打造AI计算平台奠定了基础。另外一个 层面,除了CUDA,其他厂家的API也可以在英伟达的GPU上用于神经网络加速,应用程序也越来越多。  英伟达也通过多种方式鼓励高校和研究所从事CUDA相关研究工作,设立CUDA研发中心,发CUDA大师证书,做CUDA技术认 证,让学术界为CUDA背书,通过学术界为工业界做预研,通过学术界为工业界培养人才。

NVIDIA移动芯片发展历程

自动驾驶芯片

从2015年开始,英伟达开始进入车载 SoC和车载计算平台领域,为自动驾驶提供基础计算能力。  此后英伟达几乎每隔两年发布一款车规级SoC芯片,且不断拉升算力水平。2020年,Xavier芯片算力为30 TOPS,2022年发布的 Orin算力为254 TOPS,2022秋季GTC大会上发布了新自动驾驶芯片Thor,算力为2000TFLOPS@FP8、4000TOPS@INT8,取代了之 前发布的算力达1000TOPS的Altan。

自动驾驶平台

自2015年开始,英伟达已经推出4代自动驾驶计算平台分别为:Drive PX、Drive PX2、Drive AGX Xavier/ Pegasus、Drive AGX Orin。  2022年GTC大会上英伟达公布了公司新一代汽车自动驾驶技术平台Drive Hyperion 9,英伟达将Hyperion 9自动驾驶平台比作中枢神经系 统,相比于Hyperion 8,其支持感知硬件数量大幅度提升,其中包括,车外部分14个摄像头、9个毫米波雷达、3个激光雷达以及20个 超声传感器,以及车内部分的3个摄像头以及1个毫米波雷达。据悉,搭载Hyperion的车辆将能达到L4级自动驾驶能力。Hyperion 9自动 驾驶平台的交付时间预计在2026年。

NVIDIA自动驾驶平台

英特尔Mobileye:EyeQ系列发展历程

2004年4月,EyeQ1开始生产,随后公司收获多轮融资,将商业模式转向汽车安全,陆续与大陆、意法半导体、麦格纳、电装、 德尔福等全球顶级零部件供应商签署合作协议。2007年,宝马、通用和沃尔沃成为首批配装Mobileye芯片的车企,Mobileye 产品正式商用。2008年,Mobileye对外发布EyeQ2,公司进入稳定发展期。2013年,Mobileye累计卖出产品突破100万台,随 后出货量呈现爆发式增长。2017年3月,Mobileye被芯片巨头英特尔以 153 亿美元的价格收购。

Mobileye在2022年推出了新型EyeQ Ultra,它专为自动驾驶而生。据 Mobileye称,EyeQ Ultra采用5nm工艺,将10个EyeQ5的处理 能力集成在一个封装中。但是其芯片的计算能力似乎略逊色于英伟达,EyeQ Ultra芯片具有170 TOPS,包括12个RISC内核、256 gigaflops、许多GPU和加速器内核等等,功耗不到100W,可以“处理 4 级(L4)自动驾驶的所有需求和应用”,而无需将多个 系统集成在一起的计算能力和成本,解决两个行业面临的重大挑战。EyeQ Ultra预计将在 2025 年全面投产。  Mobileye 还还推出了其最新一代芯片EyeQ6:EyeQ6L和EyeQ6H,采用7nm工艺,能用于ADAS L2,预计将于 2023 年年中开始生 产。该芯片已与大众和福特就地图技术达成扩展协议,以及与吉利达成新协议,到2024年推出全电动 L4 级自动化汽车。

特斯拉:自动驾驶芯片发展之路

Tesla经历了外购主控芯片到自研的道路。2014年-2016年, Tesla配备的是基于Mobileye EyeQ3芯片的AutoPilot HW1.0计算平 台,车上包含1个前摄像头+1个毫米波雷达+12个超声波雷达。2016年-2019年, Tesla采用基于英伟达的DRIVE PX 2 AI计算平台 的AutoPilot HW2.0和后续的AutoPilot HW2.5,包含8个摄像头+1个毫米波雷达+12超声波雷达。  2017年开始Tesla开始启动自研主控芯片,尤其是主控芯片中的神经网络算法和AI处理单元全部自己完成。2019年4月, AutoPilot HW3.0平台搭载了Tesla FSD自研版本的主控芯片,这款自动驾驶主控芯片拥有高达60亿的晶体管,每秒可完成144万 亿次的计算,能同时处理每秒2300帧的图像。

FSD从外购芯片到自研芯片历程

为什么自研芯片

类比苹果:苹果采用了自研的A系列芯片,匹配了iOS系统,和其他诸多手机相比,苹果手机的软件流畅性、硬件能耗等相对 更胜一筹。  软硬件融合:芯片算力固然很重要,但在英伟达、Mobileye这样的通用平台上,相关的主机厂、自动驾驶公司并不一定有技 术水平让硬件发挥到100%,而自研芯片能够在研发阶段更好地让软硬件融合、调整,充分发挥软、硬件的潜力。能对核心硬 件有更强的掌控力,在硬件加速上形成差异,更有可能建立起自动驾驶技术的优势。  议价能力:整车厂商只有拥有了技术储备才会有议价能力,在自动驾驶数据处理单元技术上,Autopilot 3.0硬件的诞生增强了 特斯拉在该领域的议价能力。这或许也是特斯拉自研芯片的初衷之一。  成本控制:Drive PX 2 功耗为 250W,而价格则直接是 1.5 万美元。如果特斯拉选择自己造自动驾驶芯片,那么成规模之后, 有助于降低成本。  提高灵活性:芯片产商的厂商的芯片为了满足通用性,开发周期通常比较长,难以满足需求,而自己开发的话,开发周期可 以自主把握,算力需求可以自行设计,无关的通用性接口或者单元可以舍弃,灵活性很高,开发周期更短,功耗也更低。  实现芯片自给自足:在缺芯的环境下,自主设计自动驾驶芯片可以解决在自动驾驶领域的芯片自给自足问题。

芯片自研是一条难以复制的技术路线

各类顶级芯片研发人员聚集,为特斯拉芯片自研奠定基础:2016 年 1 月,Tesla从 AMD 挖来传奇芯片架构师 Jim Keller,任命 他为 Autopilot 硬件工程副总裁。2016年2月,Tesla又从Apple招到了研发总监 Pete Bannon,Pete 是 A5 芯片核心的设计工程师, 在那之前他是 PA Semi 的架构与验证副总裁。同时期,同样来自 AMD 的谷俊丽,在Autopilot 硬件工程团队下开始组建机器学 习小组,这个小组有两个任务:一个是搭建第二代自动驾驶硬件上的 AI 算法和机器学习软件,另一个是参与设计 FSD 芯片的 架构和上面的软件。  采用以深度神经网络为主的人工智能模型,再加上车端收集的大量数据,特拉斯ADAS水平迅速提升:基于全新深度神经网络 的视觉处理工具TeslaVision是 Autopilot团队抛开 Mobileye、从零搭建的一套视觉处理工具,它的背后,是全新的底层软件技术 架构和云端大数据基础设施。Tesla Vision能够对行车环境进行专业的解构分析,相比传统视觉处理技术可靠性更高;借助 Tesla售出的车辆搜集的大量数据,反过来又可以对Tesla Vision的神经网络进行训练和改进,进一步优化Autopilot。  除车端芯片FSD的研发外,特斯拉也开始涉足云端训练芯片,试图打通车云系统。从算力来看,其1.09EFLOPS的算力水平和 Nvidia用4096块A100构建的集群(1.28 EFLOPS);Huawei用4096块Ascend 910构建的集群(1.05 EFLOPS);Google用3456块 TPU v4构建的集群(0.95 EFLOPS)相比,已经不相上下。其对称式的设计理念,可能给超算领域带来全新技术路线的可能性。  特斯拉的芯片自研的成功,竞争对手的可复制性很弱,主要原因有:(1)芯片顶级研发人才很难被车企所招聘,特斯拉有很 大程度是因为马斯克的个人魅力因素,才说服顶级芯片研发人员加入;(2)自研芯片风险极高,前期投入较大;(3)如果 不能保证使用的数量,则自研芯片性价比很低。因此,对于绝大多数车企来讲,外购芯片才是更好的解决方案。 FSD芯片 从算法需求倒推芯片架构,软硬件一体化实现高效算力。

FSD芯片

从算法需求出发,进行了芯片架构设计。其核心技术来源于 由两颗NPU组成的NNA(Neural Network Accelerator,神经网络加速单元)系统。FSD芯片于2019年正式流片,代工厂为三星, 采用14nm工艺,整个芯片约有60亿颗晶体管组成。

FSD芯片示意图

FSD芯片架构组成

NNA核心体现了成本和功耗的优化

NPU具备强大运算能力。在每个计算周期,NPU都会从内置的32MB SRAM中读取256字节的激活数据和另外128字节的权重数 据组合在一起进入乘法累加(MAC),每个NPU都有一个96x96MAC阵列。在完成了MAC的乘法累加运算后,数据将会被转移 到激活(Activations)以及池化(Pooling)部分,并等待写入缓冲区汇总结果。  Tesla对于NNA的功耗和成本优化也做了不少的努力。 NNA 设计了非常大的片上SRAM缓存,相较于Google的TPU,采用了 256×256的MAC,只有24MB的SRAM。对于这种特殊的设计,Tesla解释这样做是为了让数据尽可能地在片内周转,而不用频 繁地与内存或者其他模块进行读写操作。这样做不但可以提高性能,还可以有效降低功耗。  Tesla在NNA的设计中还偏向于将硬件简化,并复杂化软件,这样做可以降低芯片成本。

自动驾驶的硬件成本约占整体硬件成本的3.5%特斯拉自动驾驶硬件成本估算:特斯拉自动驾驶域的芯片成本约为5000元,加上外围电路板以及组装、测试成本(组装厂为 中国台湾广达集团),预估总体成本约为8000人民币,如果以特斯拉的毛利率计算,假设Model 3的成本为22.9万元,那么自 动驾驶域的成本占特斯拉整车成本约为3.5%。

地平线:车规级芯片发展历程

自2015年创立以来,地平线仅用了5年的时间即实现了车规AI芯片的量产落地,开启国产车规级AI芯片的前装量产元年。与此 相比,Mobileye的车规芯片从研发到正式商用历时8年;作为全球通用AI芯片龙头的英伟达,在CUDA发布后9年才将K1芯片应 用于奥迪A8的车用系统。  地平线首款芯片征程1发布于2017年12月;征程2发布于2019年8月,可提供超过4TOPS的等效算力;征程3算力为5TOPS,发布 于2020年9月;征程5发布于2021年7月,算力128TOPS。地平线的第三代车规级产品征程5兼具大算力和高性能,支持16路摄 像头感知计算,能够支持自动驾驶所需要的多传感器融合、预测和规划控制等需求。

征程5芯片架构

征程5芯片特点

华为:MDC智能驾驶计算平台

华为于2018年10月首次发布智能驾驶计算平台,支持L3的MDC600、支持L4的MDC300;2020年9月发布支持L2+的MDC210、支 持L3-L4的MDC610。MDC610正在洽谈搭载的车型有广汽埃安AION LX、长城沙龙机甲龙、广汽传祺。2021年4月发布支持L4-L5 的MDC810,首搭于北汽极狐阿尔法S华为HI版,正在洽谈搭载于2022年哪吒TA、广汽埃安;并计划2022年推出MDC100。

MDC整体架构图

MDC不同算力等级产品

华为:Ascend芯片

华为 MDC 所采用的Ascend系列芯片,主要有Ascend310和升级版Ascend910两款芯片。  Ascend包括训练和推理芯片,用于训练的Ascend910,半精度(FP16)算力达256TFLOPS,是业界的2倍。用于推理的 Ascend310,整型(INT8)算力16TOPS,功耗仅8W。  作为一款 AI 芯片,Ascend310的一大亮点就是采用了达芬奇架构(Da Vinci)。达芬奇架构采用 3D Cube ,针对矩阵运算做加 速,大幅提升单位功耗下的 AI 算力,每个 AI Core 可以在一个时钟周期内实现 4096 个 MAC 操作,相比传统的 CPU 和 GPU 可 实现数量级的提升。

芯擎科技-吉利

芯擎科技研发的首款7nm智能座舱芯片“龍鷹一号”,已于2021年6月流片成功,对标高通8155芯片。并且“龍鷹一号”即将 于2022年底前实现量产上车,目前针对量产车型的各项测试和验证工作已陆续完成。  芯擎科技计划2022流片的自动驾驶芯片AD1000,将满足L2+至L5级自动驾驶需求。未来芯擎科技会在自动驾驶领域不断深耕 和探索,并且对标最先进的产品。具体来说,仍会采用7nm制程,将具备更高的算力和安全性。

202302 .亿咖通携芯擎科技与中国一汽将联合研发智能座舱平台,该平台基于“龍鷹一号”芯片,该芯片拥有8核CPU,14核GPU,以及8 TOPS AI算力的独立NPU,支持智能驾驶功能开发,还内置独立的功能安全岛、信息安全岛,满足ASIL-B等级的系统安全功能。此智能座舱平台还可面向全球市场支持基于Android Automotive与GAS的Google生态服务体验.该款智能座舱计划于2023年年底实现量产一汽红品碑预计有两款车型率先搭载该平台。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注


往期评论