AI芯片发展的前世今生

楚科奇0118 2020-08-09

展开全文

点击查看源网页

来源：数学与人工智能，以上文章观点仅代表文章作者，仅供参考，以抛砖引玉！

人工智能芯片的分类

2.1 传统CPU困局

自20个世纪60年代早期开始，CPU(中央处理器)开始出现并使用在计算机工业中。现如今，虽然CPU 在设计和实现上都发生了巨大变化，但是基于冯 · 诺依曼架构的 CPU 基本工作原理却一直没有发生很大变化。如图 1 所示，冯 · 诺依曼架构分为中央处理单元(CPU)和存储器，CPU主要由控制器和运算器两大部件组成[15]。在工作时，CPU 每执行一条指令都需要从存储器中读取数据，根据指令对数据进行相应的操作，因此CPU不仅负责数据运算，而且需要执行存储读取、指令分析、分支跳转等命令。同时可以通过提升单位时间内执行指令的条数，即主频，来提升计算速度。但在人工智能深度学习领域中程序指令相对较少，但对大数据的计算需求很大，需要进行海量的数据处理。当用 CPU 执行 AI 算法时，CPU 将花费大量的时间在数据/指令的读取分析上，在一定的功耗前提下，不能够通过无限制的加快CPU 频率和内存带宽来达到指令执行速度无限制的提升。因此在这种情形下，传统 CPU 结构缺点明显，在人工智能芯片领域中的算力瓶颈问题很难解决。

2.2 人工智能芯片中的后CPU时代

基于 CPU 的算力问题，近年来人工智能芯片领域的科学家们进行了富有成果的广泛研究，主要集中在 AI 芯片目前的两种发展方向。一个方向是继续延续经典的冯 · 诺依曼计算架构，以加速计算能力为发展目标，主要分为并行加速计算的GPU(图形处理单元)、半定制化的 FPGA(现场可编程门阵列)、全定制化的 ASIC(专用集成电路)。另一个方向就是颠覆传统的冯 · 诺依曼计算架构，采用基于类脑神经结构的神经拟态芯片来解决算力问题。下面将对这两个方向的人工智能芯片特点进行详细描述。

2.2.1 按架构分类

(1)图形处理单元(graphics processing unit ，GPU)。GPU 是相对较早的加速计算处理器，具有速度快、芯片编程灵活简单等特点。由于传统CPU 的计算指令遵循串行执行方式，不能发挥出芯片的全部潜力，而 GPU 具有高并行结构，在处理图形数据和复杂算法方面拥有比 CPU 更高的效率。在结构上，CPU 主要由控制器和寄存器组成，而 GPU 则拥有更多的逻辑运算单元(arithmetic logic unit，ALU) 用于数据处理，这样的结构更适合对密集型数据进行并行处理，程序在 GPU 系统上的运行速度相较于单核 CPU 往往提升几十倍乃至上千倍。同时，GPU拥有了更加强大的浮点运算能力，可以缓解深度学习算法的训练难题，释放人工智能的潜能。但是GPU 也有一定的局限性。深度学习算法分为训练和推断两部分，GPU 平台在算法训练上非常高效。但在推断中对于单项输入进行处理的时候，并行计算的优势不能完全发挥出来。

(2)现场可编程门阵列(field programmable gate array ，FPGA )。FPGA 是在 PAL 、GAL 、CPLD 等可编程器件基础上进一步发展的产物。其基本原理是在FPGA 芯片内集成大量的基本门电路以及存储器，用户可以通过更新FPGA配置文件(即烧入)来定义这些门电路以及存储器之间的连线。这种烧入不是一次性的，因此，它既解决了定制电路灵活性的不足，又克服了原有可编程器件门电路数有限的缺点。与GPU 不同，FPGA 同时拥有进行数据并行和任务并行计算的能力，适用于以硬件流水线方式处理一条数据，且整数运算性能更高，因此常用于深度学习算法中的推断阶段。不过 FPGA 通过硬件的配置实现软件算法，因此在实现复杂算法方面有一定的难度。

将FPGA和CPU对比可以发现两个特点，一是FPGA没有内存和控制所带来的存储和读取部分，速度更快，二是FPGA没有读取指令操作，所以功耗更低。劣势是价格比较高，编程复杂，整体运算能力不是很高。功耗方面，从体系结构而言，FPGA 也具有天生的优势。传统的冯氏结构中，执行单元(如CPU核) 执行任意指令，都需要有指令存储器、译码器、各种指令的运算器及分支跳转处理逻辑参与运行，而FPGA每个逻辑单元的功能在重编程(即烧入)时就已经确定，不需要指令，无需共享内存，从而可以极大地降低单位执行的功耗，提高整体的能耗比。FPGA最值得注意的例子可能是 CNP [16] ，它进一步改进并重命名为 NeuFlow [17] ，后来改编为 nn-X [18]。这些设计可以实现 10~100 KM/s 操作(GOPS)，功率仅为10W以下。

(3)专用集成电路(application-specific integrated circuit，ASIC)。目前以深度学习为代表的人工智能计算需求，主要采用GPU、FPGA等已有的适合并行计算的通用芯片来实现加速。在产业应用没有大规模兴起之时，使用这类 GPU 、FPGA 已有的通用芯片可以避免专门研发定制芯片( ASIC )的高投入和高风险。但是，由于这类通用芯片设计初衷并非专门针对深度学习，因而天然存在性能、功耗等方面的局限性。随着人工智能应用规模的扩大，这类问题日益突显。

GPU 作为图像处理器，设计初衷是为了应对图像处理中的大规模并行计算。因此，在应用于深度学习算法时无法充分发挥并行计算优势。深度学习包含训练和推断两个计算环节，GPU 在深度学习算法训练上非常高效，但对于单一输入进行推断的场合，并行度的优势不能完全发挥。其次，GPU采用SIMT计算模式，硬件结构相对固定，无法灵活配置硬件结构。此外，运行深度学习算法能效低于FPGA。

虽然 FPGA 倍受看好，但其毕竟不是专门为了适用深度学习算法而研发，实际应用中为了实现可重构特性，FPGA 内部有大量极细粒度的基本单元，但是每个单元的计算能力都远低于 CPU 和 GPU 中的ALU 模块;其次，为实现可重构特性，FPGA 内部大量资源被用于可配置的片上路由与连线，因此计算资源占比相对较低;再者，速度和功耗相对专用定制芯片(ASIC)仍然存在不小差距;而且FPGA价格较为昂贵，在规模放量的情况下单块FPGA的成本要远高于专用定制芯片。

因此，随着人工智能算法和应用技术的日益发展，以及人工智能专用芯片ASIC产业环境的逐渐成熟，全定制化人工智能 ASIC 也逐步体现出自身的优势。ASIC是专用定制芯片，定制的特性有助于提高ASIC 的性能功耗比，缺点是电路设计需要定制，相对开发周期长，功能难以扩展。但在功耗、可靠性、集成度等方面都有优势，尤其在要求高性能、低功耗的移动应用端体现明显。比如谷歌的 TPU、寒武纪的 GPU ，地平线的 BPU 都属于 ASIC 芯片。

(4)神经拟态芯片(类脑芯片)。在人工智能芯片中，传统的冯·诺依曼架构存在着“冯·诺依曼瓶颈”，它降低了系统的整体效率和性能[19]。为了从根本上克服这个问题，神经形态计算近年来已成为基于冯 · 诺依曼系统的这些传统计算架构的最有吸引力的替代方案。术语“神经形态计算”首先由Mead[20] 在 1990 年提出，它是一种受大脑认知功能启发的新计算范式。与传统的 CPU / GPU 不同，生物脑(例如哺乳动物的大脑)能够以高效率和低功耗在小区域中并行处理大量信息。因此，神经形态计算的最终目标是开发神经形态硬件加速器，模拟高效生物信息处理，以弥合网络和真实大脑之间的效率差距[21] ，这被认为是下一代人工智能的主要驱动力。

神经拟态芯片不采用经典的冯 · 诺依曼架构，而是基于神经形态架构设计，是模拟生物神经网络的计算机制，如果将神经元和突触权重视为大脑的“处理器”和“记忆”，它们会分布在整个神经皮层[22]。神经拟态计算从结构层面去逼近大脑，其研究工作可分为两个层次，一是神经网络层面，与之相应的是神经拟态架构和处理器，以 IBM Truenorth 为代表，这种芯片把定制化的数字处理内核当作神经元，把内存作为突触。

其逻辑结构与传统冯·诺依曼结构不同:内存、CPU和通信部件完全集成在一起，因此信息的处理在本地进行，克服了传统计算机内存与CPU 之间的速度瓶颈问题。同时神经元之间可以方便快捷地相互沟通，只要接收到其他神经元发过来的脉冲(动作电位)，这些神经元就会同时做动作;二是神经元与神经突触层面，与之相应的是元器件层面的创新。如 IBM 苏黎世研究中心宣布制造出世界上首个人造纳米尺度的随机相变神经元，可实现高速无监督学习。

当前，最先进的神经拟态芯片仍然远离人类大脑的规模(1010个神经元，每个神经元有103~104个突触)，至多达到104 倍，如表1所示。为了达到在人脑中规模，应将多个神经拟态芯片集成在电路板或背板上，以构成超大规模计算系统。神经拟态芯片的设计目的不再仅仅局限于加速深度学习算法，而是在芯片基本结构甚至器件层面上改变设计，希望能够开发出新的类脑计算机体系结构，比如采用忆阻器和 ReRAM 等新器件来提高存储密度。这类芯片技术尚未完全成熟，离大规模应用还有很长的距离，但是长期来看类脑芯片有可能会带来计算机体系结构的革命。

2.2.2 按功能分类

根据机器学习算法步骤，可分为训练(training)和推断( inference )两个环节。训练环节通常需要通过大量的数据输入，训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构，运算量巨大，需要庞大的计算规模，对于处理器的计算能力、精度、可扩展性等性能要求很高。目前市场上通常使用英伟达的 GPU 集群来完成，Google 的TPU2.0/3.0 也支持训练环节的深度网络加速。

推断环节是指利用训练好的模型，使用新的数据去“推断”出各种结论。这个环节的计算量相对训练环节少很多，但仍然会涉及到大量的矩阵运算。在推断环节中，除了使用 CPU 或 GPU 进行运算外，FPGA 以及 ASIC 均能发挥重大作用。表 2 是 4 种技术架构的芯片在人工智能系统开发上的对比。

2.2.3 按应用场景分类

主要分为用于服务器端(云端)和用于移动端( 终端 )两大类。

服务器端：在深度学习的训练阶段，由于数据量及运算量巨大，单一处理器几乎不可能独立完成 1 个模型的训练过程，因此，负责 AI 算法的芯片采用的是高性能计算的技术路线，一方面要支持尽可能多的网络结构以保证算法的正确率和泛化能力;另一方面必须支持浮点数运算;而且为了能够提升性能必须支持阵列式结构(即可以把多块芯片组成一个计算阵列以加速运算)。在推断阶段，由于训练出来的深度神经网络模型仍非常复杂，推断过程仍然属于计算密集型和存储密集型，可以选择部署在服务器端。

移动端( 手机、智能家居、无人车等 ):移动端 AI芯片在设计思路上与服务器端 AI 芯片有着本质的区别。首先，必须保证很高的计算能效;其次，在高级辅助驾驶 ADAS 等设备对实时性要求很高的场合，推断过程必须在设备本身完成，因此要求移动端设备具备足够的推断能力。而某些场合还会有低功耗、低延迟、低成本的要求，从而导致移动端的 AI 芯片多种多样。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。