AI芯片：人工智能时代的“开路先锋”

君子养源 2018-02-09

展开全文

我们正处在从信息时代迈向智能时代的重要拐点，人工智能将推动新一轮计算革命，而芯片行业作为产业最上游，是人工智能时代的“开路先锋”。

与CPU比较，人工智能芯片的特别之处

传统计算机软件是程序员根据所需要实现的功能原理编程，输入至计算机运行即可，其计算过程主要体现在执行指令这个环节。

而深度学习的人工神经网络算法包含了两个计算过程：

1、用已有的样本数据去训练人工神经网络；

2、用训练好的人工神经网络去运行其它数据。这种差别提升了对训练数据量和并行计算能力的需求，降低了对人工理解功能原理的要求。

可以看到，深度学习与传统计算模式最大的区别就是不需要编程，但需要海量数据并行运算。传统处理器架构往往需要数百甚至上千条指令才能完成一个神经元的处理，无法支撑深度学习的大规模并行计算需求，而在AI芯片上可能只需要一条指令就能完成。

主流的人工智能芯片

人工智能的高级阶段是深度学习，而对于深度学习过程则可分为训练和推断两个环节：训练环节通常需要通过大量的数据输入或采取增强学习等非监督学习方法，训练出一个复杂的深度神经网络模型。训练过程由于涉及海量的训练数据和复杂的深度神经网络结构，需要的计算规模非常庞大，通常需要GPU集群训练几天甚至数周的时间，在训练环节GPU目前暂时扮演着难以轻易替代的角色。推断环节指利用训练好的模型，使用新的数据去“推断”出各种结论，如视频监控设备通过后台的深度神经网络模型，判断一张抓拍到的人脸是否属于黑名单。虽然推断环节的计算量相比训练环节少，但仍然涉及大量的矩阵运算。

在推断环节，除了使用CPU或GPU进行运算外，FPGA以及ASIC均能发挥重大作用。目前，主流的人工智能芯片基本都是以GPU、FPGA、ASIC以及类脑芯片为主。

1. FPGA

FPGA，即现场可编辑门阵列，是一种新型的可编程逻辑器件。其设计初衷是为了实现半定制芯片的功能，即硬件结构可根据需要实时配置灵活改变。这种集成大量基本门电路及存储器的芯片，可通过烧入FPGA配置文件来来定义这些门电路及存储器间的连线，从而实现特定的功能。而且烧入的内容是可配置的，通过配置特定的文件可将FPGA转变为不同的处理器，就如一块可重复刷写的白板一样。

FPGA有低延迟的特点，非常适合在推断环节支撑海量的用户实时计算请求，如语音识别。由于FPGA适合用于低延迟的流式计算密集型任务处理，意味着FPGA芯片做面向与海量用户高并发的云端推断，相比GPU具备更低计算延迟的优势，能够提供更佳的消费者体验。在这个领域，主流的厂商包括Intel、亚马逊、百度、微软和阿里云。

2. ASIC

即专用集成电路，不可配置的高度定制专用芯片。特点是需要大量的研发投入，如果不能保证出货量其单颗成本难以下降，而且芯片的功能一旦流片后则无更改余地，若市场深度学习方向一旦改变，ASIC前期投入将无法回收，意味着ASIC具有较大的市场风险。但ASIC作为专用芯片性能高于FPGA，如能实现高出货量，其单颗成本可做到远低于FPGA。

谷歌推出的TPU就是一款针对深度学习加速的ASIC芯片，而且TPU被安装到AlphaGo系统中。但谷歌推出的第一代TPU仅能用于推断，不可用于训练模型，但随着TPU2.0的发布，新一代TPU除了可以支持推断以外，还能高效支持训练环节的深度网络加速。根据谷歌披露的测试数据，谷歌在自身的深度学习翻译模型的实践中，如果在32块顶级GPU上并行训练，需要一整天的训练时间，而在TPU2.0上，八分之一个TPUPod(TPU集群，每64个TPU组成一个Pod)就能在6个小时内完成同样的训练任务。

3. GPU

即图形处理器。最初是用在个人电脑、工作站、游戏机和一些移动设备上运行绘图运算工作的微处理器，可以快速地处理图像上的每一个像素点。后来科学家发现，其海量数据并行运算的能力与深度学习需求不谋而合，因此，被最先引入深度学习。2011年吴恩达教授率先将其应用于谷歌大脑中便取得惊人效果，结果表明，12颗英伟达的GPU可以提供相当于2000颗CPU的深度学习性能，之后纽约大学、多伦多大学以及瑞士人工智能实验室的研究人员纷纷在GPU上加速其深度神经网络。

GPU之所以会被选为超算的硬件，是因为目前要求最高的计算问题正好非常适合并行执行。一个主要的例子就是深度学习，这是人工智能(AI)最先进的领域。深度学习以神经网络为基础。神经网络是巨大的网状结构，其中的节点连接非常复杂。训练一个神经网络学习，很像我们大脑在学习时，建立和增强神经元之间的联系。从计算的角度说，这个学习过程可以是并行的，因此它可以用GPU硬件来加速。这种机器学习需要的例子数量很多，同样也可以用并行计算来加速。在GPU上进行的神经网络训练能比CPU系统快许多倍。目前，全球70%的GPU芯片市场都被NVIDIA占据，包括谷歌、微软、亚马逊等巨头也通过购买NVIDIA的GPU产品扩大自己数据中心的AI计算能力。

4. 类人脑芯片

类人脑芯片架构是一款模拟人脑的新型芯片编程架构，这种芯片的功能类似于大脑的神经突触，处理器类似于神经元，而其通讯系统类似于神经纤维，可以允许开发者为类人脑芯片设计应用程序。通过这种神经元网络系统，计算机可以感知、记忆和处理大量不同的情况。

IBM的TrueNorth芯片就是其中一个。2014年，IBM首次推出了TrueNorth类人脑芯片，这款芯片集合了54亿个晶体管，构成了一个有100万个模拟神经元的网络，这些神经元由数量庞大的模拟神经突触动相连接。TrueNorth处理能力相当于1600万个神经元和40亿个神经突触，在执行图象识别与综合感官处理等复杂认知任务时，效率要远远高于传统芯片。

人工智能芯片的优势

1、定制芯片的性能提升非常明显

例如，NVIDIA 首款专门为深度学习从零开始设计的芯片Tesla P100数据处理速度是其2014年推出GPU 系列的12倍；谷歌为机器学习定制的芯片TPU将硬件性能提升至相当于按照摩尔定律发展7年后的水平。