人工智能芯片的竞争：GPU正红，ASIC拥抱未来

期盼又见晨曦 2017-10-20

展开全文

本文来自申万宏源研究的研报《人工智能芯片的竞争：GPU正红，ASIC拥抱未来》，作者为证券分析师刘洋。

智通财经APP获悉，申万宏源研究发表研报，对人工智能各类芯片做出分析和对比，内容如下：

AI加速需求超过CPU计算能力摩尔定律供给

人工智能的三大支撑是硬件、算法和数据，其中硬件指的是运行AI算法的芯片与相对应的计算平台。在硬件方面，目前主要是使用GPU并行计算神经网络，同时，FPGA和ASIC也具有未来异军突起潜能。

目前AI芯片按照使用场景可以分为：云端(服务器端)和终端(移动端)芯片。云端主要指公有云、私有云、数据中心等需要用到的神经网络专用服务器，终端指手机、车载、安防、音响、机器人等移动应用终端。有的厂商同时具备云端和终端芯片的设计能力。

机器学习不断演进，深度学习出现。人工智能是应用范畴的词汇，机器学习是目前最有效实现人工智能的方法。深度学习是机器学习的子类，也是现有机器学习方法中，最奏效的一类。

深度学习的人工神经网络算法与传统计算模式不同。传统计算机软件是程序员根据所需要实现的功能原理编程，输入至计算机运行即可，其计算过程主要体现在执行指令这个环节。而深度学习的人工神经网络算法包含了两个计算过程：

1.训练：用已有的样本数据去训练人工神经网络。

2. 执行：用训练好的人工神经网络去运行其他数据。

深度学习是目前AI 领域最有效算法，深度学习模型需要通过大量的数据训练才能获得理想的效果，CPU优势为处理各类数据及强逻辑判断能力，解决单次复杂问题能力强。两者需求并非完全匹配，深度学习需要一种替代硬件来满足海量数据的运算需求。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

除了CPU以外，AI使用的主流芯片种类有：GPU、FGPA、ASIC。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

GPU将最早受益于安防等需求爆发

GPU是较成熟生态系统，最先受益人工智能爆发。GPU与CPU类似，只不过是一种专门进行图像运算工作的微处理器。GPU是专为执行复杂的数学和几何计算而设计的，这些计算是图形渲染所必需的。GPU在浮点运算、并行计算等部分计算方面可以提供数十倍乃至于上百倍于CPU的性能。英伟达公司从2006 年下半年已经开始陆续推出相关的硬件产品以及软件开发工具，目前是人工智能硬件市场的主导。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

GPU作为图像处理器，设计初衷是为了应对图像处理中需要大规模并行计算。因此，其在应用于深度学习算法时，有三个方面的局限性：

1. 应用过程中无法充分发挥并行计算优势。深度学习包含训练和应用两个计算环节，GPU在深度学习算法训练上非常高效，但在应用时一次性只能对于一张输入图像进行处理，并行度的优势不能完全发挥。

2. 硬件结构固定不具备可编程性。深度学习算法还未完全稳定，若深度学习算法发生大的变化，GPU 无法像FPGA 一样可以灵活的配置硬件结构

3. 运行深度学习算法能效远低于FPGA。学术界和产业界研究已经证明，GPU计算方式与深度学习算法并非完全匹配，性能峰值无法被完全利用。运行深度学习算法中实现同样的性能，GPU所需功耗远大于FPGA。

FPGA：能效居中的中间方案

FPGA是能效中等、灵活度高、成本较高的AI白板。FPGA称为现场可编程门阵列，用户可以根据自身的需求进行重复编程。FPGA比GPU具有更低的功耗，比ASIC具有更短的开发时间和更低的成本。目前来看，FPGA在两个领域的应用前景十分巨大：工业互联网领域、工业机器人设备领域。

作为未来制造业发展的方向，工业大数据、云计算平台、MES系统等都是支持工业智能化的重要平台，它们需要完成大数据量的复杂处理，FPGA在其中可以发挥重要作用。

FPGA与GPU、CPU相比，具有性能高、能耗低、可硬件编程的特点。尽管FPGA 倍受看好，甚至新一代百度大脑也是基于FPGA 平台研发，微软、IBM 等公司都有专门的FPGA团队为服务器加速，但其毕竟不是专门为了适用深度学习算法而研发，实际仍然存在不少局限：

1. 基本单元的计算能力有限。为了实现可重构特性，FPGA 内部有大量极细粒度的基本单元，但是每个单元的计算能力(主要依靠LUT 查找表)都远远低于CPU和GPU中的ALU模块。

2. 速度和功耗有待提升。相对专用定制芯片ASIC，FPGA 在处理速度和功耗方面仍然存在不小差距。

3. FPGA价格相对较为昂贵。在规模放量的情况下单块FPGA 的成本要远高与ASIC，因此FPGA 更适用于企业级用户，尤其是重配置、性能需求较高的军工和工业电子领域。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

ASIC：能效顶级、拥抱未来

ASIC 是一种为专门目的而设计的集成电路，功能特定的最优功耗AI 芯片，专为特定目的而设计。不同于GPU 和FPGA 的灵活性，定制化的ASIC一旦制造完成将不能更改，所以初期成本高、开发周期长的使得进入门槛高。目前，大多是具备AI 算法又成就梦想擅长芯片研发的巨头参与，如Google的TPU。

ASIC 的另一个未来发展是类脑芯片。类脑芯片是基于神经形态工程、借鉴人脑信息处理方式，适于实时处理非结构化信息、具有学习能力的超低功耗芯片，更接近人工智能目标。由于完美适用于神经网络相关算法，ASIC在性能和功耗上都要优于GPU FPGA，TPU1 是传统GPU性能的14-16倍，NPU是GPU的118 倍。寒武纪已发布对外应用指令集，预计ASIC将是未来AI 芯片的核心。

GPU在训练层应用广泛，ASIC在执行层表现较好。GPU、TPU 和NPU，适合的人工智能操作也不同。不同种类的芯片适用于不同的场景。

寒武纪终端闪耀、云端推进

目前AI芯片按照使用场景可以分为：云端(服务器端)和终端(移动端)芯片。云端AI芯片类似于超级计算机，终端AI芯片更偏重能耗。先发优势与浮点计算峰值决定GPU目前在云端处于主导地位。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

产品持续迭代，英伟达垄断GPU市场。英伟达占据全球GPU超过70%的市场份额，GPU产品占据公司2016年84%的收入来源。

人工智能芯片的竞争：GPU正红，ASIC拥抱未来

寒武纪在ASIC全面领先，指令集是杀手锏创新，终端应用逐步增强，NPU已形成事实上落地。

手机是最重要的移动终端产品，苹果的iPhone X采用的A11就是基于神经网络的芯片“Bionic 神经引擎”，其Face ID的面部数据都由该芯片处理。华为于2017年9月发布了全球首款移动端AI 芯片麒麟970，并应用在Mate 10手机中，这是华为和寒武纪深度合作，集成了专用于神经网络的NPU。

根据华为公布的测试数据，在处理相同的AI应用任务时，麒麟970的HiAI异构计算架构拥有大约50倍能效和25倍性能优势。9月4日，有媒体披露了中科院发给华为的贺信，称寒武纪公司研制并具有自主知识产权的“寒武纪1A深度学习处理器”，在人工智能应用上达到了4核CPU25倍以上的性能和50倍以上的能效。此次，麒麟970芯片集成寒武纪1A处理器作为其核心人工智能处理单元，实现了手机上本地、实时、高效的智能处理。（编辑：胡敏）