分享

我们来聊聊-AI芯片技术及相关词汇

 q1338 2020-01-29

转自小编的微信公众号:老扎古

AI芯片也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块(其他非计算任务仍由CPU负责)。当前,AI芯片主要分为 GPU 、FPGA 、ASIC等。

关于AI芯片,Carver Mead 最早开始了 AI 芯片的研究,在 20世纪 80年代开始研究神经拟态系统(neuromorphic electronic systems),利用模拟电路模仿生物神经系统结构。经过 30多年的发展,目前已经诞生了不同特色的各类 AI 芯片,主要包括图形处理器(graphics processing unit,GPU)、现场可编程门阵列(field-programmable gatearray,FPGA)、数字信号处理(digital signal processing,DSP)、专用集成电路(application specific integrated circuits,ASIC)、众核处理器、神经拟态芯片等。近年来基于深度学习的图像识别算法和语音识别算法取得了出色的成绩,引起了学术界和工业界的广泛关注,随着谷歌人工智能围棋程序AlphaGo先后战胜李世乭和柯洁,更是把人工智能的热度推向全社会。谷歌这一成绩离不开背后 AI加速芯片的贡献,从初代AlphaGo采用 CPU+GPU 的搭建方案,到最新一代 AlphaGo Zero 采用专用高性能处理器(tensor processing unit,TPU),芯片的变化带来了计算速度的巨大提升和功耗的大幅下降。由此可见针对不同的计算任务,不同类型的AI芯片往往各具优势。

AI加速芯片

简单地说,AI 加速芯片就是指以现有芯片架构为基础,对某类特定算法或者场景进行加速,从而实现在这一特定场景下的计算速度、功耗和成本等方面的优化。通常包括基于深度神经网络的各类算法,以及图像识别、视频检索、语音识别、声纹检测、搜索引擎优化、自动驾驶等任务。AI加速芯片的设计主要有两种思路:利用已有的GPU、FPGA、DSP、众核处理器等芯片以异构计算的方式来实现;设计专用的ASIC芯片。

CPU

英特尔和CPU:开山鼻祖,集成通用芯片、PC界老大

芯片中,最令人熟悉的恐怕是中央处理器CPU了。作为一种超大规模的集成通用芯片,CPU可完成多种不同种类的任务,在PC世界里起着大脑的作用。而CPU的诞生也开始了PC时代的巨头——英特尔的辉煌历史。

英特尔是主要以研制CPU处理器的巨头,全球最大的个人计算机零件和CPU制造商,1971年,英特尔推出了全球第一个微处理器,它引发的微处理器所带来的计算机和互联网革命,可以说改变了整个世界。

但CPU虽统治了PC时代,随着人工智能兴起,传统的CPU算力不足这一问题便越来越突出,尤其基于CPU的传统计算架构无法满足人工智能并行计算的需求。AI所需的深度学习需要很高的内在并行度、大量浮点计算能力以及矩阵运算,因此在通用芯片之下,需发展适合人工智能架构的专属芯片。这也带来了英特尔地位的下降。

不过在更早时候,即移动互联网大潮袭来时,CPU巨头英特尔的劣势就已开始显现了。英特尔在移动端不敌来自生产ARM芯片(与英特尔X86平级的CPU架构,但采用精简指令集计算机,主打低成本、低功耗和高效率)的ARM公司,目前世界超过95%的智能手机和平板电脑都采用ARM架构。

为了在人工智能时代不落后其他科技公司,英特尔近年来通过收购一批在FPGA、ASIC等芯片领域的头部企业。在云端,2015年,英特尔收购全球第二大FPGA厂商Altera;在终端,2016年收购了研发高性能视觉处理芯片的Movidius;另外,英特尔2017年还收购了汽车领域的Mobileye,以此对抗英伟达在汽车领域的地位。

不过,今年7月,英特尔交出的财报显示,其Q2营收为169.62亿美元,净利润50.06亿美元,同比增长78%。虽然营收、净利润增速不错,但基于CPU、FPGA的数据业务并未达到之前的预期,英特尔股价还是跌了。

当然,英特尔虽然目前已有颓势,但CPU却也没有到马上要被替代的地步。

CPU虽然计算能力稍差,但它是通用计算机的处理核心,处理各式各样的指令要求,所有部件也都要通过它互联互通,其有着复杂的逻辑控制单元和独特的指令翻译结构,这是其他芯片目前难以替代的。

并且,ARM架构的CPU芯片在手机和智能音箱等领域也是不可或缺的。所以唱衰CPU,还是为时过早的。

GPU

GPU,即图形处理器,是一种由大量核心组成的大规模并行计算架构,专为同时处理多重任务而设计,原本的功能是帮助 CPU处理图形显示的任务,尤其是3D图形显示。为了执行复杂的并行计算,快速进行图形渲染,GPU的核数远超 CPU,但每个核拥有的缓存相对较小,数字逻辑运算单元也更简单,更适合计算密集型的任务。Intel的GPU主要做为集成显卡使用,应用于Intel 的主板和 CPU,而 Nvidia 和 AMD 则在独立显卡领域更具优势。

CPU的计算能力渐渐落后,也催生了崛起的图像处理器GPU及新的巨头英伟达。1999年,英伟达发明了GPU,这极大地推动了PC游戏市场的发展,重新定义了现代计算机图形技术,并彻底改变了并行计算。

相比CPU,GPU由于更适合执行复杂的数学和几何计算(尤其是并行运算),刚好与包含大量的并行运算的人工智能深度学习算法相匹配,因此在人工智能时代刚好被赋予了新的使命,成为AI硬件首选,在云端作为AI“训练”的主力芯片,在终端的安防、汽车等领域,GPU也率先落地,是目前应用范围最广、灵活度最高的AI硬件。

而英伟达也因此几乎成为AI浪潮中的最大受益者,在加速深度学习算法芯片市场几乎占垄断地位。英伟达2016年第一个推出专为深度学习优化的Pascal GPU,2017年推出了性能更优的新GPU架构Volta,及神经网络推理加速器TensorRT 3。目前占据全球GPU行业的市场份额超过70%,GPU作为其核心产品占据84%的收入份额。

另外,由于英伟达发布的针对开发者提供的并行计算平台CUDA,被广泛认可和普及,积累了良好的编程环境,目前应用在人工智能领域,可进行通用计算的GPU市场基本被英伟达垄断。

不过英伟达在PC端和数据中心业务上,也面临着老二AMD的挑战。

在PC处理器市场,AMD正在英伟达主导的市场“抢食”。从2017年3月至今年4月,AMD推出了锐龙7、锐龙5、锐龙3、锐龙Threadripper、锐龙2000等处理器。数据显示,在锐龙处理器推出后,AMD的桌面处理器市场份额已从8%增至12%;而英伟达的份额则下跌1.9%,至87.8%。

虽然,英伟达在数据中心处理器市场也占有绝对的领先地位,拥有99%的市场份额,不过野村证券称英伟达正在试图阻止将15-20%的数据中心处理器份额让给AMD。

目前GPU和英伟达,在人工智能浪潮下,可以说是风头正劲,不过在顶着“应用最广泛AI芯片”的光环,英伟达也还面临FPGA和ASIC等专用化程度更高、计算力更强的芯片的挑战。

ASIC

随着专用化需求的进一步发展,芯片界又诞生了ASIC。ASIC(Application Specific Integrated Circuit)即专用集成电路,本文中特指专门为AI应用设计、专属架构的处理器芯片。

近年来涌现的类似TPU、NPU、VPU、BPU等,本质上都属于ASIC。无论是从性能、面积、功耗等各方面,AISC都优于GPU和FPGA,长期来看,ASIC代表AI芯片的未来。

ASIC架构典型的代表,是谷歌的张量处理器TPU,其采用了脉动阵列的组织方式。2016年,谷歌TPU在AlphaGo与李世石一役中横空出世,使AlphaGo“思考”棋招和预判局势,处理速度比GPU和CPU快上几十倍。令人惊艳的的TPU,也一度被认为是AI芯片业内新的搅局者。不过TPU的资历也没比以上几位年轻,哈佛大学孔祥重教授在1970 s就提出了TPU的脉动阵列组织方式。

今年2月,谷歌也以Beta测试的形式开放了一直只是自用的TPU,服务的名称为Cloud TPUs(云端TPUs),用于云端服务器。今年5月Google云端芯还发布了TPU 3.0,8月谷歌又推出一款为边缘计算定制的Edge TPU。

不过TPU目前并不对外发售,并且要想进入更多市场,它的通用性仍需检验。但谷歌TPU的推出,以及测试版对中小企业的开放,还是会对英伟达带来一定威胁。

而ASIC芯片领域,也有一大批追赶者。以我国的初创企业而言,2017年9月,华为发售的AI芯片麒麟970上的NPU(属ASIC架构)集成了初创芯片企业寒武纪的1A处理器作为其核心人工智能处理单元。

2017年1月,地平线携手英特尔发布基于BPU(属ASIC架构)架构的最新高级辅助驾驶系统,12月,地平线机器人发布“旭日”和“征程”两款嵌入式AI芯片,面向智能驾驶和智能摄像头。

2016年,英特尔收购的视觉处理芯片企业Movidius,其研发的VPU也是ASIC芯片。

在AI算法尚处于蓬勃发展、快速迭代的今天,ASIC存在开发周期较长、需要底层硬件编程、灵活性较低等劣势,因此目前发展速度还不及GPU和FPGA。但长期来看,ASIC是AI芯片的未来。

DSP

DSP是一种由大规模集成电路芯片组成的用来完成某种信号处理任务的处理器。DSP善于测量、计算、过滤或压缩连续的真实模拟信号,广泛应用于通信与信息系统、信号与信息处理、自动控制、雷达、航空航天、医疗、家用电器等领域。针对滤波、矩阵运算、FFT(fast Fourier transformation)等需要大量乘加法运算的特点,DSP内部配有独立的乘法器和加法器,从而大大提高了运算速率。

DSP 种类繁多,目前应用于 AI 领域的 DSP 主要用于处理视觉系统如图像、视频等方面的任务,在自动驾驶、安防监控、无人机和移动终端等领域最为常见。这些 DSP 中加入了专为深度神经网络定制的加速部件,如矩阵乘和累加器、全连接的激活层和池化层等。由于 DSP 具有高速、灵活、体积小、低功耗、可编程的特点,非常适合被用在终端设备中,例如手机和摄像头。

FPGA

FPGA 是在 PAL、GAL、CPLD 等可编程逻辑器件的基础上进一步发展的产物。它作为专用集成电路领域中的一种半定制电路出现,既解决了定制电路灵活性上的不足,又克服了原有可编程器件门电路数量有限的缺点。FPGA 利用门电路直接运算,速度快,而用户可以自由定义这些门电路和存储器之间的布线,改变执行方案,以期得到最佳效果。FPGA 可以采用 OpenCL等更高效的编程语言,降低了硬件编程的难度,还可以集成重要的控制功能,整合系统模块,提高了应用的灵活性,与 GPU相比,FPGA具备更强的计算能力和更低的功耗。

同样能满足更高的计算需求,并可进行编程,1984年,赛灵思(Xilinx)发明了现场可编程门阵列FPGA,FPGA作为半定制化的ASIC(专用集成电路),顺应了计算机需求更专业的趋势,成为神经网络算法中的主流芯片。

FPGA可算是芯片界的“变形金刚”,在写入软件前它有胜于CPU的通用性,写入软件后它有类似于ASIC的表现,是算法未定型前的阶段性最佳选择。FPGA相比GPU具有低功耗优势,同时相比ASIC具有开发周期快,更加灵活编程等特点。

在现阶段云端数据中心业务中,FPGA以其灵活性和可深度优化的特点,有望继GPU之后在该市场爆发;在目前的终端智能安防领域,也有厂商采用FPGA方案实现AI硬件加速。

FPGA市场的最大玩家是其创始者赛灵思,除了“通过系统集成和先进的‘软件定义’开发环境所扩展的新用户群体的服务”外,赛灵思在金融、制造业、娱乐、公共安全以及电信等传统行业,以及在自动驾驶汽车、无人机、智能监控等新兴行业都有布局。

在数据中心方面,全球七大超大规模云服务公司,已有3家采用了赛灵思FPGA,其中的百度于今年10月宣布,其已设计出赛灵思UltraScale™FPGA池。另外,赛灵思在车用电脑视觉处理市场占有率排名第二,仅次于Mobileye(2017年被英特尔收购),不过其与Mobileye间还存在着巨大差距。

赛灵思今年还收购了我国的人工智能创企深鉴科技,深鉴基于赛灵思的FPGA开发AI芯片,此前已和大华股份、东方网力等安防厂商展开合作,推出基于Xilinx FPGA的DPU产品。

除赛灵思以53%的份额(咨询公司Gartner2016年数据)占据FPGA市场头把交椅外,阿尔特拉(Altera)以36%的份额位居其后。2015年6月,阿尔特拉被英特尔以167亿美元的价格收购后,英特尔在其基础上成立了可编程事业部。今年4月,英特尔的FGPA被正式应用于主流的数据中心OEM厂商中,主要客户包括戴尔、富士通等。

不过老大赛灵思在回复如何看待阿尔特拉被英特尔收购时,傲娇的表示:“我们依旧是第一,只是尾巴丢了”。

但由于FPGA要保证编程的灵活性,电路上会有大量冗余,因此成本上不能像ASIC做到最优,工作频率也不能太高。因而,在ASIC还并不成熟,同时GPU功耗和成本较高的现阶段发展较好

类脑仿生芯片

“类脑芯片”颠覆传统计算架构,将数字处理器当作神经元,把内存作为突触,内存、CPU和通信部件完全集成在一起,采用模拟人脑神经元结构来提升计算能力。

“类脑芯片”以IBM TrueNorth芯片为代表,但由于技术和底层硬件的限制,其尚处于前期研发阶段,目前不具备大规模商业应用的可能性。从技术成熟度和商业可行性两个角度,使用AI专属硬件进行加速运算是今后五年及以上的市场主流。

我国初创企业西井科技也在研发类脑芯片,其宣称“芯片用电路模拟神经,成品有100亿规模的仿真神经元,可用于基因测序、模拟大脑放电等领域”。

不过,类脑芯片的商用并不乐观,西井目前也从研究类脑芯片转向自动驾驶领域

当今类脑仿生芯片的主流理念是采用神经拟态工程设计的神经拟态芯片。神经拟态芯片采用电子技术模拟已经被证明的生物脑的运作规则,从而构建类似于生物脑的电子芯片,即“仿生电子脑”。神经拟态主要指用包括模拟、数字或模数混合超大规模集成电路VLSI(也包括神经元或者神经突触模型的新型材料或者电子元器件研究)和软件系统实现神经网络模型,并在此之上构建智能系统的研究。神经拟态工程发展成为一个囊括神经生物学、物理学、数学、计算机科学和电子工程的交叉学科。神经拟态研究陆续在全世界范围内开展,并且受到了各国政府的重视和支持,如美国的脑计划、欧洲的人脑项目,以及中国的类脑计算计划等。受到脑结构研究的成果启发,复杂神经网络在计算上具有低功耗、低延迟、高速处理、时空联合等特点。

通用AI芯片

现今的 AI芯片在某些具体任务上可以大幅超越人的能力,但究其通用性与适应性,与人类智能相比差距甚远,大多处于对特定算法的加速阶段。而 AI芯片的最终成果将是通用 AI芯片,并且最好是淡化人工干预的自学习、自适应芯片。因此未来通用 AI芯片应包含以下特征。

1)可编程性:适应算法的演进和应用的多样性。

2)架构的动态可变性:能适应不同的算法,实现高效计算。

3)高效的架构重构能力或自学习能力。

4)高计算效率:避免使用指令这类低效率的架构。

5)高能量效率:能耗比大于5 Tops/W(即每瓦特进行5×1012次运算)。

6)低成本低功耗:能够进入物联网设备及消费类电子中。

7)体积小:能够加载在移动终端上。

8)应用开发简便:不需要用户具备芯片设计方面的知识。

目前尚没有真正意义上的通用AI芯片诞生,而基于可重构计算架构的软件定义芯片(software defined chip)或许是通用 AI芯片的出路。软件定义芯片顾名思义就是让芯片根据软件进行适应与调整,简单来说就是将软件通过不同的管道输送到硬件中来执行功能,使芯片能够实时地根据软件、产品、应用场景的需求改变架构和功能,实现更加灵活的芯片设计。沿用这种架构设计出来的芯片,可以让芯片的计算能力按照软件的需求来调整适应,而不是沿用传统芯片设计的刚性架构,让应用适应架构。

可重构计算技术允许硬件架构和功能随软件变化而变化,兼具处理器的通用性和 ASIC的高性能和低功耗,是实现软件定义芯片的核心,被公认为是突破性的下一代集成电路技术。清华大学微电子学研究所设计的 AI 芯片 Thinker,采用可重构计算架构,能够支持卷积神经网络、全连接神经网络和递归神经网络等多种 AI算法。Thinker芯片通过以下 3个层面的可重构计算技术,实现软件定义芯片。

1)计算阵列重构:Thinker芯片的计算阵列由多个并行计算单元互连而成。每个计算单元可以根据算法所需要的基本算子不同而进行功能重构。此外,在复杂 AI 任务中,多种 AI 算法的计算资源需求不同,因此Thinker芯片支持计算阵列的按需资源划分以提高资源利用率和能量效率。

2)存储带宽重构:Thinker芯片的片上存储带宽能够根据 AI算法的不同而进行重构。存储内的数据分布会随着带宽的改变而调整,以提高数据复用性和计算并行度,提高了计算吞吐和能量效率。

3)数据位宽重构:16 bit数据位宽足以满足绝大多数应用的精度需求,对于一些精度要求不高的场景,甚至 8 bit数据位宽就已经足够。为了满足AI算法多样的精度需求,Thinker芯片的计算单元支持高/低(16/8 bit)两种数据位宽重构。高比特模式下计算精度提升,低比特模式下计算单元吞吐量提升进而提高性能。

可重构计算技术作为实现软件定义芯片的重要技术,非常适合应用于 AI芯片的设计当中。采用可重构计算技术之后,软件定义的层面不仅仅局限于功能这一层面,算法的计算精度、性能和能效等都可以纳入软件定义的范畴。可重构计算技术借助自身实时动态配置的特点,实现软硬件协同设计,为 AI芯片带来极高的灵活度和适用范围。Thinker团队最新推出的 Thinker 2人脸识别芯片,能够做到 6 ms 人脸识别(iPhone X 为10 ms),准确率超过 98%;以及 Thinker S语音识别芯片,不仅功耗只有 200 μW,只需要节 7 号 AAA 电池就运行 1 年,而且可以进行声纹识别。《MIT Technology Review》2018年初在一篇专稿中评论了 Thinker团队的工作,认为这是中国取得的顶级成就。

AI 芯片市场现状

2018 年全球 AI 芯片市场规模预计将超过 20亿美元,随着包括谷歌、Facebook、微软、亚马逊以及百度、阿里、腾讯在内的互联网巨头相继入局,预计到2020年全球市场规模将超过 100亿美元,其中中国的市场规模近25亿美元,增长非常迅猛,发展空间巨大。目前全球各大芯片公司都在积极进行AI芯片的布局。在云端,Nvidia的系列 GPU芯片被广泛应用于深度神经网络的训练和推理。Google TPU 通过云服务 Cloud TPU 的形式把 TPU 开放商用,处理能力达到 180 Tflop,提供64 GB的 HBM内存,2400 Gbit/s的存储带宽。老牌芯片巨头 Intel推出了 Nervana™ Neural Network Processors(NNP),该系列架构还可以优化 32 GB HBM2,1 Tbit/s带宽和 8 Tbit/s访问速度的神经网络计算。而初创公司如 Graph core、Cerebras、Wave computing、寒武纪、比特大陆等也加入了竞争的行列,陆续推出了针对 AI的芯片和硬件系统。

然而对于某些应用,由于网络延迟、带宽和隐私问题等各类原因,必须在边缘节点上执行推断。例如,自动驾驶汽车的推断,不能交由云端完成,否则如果出现网络延时,则会发生灾难性后果;大型城市动辄百万的高清摄像头,其人脸识别如果全部交由云端完成,高清录像的数据传输会让通信网络不堪重负。未来相当一部分人工智能应用场景中,要求边缘处的终端设备本身具备足够的推断计算能力。而目前边缘处理器芯片的计算能力,并不能满足在本地实现深度神经网络推断的需求。业界需要专门设计的 AI芯片,赋予设备足够的能力去应对未来越发增多的人工智能应用场景。除了计算性能的要求之外,功耗和成本是在边缘节点工作的AI芯片必须面对的重要约束。

智能手机是目前应用最为广泛的边缘计算终端设备,包括三星、苹果、华为、高通、联发科在内的手机芯片厂商纷纷推出或者正在研发专门适应AI应用的芯片产品。另外,也有很多初创公司加入这个领域,为边缘计算设备提供芯片和系统方案,比如北京中科寒武纪科技有限公司的 1A处理器、北京地平线信息技术有限公司的旭日处理器 、北京深鉴科技有限公司的DPU等。传统的 IP 厂商,包括 ARM、Synopsys、Cadence等公司也都为包括手机、平板电脑、智能摄像头、无人机、工业和服务机器人、智能音箱等边缘计算设备开发专用 IP产品。此外在终端应用中还蕴藏着智慧物联网这一金矿,AI芯片只有实现从云端走向终端,才能真正赋予“万物智能”。

AI 芯片未来趋势

在 AI芯片领域,目前还没有出现一款 CPU类的通用AI芯片,人工智能想要像移动支付那样深入人心,改变社会,可能还差一个“杀手”级别的应用。无论是图像识别、语音识别、机器翻译、安防监控、交通规划、自动驾驶、智能陪伴、智慧物联网等,AI涵盖了人们生产生活的方方面面,然而距离 AI应用落地和大规模商业化还有很长的路要走。而对于芯片从业者来讲,当务之急是研究芯片架构问题。软件是实现智能的核心,芯片是支撑智能的基础。当前 AI芯片发展,短期内以异构计算为主来加速各类应用算法的落地;中期要发展自重构、自学习、自适应的芯片来支持算法的演进和类人的自然智能;长期则朝通用AI芯片的方向发展。

通用AI芯片

通用 AI 芯片就是能够支持和加速通用 AI 计算的芯片。关于通用AI的研究希望通过一个通用的数学模型,能够最大限度概括智能的本质。目前比较主流的看法是系统能够具有通用效用最大化能力:即系统拥有通用归纳能力,能够逼近任意可逼近的模式,并能利用所识别到的模式取得一个效用函数的最大化效益。这是很学术化的语言,如果通俗地说,就是让系统通过学习和训练,能够准确高效地处理任意智能主体能够处理的任务。通用 AI的难点主要有 2个:通用性,包括算法和架构;实现复杂程度。当前,摩尔定律的逐渐失效和冯·诺伊曼架构的瓶颈这2个巨大的技术挑战也是通用AI芯片需要考虑的问题。想要解决这 2个问题仅通过芯片的设计理念和架构创新是行不通的,还需要取决于更先进的制程工艺、新型半导体材料、新型存储器件以及人类对于自身大脑更进一步的认知。

通用AI计算

AI的通用性实际包括2个层级:第一个层级是可以处理任意问题;第二个层级是同一时间处理任意问题。第一层级的目标是让AI的算法可以通过不同的设计、数据和训练方法来处理不同的问题。例如,利用现在流行的深度学习方法训练AI下棋、图像识别、语音识别、行为识别、运动导航等。但是,不同的任务使用不同的数据集来独立训练,模型一旦训练完成,只适用于这种任务,而不能用于处理其他任务。所以,可以说这种 AI的算法和训练方法是通用的,而它训练出来用于执行某个任务的模型是不通用的。第二层级的目标是让训练出来的模型可以同时处理多种任务,就像人一样可以既会下棋,又会翻译,还会驾驶汽车和做饭。这个目标更加困难,目前还没有哪一个算法可以如此全能。

AI 芯片面临的机遇与挑战

全球人工智能产业目前还处在高速变化发展中,广泛的行业分布为人工智能的应用提供了广阔的市场前景,快速迭代的算法推动人工智能技术快速走向商用,AI芯片是算法实现的硬件基础,也是未来人工智能时代的战略制高点,但由于目前的 AI算法往往都各具优劣,只有给它们设定一个合适的场景才能最好地发挥其作用,因此,确定应用领域就成为发展AI芯片的重要前提。但遗憾的是,当前尚不存在适应多种应用的通用算法,人工智能的“杀手”级应用还未出现,已经存在的一些应用对于消费者的日常生活来说也非刚需,因此哪家芯片公司能够抓住市场痛点,最先实现应用落地,就可以在人工智能芯片的赛道上取得较大优势。

架构创新是 AI芯片面临的一个不可回避的课题。需要回答一个重要问题:是否会出现像通用CPU那样独立存在的 AI处理器?如果存在的话,它的架构是怎样的?如果不存在,目前以满足特定应用为主要目标的AI芯片就一定只能以 IP核的方式存在,最终被各种各样的 SoC(system-on-a-chip)所集成。这无疑带来了新的问题,芯片的体积和功耗是必须要考虑的重要因素,传统芯片公司在 SoC的设计优化和工程实现上无疑比以算法起家的初创AI芯片公司更具经验。

从芯片发展的大趋势来看,现在还是 AI芯片的初级阶段。无论是科研还是产业应用都有巨大的创新空间。从确定算法、应用场景的 AI加速芯片向具备更高灵活性、适应性的通用智能芯片发展是技术发展的必然方向。未来 2 年之内 AI 芯片产业将持续火热,公司扎堆进入,但是到了2020年前后,则将会出现一批出局者,行业洗牌开始,最终的成功与否则将取决于各家公司技术路径的选择和产品落地的速度。

AI时代的XPU版摩尔定律

据说每过18天,集成电路领域就会多出一个XPU,直到26个字母被用完。

据不完全统计,已经被用掉的有:

APU -- Accelerated Processing Unit, 加速处理器,AMD公司推出加速图像处理芯片产品。

BPU -- Brain Processing Unit, 地平线公司主导的嵌入式处理器架构。

CPU -- Central Processing Unit 中央处理器, 目前PC core的主流产品。

DPU -- Deep learning Processing Unit, 深度学习处理器,最早由国内深鉴科技提出;另说有Dataflow Processing Unit 数据流处理器, Wave Computing 公司提出的AI架构;Data storage Processing Unit,深圳大普微的智能固态硬盘处理器。

FPU -- Floating Processing Unit 浮点计算单元,通用处理器中的浮点运算模块。

GPU -- Graphics Processing Unit, 图形处理器,采用多线程SIMD架构,为图形处理而生。

HPU -- Holographics Processing Unit 全息图像处理器, 微软出品的全息计算芯片与设备。

IPU -- Intelligence Processing Unit, Deep Mind投资的Graphcore公司出品的AI处理器产品。

MPU/MCU -- Microprocessor/Micro controller Unit, 微处理器/微控制器,一般用于低计算应用的RISC计算机体系架构产品,如ARM-M系列处理器。

NPU -- Neural Network Processing Unit,神经网络处理器,是基于神经网络算法与加速的新型处理器总称,如中科院计算所/寒武纪公司出品的diannao系列。

RPU -- Radio Processing Unit, 无线电处理器, Imagination Technologies 公司推出的集合集Wifi/蓝牙/FM/处理器为单片的处理器。

TPU -- Tensor Processing Unit 张量处理器, Google 公司推出的加速人工智能算法的专用处理器。目前一代TPU面向Inference,二代面向训练。

VPU -- Vector Processing Unit 矢量处理器,Intel收购的Movidius公司推出的图像处理与人工智能的专用芯片的加速计算核心。

WPU -- Wearable Processing Unit, 可穿戴处理器,Ineda Systems公司推出的可穿戴片上系统产品,包含GPU/MIPS CPU等IP。

XPU -- 百度与Xilinx公司在2017年Hotchips大会上发布的FPGA智能云加速,含256核。

ZPU -- Zylin Processing Unit, 由挪威Zylin 公司推出的一款32位开源处理器。

我们来聊聊-AI芯片技术及相关词汇

对本领域有兴趣的朋友可以留言,关注小编了,

也可以关注小编的微信公众号:老扎古

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多