qsa789 / 区块链 / GPU最终会被ASIC取代吗?

分享

   

GPU最终会被ASIC取代吗?

2019-11-13  qsa789



答案是不会。

人工智能立夏已至,芯片的大同世界里仍是一片蓝海。怀抱大同思想和谐共处,蛋糕越做越大之时,不同芯片凭着自身优势在不同定位发挥所长,百花齐放,不应该是赢者通吃,零和博弈。

诚如英伟达CEO黄仁勋所言:“我不会去思考‘谁用了谁家的产品’ (Jensen 原话: “anybody using anybody else”) 这个问题,我只是希望能在我们的领域做到最好。在这一点上,我们和面馆、饺子店没有区别,我们就是一家很大的饺子店,擅长做一种小笼包。我们对待世界的方式不是打算去赢得所有,而是通过专业性,用心去解决问题。比如说,在无人驾驶方面,我们不介意客户用谁的产品,我们只关心无人驾驶最终能不能成功。”

我们认为3-5年内深度学习进一步的崛起将加速对GPU的需求,而GPU也会是上游学习端当仁不让的市场主流。其他芯片,像ASIC/FPGA等,在下游推理端的细分需求里也将各有所长,分担部分GPU的责任,并不会出现你死我活的竞争境地。

一直以来,我们团队自赋的使命是以最中肯角度去洞察和分析行业变革当中带来的投资机会。对于一些为了推票而寻找借口和证据站台的行为,我们认为从来只会有失偏颇。在分析英伟达、AMD 、谷歌、英特尔、赛灵思甚至到寒武纪的竞争格局过程中,断断续续的有各种中外文章提及“ASIC/FPGA将会取代GPU”的论调。如今我们把所有过去讨论这个问题的文章集结成一处,希望从头至尾再说清楚,人工智能芯片市场的格局,若有领导朋友们问起,也方便觅得出处。

本文将集结我们过去相关文章的精华,参考文件包括:

1、我们年度重磅报告《人工智能立夏已至,AI芯片迎接蓝海》中的开篇行业拙见;

2、英伟达CEO黄仁勋在GTC China大会期间的洞见(“英伟达与饺子馆”——黄仁勋眼中的人工智能世界):人工智能的科技革命和英伟达的冒险与成功;

3、英伟达CEO黄仁勋在GTC China大会期间亲述无人驾驶Diversity and Redundancy 。

另外领导朋友们如果有兴趣,我们还深度分析了:

1、谷歌自造ASIC,TPU意欲何为:谷歌TPU以时间换吞吐量;AlphaGo探索强化学习新起点

2、今年虚拟货币热浪来袭,“挖矿”成为热门词:GPU需求和虚拟货币的关系——“微小但不是零的”,Jensen强调5次也不为过


AI芯片繁荣共生,GPU引领主流,ASIC割据一地,看好未来各领风骚

“通用性和功耗的平衡”——在深度学习上游训练端(主要用在云计算数据中心里),GPU是当仁不让的第一选择,ASIC包括谷歌TPU、寒武纪MLU也如雨后春笋。而下游推理端更接近终端应用,需求更加细分,GPU主流芯片之外,包括CPU/FPGA/ASIC也会在这个领域发挥各自的优势特点。

1、GPU:以英伟达为主,AMD为辅。依靠通用及灵活的多核性强大并行运算能力,广泛契合当前人工智能监督深度学习以及生成式对抗网络(GAN) 化学习所需要的密集数据和多维并算处理需求,在3-5年内GPU仍然是深度学习市场的第一选择。

在AI加速崛起的大趋势下,数据中心市场空间巨大。深度学习上游训练端由GPU主导并基本为英伟达所垄断。下游推理端虽可容纳CPU/FPGA/ASIC等芯片,但竞争态势中GPU依然占大头。英伟达依靠Volta构架升级以及广泛成熟的开发生态环境,自上而下的对训练、推理兼顾,扩张版图。以2016年为例,全年服务器市场出货量约在1110万台,在只有7%用于人工智能,而其中只有约3.4%配置GPU,总量仅为2.6万台。就是说,全球新增服务器中GPU的渗透率仅为0.24%。我们预计在2020年前全球服务器GPU渗透率将逾1%,即4倍以上增长。当中我们预计英伟达占比为92%,而AMD为8%。

过去几年AI得以普及,主要鉴于摩尔定律的突破、并行计算以及云计算的发展,以及海量数据的收集。举个例子,笔者千禧年初在学校做人脸识别时,GPU还没给使用,我们只有一台电脑里面的4片CPUs。要识别6个人的头像,每个人约1000张照片的学习数据,得要一晚上的时间。所以说,没错,CPU也可以做机器学习,但是效率会相当低。

没有GPU,人们就无法快速的处理海量数据,神经网络的层数也会有所局限,最后最优化答案也有可能局限于局部低点 (local min)而达不到全局最优(global min)。实际上,神经网络在二三十年前就存在,但效率一直不高,直到2006年开始GPU的部署加入,深度学习/神经网络才渐渐获得惊人发展。所以说,与其说数据为王,我们认为算法、数据和硬件三者,缺一不可。这也是为什么人们把英伟达比作深度学习的三大建立者之一。

顺带一提,A股里面标的,景嘉微作为国产GPU龙头标的,2014年研发成功的第一代GPU可实现ATI M9芯片的逐步替代,主要受益于军方图形显控模块的国产替代订单;第二代芯片预计年底流片,未来也不排除进入民用领域。

2、ASIC(Application Specific Integrated Circuit,专用集成电路):细分市场需求确定后,ASIC定制化芯片,或者说针对特定算法深度优化和加速的DSA (Domain-Specific-Architecture),将在确定性执行模型(deterministic execution model)的应用需求中发挥作用。

例如比特币已经存在了一段时间,目前挖矿从GPU通用算力转向了ASIC专用矿机。而以太币目前虽然还是用GPU去挖掘,但鉴于挖掘的专用性,往后设计一个ASIC会更为划算。但是,新的虚拟货币也会不断出现,所以Jensen也强调,这个市场对于英伟达来说是“小但不是0”。

我们认为深度学习ASIC包括英特尔的Nervana Engine、Wave Computing的数据流处理单元、英伟达的DLA、以及寒武纪的NPU等逐步面市,将依靠特定优化和效能优势,未来在深度学习领域分一杯羹。

又以谷歌TPU为例,TPU是谷歌针对自身产品的人工智能负载打造的张量处理单元。TPU的设计思路比GPU更接近一个浮点运算单元,作为直接连接到服务器主板的简单矩阵乘法协处理器,但目前只针对自家AI算法软件包,TensorFlow,进行了深度优化。第一代TPU主要应用于下游推理端,本质上沿用了脉动阵列机架构(systolic array computers),让推理阶段以时间换吞吐量。比如说,最近两代的AlphaGo Master和AlphaGo Zero,就是在一台服务器里面用上4个TPUs。第二代TPU在浮点计算上的升级,除了可以在推理端应用外,也可以进入深度学习上游训练环节。但目前谷歌并不会直接销售TPU,主要将TPU部署在云计算中以云服务形式进行销售共享。

中科院旗下的寒武纪,研发的NPU授权于华为智能手机进行推理端计算。寒武纪在2018年将推出机器学习处理器MLU(MLU 100偏重推理,MLU 200偏重训练)。在芯片国产化浪潮下,加上国内云计算还处于起步阶段,我们认为寒武纪有望在国内独特生态圈中享受市场红利,带来相应的投资机会。

但我们需要强调,包括TPU在内的ASIC仍然面临通用性较弱,以及开发成本高企等局限,我们认为未来市场繁荣共生才会迎来百花齐放。

3、FPGA(Field Programmable Gate Array,现场可编程门阵列):本来主要用于芯片原型(prototyping)设计流程里,但鉴于它的可编程性,可以模仿不同芯片,也适用于开发周期较短的IoT产品、传感器数据预处理工作以及开发试错升级迭代阶段等。但它的性能和耗电量比ASIC差,加上大量使用时性价比不一定高,所以一般较成熟的量产设备大多采用ASIC。FPGA厂商包括Xilinx、Altera(英特尔)、Lattice及Microsemi。

英伟达拥有目前最为成熟的开发生态环境(CUDA因统一而完整的开发套件,丰富的库以及对英伟达GPU的原生支持而成为开发主流,目前已开发至第9代,开发者人数超过51万)。Google的TPU也结合TensorFlow开源开发环境。而AMD通过CPU GPU ROCm的开源生态打造GPU计算最通用开源平台。开源时代生态为天,硬件厂商以开源之态,本质上是抢夺业界事实标准的控制权,但随之而来的也是整个芯片行业设计门槛和研发成本的不断降低。

在未来,随着AI算法的推进、芯片材料的多样化、芯片供电方法、能耗的节约和工艺水平等都逐渐将芯片的设计门槛“平民化”。量子计算机和人脑模拟芯片等新型硬件也将改变市场格局。AI芯片正进入下一片蓝海,风物长宜放眼量,我们认为AI芯片会走出“CPU FPGA GPU—特制芯片—量子芯片”的征途。

完整报告请点击最下方“阅读原文”下载,或联系天风海外团队获取


“英伟达与饺子馆”——黄仁勋眼中的人工智能世界(节选)

9月26日,英伟达GPU技术峰会GTC China在北京开幕,在晚上的圆桌会议中,英伟达CEO黄仁勋畅谈人工智能,包括人工智能带来的科技革命,在AI芯片市场中与FPGA、ASIC等竞争者的关系,在自动驾驶上的策略,以及如何开拓中国市场等内容。天风海外首席何翩翩受邀出席并获提问机会。

黄仁勋表示:英伟达并不擅长所有事情,实际上,我们在大部分事情上并不擅长。但是,在我们擅长的领域,我们无出其右(Jensen 原话: “We’re not good at everything, in fact, we’re mostly not good at anything. But the areas that we’re good at, we are incredibly good. The areas that we’re good at, there is no better alternatives.”)。

Q&A:

天风海外首席何翩翩提问:其他AI芯片,包括ASIC、FPGA,他们的竞争关系如何?

黄仁勋:GPU试图解决的问题,与ASIC、FPGA并不相同,英伟达GPU是一款用来解决特定领域算法需求的可编程处理器(Jensen原话: “NVIDIA’s GPU is a programmable processor that is designed for a very specialized field of algorithms.”)。英伟达并不擅长所有事情,实际上,我们在大部分事情上并不擅长。但是,在我们擅长的领域,我们无出其右(Jensen 原话: “We’re not good at everything, in fact, we’re mostly not good at anything. But the areas that we’re good at, we are incredibly good. The areas that we’re good at, there is no better alternatives.”)。

第一,我们是非常专工的(specialized)。GPU是一个电脑芯片,CUDA是GPU编程语言,GPU使用在电脑、服务器、数据中心里的,不要把GPU放在Fitbit中,因为没有必要。使用GPU的地方,会有丰富的软件环境,与英伟达提供的GPU相和谐(harmonious with us)。比如图像处理、物理仿真、并行计算就与我们相和谐,当然包括人工智能。这些算法本质上非常相似,因为它们的计算是高度可并行的(highly parallelizable),当然本质上这些算法是不同架构的,因此当你想设计一台能够运行所有这些算法的机器时,你的模型必须有稳健性(robustness)。比如我是一个分子动力学开发者,我会用到VASP、GAMESS去编程等等,我会用到Adobe的工具,也就是说我会用到所有工具,他们有一定的相似性,他们需要可编程性。那么英伟达所做的就是打造一个计算平台,特别是在并行计算应用上非常的优秀。

我们不会用在什么上面呢,比如我们不会用在亚马逊的Alexa中,虽然Alexa背后使用了深度神经网络,但是它是只针对声音,它是功能专用化的(functional specialization),它不是计算密集的(computing intensive)。就像我不会把英伟达的GPU放在Nest的智能家居设备中,人们不会把ASIC芯片放在数据中心里,因为ASIC是不可编程的。如果ASIC具备可编程性,那其实就变成了GPU。所以问题就变成了如果你想打造一款GPU,你能比英伟达做得更好么?

第二,更重要的是,因为很多开发者在使用CUDA,因此电脑厂商会选择英伟达的GPU,这造就了英伟达所在的巨大市场空间,也因此我们的R&D投入非常巨大,这就是我们的正反馈模式。打造一个计算平台带给我们的好处在于,我们的工作越成功,我们的未来也会越成功——就像云计算、App Store、过去的Wintel组合、现在的CUDA——越多开发者/消费者/电脑厂商带来越好的GPU、越多开发者/消费者/电脑厂商。如果计算机不需要可编程性,如果你只用运行某一特定程序或应用,你就不需要我们。但如果计算机需要支持TensorFlow、Caffe、Torch、MXNet,就需要英伟达;如果你想要应用CNN、RNN、LTSM、GANS等神经网络,你就需要英伟达。这就是英伟达平台的可编程性带来的。

对于FPGA,首先FPGA的优势在于它可以变成任何芯片,你可以把它打造成USB、以太网、音频芯片、开关等等。当市场需求很小,开发者不确定开发方向时,可以使用FPGA来节约开发成本。三年前,深度学习市场没有推理端(inference)的客户需求,但现在这块需求急剧增加,所以如果你三年前开发ASIC,到现在就过时了。我们的优势在于,我们三年来看到了行业发展的变化,用户使用相似的构架来进行不同的应用部署,于是我们冒险打造了TensorRT、Tensor Core来适应需求。但是这样的冒险对英伟达来说是微小的,纵使没人买TensorCore的账,英伟达还是每年可以销售50亿美元的游戏显卡给游戏玩家。因此英伟达在游戏显卡市场的成功,决定了公司能投入资金在深度学习的研发上,能够有投入20亿美元在下一代GPU上的魄力。

对于市场上那些所谓的破局者(disruptors)来说,如果他们发现了英伟达的弱点,那我们已经修补解决了。事实上,人们不会因为已知的威胁而失败,人们会因为未知的威胁而失败。如果云计算不再可行,那会对我们不利,英伟达要进入包括BAT、FANG的大型云计算数据中心,这里是我们的重要市场。我希望深度学习能够最快速度的进入所有计算科学领域,因此我们还打造了深度学习培训班DLI,我们希望今年能培训25万名开发者。

嘉宾提问1:说到FPGA,我们看到很多巨头投入其中,比如百度和Xilinx的XPU,Intel收购Altera后的动作,你觉得FPGA在云计算中的应用,是不是更加便宜和容易开发呢?

黄仁勋:FPGA其实反而更贵,一台DGX-1相当于可能1万片FPGA,所以其实DGX-1才是便宜的。我来反问你一个简单问题,过去5年Intel的FPGA业务是增长还是下降的呢?过去5年,Xilinx和Altera的业务增长了么?我认识微软的Doug Burger(微软研究院顾问工程师,主持基于FPGA的云端深度学习系统Project Brainwave),他人很好,但是他总在谈论FPGA,虽然微软在使用FPGA,但是一个人的力量不会改变整个行业,而且微软购买的GPU远比FPGA要多。就在今天,微软CEO Satya Nadella宣布了在Azure云中使用英伟达的GPU。

完整版请见“英伟达与饺子馆”——黄仁勋眼中的人工智能世界


GTC China闭门峰会AI for Business:黄仁勋结语与展望(节选)

9月26日,英伟达GPU技术峰会GTC China在北京开幕,在下午的闭门峰会AI for Business中天风海外首席何翩翩受邀出席并与英伟达CEO黄仁勋同台演讲。(何翩翩演讲实录请点击:【天风海外·直击英伟达GTC最前线】之无人驾驶Part One

黄仁勋在闭门峰会最后进行了结语与展望。

Q:人工智能将会怎么使用能够更加有效地帮助我们呢?

黄仁勋:让我来给你三个原则,你就自己可以决定怎样使用才是正确的。第一,你的工作、你的行业是否包含有大量的非相关信息,而你的工作是否要求你去挖掘他们,从这些信息中得出结论。第二,你的行业是否要求你去对未来做出预测,也许这是很近的未来,这些预测建立在非结构化、非相关、非联系的数据上,并且放入到一个系统之中。我认为对金融系统来说回答肯定的。第三,如果你在某样事中倾入精力,但是你所处的问题中有大量的数据,而这些数据来自于各种地方,但是你想要在其上花上精力,你也有许多的经验与技能,你可以专注这些信息并且发现一些启发。这就是最简单的方式,来思考AI是不是有助于你,是否你的工作需要预测,是否你的工作需要检测,是否你的工作要求你去观察一系列非结构化、甚至完全不相关的数据并且想要从中获得启发。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>