【原】GTC 2017 | 谷歌说 TPU 比 GPU 牛，Nvidia 表示不服，并扔出一块 Tesla V100

昵称71360118 2020-09-01

展开全文

雷锋网将联合英伟达 DLI ，面向 AI 技术从业者，特别推出深度学习课程，对深度学习和英伟达 GPU 加速技术感兴趣的朋友可以参阅文末介绍！

雷锋网按：上个月谷歌公布了关于 TPU 细节的论文，称 “TPU 处理速度比当前 GPU 和 CPU 要快 15 到 30 倍”，引发科技圈热议。Nvidia CEO 黄仁勋更是亲自撰文回击，并贴出 Tesla P40 GPU 与 TPU 的性能对比图，大有针尖对麦芒之势。而在昨天的 GTC 大会上，Nvidia 又发布了新一代 GPU Tesla V100。这场 ASIC 与 GPU 之争愈发的好看了！

人工智能和机器学习对 Google 的重要性已经不言而喻，为了在人工智能时代抢占先机，这位科技巨人已经开始研发和制造自己的芯片。在去年的年度开发者大会上，谷歌对外宣布了针对其特殊 AI 算法进行了优化的 TPU 芯片。据雷锋网了解，如今已有数十种类似的定制化 AI 芯片陆续问世。这让近年来在深度学习领域享有支配性地位的芯片供应商 Nvidia 倍感压力。

为了做出反击，Nvidia 也开始加强其新推的 GPU 芯片的定制化和专业性。

在周三举行的 GTC 大会上，Nvidia 发布了基于其下一代图形架构 Volta 的，针对服务器市场的 GPU 新品 Tesla V100。该芯片拥有超过 210 亿个晶体管和 5,120 个计算机内核。但是对于 AI 来说，最重要的是，特斯拉 V100 配备了 640 个 Tensor 内核，它们是专为运行深入学习网络中使用的数学运算而设计的。据官方介绍，这些 Tensor 内核为 Tesla V100 提供了高达 120 teraflops 的、惊人的深度学习能力。

雷锋网了解到，相比前代的 Pascal 架构，新芯片将深度学习训练速度提升了 12 倍，深度学习推理速度也提升了 6 倍。新架构在运行深度学习应用方面的性能，相当于 100 个中央处理器（比如 Intel 的中央处理器）。

为了使深度学习应用在其硬件上更加高效的运行，Nvidia 提供了很多软件工具。它发布了一款针对深度学习框架 TensorFlow 和 Caffe 的编译器——TensorRT，用于改进推理性能。Nvidia 表示，Tesla V100 的推理性能要比英特尔的 Skylake CPU 架构快 15 到 25 倍。

虽然 Nvidia 正努力让其芯片更加适合深度学习，但它的竞争对手却可能会指出，Nvidia 的最大缺陷在于，其 GPU 往往必须支持图形生成功能。GPU 之所被设计出来，就是用于图形生成的。由于必须支持图形生成功能，GPU 芯片增加了大量体积，这就意味着它在一定程度上要比专用芯片更加低效。

Google 在最近的一篇博客中声称，其 TPU 在推理性能上要比现代 GPU 和 CPU 快 15-30 倍，同时功耗还要低 30-80 倍。（Nvidia 对此反驳道，谷歌是在拿 TPU 和旧的 GPU 进行比较。）事实上，这种对比并不完全公平。GPU 是通用型芯片，可执行绘图运算工作，用途多元。TPU 则属于 ASIC，也就是专为特定用途设计的特殊规格逻辑 IC，由于只执行单一工作，速度更快也在情理之中。TPU 和 GPU 之间除了性能较量，更多代表的是 ASIC 和通用型芯片这两种设计思路间的博弈。

除了 Nvidia 和谷歌，另一大芯片巨头 Intel 也加入了这场博弈。不久前，Intel 以超过 4 亿美元的价格收购了 AI 芯片初创企业 Nervana，并声称将在 2020 年之前将深度学习训练速度提升 100 倍。

Nvidia 表示，Tesla V100 是它在深度学习领域更加专业化，并能够与这些定制化芯片竞争的有力证据。Nvidia GPU 工程部高级副总裁 Jonah Alben 在谈到芯片竞赛时说道：“当你考虑到构成一款用于深度学习训练的优秀芯片的所有要素时，你会发现带宽、输入 / 输出和数学运算能力都很重要。而在所有的这些方面，我们都是专家。只要我们都用相同的油漆刷作画，就知道到底谁更强了。”

雷锋网认为，尽管谷歌在定制化 AI 芯片领域走在了最前列，但 Nvidia 仍将在未来很多年里保持竞争力。Gartner 的分析师马克 · 洪（Mark Hung）说道，“目前为止，没有任何一款 AI 芯片实现了大规模出货。尽管对 Nvidia 来说，潜在的危险始终存在，但在这些公司大规模出货 AI 芯片前，并不会对 Nvidia 造成真正的威胁。”

这些即将到来的 AI 芯片与 Nvidia 之间的明争暗斗表明了一点，深度学习计算对更强计算能力的需求日益旺盛。几年前 GPU 迎来大爆发，正是因为它将深度学习网络的训练时间从几个月缩短到了几天。早在 20 世纪 50 年代就已经诞生的深度学习，由于有强大的计算能力作为后盾，此刻终于爆发出了它的潜能。但是随着越来越多企业试图将深度学习融入它们的产品和服务，对更快的芯片的需求将没有止境。

Alben 说道：“以我所见，人类需要无限量的深度计算能力。越接近无限越好。”

在即将开幕的第二届 CCF-GAIR 2017 全球人工智能与机器人峰会上，雷锋网将联合英伟达 DLI ，面向 AI 技术从业者，特别推出一个深度学习开发者专场。对深度学习和英伟达 GPU 加速技术感兴趣的朋友，可以通过这次专场对英伟达 DLI 课程来一个现场体验。

专场的具体议程安排如下

----------------------------------------

NVIDIA DLI Course 英伟达深度学习课程

9:00-10:00

Deep Learning Demystified 揭秘深度学习 (lecture 讲演)

10:00-10:10

Break

10:10-12:00

Getting Started with Deep Learning 深度学习入门 (Lecture with lab 讲演与实验)

13:30- 15:30