分享

英伟达「黄氏定律」让未来的AI算力每年能够提升一倍

 看见就非常 2021-01-17

今年的 GTC China 黄仁勋没有露面,但黄式定律无处不在。

从翻倍提高 TensorCore 计算效能的新技术,到下一代光通信技术,再到一行代码为所有模型提供 GPU 加速的软件工具,为了让未来的 AI 算力每年能够提升一倍,英伟达找到了不少新方向。

12 月 15 日上午,英伟达 GTC 大会中国站在线上举行,全球最负盛名的计算机科学家之一、NVIDIA 研究院负责人 Bill Dally 在活动中发表了主题演讲。

在科技领域里,很多人都知道摩尔定律:前英特尔 CEO 大卫·豪斯(David House)曾提出,人类制造出的芯片,每 18 个月计算效率就会提高一倍。这一「规律」在过去长达五十年间一直被实践验证,但在最近五六年中,由于晶体管尺寸越来越小,制程陷入瓶颈,摩尔定律逐渐失效。

而另一方面,人类对于计算机的算力需求是无限的,人工智能技术的发展更是加大了这种需求。近十年来,GPU正在让人工智能算法的性能每年都在成倍提升,英伟达的研究人员通过架构的提升,正在不断寻找进一步加快AI推理速度的芯片。

英伟达提出了以自己创始人黄仁勋名字命名的黄氏定律(Huang’s Law)对单芯片AI推理能力进行了预测,提出每 12 月其数字将翻一倍。

pIYBAF_cdv2AKnOXAAGxgVsCQ-U690.png

如果我们还需要在未来的一段时间里使用硅芯片,那么摩尔定律之后,我们还可以仰赖「黄氏定律」保持AI技术的发展速度。

在芯片本身无法快速提升的情况下,英伟达把目光转向了计算架构的很多其他方面,Bill Dally 认为「这些方向其中的任何一个如果有效,都可以在接下来几代的产品中帮助我们延续性能每年提升一倍的目标。」

首先是单卡计算效率。即使是英伟达目前的二代 Tensor Core,在进行推理时也无法把所有功耗用在数学运算上——效率被浪费在了数据传输上。英伟达设计了 MAGNet 系统,用于探索更为高效的芯片架构设计。

如果可以通过一个全局控制器,把数据从内存不同的部分移动到不同计算单元以执行计算,并针对神经网络计算的特性在数据流中加入一个存储层,便可以解除瓶颈,将大部分能量用于计算。在特定的单元上,英伟达尚未发布的硬件产品可以实现每瓦 100 Teraops 的推理能力,而在 2019 年达到的效率还只有 29 Teraops。

pIYBAF_cdwqAHaw7AAK5sPrDRP0855.png

看来下一代的 Tensor Core 性能又要有巨大的提升了。

其次是多卡的数据传输,英伟达的 GPU 通过 NVlink 和 NVswitch 互相连接,然而基于电信号的方式目前已经接近极限了,人们预估,想要继续让 NVLink 中信号传输的带宽每代提升一倍,将变得极其困难。目前英伟达能够实现的数字是每线对 50Gb/s,可预见的未来大约可以实现到 100-200Gb/s。英伟达也在和英特尔等科技巨头一样思考如何尽快把基于光学的通信技术应用于实践。

作为一名研究者,Bill Dally 曾牵头研发英伟达对于光信号传输的愿景:光通信不仅可以大幅度提升带宽(从几百 Gb/s 到几 Tb/s),提升传输空间(从几十厘米到 20-100 米)并减少系统的复杂程度。

o4YBAF_cdymAPHZ3AALnbG_PdeA690.png

在英伟达的设计中,DGX 卡纵置排列,右侧为光源,可为光线提供多种不同波长的光线,光学引擎以极高的数据速率把光转换为信号。每根光纤都可以同时传输不同波长的光,而每种波长的光都可以用 25-50Gb/s 的速度传输信号。这样一来,总数据速率将为 400Gb/s,而每根光纤的传输速率「保守估计」就可以达到数个 Tb/s,而且能耗还要比电信号要小。英伟达的研究团队正在与哥伦比亚大学的研究人员密切合作,探讨如何利用电信供应商在其核心网络中所采用的技术,通过一条光纤来传输数十路信号——有了光通信,仅需一条 NVLink 就可以连接规模更大的系统。

英伟达还在尝试一种名为「密集波分复用」的技术, 有望在仅一毫米大小的芯片上实现 Tb/s 级数据的传输,是如今互连密度的十倍以上。

o4YBAF_cdzeAaI1mAAK5xbJgoF0639.png

除了更大的吞吐量,光链路也有助于打造更为密集型的系统。Dally 举例展示了一个未来将搭载 160 多个 GPU 的 NVIDIA DGX 系统模型。

除了硬件方面的革新,还有软件。今天有很多应用都在被 GPU 加速,远超英伟达开发者们更新 CUDA 程序的速度,人们急需一种简化的编程方式。NVIDIA 的研究人员开发了全新编程系统原型 Legate。开发者借助 Legate,即可在任何规模的系统上,运行针对单一 GPU 编写的程序——甚至适用于诸如 Selene 等搭载数千个 GPU 的巨型超级计算机。
 

o4YBAF_cd0aAOgzhAAMvOyYduas306.png

对于大多数人来说,使用 Legate 我们就可以无需更改代码即让 Python 程序无感运行在从 Jetson Nano 到 DGX SuperPOD 等所有包含英伟达 cuda 核心的设备上。开发者所做的是基于原始的 Python 代码,将原本的「import NumPy as NP」更改为「import legate.numpy as NP」就可以了。随后 Legate 库会开始运行,自动完成之后的操作。

pIYBAF_cd1aAH-i9AAJ7yu5qAhY257.png

它的运行速率有多快呢?从上表中可以看到,Legate 的处理速度不仅快于目前效率最高的库,同时在并行化时也能尽量保持住自己的优势。

英伟达也分享了目前国内合作伙伴使用新一代芯片的情况:阿里云、百度智能云、滴滴云、腾讯云的大型数据中心正在迁移至基于英伟达 Ampere 架构的平台。图像识别、语音识别,以及包括计算流体动力学、计算金融学、分子动力学在内的 GPU 加速高性能计算场景的快速增长,催生了更多对云实例的需求。

在硬件方面,新华三、浪潮、联想、宁畅等中国领先系统制造商也在将 A100 GPU 引入到自身产品中,并推出了多款针对不同应用场景的系列产品,为超大型数据中心提供基于 Ampere 架构的加速系统,进而为用户提供兼具超强性能与灵活性的 AI 计算平台。
编辑:hfy

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多