分享

NVIDIA GA100 GPU 正式发布, 6912个 CUDA

 22DIY 2020-05-25

NVIDIA 在 GTC 2020 线上演说正式发布了 GA100 GPU,基于新一代 Ampere 的 A100 加速计算卡和基于 A100 加速卡的新一代 DGX A100 AI 计算系统。

完整版的GA100核心架构图如下:

可以看到完整版的 GA100 拥有128组 SM,每组 SM 中拥有4个最新第三代 Tensor Cores,仍然是64个 CUDA Cores / SM 的结构。所以完整的 GA100 拥有8192个 CUDA 核心和512个第三代 Tensor Cores,因为它是纯计算领域核心取向,所以没有 RT Core,可以说是 Volta 架构的直属继承者,面积高达 826mm2,比 GV100 核心还要大,这还是用上了台积电的 7nm制程。

A100 计算卡上面使用的 GA100 核心并不完整,被屏蔽了20组 SM,所以它的规模是108组 SM,6912个 CUDA 核心外加432个 Tensor Cores,可以提供约19.5 TFLOPS 单精度计算能力和9.7 TFLOPS 的双精度计算能力。

Tensor Cores 在 Ampere 架构上面进化到了最新的第三代,NVIDIA 特别引入了全新的Tensor Float(TF32)数据格式,可以让 Tensor Cores 在没有改动代码的情况下提高20倍的单精度性能,另外新的 Tensor Cores 加入了针对双精度浮点的支持,可以在诸多场景中发挥出更大的作用。

GA100 上面还引入了新的多实例 GPU 功能,该功能支持将单 GPU 的计算资源切分成最多7块,多任务也好,虚拟化也好,这个特性对资料数据中心是相当友善。

另外,用于 GPU 之间互联的 NVLink 技术升级到了第三代,能够提供最高600GB/s的数据传输速度,同时 GPU 的 PCIe 支持升级到了4.0版本,最高数据传输速度提升到了64GB/s。A100 计算卡使用了40GB的 HBM2 记忆体,能够提供高达1.6TB/s的频宽。

通过架构和制程的升级,A100 计算卡的性能较上一代 V100 有相当的进步,各种官方数据中,它相比 V100 都是成几倍的成长。

基于这张计算卡构建的 DGX A100 系统,则是高达 5PFLOPS 的计算能力(半精度)。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多