【原】Nvidia发布Tesla V100计算卡：Volta架构，恐怖的5120个CUDA

超能网 2020-10-28

展开全文

昨晚NVIDIA CEO黄仁勋在GTC 2017大会上发布了基于Volta架构的旗舰计算卡 Tesla V100，为了应付日益庞大的AI以及高性能计算需求，Tesla V100拥有超越上一代的5120个CUDA单元，并且增加能提高深度计算性能的Tensor单元，因此晶体管数目足足有210亿之多，核心频率为1455MHz，16GB HBM2显存，浮点性能更是达到单精度浮点15 TFLOPS，双精度浮点7.5 TFLOPS。

Nvidia发布Tesla V100计算卡：Volta架构，恐怖的5120个CUDA

对比上一代Tesla P100，Tesla V100最大变化就是增加了与深度学习高度相关的Tensor单元，Tensor性能可以达到120 TFLOPS；而且CUDA数目暴增，由3584个增至5120个，增长了42%；全新的台积电12nm FFN工艺制造有史以来最大的815mm2 GPU核心（16nm的第四代改良版本，更高的晶体管密度，更低的功耗；管中窥豹，估计Volta游戏卡都是使用这个工艺了）；虽然依然是4096bit 16GB的HBM2显存，但是带宽已经Tesla P100 720GB/s提升至900GB/s水平。

除了CUDA单元数量增加，Tesla V100为了更好提升高性能计算，继续增加二级缓存及寄存器大小，L2缓存由Tesla P100的4096KB增加到了6144KB，每组SM单元的寄存器文件大小总数从14336KB增加到了20480KB。

NVIDIA计算卡专享的NVLink是一种高带宽的互联技术，能够在CPU-GPU和GPU-GPU之间实现超高速的数据传输。诞生之初就获得传统PCIe 3.0 5-12倍的数据传输速度，还能大幅提升应用程序的处理速度。现在NVIDIA将其提升至300GB/s水平，当然了这个技术主要还是用在高性能计算上，估计不会下放至游戏卡上。

Tesla V100架构：

6组GPC单元，每组GPC单元由14组SM单元构成，满血版应该是6 x 14 = 84组SM单元，但Tesla V100只有80组，每组SM单元64个CUDA单元，因此共同构成80 x 64 = 5120个CUDA单元。每组SM单元中，FP32：FP64：Tensor单元比例为8:4:1。

这个核弹太厉害了，CUDA数不过来，密密麻麻

那么问题来了，强大如斯的Tesla V100究竟用在哪里？NVIDIA表示将会率先更新用于深度学习超算DGX-1上，内部同样集成了8张Tesla V100，提供960 TFLOPS Tensor深度计算性能，能够在8小时完成TITAN X需时8天的计算量，极大地节约科研人员等待深度计算结果时间。就当然啦，拥有8张真·核弹的新DGX-1售价并不便宜，149000美元，折合人民币102万元。对于这颗威力十足的核弹我们暂时还是看看就好，毕竟不是面对消费级市场的，但对1080ti感兴趣的用户的话，可以关注下小超哥（ID：9501417）朋友圈，近期将为你带来它们的横评。