【原】英伟达架构师透露B200新细节，特挑1200W TDP，平台总功耗达2700W

AMP实验室 2024-03-23 发布于广东

展开全文

白皮书还是没出

和上次Hopper架构不同，这次线下GTC大会公布了Blackwell架构后，英伟达官方网站迟迟没有带来Blackwell架构的白皮书，这也使得不少感兴趣的人士没法深入了解英伟达的设计。不过英伟达架构师在会上主动分享了一些进一步的细节，他们表示Blackwell架构和Hopper完全不同，且不止于此。

Jonah Albe，英伟达高级副总裁兼GPU架构师和Ian Buck，英伟达超大规模与HPC副总裁在GTC会议上提到了架构的新细节。首先，Blackwell采用了第二代Transformer Engine技术，增加了FP4和FP6两种计算格式。新的计算格式和优化使Blackwell成为了地球上最快的AI芯片，但是这对于数据中心本身所需的FP64算力造成了影响。

相比于上一代Hopper，其FP64算力“仅”增加了32%。这和英伟达的策略有关，Blackwell面向的是AI市场，而从人工智能需求性能来看，FP64并不那么重要，精度越低，芯片推理和训练能力就越快。

而两位工程师也谈到了英伟达转向MCM小芯片路线的原因，他们提到英伟达选择MCM其实更重要的是为了提升整体性能，良率反而是其次。据说，即使采用了双芯片封装的MCM，CUDA生态在两个GPU和不同架构方面的表现依然良好，无需后续程序员进行重大更改。

Blackwell GPU和与之对应的平台变体展现出了相当程度的混乱，不过现在能够勉强理清。英伟达总共发布了三种Blackwell GPU变体，其中旗舰级便是GB200 Superchip，它是全规格B200 GPU组成的旗舰平台，硬件上则由两颗B200 GPU和一颗Grace CPU封装，最终该平台达到了1200W*2+300W CPU/IO总计2700W的超高功率。

之后则是在DGX和HGX小型超算节点平台中使用的B200，它的TDP优化到1000W左右，但是也提供了近90%的性能。最后则是Blackwell B100，TDP为700W，但是能够提供B200（1200W）70%的性能。以上，B100、B200(1000W)、B200(1200W)本质上都是同一种硬件，皆由两片Blackwell GPU Die芯片封装而成，不同之处便在于体质和TDP。

目前Blackwell 均需要成套购买英伟达的平台，而在会议上英伟达也已经确定该架构将进入消费级RTX和AI平台，所以Blackwell后续或将推出PCIe或者SXM形态变体。得益于4NP成熟工艺和cuLitho光刻计算库，英伟达承诺Blackwell 配套平台将于今年晚些时候开始向主要客户发货。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： AMP实验室 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多