分享

英伟达架构师透露B200新细节,特挑1200W TDP,平台总功耗达2700W

 AMP实验室 2024-03-23 发布于广东


白皮书还是没出
和上次Hopper架构不同,这次线下GTC大会公布了Blackwell架构后,英伟达官方网站迟迟没有带来Blackwell架构的白皮书,这也使得不少感兴趣的人士没法深入了解英伟达的设计。不过英伟达架构师在会上主动分享了一些进一步的细节,他们表示Blackwell架构和Hopper完全不同,且不止于此。
Jonah Albe,英伟达高级副总裁兼GPU架构师和Ian Buck,英伟达超大规模与HPC副总裁在GTC会议上提到了架构的新细节。首先,Blackwell采用了第二代Transformer Engine技术,增加了FP4和FP6两种计算格式。新的计算格式和优化使Blackwell成为了地球上最快的AI芯片,但是这对于数据中心本身所需的FP64算力造成了影响。

相比于上一代Hopper,其FP64算力“仅”增加了32%。这和英伟达的策略有关,Blackwell面向的是AI市场,而从人工智能需求性能来看,FP64并不那么重要,精度越低,芯片推理和训练能力就越快。
而两位工程师也谈到了英伟达转向MCM小芯片路线的原因,他们提到英伟达选择MCM其实更重要的是为了提升整体性能,良率反而是其次。据说,即使采用了双芯片封装的MCM,CUDA生态在两个GPU和不同架构方面的表现依然良好,无需后续程序员进行重大更改。
Blackwell GPU和与之对应的平台变体展现出了相当程度的混乱,不过现在能够勉强理清。英伟达总共发布了三种Blackwell GPU变体,其中旗舰级便是GB200 Superchip,它是全规格B200 GPU组成的旗舰平台,硬件上则由两颗B200 GPU和一颗Grace CPU封装,最终该平台达到了1200W*2+300W CPU/IO总计2700W的超高功率。
之后则是在DGX和HGX小型超算节点平台中使用的B200,它的TDP优化到1000W左右,但是也提供了近90%的性能。最后则是Blackwell B100,TDP为700W,但是能够提供B200(1200W)70%的性能。以上,B100、B200(1000W)、B200(1200W)本质上都是同一种硬件,皆由两片Blackwell GPU Die芯片封装而成,不同之处便在于体质和TDP。
目前Blackwell 均需要成套购买英伟达的平台,而在会议上英伟达也已经确定该架构将进入消费级RTX和AI平台,所以Blackwell后续或将推出PCIe或者SXM形态变体。得益于4NP成熟工艺和cuLitho光刻计算库,英伟达承诺Blackwell 配套平台将于今年晚些时候开始向主要客户发货。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多