【原】NVIDIA又开大了：96GB显存GPU，以及RTX 40系工作站显卡统统都有

爱极物 2023-03-22 发布于上海

展开全文

NVIDIA有开大了：96GB显存服务器GPU，以及RTX 40系工作站显卡统统都有

就在昨天晚上的GTC 2023上，黄仁勋在接近1小时20分的演讲内容中接连放出大招，包括RTX 40系台式与笔记本工作站，以及针对时下流行的GPT-3、GPT-4优化的超大显存GPU。演讲全过程无尿点密集发布，非常具有NVIDIA风格，现在就让我们化繁为简，挑出一些值得关注的产品。

Ada Lovelace进驻工作站

先说与个人关系比较大的工作站。NVIDIA正式宣布旗下的专业工作站级GPU RTX 5000到RTX 2000的Laptop GPU，同时还针对工作站发布了小尺寸优化的RTX 4000 Ada Generation系列GPU，也就是RTX 4000 SFF。

其中由于GeForce RTX开始承担一部分内容创作功能，Quadro阵营声量减弱，取而代之的是RTX配合数字类的命名规则，让我们先看参数表。

从规格上看，RTX 5000 Ada Generation定位类似于消费笔记本端的GeForce RTX 4090 Laptop GPU，使用了几乎完整的AD103规格，并支持DLSS 3、光线追踪技术以及最新的视频编码硬件，并且得益于台积电4N定制工艺，效率相比上一代提升明显。

不仅如此，RTX 5000还提供比消费级GPU更好的视频编解码支持，比如NVIDIA Proviz可以访问的第二个NVDEC引擎，再比如增强对ECC的支持。

从整体上来看，RTX 5000还拥有16GB GDDR6显存，18Gbps，最大功耗TGP为175W，与消费级笔记本一样，NVIDIA也允许OEM根据笔记本定位对GPU功耗进行调整。

次旗舰的RTX 4000 Ada Generation从规格上基本可以判断是AD104级别，对应GeForce RTX 4080 Laptop GPU，拥有7424个CUDA Core和12GB GDDR6，同时也拥有2个NVENC和2个NVDEC编解码器以及对ECC支持，TGP同样为175W。

RTX 3500 Ada Generation同样为AD104，显存12GB GDDR6，CUDA Core进一步删减到5120个。并且保留2个NVENC和1个NVDEC，TGP 140W。

然后RTX 3000 Ada Generation，与GeForce RTX 4070持平，包含4680个CUDA Core和8GB GDDR6 16Gbps，但仍然提供对ECC的支持，只不过视频编解码只剩下1个NVENC和1个NVDEC，TGP 140W。

最入门的RTX 2000 Ada Generation则相当月GeForce RTX 4060，拥有3072个CUDA Core和8GB GDDR6 16Gbps显存。TGP 140W，可以预见将提供给轻薄型笔记本使用。

小型工作站GPU：RTX 4000 SFF Ada Generation

SFF全称是Small Form Factor，即针对空间有要求的小型化工作站设计，主要是用来取代之前Ampere架构的RTX A2000系列。具体参照如下：

RTX 4000 SFF基于AD 104设计，但GPU频率大幅降低，以匹配半高双槽外形，但仍然拥有6144个CUDA Core和大约1.56GHz的GPU频率，这样设计的好处只需要PCIe的70W供电就能给予GPU性能完全发挥。

同样，这也是一张完整支持NVIDIA Proviz的GPU，并配备了20GB GDDR6 16Gbps显存，支持ECC。同时这块GPU还提供4个miniDP接口，版本为1.4a，2个NVENC和2个NVDEC均可使用。目前从去到的消息来看，RTX 4000 SFF Ada Generation的定价需要1,250美元，妥妥的不便宜。

高达94GB显存的H100 NVL

接下来说说专门针对大型语言模型设计的H100 NVL，也就是诸如chatGPT和它的竞争小伙伴们会用上的GPU。H100 NVL基于H100 PCIe升级而来，仅针对大型语言模型LLM优化，以解决算力密度的问题。事实上H100 NVL以2个GPU为一组，每个GPU搭配96GB HBM3显存，但考量到损耗，实际每个GPU为 94GB，即总体容量为188GB HBM3。嗯，还是非常壮观。

H100 NVL首次将原本H100上的6个HBM对战完全开启，相当于为其提供了额外的显存和带宽，当然代价就是成本特别高昂，但没有关系，诸如微软这样需要抢占AI高地的头部企业而言，都是不差钱的主。

虽然不是每个GPU的96GB都能用完，但性能提升还是相当明显的。显卡总内存带宽提升到了7.8TB/s。2个GPU之间由3个NVLink 4捆绑在一起，在物理结构上H100 NVL和H100 PCIe几乎相同，甚至每个GPU的功耗也为350W到400W之间，当然很大程度上也受限于PCIe AIC的板卡设计对350W功耗散热限制，H100 SXM由于设计更合理，可以轻松功耗表现则可以强劲得多。

但有意思的是，当初与H100 PCIe同时发布的H100 SXM没有在此次升级计划中，原因是基于PCIe的H100能够与现有服务器更快的兼容，帮助客户更快的实现部署。现在LLM布局可以用争分夺秒来形容。