如何为LLM训练选用合适的GPU？英伟达主流加速卡 A100/A800、H100/H800、H20 详细对比

yi321yi 2024-04-27 发布于江苏

展开全文

近期，Mata发布了全新的 Llama3 模型，此版本是在 15 万亿个 Token 上预训练的语言模型，包括 8B 和 70B 两种参数规模，是 Llama 2 的重大升级。Llama3预训练模型和指令微调模型在 8B 和 70B 参数规模中表现卓越，成为当前最佳开源模型。

然而，在 AIGC 的种种智能表现背后，均来自于堪称天文数字的算力支持。如Meta 近日公布了两个 AI 算力集群，总共拥有 49152 个 GPU，每个集群都装配了英伟达 H100 GPU，并在硬件、网络、存储、设计、性能和软件等方面进行了定制优化。

相信大家对 GPU 已经不陌生了，它的主要作用是帮助运行训练和部署人工智能算法所涉及的无数计算。现在市面上繁多的 GPU 型号令人眼花缭乱，目前NVIDIA的GPU产品主要有 GeForce、Data Center/Tesla 和 RTX/Quadro 三大系列，如下图所示，虽然，从硬件角度来看，它们都采用同样的架构设计，也都支持用作通用计算(GPGPU)，但因为它们分别面向的目标市场以及产品定位的不同，这三个系列的GPU在软硬件的设计和支持上都存在许多差异。其中，GeForce为消费级显卡，而Tesla和Quadro归类为专业级显卡。GeForce主要应用于游戏娱乐领域，而Quadro主要用于专业可视化设计和创作，Tesla更偏重于深度学习、人工智能和高性能计算。

我们今天就来看看针对AI和高性能计算的Data Center/Tesla系列常见的 A100、A800、H100、H800、H20 、V100这几款 GPU 卡有什么区别呢？

GPU 的核心架构及参数

在了解 V100、A100、H100 这几款 GPU 的区别之前，我们先来简单了解下 NVIDIA GPU 的核心参数，这样能够更好地帮助我们了解这些 GPU 的差别和各自的优势。

CUDA Core：CUDA Core 是 NVIDIA GPU上的计算核心单元，用于执行通用的并行计算任务，是最常看到的核心类型。NVIDIA 通常用最小的运算单元表示自己的运算能力，CUDA Core 指的是一个执行基础运算的处理元件，我们所说的 CUDA Core 数量，通常对应的是 FP32 计算单元的数量。
Tensor Core：Tensor Core 是 NVIDIA Volta 架构及其后续架构（如Ampere架构）中引入的一种特殊计算单元。它们专门用于深度学习任务中的张量计算，如矩阵乘法和卷积运算。Tensor Core 核心特别大，通常与深度学习框架（如 TensorFlow 和 PyTorch）相结合使用，它可以把整个矩阵都载入寄存器中批量运算，实现十几倍的效率提升。
RT Core：RT Core 是 NVIDIA 的专用硬件单元，主要用于加速光线追踪计算。正常数据中心级的 GPU 核心是没有 RT Core 的，主要是消费级显卡才为光线追踪运算添加了 RTCores。RT Core 主要用于游戏开发、电影制作和虚拟现实等需要实时渲染的领域。

在了解了 GPU 的这些核心参数之后，我们再来看看 NVIDIA GPU 架构的演进。

V100、A100、A800、H100参数对比

我们主营高性能计算和深度学习设计的8卡H100/800全新服务器。

欢迎扫描二维码，添加微信咨询~

V100 与 A100 / A800 的对比

相较于V100,A100 采用全新的 Ampere 架构。它拥有高达 6912 个 CUDA 核心和 40GB 的高速 HBM2 显存。A100 还支持第二代NVLink技术，实现快速的 GPU 到 GPU 通信，提升大型模型的训练速度。A100 增加了功能强大的新第三代 Tensor Core，同时增加了对 DL 和 HPC 数据类型的全面支持，以及新的稀疏功能，可将吞吐量进一步翻倍。

A100 中的 TF32 Tensor Core 运算提供了一种在 DL 框架和 HPC 中加速 FP32 输入/输出数据的简单路径，其运行速度比 V100 FP32 FMA 运算快 10 倍，或者在稀疏性的情况下快 20 倍。对于 FP 16/FP 32 混合精度 DL，A100 的性能是 V100 的2.5倍，稀疏性的情况下提高到 5 倍。

在跑 AI 模型时，如果用 PyTorch 框架，相比上一代 V100 芯片，A100 在 BERT 模型的训练上性能提升 6 倍，BERT 推断时性能提升 7 倍。

A800是针对中国特供版（低配版），相对于A100，主要区别为A100的Nvlink最大总网络带宽为600GB/s，而A800的Nvlink最大总网络带宽为400GB/s。

A100 与 H100 / H800的对比

NVIDIA H100 采用 NVIDIA Hopper GPU 架构，使 NVIDIA 数据中心平台的加速计算性能再次实现了重大飞跃。H100 采用专为 NVIDIA 定制的 TSMC 4N 工艺制造，拥有 800 亿个晶体管，并包含多项架构改进。

H100 是 NVIDIA 的第 9 代数据中心 GPU，旨在为大规模 AI 和 HPC 实现相比于上一代 NVIDIA A100 Tensor Core GPU 数量级的性能飞跃。H100 延续了 A100 的主要设计重点，可提升 AI 和 HPC 工作负载的强大扩展能力，并显著提升架构效率。H100 SM 基于 NVIDIA A100 Tensor Core GPU SM 架构而构建。由于引入了 FP8，与 A100 相比，H100 SM 将每 SM 浮点计算能力峰值提升了 4 倍，并且对于之前所有的 Tensor Core 和 FP32 / FP64 数据类型，将各个时钟频率下的原始 SM 计算能力增加了一倍。

与上一代 A100 相比，采用 Hopper 的 FP8 Tensor Core 的新 Transformer 引擎使大型语言模型的 AI 训练速度提升 9 倍，AI 推理速度提升 30 倍。针对用于基因组学和蛋白质测序的 Smith-Waterman 算法，Hopper 的新 DPX 指令可将其处理速度提升 7 倍。

H800是针对中国特供版（低配版），相对于H100，主要区别为H100的Nvlink最大总网络带宽为900GB/s，而A800的Nvlink最大总网络带宽为400GB/s。

H20

H20为英伟达针对中国特供的高端显卡。英伟达 H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力。Nvidia H20是从Nvidia H200裁剪而来的，保留了900GB/s的卡间高速互联带宽（NVLink4.0和NVSwitch3.0），并支持PCIe Gen5（128GB/s双向带宽）。PCIe Gen5连接支持400GbE集群网络，有利于组建超大规模GPU集群和保持较高的集群线性加速比。在算力方面，H20峰值算力只有H200峰值算力的14.96%（～15%），H20峰值算力相对较低（被严重裁剪）。在L2 Cache配置方面，H20配置了60MB的L2 Cache，比H200有更大的L2 Cache。Nvidia H20拥有96GB的HBM3显存，显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪，但是H20的显存配置相对于国产AI芯片还是有明显优势的。

H20与A800、H800的比较

当前国内大模型厂商的训练算力主要集中在Nvidia A800和H800，与现有的算力资源相比，Nvidia H20也有其独特的优势。例如，相较于Nvidia A800，Nvidia H20在FP8算力、显存配置、卡间互联带宽、PCIe连接等方面都有显著优势；相较于Nvidia H800，Nvidia H20在L2 Cache、显存配置、卡间互联带宽等方面都有显著优势。