近期,Mata发布了全新的 Llama3 模型,此版本是在 15 万亿个 Token 上预训练的语言模型,包括 8B 和 70B 两种参数规模,是 Llama 2 的重大升级。Llama3预训练模型和指令微调模型在 8B 和 70B 参数规模中表现卓越,成为当前最佳开源模型。相信大家对 GPU 已经不陌生了,它的主要作用是帮助运行训练和部署人工智能算法所涉及的无数计算。现在市面上繁多的 GPU 型号令人眼花缭乱,目前NVIDIA的GPU产品主要有 GeForce、Data Center/Tesla 和 RTX/Quadro 三大系列,如下图所示,虽然,从硬件角度来看,它们都采用同样的架构设计,也都支持用作通用计算(GPGPU),但因为它们分别面向的目标市场以及产品定位的不同,这三个系列的GPU在软硬件的设计和支持上都存在许多差异。其中,GeForce为消费级显卡,而Tesla和Quadro归类为专业级显卡。GeForce主要应用于游戏娱乐领域,而Quadro主要用于专业可视化设计和创作,Tesla更偏重于深度学习、人工智能和高性能计算。 我们今天就来看看针对AI和高性能计算的Data Center/Tesla系列常见的 A100、A800、H100、H800、H20 、V100这几款 GPU 卡有什么区别呢? GPU 的核心架构及参数
在了解了 GPU 的这些核心参数之后,我们再来看看 NVIDIA GPU 架构的演进。 V100、A100、A800、H100参数对比我们主营高性能计算和深度学习设计的8卡H100/800全新服务器。 欢迎扫描二维码,添加微信咨询~ V100 与 A100 / A800 的对比相较于V100,A100 采用全新的 Ampere 架构。它拥有高达 6912 个 CUDA 核心和 40GB 的高速 HBM2 显存。A100 还支持第二代NVLink技术,实现快速的 GPU 到 GPU 通信,提升大型模型的训练速度。A100 增加了功能强大的新第三代 Tensor Core,同时增加了对 DL 和 HPC 数据类型的全面支持,以及新的稀疏功能,可将吞吐量进一步翻倍。 A100 中的 TF32 Tensor Core 运算提供了一种在 DL 框架和 HPC 中加速 FP32 输入/输出数据的简单路径,其运行速度比 V100 FP32 FMA 运算快 10 倍,或者在稀疏性的情况下快 20 倍。对于 FP 16/FP 32 混合精度 DL,A100 的性能是 V100 的2.5倍,稀疏性的情况下提高到 5 倍。 在跑 AI 模型时,如果用 PyTorch 框架,相比上一代 V100 芯片,A100 在 BERT 模型的训练上性能提升 6 倍,BERT 推断时性能提升 7 倍。 A800是针对中国特供版(低配版),相对于A100,主要区别为A100的Nvlink最大总网络带宽为600GB/s,而A800的Nvlink最大总网络带宽为400GB/s。 A100 与 H100 / H800的对比NVIDIA H100 采用 NVIDIA Hopper GPU 架构,使 NVIDIA 数据中心平台的加速计算性能再次实现了重大飞跃。H100 采用专为 NVIDIA 定制的 TSMC 4N 工艺制造,拥有 800 亿个 晶体管,并包含多项架构改进。 H100 是 NVIDIA 的第 9 代数据中心 GPU,旨在为大规模 AI 和 HPC 实现相比于上一代 NVIDIA A100 Tensor Core GPU 数量级的性能飞跃。H100 延续了 A100 的主要设计重点,可提升 AI 和 HPC 工作负载的强大扩展能力,并显著提升架构效率。H100 SM 基于 NVIDIA A100 Tensor Core GPU SM 架构而构建。由于引入了 FP8,与 A100 相比,H100 SM 将每 SM 浮点计算能力峰值提升了 4 倍,并且对于之前所有的 Tensor Core 和 FP32 / FP64 数据类型,将各个时钟频率下的原始 SM 计算能力增加了一倍。 与上一代 A100 相比,采用 Hopper 的 FP8 Tensor Core 的新 Transformer 引擎使大型语言模型的 AI 训练速度提升 9 倍,AI 推理速度提升 30 倍。针对用于基因组学和蛋白质测序的 Smith-Waterman 算法,Hopper 的新 DPX 指令可将其处理速度提升 7 倍。 H800是针对中国特供版(低配版),相对于H100,主要区别为H100的Nvlink最大总网络带宽为900GB/s,而A800的Nvlink最大总网络带宽为400GB/s。 H20为英伟达针对中国特供的高端显卡。英伟达 H20拥有高配的显存、很高的卡间互联带宽和有竞争力的FP8算力。Nvidia H20是从Nvidia H200裁剪而来的,保留了900GB/s的卡间高速互联带宽(NVLink4.0和NVSwitch3.0),并支持PCIe Gen5(128GB/s双向带宽)。PCIe Gen5连接支持400GbE集群网络,有利于组建超大规模GPU集群和保持较高的集群线性加速比。在算力方面,H20峰值算力只有H200峰值算力的14.96%(~15%),H20峰值算力相对较低(被严重裁剪)。在L2 Cache配置方面,H20配置了60MB的L2 Cache,比H200有更大的L2 Cache。Nvidia H20拥有96GB的HBM3显存,显存带宽高达4TB/s。虽然Nvidia H20的显存配置相对于H200有所裁剪,但是H20的显存配置相对于国产AI芯片还是有明显优势的。 H20与A800、H800的比较
为什么选择我们的 8 卡H100服务器呢?
|
|