微软Azure在大型语言模型训练中创下规模记录

江海博览 2023-11-10 发布于浙江

展开全文

近期，像微软Copilot、Bing和Azure OpenAI Service等智能服务引领了我们的想象力。这些服务利用生成式人工智能（AI）为各种应用提供支持，如微软Office 365、聊天机器人和搜索引擎等，而这些应用的神奇之处在于大规模语言模型（LLMs）。尽管最新的LLMs已经超越了我们的想象，为我们日常生活中的人工智能应用和发展带来了一代人的变化，但我们才刚刚开始。我们需要创建更强大、更公平、更基础的LLMs，以更准确地处理和呈现信息。

微软如何充分利用LLMs的能力

然而，创建新的LLMs或提高现有模型的准确性并非易事。为了创建和训练更先进的LLMs，需要拥有强大计算能力的超级计算机。在这些超级计算机中，硬件和软件的高效利用至关重要，不能浪费性能。这就是Azure云中超级计算基础设施的规模发挥作用，以及在LLM训练中创下新的规模记录的重要性。

客户需要可靠且高性能的基础设施，以在创纪录的时间内将最复杂的AI用例推向市场。我们的目标是建立最先进的基础设施，满足这些需求。最新的MLPerf™ 3.1训练结果证明了我们对建设高质量和高性能云系统的坚定承诺，以实现在大规模训练LLMs时的无与伦比的效率。我们的想法是使用大规模工作负载来压力测试系统的每个组件，并加速我们的构建过程以实现高质量。

GPT-3 LLM模型及其1750亿个参数在1344个ND H100 v5虚拟机（VMs）上完成训练，仅用了四分钟。这些虚拟机代表了10752个NVIDIA H100 Tensor Core GPUs，通过NVIDIA Quantum-2 InfiniBand网络平台连接。这个训练工作负载使用接近实际的数据集，并从2.4TB的检查点重启，类似于实际的LLM训练场景。工作负载压力测试了H100 GPUs Tensor Cores、直接连接的非易失性内存快速磁盘，以及提供快速通信到GPUs的高带宽内存和跨节点400Gb/s InfiniBand fabric的NVLink互连。

MLCommons的执行董事David Kanter表示：“Azure的提交，是MLPerf训练历史上最大的一次，展示了我们在优化训练规模方面取得的非凡进步。MLCommons的基准测试展示了现代AI基础设施和软件的威力，突显了我们已经取得的持续进步，推动我们走向更强大、更高效的AI系统。”