分享

微软Azure在大型语言模型训练中创下规模记录

 江海博览 2023-11-10 发布于浙江

近期,像微软Copilot、Bing和Azure OpenAI Service等智能服务引领了我们的想象力。这些服务利用生成式人工智能(AI)为各种应用提供支持,如微软Office 365、聊天机器人和搜索引擎等,而这些应用的神奇之处在于大规模语言模型(LLMs)。尽管最新的LLMs已经超越了我们的想象,为我们日常生活中的人工智能应用和发展带来了一代人的变化,但我们才刚刚开始。我们需要创建更强大、更公平、更基础的LLMs,以更准确地处理和呈现信息。

微软Azure在大型语言模型训练中创下规模记录

微软如何充分利用LLMs的能力

然而,创建新的LLMs或提高现有模型的准确性并非易事。为了创建和训练更先进的LLMs,需要拥有强大计算能力的超级计算机。在这些超级计算机中,硬件和软件的高效利用至关重要,不能浪费性能。这就是Azure云中超级计算基础设施的规模发挥作用,以及在LLM训练中创下新的规模记录的重要性。

客户需要可靠且高性能的基础设施,以在创纪录的时间内将最复杂的AI用例推向市场。我们的目标是建立最先进的基础设施,满足这些需求。最新的MLPerf™ 3.1训练结果证明了我们对建设高质量和高性能云系统的坚定承诺,以实现在大规模训练LLMs时的无与伦比的效率。我们的想法是使用大规模工作负载来压力测试系统的每个组件,并加速我们的构建过程以实现高质量。

GPT-3 LLM模型及其1750亿个参数在1344个ND H100 v5虚拟机(VMs)上完成训练,仅用了四分钟。这些虚拟机代表了10752个NVIDIA H100 Tensor Core GPUs,通过NVIDIA Quantum-2 InfiniBand网络平台连接。这个训练工作负载使用接近实际的数据集,并从2.4TB的检查点重启,类似于实际的LLM训练场景。工作负载压力测试了H100 GPUs Tensor Cores、直接连接的非易失性内存快速磁盘,以及提供快速通信到GPUs的高带宽内存和跨节点400Gb/s InfiniBand fabric的NVLink互连。

MLCommons的执行董事David Kanter表示:“Azure的提交,是MLPerf训练历史上最大的一次,展示了我们在优化训练规模方面取得的非凡进步。MLCommons的基准测试展示了现代AI基础设施和软件的威力,突显了我们已经取得的持续进步,推动我们走向更强大、更高效的AI系统。”

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多