超万卡集群的新型智算技术

mrjiangkai 2024-05-14 发布于上海

展开全文

各位看官，小生三体智人，这厢有礼了，是一名新生代IT民工。

本文内容摘自中国移动、中移智库《面向超万卡集群的新型智算技术白皮书》。

获取方式：关注“芯生代”公众号，后台回复“万卡集群”，即可免费获得。

自ChatGPT发布以来，科技界掀起了一场大模型的竞争热潮。数据成为新生产要素，算力成为新基础能源，大模型则成为新生产工具，各行各业从 “＋Al” 向 Al＋” 的转变己势不可挡。

随着模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，超万卡集群成为这一轮大模型基建军备竞赛的标配。

超万卡集群将有助于压缩大模型训练时间，实现模型能力的快速迭代，并及时对市场趋势作出应对。然而，如何在超万卡集群中实现高效的训练，并长期保持训练过程的稳定性，是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。超万卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、故障的快速排查和修复等关键问题，目前都是业内关注的焦点。

超万卡集群的总体架构由四层一域构成：

面向超万卡集群的新型智算总体架构设计

机房配套层：匹配超万卡集群高密集约的建设模式，机房配套设施需重点考虑高效供电、制；令设计、楼板承重和走线架设计等。
基础设施层：算、网、存三大硬件资源、有机配合，达成集群算力最优。面向算力，CPU、 GPU、 DPU三大芯片协同，最大化发挥集群计算能力；面向网络，参数面、数据面、业务面、管理面独立组网，参数面／数据面采用大带宽RoCE交换和二层无阻塞CLOS组网满足大象流，支持参数面负载均衡和多租安全隔离；面向存储，引入融合存储和分级存储支持无阻塞数据并发访问。
智算平台层：采用K8s，对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳营的基础上，进一步实现大规模集群的自动化精准故障管理，以达成高效训练、长稳运行的目标。面向未来考虑集群中引入异厂家GPU 芯片，为避免智算碎片化问题，引入算力原生，实现应用跨架构迁移和异构混训等平台能力。
应用使能层：包括模型训练框架和开发工具集两个模块，一方面基于现有开源框架能力，进行分布式训练调优，面向未来开展自动分布式训练框架设计，积累经验，实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优；另一方面，研发沉淀数据服务、模型部署开发等工具集，逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。
智算运营和运维域：支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度，支持多任务并行训练。

超万卡集群关键技术主要包括5个方面：

1. 集群高能效计算技术：

单张芯片能力：单个GPU芯片的计算性能和GPU芯片显存的访问能力。
超节点计算能力：1）加速推进超越单机8卡的超节点形态服务器；2）加快引入面向Scale-up的Switch芯片；3）优化GPU卡间互联协议以实现通信效率跃升；
多计算能力融合：1）计算引擎卸载加速 I/0设备的数据路径与控制路径；2）存储引擎在 DPU 上实现存储后端接口；3）网络引擎将虚拟交换机卸载至 DPU ，降低多机多卡间端到端通信时延；4）安全引擎通过信任根机制进行安全防护；5）管控引擎屏蔽裸金属、虚拟机和容器等算力单元的形态差异。
在服务器内部引入Switch芯片示例
极致算力能效比：面对高性能计算芯片功率密度急剧上升的现状，需要通过制冷系统和GPU芯片两方面进行优化。一个液冷机柜可容纳多台液冷GPU训练、服务器，相比传统风冷机丰巨大幅提升空间利用率。