分享

超万卡集群的新型智算技术

 mrjiangkai 2024-05-14 发布于上海

图片

各位看官,小生三体智人,这厢有礼了,是一名新生代IT民工。

本文内容摘自中国移动、中移智库《面向超万卡集群的新型智算技术白皮书》

获取方式:关注“芯生代”公众号,后台回复“万卡集群”,即可免费获得。

自ChatGPT发布以来,科技界掀起了一场大模型的竞争热潮。数据成为新生产要素,算力成为新基础能源,大模型则成为新生产工具,各行各业从 “+Al” 向 Al+” 的转变己势不可挡。

随着模型参数量从千亿迈向万亿,模型能力更加泛化,大模型对底层算力的诉求进一步升级,超万卡集群成为这一轮大模型基建军备竞赛的标配。

超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对。然而,如何在超万卡集群中实现高效的训练,并长期保持训练过程的稳定性,是将大模型训练扩展到数万张GPU卡上所要面临的双重挑战。超万卡集群运行过程中涉及到集群有效算力发挥、超大规模互联网络稳定性保障、 故障的快速排查和修复等关键问题,目前都是业内关注的焦点。

超万卡集群的总体架构由四层一域构成:

图片

面向超万卡集群的新型智算总体架构设计

  • 机房配套层:匹配超万卡集群高密集约的建设模式, 机房配套设施需重点考虑高效供电、 制;令设计、 楼板承重和走线架设计等。

  • 基础设施层:算、 网、 存三大硬件资源、有机配合, 达成集群算力最优。面向算力,CPU、 GPU、 DPU三大芯片协同, 最大化发挥集群计算能力;面向网络, 参数面、数据面、 业务面、 管理面独立组网, 参数面/数据面采用大带宽RoCE交换和二层无阻塞CLOS组网满足大象流, 支持参数面负载均衡和多租安全隔离;面向存储, 引入融合存储和分级存储支持无阻塞数据并发访问。

  • 智算平台层:采用K8s, 对上提供以裸金属和容器为主的集群资源。在对集群资源进行纳营的基础上,进一步实现大规模集群的自动化精准故障管理, 以达成高效训练、 长稳运行的目标。面向未来考虑集群中引入异厂家GPU 芯片, 为避免智算碎片化问题, 引入算力原生,实现应用跨架构迁移和异构混训等平台能力。

  • 应用使能层:包括模型训练框架和开发工具集两个模块,一方面基于现有开源框架能力,进行分布式训练调优, 面向未来开展自动分布式训练框架设计,积累经验,实现对通信和计算重叠的优化、算子融合以及网络性能的高效调优;另一方面,研发沉淀数据服务、 模型部署开发等工具集,逐步实现由人工处理到基于工具对外提供自动化模型研发能力的转变。

  • 智算运营和运维域:支持超万卡集群高效集合通信和调度。支持按租户灵活资源发放和任务调度, 支持多任务并行训练。 

超万卡集群关键技术主要包括5个方面

1. 集群高能效计算技术
  • 单张芯片能力:单个GPU芯片的计算性能和GPU芯片显存的访问能力。
    超节点计算能力:1)加速推进超越单机8卡超节点形态服务器;2)加快引入面向Scale-up的Switch芯片;3)优化GPU卡间互联协议以实现通信效率跃升;
    多计算能力融合:1)计算引擎卸载加速 I/0设备的数据路径与控制路径;2)存储引擎在 DPU 上实现存储后端接口;3)网络引擎将虚拟交换机卸载至 DPU ,降低多机多卡间端到端通信时延;4)安全引擎通过信任根机制进行安全防护;5)管控引擎屏蔽裸金属、 虚拟机和容器等算力单元的形态差异。
    图片
    在服务器内部引入Switch芯片示例
  • 极致算力能效比:面对高性能计算芯片功率密度急剧上升的现状,需要通过制冷系统 和GPU芯片两方面进行优化。一个液冷机柜可容纳多台液冷GPU训练、服务器,相比传统风冷机丰巨大幅提升空间利用率。

2. 高性能融合存储技术

  • 多协议融合:超万卡集群融合存储底座承载Al全流程业务数据处理,兼容Al金流程工具链,所需的NFS、S3和并行客户端POSIX 等协议。
  • 集群高吞吐性能:基于全局文件系统技术,从闪存密度、 数据面网络、 并行客户端和对等通信机制等多个维度全面提升存储系统性能,
  • 高效分级管理:超万卡集群数据量巨大,其中大部分是温冷数据 ,统筹考虑性能和成本因素,规划普通性能、高性能两类存储集群。
3. 大规模机间高可靠网络技术
  • 大规模组网:参数面网络推荐采用Spine-Leaf两层组网或胖树(Fat-Tree)组网。
  • 零丢标无损网络:通常采用RoCEv2 协议与 DCQCN拥塞控制机制相互配合实现零丢包无损网络。

图片

  • 高吞吐网络:使用端口级负载均衡技术或算网协同负载均衡技术代替传统的ECMP。
  • 高可靠网络:DPFR技术可以做到毫秒级收敛,提供基于数据面的本地快收敛或远程快收敛。
4. 高容错高效能平台技术
  • 断点续训高容错能力:用 checkpoint多级存储的方式,构建基于更高10性能的内存介质构建存储系统。
  • 分布式并行计算优化:支持加速训练技术,如自动并行方案生成、 自动触发计算图优化,数据流水线管理等。
  • 超万卡集群智能管控:具备Al作业路径可视功能、环境健康检查功能、Al训练作业故障诊断、集群环境管理、 集群资源管理、服务器管理以及监控分析等能力。
5. 新型智算中心机房设计
  • 高效制冷:可推动扩大解辑型冷板液冷或单相浸没液冷技术。

  • 弹性供电:采用末端小母线供电的机柜供电方案。

  • 敏捷部署:预制模块化建造技术,缩短工程交付周期。

  • 绿色能源应用:因地制宣部署分布式光伏、 凤力发电等系统。

  • 智能化运维管理:借助大数据、 Al、 数字孪生等技术构建智能运维管理体系。

申明:本文内容摘自中国移动、中移智库《面向超万卡集群的新型智算技术白皮书》

图片

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多