分享

简单说说算力网络:鹅厂如何构建万卡集群?

 mrjiangkai 2024-05-13 发布于上海

前几天去鹅厂交流,聊起他们在建的几个H20集群,最小的一个集群也超过1.6万张卡,大的可能超过6万张卡。如此大的AI服务器集群,如何建设一张承载网络将海量的GPU联接起来?鹅厂基于RoCE自定义了一个高性能计算网络架构:星脉网络

网络规模基本都是10000个GPU起步,在节点增加时,集群算力尽量线性提升,不能损失太多星脉网络采用无阻塞胖树(Fat-Tree)架构,单集群规模支持1.6万个节点(超过10万个GPU)。整体架构分为Block-Pod-Cluster三级,如下图所示:

图片

Block是最小单元,包括256个GPU;Pod是典型集群规模,包括16-64个Block;1个Cluster最大支持16个Pod,也就是65536-262144个GPU。

网络带宽传统数据中心通用的100Gbps带宽接入,星脉网络架构中,单个服务器(带有8个GPU)为一个计算节点。每个服务器有8块RoCE网卡,每块网卡400Gbps,因此,每个计算节点可提供3.2T带宽。

网络协议传统数据中心采用TCP/IP协议,无法满足高性能网络的大带宽、低时延需求。智算网络集群一般采用RDMA协议,主流包括IB(InfiniBand)RoCE星脉网络采用的自研端网协同协议TiTa,提供更高的网络通信性能,特别是在满足大规模参数模型训练的需求方面。据鹅厂的宣传,TiTa协议内嵌拥塞控制算法,以实时监控网络状态并进行通信优化,使得数据传输更加流畅且延迟降低。TiTa协议的处理方式如下图所示:

图片

前段时间,腾讯云发布的新一代HCC高性能计算集群,正是基于星脉网络据说,GPU利用率提升40%、通信时延降低40%  : )

关联文章:

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多