简单说说算力网络：鹅厂如何构建万卡集群？

mrjiangkai 2024-05-13 发布于上海

展开全文

前几天去鹅厂交流，聊起他们在建的几个H20集群，最小的一个集群也超过1.6万张卡，大的可能超过6万张卡。如此大的AI服务器集群，如何建设一张承载网络将海量的GPU联接起来？鹅厂基于RoCE自定义了一个高性能计算网络架构：星脉网络。

网络规模：基本都是10000个GPU起步，在节点增加时，集群算力尽量线性提升，不能损失太多。星脉网络采用无阻塞胖树(Fat-Tree)架构，单集群规模支持1.6万个节点（超过10万个GPU）。整体架构分为Block-Pod-Cluster三级，如下图所示：

Block是最小单元，包括256个GPU；Pod是典型集群规模，包括16-64个Block；1个Cluster最大支持16个Pod，也就是65536-262144个GPU。

网络带宽：传统数据中心通用的100Gbps带宽接入，星脉网络架构中，单个服务器（带有8个GPU）为一个计算节点。每个服务器有8块RoCE网卡，每块网卡400Gbps，因此，每个计算节点可提供3.2T带宽。

网络协议：传统数据中心采用TCP/IP协议，无法满足高性能网络的大带宽、低时延需求。智算网络集群一般采用RDMA协议，主流包括IB（InfiniBand）、RoCE。星脉网络采用的自研端网协同协议TiTa，提供更高的网络通信性能，特别是在满足大规模参数模型训练的需求方面。据鹅厂的宣传，TiTa协议内嵌拥塞控制算法，以实时监控网络状态并进行通信优化，使得数据传输更加流畅且延迟降低。TiTa协议的处理方式如下图所示：