前几天去鹅厂交流,聊起他们在建的几个H20集群,最小的一个集群也超过1.6万张卡,大的可能超过6万张卡。如此大的AI服务器集群,如何建设一张承载网络将海量的GPU联接起来?鹅厂基于RoCE自定义了一个高性能计算网络架构:星脉网络。 Block是最小单元,包括256个GPU;Pod是典型集群规模,包括16-64个Block;1个Cluster最大支持16个Pod,也就是65536-262144个GPU。 网络带宽:传统数据中心通用的100Gbps带宽接入,星脉网络架构中,单个服务器(带有8个GPU)为一个计算节点。每个服务器有8块RoCE网卡,每块网卡400Gbps,因此,每个计算节点可提供3.2T带宽。 网络协议:传统数据中心采用TCP/IP协议,无法满足高性能网络的大带宽、低时延需求。智算网络集群一般采用RDMA协议,主流包括IB(InfiniBand)、RoCE。星脉网络采用的自研端网协同协议TiTa,提供更高的网络通信性能,特别是在满足大规模参数模型训练的需求方面。据鹅厂的宣传,TiTa协议内嵌拥塞控制算法,以实时监控网络状态并进行通信优化,使得数据传输更加流畅且延迟降低。TiTa协议的处理方式如下图所示: 关联文章: |
|
来自: mrjiangkai > 《我的图书馆》