分享

简单说说算力网络:集群互联,选RoCE还是InfiniBand?

 汉无为 2024-02-21 发布于广东

前段时间写的文章《简单说说算力网络:什么是InfiniBand?》说到,AI服务器的数据通信涉及到3个部分:服务器内部通信、AI集群内服务器之间通信,以及跨集群的广域通信。

服务器内部GPU之间的高速通信主要采用NVLink,当然,英伟达也在利用NVLink来构建集群SuperPOD,但其支持的GPU规模相对有限,主要应用于小规模跨服务器节点间的数据传输。大型AI集群主要还是依靠RDMA网络,也就是采用RoCE或InfiniBand。

本文以典型英伟达A100服务器为例,详细说明一下各组件之间的联网架构。A100服务器内部的网络连接方式如下图所示:

Image

A100服务器的主要模块包括:2个CPU、2张InfiniBand存储网卡BF3 DPU)、4个PCIe Gen4 Switch芯片、6个NVSwitch芯片、8个GPU(A100)、8个InfiniBand网卡。8个GPU通过6个NVSwitch芯片全网状连接(Full-mesh)。

1、主机内部GPU之间,采用NVLink:
A100双向带宽为12*50GB/s=600GB/s;
A800是阉割版,双向带宽变为8*50GB/s=400GB/s
2、主机内部GPU与网卡之间:
GPU <--> PCIe Switch <--> NIC,理论上单向32GB/s
3、跨主机GPU之间:

通过InfiniBand网卡收发数据。如下图所示:

Image

不管是计算网络还是存储网络,都需要RDMA才能满足AI所需的高性能。网络采用Spine-Leaf架构:8块GPU通过InfiniBand网卡(HDR,200Gbps)直连到Leaf交换机,Leaf交换机通过Full-mesh连接到Spine交换机,形成跨主机GPU计算网络。

A100中InfiniBand网卡采用HDR,是因为HDR单向200Gbps(即25GB/s)已接近PCIe gen4单向32GB/s的理论速度。就算高配NDR(单向400Gbps,即50GB/s)作用也不大。
结论:
InfiniBand作为一种原生的RDMA网络,在无拥塞和低延迟环境下表现突出,但其架构相对封闭,成本较高(同等带宽下,InfiniBand性能比RoCE好20%以上,价格却要贵一倍),因此,InfiniBand主要适用于中小规模集群场景。
RoCE则凭借其成熟以太网生态、低组网成本以及快速技术迭代,更适用于中大型训练集群场景。例如,当前公有云服务商卖的8卡GPU主机基本都是RoCE网络

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多