AI大模型时代下数据中心网络连接

yi321yi 2023-12-24 发布于广东

展开全文

“2023第11届数据中心标准大会”中国通服数字基建产业研究院云网技术总监、华信咨询设计研究院有限公司网络规划研究院三所所长洪亮，以《智算算力及智算网络数据中心设计分析》为题发表演讲，现将精彩内容整理如下，供数据中心广大从业者学习交流。

本次分享主要分为四个部分，包括：对智算中心整体发展趋势的几个关键趋势判断分析、智算数据中心的整体设计框架分析、智算中心设计思路以及实际案例分享。

Part.1/ 智算中心的发展趋势

国家提出数据要素的发展战略，让更多的企业单位通过使用智算大模型，助力数据生产要素的发展，就一定要把智算的使用成本降下来。所以，我们在设计智算数据中心的时候，一定就要围绕成本来做，如何把智算中心的建设成本、运营成本降下来，从而降低智算的使用成本，是我们设计一个智算中心的设计目标。

目前，智算数据中心大体可以分为两大类，一类是训练型的智算数据中心，一类是推理型的数据中心。从英伟达的发货量上可以看出推理芯片是训练芯片出货量的6倍，说明了推理需求应该是不会少于训练的。从实际的运营和业务模型上看，未来推理数据中心梳理也一定会比训练数据中心多。因此，我们在规划智算中心整体设计的时候，就要考虑推理数据中心的布局和建设，不要只盯着用于训练的智算中心而忘记推理数据中心。

关于算力类型包括芯片能力，我们知道可以分为单精度、双精度浮点以及整型等。因此，我们考虑数据中心规模的时候，是要考虑清楚选择哪类芯片来做我们的数据中心。另外，因为我们中美博弈的因素造成了我们现在高性能芯片的缺失，但是，并不是所有智算需求都是需要高性能通用GPU芯片，通过一些手段，通过降低计算精度从而降低算力需求也是能达到需求目标。因此我们说未来的智算中心一定会是一个异构兼容多样芯片的智算中心。

中美博弈，我们可以用一些专用芯片，特别是在推理端，去替换高端通用GPU。如果用这种专用芯片去做，整体智算中心它的能耗和成本会大幅度下降。就算一定要用通用GPU去设计智算中心，我们也可以在大模型软件层面做一些数据精度的压缩、参数的压缩去推动整个智算中心对芯片性能、算力需求的降低。整体上，我们认为数据中心未来会承载很多的不同芯片，而不是一成不变的都是清一色的英伟达高性能GPU，我们数据中心设计要适应多芯片的布局。

Part.2/ 智算中心的整体设计

关于智算中心的整体设计，智算数据中心基础设施是跟智算数据中心的服务模式的关系是非常紧密的。之前我们建通用算力数据中心，大都是把数据中心建好了之后等者客户来入驻，就是先把基础设施做好等服务器把它装进去，通算数据中心基础设施基本是通用。但在智算数据中心时代，我们认为是不可行的，我们在做数据中心的基础设施的时候，是需要提前考虑客户是怎么来做智算服务的，它的业务场景是什么，业务模式是什么。这里有几种智算数据中心业务模式，一种是纯粹的租GPU卡，卖设备的模式，拿投资换收入。第二种是提供GPU的算力服务，这个是在前者的基础上部署了自己的算力服务平台支撑智算大模型等业务。第三种是提供通用大模型的服务支撑，像百度的文心等。这三种是我们目前智算中心的三种服务模式。不同的服务模式决定了我们智算中心设计的思路和整体框架方案，第一种模式，主要只考虑GPU的需求，服务模式二和服务模式三，还有大量的通用型计算在这里面，而且占比远大于纯GPU的智算中心。

右边这张图大家比较熟悉，智算数据中心的整体框架。那对于数据中心，我们更关注底下绿色的这一部分，这是和我们数据中心基础建设紧密相关的：算力使能、资源管理和基础算力。AI模型训练是一个计算量比较大，逻辑简单高并发的计算任务，通常我们做智算我们只要求用半精度的FP16就可以，因此我们做智算数据中心的时候，算力基础设施部分，就需要重点考虑FP16的计算。

智算中心一般分为训练和推理两大类，用来做训练的数据中心需要怎么来设计？首先我们要估算它的需求量，一般来讲我们训练的智算中心需求量是整个模型参数量乘训练词数乘每个词的运算量。我们知道ChatGPT是一千七百五十亿的参数量，这个参数和词数是直接跟我们训练的算力需求直接相关，和训练轮数也是相关的。一般的GPU做训练的利用率并不是特别高，跑不到百分之百的满载情况，一般只能跑到30%-40%的有效利用率。如何提高利用，一个是多机多卡集群，还有一个是无损网络。

推理智算中心，我们认为是在线的，刚才说的训练数据中心是离线的。训练的数据中心是不需要柴油机作为后备电源的，而推理是需要考虑柴油机的。训练是任务型的，断了之后后面类似于断点可以续上的方式。推理是直接和用户体验挂钩，和用户流量相关，并且推理的数据中心大量的设置在近用户端。推理的算力需求和模型参数量、推理词数相关，这里的推理词数和用户访问量相关，有多少用户访问数据中心，每条语句是多少词，就会带来推理词数。推理交互的词数规模一般我们认为是训练词数规模的1%左右，这个是我们用来做规模计算的时候，我们可能会用到这个数据来推算一个推理中心的算力规模。

整体上我们设计需要关注的几个要点，一个是RDMA高速无损网络。我们知道智算这个东西逻辑虽然很简单，但是它需要大量小的计算单元，例如英伟达GPU卡是由很多小的计算逻辑单元CUDA构成的GPU。我们整个智算中心需要把一堆的GPU卡通过无损网络把它变成大的计算中心，需要由一个高速的无损网络。目前主要两个技术，一个是英伟达专利的IB网络，还有一个是基于以太网的RoCE网络。这个网络技术要求决定了我们数据中心和基础设施布局，比如说IB的网络要求端到端控制在一百米的范围内。第二是智算中心的生态，为什么英伟达这么火？因为它的生态非常成熟，他们都是用的CUDA生态，非常成熟。如果说我们考虑智算中心布局的话，就是刚才我们提到后面两种服务模式的话，就要考虑生态建设。第三个是液冷，所有智算中心都在谈液冷的方式，风冷可以做到多大规模？主会场钟组长也是请了一家做30千瓦的CFD风冷的模拟，实验结果好像也没有什么问题，但是也不知道具体做出来会怎么样，和液冷的成本和能效、算效比上面究竟有没有优势？这个还是需要我们后续的实战验证。通常，目前来说我们做的像这种英伟达和高功耗的30kW，相当于放到四台以上设备的情况下，我们一般都会选择液冷去做，承载我们计算中心。

Part.3/ 智算中心的设计思路

这是我们的一个设计思路，我们从场景需求分析开始，GPU选型、组网配置、机房配套，最后是核算我们的成本。整体上来看，这个思路比较固定，能够适用各类智算中心设计需求。首先要明确一个场景的需求，然后进行GPU选型，选型和场景需求相关，包括做训练还是做推理的，用什么生态的等等，都是涉及到GPU的选型。还会涉及到计算区怎么设计，存储区怎么设计，存储区又分成热存储、温存储和冷存储三块存储的需求。然后是GPU的组网设计以及整体智算中心的组网。最后是我们的成本预算。一般纯粹的GPU的租赁费用，1P大概在1.3万左右，这个是纯GPU算力的租赁，你现在拿1.3万去算你的经济账，你的投资一般是拿不回来，现在英伟达的一台设备接近三百多万，所以你需要叠加一些算力加速等算力服务。阿里的智算平台能够卖到4万多，主要原因就是他做了很多围绕GPU算力的算力服务。

这里我们以国产昇腾芯片为例，给出了一个具体的设计思路方法示意。场景需求用来做大模型训练用，确定GPU卡选型，结合芯片的性能规格参数包括算力、内存、吞吐等。这里提一下，我们GPU的算力不单单看它的计算性能，英伟达刚刚发布的H200，算力跟H100的算力是一样的，但是它的性能却提升了60%-90%，因为它的吞吐、网络性能提升了，所以这一块也是跟算力紧密相关。然后是服务器选型，再之后是机柜的选型，究竟用风冷还是液冷，特别是有些液冷方案一次测和二次测不解耦，机柜可能跟我们的服务器厂家深度捆绑的，都是需要进行设计内容。最后是数据中心POD的设计，整体来讲智算中心的设计不是简单的事情，考虑的因素非常多。

存储的设计思路，因为我们都知道智算的数据量非常大，而且都是基于并行文件的存储。我们一般会把智算中心的存储需求分为三个层次，一个是热存储，一个是温存储，一个是冷存储，用法各不相同，训练数据主要做热存储，用户数据上传在温存储，归档和原始数据用冷存储降低成本。做分层存储的原则就是把存储的成本降下来，这里占比也是我们经验的一个估算值，大家可以做参考。

再一个是通用算力规划，刚才也谈到了整个智算中心里面不光有GPU，还有通用算力。通用算力主要为智算中心的智算平台提供计算、网络、安全等等服务，结合GPU算力来构成整个智算的云服务。也就是说我们一个完整的智算数据中心设计一定会涉及一部分通算的部署。

再一个比较重要的就是网络，GPU的算力组网。一般我们每台GPU服务器会配置多块100G和200G的网卡，200G用于计算面互联，100G用于存储面。整个组网采用SPINE做全连接，按端口做不漏掉，形成上下行1比1收敛配置。所有线缆路由长度控制在100米范围内，交换机的部署和设备部署距离不能过远。为什么现在我们的智算中心不能像传统的通算数据中心一样拿面积换功耗，喜欢把服务器设备堆在一起，单机柜堆成三四十千瓦乃至上百千瓦，主要原因就是在GPU的组网限制上。

Part.4/ 智算中心的设计案例

最后分享一下我们做的存算一体、训推一体的案例。目前来说我们国内做智算中心，一般用来做存算一体的智算中心。这里我们可以看一下这个项目情况，智算需求是650亿的大模型，大概需要500P的算力，推理场景需要100P的算力，通用算力需要预留6000vCPU资源，并行文件是1.2PB的文件存储存模型参数。设计了英伟达集群和国产化昇腾集群和通用算力集群三个集群，整个机房配套是26架48kW冷办事液冷机柜，30架12kW风冷机柜，108架12kW风冷机柜。整个数据中心的机柜部署各种各样，各种机柜的结合，对数据中心的能效比和算效比来说是最划算的。