腾讯数据中心李鼎谦：数据中心冷源系统AI调优的应用与实践

yi321yi 2022-12-11 发布于上海

展开全文

摘要

2022年11月9日-10日，第十届数据中心标准峰会在北京隆重召开，峰会以“汇聚双碳科技夯实数据之基”为主题。腾讯数据中心高级架构师李鼎谦在本次峰会上以《数据中心冷源系统AI调优的应用与实践》为题发表云端演讲，现将精彩内容整理如下，供数据中心广大从业者学习交流。

以下为演讲实录

尊敬的各位嘉宾、同行，大家下午好！我是来自腾讯数据中心的李鼎谦。今天与大家分享腾讯数据中心在AI调优规模化应用中的一些实践经验和总结，也希望我们在一线项目上踩过的坑、排过的雷能给到大家有用的启发和思考。

AI商用化逐渐成熟，但尚未规模化应用

将AI用于数据中心的能效调优，并非是一项新技术，早在2014年，谷歌就发布了白皮书，通过神经网络算法结合运营优化，宣称将PUE从1.25降到1.14，这个降幅相当明显。8年过去了，在国家“双碳”政策、以及越来越严格的PUE监管要求下，AI作为节能神器又站在了风口。业界各大厂商也纷纷推出了各自商用化的AI节能解决方案，但这些方案都是单个项目的点状应用，没有大规模普及。

规模化应用面临的问题与挑战之一：安全成本

怎样才能让AI像BA系统一样大规模普及应用，真正助力于数据中心的节能增效？作为自建数据中心的业主，也作为租赁数据中心的用户，腾讯基于AI调优的覆盖和推广经验，认为AI规模化应用首要解决的问题是安全和成本，其次是数据的质与量。

首先，安全包括数据的安全、控制的安全和策略的安全。

数据的安全比较好理解，就像政府要求苹果、特斯拉的所有用户数据必须放在国内一样，数据中心的业主也会要求机房所有的运行数据，从采集、计算到控制，都必须在机房内完成闭环，一般不允许上云。

控制的安全。业内AI模型的精度一般在97%左右，即使在AI应用最成熟、最普遍的人脸识别领域，其准确度也大约只有99%，但数据中心的可用度一般是4个9，或者5个9，用97%精度的AI模型去控制99.99%高可用度要求的数据中心设备的运行，换谁都会有点不自信，会有所担心。

策略的安全。能耗不会凭空产生，也不会凭空消失，AI的节能，是在保证单设备运行安全余量的前提下，让系统运行的组合参数更优，就像是一个经验丰富的暖通专家时时在线，基于不断变化的工况不停模拟计算，在保证运营安全的情况下，最大程度发掘系统的潜力。

关于成本，数据中心的每个项目都是定制化的设计，AI一般又要求本地化部署，数据的清洗、模型的训练，都得一个一个项目挨着做，无法批量复制，投入的工作量多，成本自然不低。

规模化应用面临的问题与挑战之二：数据的质与量

阻碍AI规模化应用的第二大问题是数据的质与量。首先是数据的质，数据中心装有很多的传感器，包括温度传感器、压力传感器和流量传感器，考虑到建设成本，这些传感器一般达不到工业级的精度，比如温度传感器的精度普遍在0.5度左右，在运行几年又缺乏校准的情况下，偏差能到达1度，不过这对于BA系统的监控运行一般没有什么影响。但是对AI模型的预测来说，冷机的供回水温差通常只有5度，因此哪怕1度的偏差都将产生20%的误差。

数据中心通常有例行的巡检和维保，设备在长时间运行后，性能会劣化，但维保和维修能让设备性能重新得到优化，而这种短时间内的设备性能突变，会导致模型预测精度下降。数据中心的数据其实大而不全，机房的设计一般是2N或者N 1，设备的负载率一般在30%到60%区间，这样就导致机房虽然有海量的数据，但大部分是重复的局部运行数据，缺少靠近边界的轻载或满载数据，机器学习也只能对这些工况做样本外的预测，这样容易导致预测精度不高，甚至存在负逻辑的风险。

应对挑战，腾讯数据中心AI规模化应用的“三板斧”

数据的问题还有很多，比如从多个系统采集导致数据不齐和数据偶发中断等。如何解决这些问题，让数据中心的运维人员可以放心地使用AI呢？腾讯数据中心的AI平台，基于多年的实践和探索，总结出了规模化应用的“三板斧”。

首先，在建模上采用了基于物理机理的设备和系统建模思路，让AI模型可以像水路拓扑图一样被理解和呈现出来。其次，在软件设计上采用了安全沙箱机制，让AI模型始终运行在安全沙箱设定的参数边界以内，从而让AI从“黑科技”变成“白科技”。最后，基于腾讯智维的数据仓库和模型仓库，做到了让算法可被插拔替换，从而AI模型可以被快速的迭代，进行敏捷的开发。

机理模型——设备级建模

首先看建模，冷源系统设备包含四大件，冷却泵、冷冻泵、冷却塔还有冷机，泵和塔的风机物理原理是一样的，都是变频器带动电机，都会满足功率与流量（风量）的物理公式。此外，根据工程经验，泵的流量与转速是成正比的，泵的功率与转速的立方是成正比的，因此可以根据物理关系拟合出水泵的频率和功率的表达式曲线，它的特点是在少量的样本之下，可以得到全局的预测曲线，趋势性好，不会出现“反逻辑”。

第二是冷机的建模，冷机是冷源系统的核心部件，也是将所有参数联系起来的桥梁。腾讯基于ASHRAE推荐的冷机功率物理计算公式，快速选定了神经网络模型的输入因子，并通过历史运行数据分析，得到了每个因子的权重，从而获得了比较高的预测准确性。

机理模型——传统的系统仿真模型

有了设备的模型之后，如何进行系统级的建模呢？这比较讲究，也比较关键。首先来看，在没有AI的时候，我们暖通工程师如何做水冷系统的仿真建模？

这是一款基于多学科仿真软件做的水冷系统的仿真模型，有点像BA里面水冷系统的组态图，该软件可以做流体、控制、热力学的协同仿真。它首先建立了设备级的仿真模型，将设备的输入、输出按照实际的水流流向和能量传递方向耦合起来，比如说冷却塔的出水就是冷机的进水，流量其实是由冷却泵决定的，这样的闭环之后就可以看到冷却水的水温，冷冻水的温度随IT负荷变化而变化的仿真曲线。

它的优点是跟现场实际运行的组态图是相符合的，也容易被工程师掌握和理解，缺点是精度不高。根据经验，精度不高的原因主要是两个，第一点，冷机作为核心部件，使用方一般拿不到冷机设备的核心参数，导致建模不是很精确。第二点，数据中心的现场管路布置比较复杂，做不到精确的阻力计算和测量，所以综合下来导致它的精度不是很高，大概在85%左右。

机理模型——AI系统级建模

腾讯AI系统的建模其实也是借鉴了这个思路，按照工程人员最容易理解的水路拓扑图的方式，将设备模型串联起来构成冷源系统的系统模型。从环境温度、冷却塔频率、冷却泵频率，以及制冷负荷，可以得到冷却塔的逼近度温度模型，逼近度加上湿球温度就可以得到冷却塔的出水温度，冷却塔的出水温度就是冷机冷却侧的进水温度。冷冻侧的出水温度与末端送风温度关联，一般不会轻易变动，再加上IT负载,就可以做冷机的功率和制冷量的预测模型，这样一级一级的串联和耦合，就可以得到像一个BA组态图一样的系统仿真模型，从而方便的看到各个物理量之间的变化趋势和关系，这种方式很容易被工程人员、运维人员所熟悉和理解，使用起来也更加放心。

安全沙箱，让AI从“黑科技”变成“白科技”

要让运维人员能够放心使用，仅仅让模型可被理解是不够的。腾讯还通过安全沙箱的设计，做到了让模型可被控制，使AI从“黑科技”变成了“白科技”。安全沙箱其实是一种按照安全策略限制程序行为的执行环境。通俗的讲，它类似于一个战术演练沙盘，我们将AI的模型和算法都放在沙箱中去运行，从而保证所有的运行参数都在边界范围之内。

具体来说，在采集到实时数据之后，会通过数据健康度的准则，对数据进行校验，从而自动清洗掉异常的数据、瞬态的数据。在策略计算时，会通过安全沙箱的寻优约束准则，使AI计算结果在约束范围之内。在调度中台下发控制命令时，所有下发到BA系统的参数还受到结果策略的约束。最下层还有一个硬逻辑的机制，当监控到现场运行的参数，碰到预先设置的边界时，会直接跳出AI算法，直接做出快速响应，类似于快速反弹的原理。安全沙箱所有的约束条件、配置，都可以开放给现场的运维专家。有了安全沙箱的机制之后，实现了AI逻辑受控和配置自由，数据进出得到了有效的管控，从而解决了数据中心的数据使用主体和执行主体的互信问题。

安全沙箱，“封装”可靠控制的三层模型

在系统架构的维度，安全沙箱还“封装”了可靠控制的三层模型。比如在架构层，我们对AI策略的硬逻辑兜底、对系统故障/告警的响应、对AI与BA切换的调度，都做了详细的思考。在策略层，对命令的范围和步长进行了限制，采取小步快跑的方式，减少对现场运行的扰动。在执行层，考虑舍弃超限命令以及故障自保持等功能。

安全沙箱——硬逻辑的开放与“兜底”

举例来说，硬逻辑兜底，是相对于AI计算的软逻辑来说，AI的计算寻优一般需要2到3分钟，这个时间对于应急的控制响应来说是较长的，硬逻辑就是检测到采集参数触碰到边界时，会跳出AI寻优，直接给出上一次运行正确的参数组合，或者是运维专家事先给出的一组参数策略，这个时间一般在1到2秒钟之内（即通讯协议的响应时间）。具体来说，安全沙箱可以对冷机冷却侧压差、冷机冷却侧最小流量、冷却水回水温度等参数进行全方位的监控和保驾护航。此外，硬逻辑也会开放给运维专家进行配置，通过此机制可以保证运行参数永远在运维人员的掌控之下。需要说明的是，硬逻辑也是一把双刃剑，如果硬逻辑过于严格，节能效果就不会那么好，这需要均衡考虑。

安全沙箱——故障/告警的协同机制

第二，故障告警响应策略。做一个系统，除了考虑正常工况，也得考虑异常工况的响应。BA擅长的是逻辑响应，AI擅长的是算法，腾讯的策略就是把AI和BA的优势结合起来，形成互补并达到最优的控制。

数据仓库和模型仓库，算法快速迭代

第三，模型可以被控制，但模型本身不能是一成不变的。机房的设备状态、运行环境在不断地变化，比如冬季和夏季的切换、冷却塔和冷机过滤网的清洗和维护等，在这种情况下，可快速迭代的平台架构设计，在规模化应用中就显得尤为关键。

智维AI平台在架构上建立了数据仓库和模型仓库，历史数据经过物模型测点标准化以后，通过提前设置好的清洗规则，能够自动进入到数据仓库。现场运行的实时数据经过驱动协议和健康度判断后，算法会自动调用模型仓库里的最新模型进行寻优计算，得出最优策略，再通过调度中台下发给BA系统。当然这背后还有一个模型验证环节，腾讯会以某个数据中心为样本，建立一个系统仿真的模型平台，在系统模型推送到实际应用之前，会先在仿真平台上经过测试，同时也可以让采取不同的方法搭建的AI模型，比如神经网络、强化学习、线性回归等，在仿真平台上相互PK，看谁预测得更准，更节能。

另一方面，腾讯也设计了包含各种异常场景和临界工况的测试数据样本集，从而测试模型在极端样本情况下是否符合数据中心的可靠性要求。基于这种开放式、仓库式的架构，腾讯AI模型可以进行远程的OTA升级，实现快速插拔替换和迭代。

基于项目经验，我们还了解到AI建模的数据清洗和数据治理需要花费较多的时间，以后，智维平台的数据仓库在脱敏后，也会尝试向业界开放使用，为大家节省数据清洗的工作时间，在大家的共同努力下，我们才能将AI模型做得更好，应用得更广。

AI项目应用调优效果示例

通过腾讯总结的三板斧，腾讯的AI调优平台在南方某数据中心水冷系统的应用中，综合模型精度达到了97%以上，其中与电相关的预测精度会更高一些，与制冷量、温度相关的预测精度会偏低一些，但平均在97%左右。从节能效果来看，由于AI可以获取到数据中心全量的运行数据，相比只有冷源侧数据的传统BA控制，PUE在同等工况下有明显的下降，该试点机房即便是在原有年均PUE 1.25，已经调得较好的基础上，还能再有5%~10%左右的优化空间。

总结

基于腾讯AI调优的应用和推广实践，腾讯认为，AI大规模推广复制的关键因素不在于AI模型的各种算法，而在于如何做到安全可靠的控制，以及如何解决真实物理对象和数据点的非标准化问题。安全可靠是1，节能优化才是后面的0，守住安全可靠的底线，后面的节能才会有意义。

因此，腾讯通过物理机理模型，让AI可以被更好的理解和使用；通过安全沙箱，能够发挥专家的经验，让AI可以被掌控，不再是一个“黑盒”；通过腾讯智维平台的数据仓库和模型仓库，让AI模型能够被快速迭代，从而做到敏捷开发。

其次，数据中心是一个极高可靠性应用的场合，一般的AI方法都是基于大数据来驱动策略，腾讯认为，在数据中心应用场合中，AI应该以物理机理和专家经验驱动为主，AI为辅，让AI永远运行在专家经验划定的范围之内。所以在实际项目的推进过程中，我们需要腾讯数据中心经理和现场暖通运营专家一起配置AI的安全沙箱，划定AI运行的“红线”，同时，AI寻优策略也会将现场暖通专家实践过的调优经验优先“置顶”，让AI像一个时时在线的经验丰富的暖通专家，为数据中心的安全、节能运行保驾护航。

未来，腾讯会专注于AI在数据中心机房的批量化覆盖，目前的存量机房调优，还是采用AI和BA打补丁叠加的方式，采用传统的金字塔架构，由AI和BA两个独立的系统，通过协议交互数据。在今后的新建机房中，我们将考虑摆脱原系统束缚，和主流BA厂商一道采取开放式扁平架构，实现OT系统与IT系统的原生融合，进一步的降低成本，提高可靠性。

此外，随着AI覆盖更多机房模组，我们将会获得更多数据、更优的AI寻优策略、更完善的数据仓库和模型仓库。我们也计划开放脱敏后的数据仓库和仿真平台携手业内的合作伙伴和专家同行，为数据中心AI节能的推广应用和国家的“双碳”目标贡献自己的一份力量！

以上是我今天分享的内容，谢谢大家。