分享

谷歌等巨头冷却系统瘫痪,散热才是AI的终极挑战!

 天道酬勤tah926 2023-07-17 发布于上海

近日,全球范围内因天气过热、散热系统出现问题所导致的数据中心宕机事件已屡屡发生,在高温的冲击下,谷歌、甲骨文等科技巨头的数据中心一度出现冷却系统瘫痪,导致运行故障。

相关专业人士表示,“AI行业将会出现算力被散热'卡脖子’的情况。”

巨头入局,确定液冷方案

英伟达明确未来逐步切换液冷方案以适配HGX 平台。Supermicro 推出适配英伟达 HGX H100 的液冷服务器方案。据 Supermicro 数据,使用液冷可以帮助 IDC 节省 40%的电力。目前单张 A100 功率达 400W,H100 达 700W,未来芯片制程难以提升的情况下,效能功耗比难以进步,单卡功率将只增不减,故而散热将制约算力的发展。

液冷时代将至!

中国移动中国电信中国联通6月发布的《电信运营商液冷技术白皮书》中指出,目标2025年50%以上数据中心项目应用液冷技术。英特尔近期推出浸没式水冷散热技术,解热能力高达2000瓦,较现行AI服务器所需的700至800瓦增超一倍,并已接获美国能源部订单,预计未来三年内运用在美国能源部的数据中心。业内人士认为,随着英特尔散热技术突破,有望推动AI等高速运算应用的发展。液冷设备的应用有利于节约电力的使用,符合减碳节约市场趋势。机构预计2025年我国液冷IDC市场规模将突破1200亿元。

早在2021年11月份,国家发改委印发的《贯彻落实碳达峰碳中和目标要求 推动数据中心和5G等新型基础设施绿色高质量发展实施方案》明确,“到2025年,新建大型、超大型数据中心PUE(电能利用效率)降到1.3以下,国家枢纽节点降至1.25以下。”2022年1月份,国家发改委同意启动建设全国一体化算力网络国家枢纽节点的系列复函中明确要求,国家算力东、西部枢纽节点数据中心PUE分别控制在1.25、1.2以下。

AI的尽头是散热

当电流通过电阻时,所消耗的电能会全部转化为热能,这种现象被称为电流的热效应,自计算机诞生以来,从业者们用尽办法将电子器件的温度控制在合理的范围内。

国内散热技术厂商广州力及热管理科技(NeoGene Tech)创始人陈振贤表示,到了明年,单颗高性能AI芯片的热设计功耗将会突破1000W。

那么风冷式散热对应的散热极限是多少?国金证券研究所的一份报告指出,服务器2U空间下,250W大约是风冷的极限,4U以上空间风冷可以解到400W-600W。

在今年的AI服务器市场中,英伟达A100与A800的出货量将可能会占据80%,而随着下半年数据中心陆续导入热设计功耗高达700W的H100芯片后,行业内既有的散热技术可能都需要进行一次“推倒重建”。

相关个股:

鸿富瀚 301086 :

公司是一站式导热散热综合解决方案提供商和服务商。目前公司的液冷产品主要应用于服务器,在服务器液冷散热器利用泵使散热管中的冷却液循环并进行散热,在散热器上的吸热部分产品(在液冷系统中称之为吸热盒) 用于服务器CPU及GPU上吸收热量。

科华数据 002335 :

目前公司自主研发的液冷技术已运用在公司数据中心及储能产品、解决方案中。领先的产品和技术是公司的长期核心竞争力,公司持续跟进客户的技术产品需求,做好相关技术储备,保持自身技术的领先性。

英特科技 301399 :公司产品包括液冷散热器,直冷式液冷散热器应用在大数据中心。

同星科技 301252 :公司液冷相关产品有应用于数据中心及液冷服务器。

液冷是AI算力卖水人,AI服务器需要更高功率的机柜,传统的自然风冷方式几乎很难完成为AI服务器散热的重任,液冷散热的方式成为“必选”。液冷将是AI算力发展的助推器。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多