分享

智算怎么建?5项能力缺一不可

 茂林之家 2021-12-17

智能计算有多紧俏?看看下面这条消息吧。

据天眼查等数据消息,2021年上半年,中国新增人工智能(AI)企业30万余家,同比增幅88%。这数据也表明,尽管5年来AI已经走过了喧嚣,但AI落地仍然是高温赛道。

作为面向AI的算力“新基建”,智能计算也正进入快车道。但是,相较于传统算力,智能计算基础设施的建设、管理、开发应用等还处于初期,如何建好、管好、用好,还面临着一系列挑战。

1

智算野蛮生长下的“痛点”


在需求与政策的双重驱动下,全国多地都在大力推进算力基础设施建设布局。尤其在政策支持下,地方智算中心的建设如火如荼。

然而,智算中心如雨后春笋般地发展背后,还面临着不少窘境。“只建不'管’”、“天价智算”、忽视联动融合效应、低水平重复建设等现象也在不断刺痛着人们的神经。

比如,有部分智算平台的建设,对应用需求调研不够,规划建设中只关注到其“智算”属性,不具备全精度算力性能,使得建成后的算力设施难以以多元计算的形式服务用户。尤其是区域经济发展越来越呈现出综合各类新兴产业共同发展的姿态,若算力太过单一,难以为产业升级发展发挥“基座”作用。

再以“天价智算”为例,目前部分地方的智能计算中心存在价格混乱与虚高现象。例如,有不同地方建设的智算中心,在同精度算力情况下,单价相差近4倍。还有的地方一味追求算力规模,将大笔预算放在算力数字上,却忽视了后期的软件、应用、运维、人才培养等的投入,为算力的可持续发展埋下隐患。

另外,算力的管理运维与建设同等重要。一般而言,算力的搭建是一件“人前风光”、容易凸显成绩的事,但算力的运维和管理也直接关系着算力平台的应用水平和效率。即便当前已有一些可用的智能运维技术,但运维场景多样、复杂,且对应的智能运维算法往往通用性较差。换句话说,智能运维技术的成熟落地仍需要一个长期演进的过程,人工干预仍非常重要。

可以说,这些现实痛点的存在,让AI算力难以真正在产业智能化和智能产业化中发挥应有作用,产业升级与区域发展也难以从智算中心或平台的建设中受益。

2

“5A级”:一剂科学配方


在计算领域,中科曙光是个“老兵”。自20世纪90年代起,从中科院计算所孵化而出的中科曙光就专注于前沿计算技术的市场化落地,迄今已有20多年的耕耘。对于如何“建好、管好、用好”智算基础设施,曙光认为需要一剂“5A级”的科学配方。

中科曙光高级副总裁任京暘解释道,这剂“5A级”的科学配方,其实是致力于打造具备“开放、融合、绿色、普惠、服务”能力的智算基础设施,并推动形成智算基础设施的建设共识。“有了这5项能力,未来智算的建设就有望形成可复制范本,推进行业透明化、标准化进程。”

提出AI新基建的5项能力,中科曙光除了有着“老兵”的敏锐,还缘于取得了“AI国家队”中科院人工智能产学研创新联盟的专家共识。

今年7月,中国科学院人工智能产学研创新联盟发布了新一代人工智能计算平台,从基础架构、建设路径、价格模型等维度,为智能计算中心建设提供了参考依据和建设标准:通用融合、开放包容、绿色高效、普惠可及。

作为新一代人工智能计算平台的主要参与方,中科曙光基于该平台的理论和架构指导,提炼出了上述5项能力。可以看出,这“5A”,一一对应着当前AI算力基础设施建设、管理和应用中的痛点。

3

5项能力铸就“5A级”算力基础设施


值得注意玩味的是,如果对这5项能力做一个简单的分类,可以看出被摆在最前面的两项能力——“开放”和“融合”,是从应用角度出发的,“绿色”和“普惠”是面向智算设施建设而言的,“服务”能力则是瞄准了算力的运维和管理。

把“开放”“融合”放在最前,说明曙光作为计算服务商,非常贴近用户需求、了解用户诉求。无论智算还是云平台,归根结底都是算力工具,“用好”是最终目标。而恰如前文所述应用中的“痛点”,单一特点的算力平台难以承接日益庞大的应用需求。这就要求智能计算基础设施从“开放”和“融合”出发提高自身兼容性:不仅要从平台自身兼容主流软硬件、计算框架和各类模型,构建多元集成的基础架构,还要覆盖对各类数据的分析处理能力,提供兼具公有、专用、弹性计算的服务能力,满足不同应用场景和多类型用户的需求,让智算平台“易用”“好用”。

“绿色”“普惠”两大能力,则既是降低智算基础设施的建设和运维成本的需要,也是让智算平台更受欢迎的“砝码”。尤其在中国提出“双碳”目标的背景下,对智算平台提出绿色低碳和算力普惠的要求显然是无可非议的。在这两方面,曙光在建设实践中有两个-30%的数据值得借鉴:通过液冷技术加持的芯片节能、设备节能、平台节能及清洁能源技术创新,可将智算设施PUE(能效比)值降至1.04、能耗降低30%;通过多种策略,实现综合建设成本低于市场既有价格30%。

“服务”能力面向智算平台建成后的运维管理,关心的是智算基础设施的全生命周期运转。这一能力其实攸关智算平台的使用效率,却最容易被忽略。当前许多智算中心主要由地方政府主导、公司参与营建,导致其运营主体相对较为模糊。特别是那些建设、运营分离的智算平台,常面对建成后缺乏系统运营服务的窘境。曙光倡导“建运一体”或贯穿智算基础设施全生命周期的服务模式,以使尚处于产业初期的智算设施在支撑地方产业发展中得到切实保障。

任京暘表示,曙光提出针对智算基础设施的5项技术能力,初衷就是希望业界能够凝聚共识,从全局视野重视智能产业的规范、可持续发展,实现智算建、运、用的良好生态,砥砺打造用户心目中的“5A级”智算平台,让智算基础设施真正成为驱动高质量发展的助推器。

(资讯)

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多