分享

郑纬民:算力互联汇聚超级计算力量

 高校信息化 2023-08-15 发布于北京

郑纬民

中国工程院院士、

清华大学计算机科学与技术系教授

算力是指计算的能力,它在数字经济中扮演着重要的角色,是数字经济的底座,其重要性不言而喻。就像高铁和5G一样,算力能够推动国民经济的发展,对推动中国式现代化具有重要意义。

同样地,高效处理数据,对于确保人工智能、大数据和元宇宙的质量至关重要。人工智能的三驾马车包括大数据、算法和算力,智能算力的不足将限制我国在人工智能领域的创新能力。正所谓“大力才能出奇迹”,ChatGPT大模型需要使用一万块GPU卡才能发挥出巨大的效能,其成功也离不开强大的算力支持。而算力的不足,同样会制约我国在大数据、元宇宙构建等领域的创新能力。

我国算力发展成就与前景

我国在高性能计算(HPC算力)、人工智能计算(AI算力)和数字中心算力(基础算力)三大算力领域,发展迅猛。超级计算机取得世界领先地位,人工智能在各领域展示出强大算力,大规模数据中心为各行各业提供有力支持。然而,保持算力全球领先、应对创新技术压力等,为我国算力发展带来严峻挑战。

整体来看,近些年我国的算力发展态势良好。中国信息通信研究院《中国算力发展指数白皮书(2022年)》显示(图1-2),2021年美国的算力规模占全球份额为34%,中国以33%的占比位居全球第二。美国、中国、日本的GDP依次位列全球前三,而三者的算力能力也为全球前三,可知各国算力规模与GDP整体呈现正相关关系。

图1  2021年全球各国算力分布情况

图2  算力与经济发展关系示意图

01

高性能计算

高性能计算算力是国之重器,也是国际科技竞争的制高点,能够处理最具挑战性的计算问题。超算的计算能力在某种程度上代表了一个国家的综合实力。

我国的超级计算机正是我们向外界展示综合国力的一张名片。如图3所示,在过去的十年中,我国在顶尖超级计算机系统的研制和部署数量上,一直处于国际领先地位,而在应用领域也取得了显著成就。从2014年到2021年,我国共有3个项目入选国际超级计算最高奖项——“戈登·贝尔”(ACM Gordon Bell)。此外,清华大学团队已三次获得该奖项,分别是在2016年获奖的千万核可扩展全球大气动力学全隐式模拟项目,在2017年获奖的非线性大地震模拟项目,以及在2021年获奖的基于最优收缩路径的通用量子模拟器项目。

图3  全球TOP-1超级计算机发展示意

目前,我国已经建立了13个国家级超级计算机中心,包括北京、上海、广州、天津等地的超算中心,形成了庞大的计算规模。

然而,尽管超级计算机在理论峰值上具有世界领先的计算能力,但其实际运算速度只能达到理论峰值的10%~20%,而异构架构路线更是加剧了这一差距。将领先的计算能力高效转化为解决尖端科学与工程难题的能力,是全球各国都在投入研究的重要命题。

对于我国来说,如何通过算解决科学与工程问题的能力,同样是一大难题。如图4所示,超级计算机基础软件是实现并行应用开发、优化、部署和高效运行的基础,也是提升转换能力和实际运算效率的关键。国产超级计算机系统已经部署了一部分基础软件,但仍然面临一些亟待解决的问题,需要我国超级计算研究人员努力攻克。

图4  超算基础软件分布

02

人工智能算力

处理人工智能问题所需的专用计算机被称为AI计算机,这一概念在最近几年兴起。在海量数据、实时响应和极端条件等场景下,人工智能计算相对于通用计算表现出越来越明显的优势。

实际上,人工智能常应用于三大类场景。第一类是图像检测和视频检索,主要应用于安防、医疗诊断和自动驾驶等领域。这类应用主要依赖卷积网络,并不需要非常大型的计算机,为我国的经济发展和安全作出了巨大贡献。第二类是博弈决策类应用,其智能应用在规划等领域发挥了重要作用,核心在于强化学习,也不需要非常大型的计算机。第三类是新基建大型计算机,主要用于自然语言处理,即处理大型模型。在这方面,自然语言模型的发展非常迅速,已经涌现出了许多典型模型,如GPT-1、GPT-2、GPT-3和BERT等。此类模型在语言翻译、自动问答、生成文本摘要和创作等方面表现出色。

人工智能正朝着更大型的模型发展,模型规模与其对应的参数也在不断增加,从2019年GPT-2的15亿参数增长到2020年GPT-3的1700亿参数,现在已经达到了1万亿的参数规模。参数越多,训练所需的计算机规模也越大,效果也越好,更趋近于人类的思维。

AI算力作为算力基础设施中不可或缺的一部分,也是我国新基建和“东数西算”工程的关键任务抓手。自2020年4月起,国家发改委明确将人工智能纳入新基建的范畴,使其成为新基建的重要组成部分和关键任务。当前,我国已经在20多个城市陆续启动了人工智能计算中心的建设,使得算力无处不在、触手可及。预计到2025年,我国的AI算力总量将超过1800EFloRs,占总算力的比重将超过85%。这意味着,算力将迎来高速扩张时代。

算力是人工智能产业的核心驱动力之一。我国的人工智能产业正在快速发展,并在公安、金融、政府和运营商等领域都具有巨大的产值。据IDC数据统计,从2017年到2021年,我国人工智能服务器市场规模每年翻倍增长。据预测,到2025年,中国人工智能产业规模将超过4,500亿,并将带动整个产业规模超过1.6万亿。

然而,我国人工智能企业面临着来自美国的巨大的“卡脖子”风险。美国将我国的华为、海康、科大讯飞、大华等领先的人工智能企业列入了实体清单,以此来限制我国人工智能技术的发展。

此外,在人工智能服务器芯片市场上,我国的份额相当有限。以2021年为例,我国人工智能服务器芯片的总出货量为100万片,而国产芯片的出货量不足5万片,来自美国英伟达的芯片占据了约95%的市场份额。此外,来自美国的谷歌和Meta(脸书)的人工智能算法开发框架,在中国市场上占据了90%以上的份额。

03

数据中心算力

数据中心算力是指数据中心所拥有的和能够提供的计算能力。较高的数据中心算力可以提供更快速、高效和准确的数据处理和分析能力,有助于加快科学研究的进展、优化业务决策的制定,以及推动技术创新。

数据中心算力的提升可以通过多种方式实现,包括增加服务器数量、升级服务器硬件、优化软件算法和架构等。此外,还可以利用云计算和分布式计算等技术,将多个数据中心或服务器资源进行集成和协同工作,进一步提升整体的算力水平。

如今,我国各地涌现出大量的数据中心,每个数据中心内部配备了数十万甚至上百万台计算机。这些计算机的算力通过云计算方式得以充分利用,这在目前已成为一项极为重要的算力资源。

互联互通:

未来计算发展的重要趋势

目前,高性能计算(HPC)、人工智能(AI)和大数据分析(BiData)的需求呈现融合趋势,很可能在不久的将来实现三大算力的整合。具体来看,有三个因素推动算力融合趋势的出现:

首先,科学人工智能的出现使得HPC程序中包含了AI算法,HPC和AI的融合成为必然需求;其次,数据处理是AI的基础,将数据和AI相结合是自然而高效的;最后,虽然HPC、AI和大数据分析在某些方面存在差异,但对存储、高性能网络和访问内存等方面的需求却有相似性。

互联和互通成为未来算力发展的关键词。全球各地的算力基础设施正在得以完善,算力之间的联网和统一调度已成为趋势。最近,我国提出了“算力网络”的概念,旨在通过网络将全国各个计算中心连接起来,形成一台庞大的计算机。

当前,国内各计算中心之间还没有建立联系,这给大数据传输带来了极大的不便。举例来说,如果要将4TB的原始数据从北京传输到无锡,即使使用目前最快的网络,并在保证网络无故障的情况下,传输时间将高达5天。由此来看,国家高度重视大数据互通,将各地的数据中心统一连接起来,形成集成化的数据中心,是明智的决策。

算力的互联互通尤为重要,需要注意以下三个建设要点:

  • 提高算力传输效率,通过并网实现高带宽、低延迟的算力互联;
  • 屏蔽异构基础设施,通过统一的资源管理和调度软件实现算力互通;
  • 建议成立“东数西算”研究院,以系统性优化算力的统一调度。

总的来说,算力在国民经济和国家安全方面发挥着重要作用,实现算力之间的互联和统一调度,需要依赖高端高带宽的互联网络和国产技术体系的兼容性。

本文根据中国工程院院士、清华大学计算机科学与技术系教授郑纬民的报告整理

整理:陈荣

责编:陈荣

投稿或合作,请联系:eduinfo@cernet.com

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多