【原】郑纬民：算力互联汇聚超级计算力量

高校信息化 2023-08-15 发布于北京

展开全文

郑纬民

中国工程院院士、

清华大学计算机科学与技术系教授

算力是指计算的能力，它在数字经济中扮演着重要的角色，是数字经济的底座，其重要性不言而喻。就像高铁和5G一样，算力能够推动国民经济的发展，对推动中国式现代化具有重要意义。

同样地，高效处理数据，对于确保人工智能、大数据和元宇宙的质量至关重要。人工智能的三驾马车包括大数据、算法和算力，智能算力的不足将限制我国在人工智能领域的创新能力。正所谓“大力才能出奇迹”，ChatGPT大模型需要使用一万块GPU卡才能发挥出巨大的效能，其成功也离不开强大的算力支持。而算力的不足，同样会制约我国在大数据、元宇宙构建等领域的创新能力。

我国算力发展成就与前景

我国在高性能计算（HPC算力）、人工智能计算（AI算力）和数字中心算力（基础算力）三大算力领域，发展迅猛。超级计算机取得世界领先地位，人工智能在各领域展示出强大算力，大规模数据中心为各行各业提供有力支持。然而，保持算力全球领先、应对创新技术压力等，为我国算力发展带来严峻挑战。

整体来看，近些年我国的算力发展态势良好。中国信息通信研究院《中国算力发展指数白皮书（2022年）》显示（图1-2），2021年美国的算力规模占全球份额为34%，中国以33%的占比位居全球第二。美国、中国、日本的GDP依次位列全球前三，而三者的算力能力也为全球前三，可知各国算力规模与GDP整体呈现正相关关系。

图1 2021年全球各国算力分布情况

图2 算力与经济发展关系示意图

高性能计算

高性能计算算力是国之重器，也是国际科技竞争的制高点，能够处理最具挑战性的计算问题。超算的计算能力在某种程度上代表了一个国家的综合实力。

我国的超级计算机正是我们向外界展示综合国力的一张名片。如图3所示，在过去的十年中，我国在顶尖超级计算机系统的研制和部署数量上，一直处于国际领先地位，而在应用领域也取得了显著成就。从2014年到2021年，我国共有3个项目入选国际超级计算最高奖项——“戈登·贝尔”（ACM Gordon Bell）。此外，清华大学团队已三次获得该奖项，分别是在2016年获奖的千万核可扩展全球大气动力学全隐式模拟项目，在2017年获奖的非线性大地震模拟项目，以及在2021年获奖的基于最优收缩路径的通用量子模拟器项目。

图3 全球TOP-1超级计算机发展示意

目前，我国已经建立了13个国家级超级计算机中心，包括北京、上海、广州、天津等地的超算中心，形成了庞大的计算规模。

然而，尽管超级计算机在理论峰值上具有世界领先的计算能力，但其实际运算速度只能达到理论峰值的10%～20%，而异构架构路线更是加剧了这一差距。将领先的计算能力高效转化为解决尖端科学与工程难题的能力，是全球各国都在投入研究的重要命题。

对于我国来说，如何通过算力提升解决科学与工程问题的能力，同样是一大难题。如图4所示，超级计算机基础软件是实现并行应用开发、优化、部署和高效运行的基础，也是提升转换能力和实际运算效率的关键。国产超级计算机系统已经部署了一部分基础软件，但仍然面临一些亟待解决的问题，需要我国超级计算研究人员努力攻克。

图4 超算基础软件分布

人工智能算力

处理人工智能问题所需的专用计算机被称为AI计算机，这一概念在最近几年兴起。在海量数据、实时响应和极端条件等场景下，人工智能计算相对于通用计算表现出越来越明显的优势。

实际上，人工智能常应用于三大类场景。第一类是图像检测和视频检索，主要应用于安防、医疗诊断和自动驾驶等领域。这类应用主要依赖卷积网络，并不需要非常大型的计算机，为我国的经济发展和安全作出了巨大贡献。第二类是博弈决策类应用，其智能应用在规划等领域发挥了重要作用，核心在于强化学习，也不需要非常大型的计算机。第三类是新基建大型计算机，主要用于自然语言处理，即处理大型模型。在这方面，自然语言模型的发展非常迅速，已经涌现出了许多典型模型，如GPT-1、GPT-2、GPT-3和BERT等。此类模型在语言翻译、自动问答、生成文本摘要和创作等方面表现出色。

人工智能正朝着更大型的模型发展，模型规模与其对应的参数也在不断增加，从2019年GPT-2的15亿参数增长到2020年GPT-3的1700亿参数，现在已经达到了1万亿的参数规模。参数越多，训练所需的计算机规模也越大，效果也越好，更趋近于人类的思维。

AI算力作为算力基础设施中不可或缺的一部分，也是我国新基建和“东数西算”工程的关键任务抓手。自2020年4月起，国家发改委明确将人工智能纳入新基建的范畴，使其成为新基建的重要组成部分和关键任务。当前，我国已经在20多个城市陆续启动了人工智能计算中心的建设，使得算力无处不在、触手可及。预计到2025年，我国的AI算力总量将超过1800EFloRs，占总算力的比重将超过85%。这意味着，算力将迎来高速扩张时代。

算力是人工智能产业的核心驱动力之一。我国的人工智能产业正在快速发展，并在公安、金融、政府和运营商等领域都具有巨大的产值。据IDC数据统计，从2017年到2021年，我国人工智能服务器市场规模每年翻倍增长。据预测，到2025年，中国人工智能产业规模将超过4,500亿，并将带动整个产业规模超过1.6万亿。

然而，我国人工智能企业面临着来自美国的巨大的“卡脖子”风险。美国将我国的华为、海康、科大讯飞、大华等领先的人工智能企业列入了实体清单，以此来限制我国人工智能技术的发展。

此外，在人工智能服务器芯片市场上，我国的份额相当有限。以2021年为例，我国人工智能服务器芯片的总出货量为100万片，而国产芯片的出货量不足5万片，来自美国英伟达的芯片占据了约95%的市场份额。此外，来自美国的谷歌和Meta（脸书）的人工智能算法开发框架，在中国市场上占据了90%以上的份额。

数据中心算力

数据中心算力是指数据中心所拥有的和能够提供的计算能力。较高的数据中心算力可以提供更快速、高效和准确的数据处理和分析能力，有助于加快科学研究的进展、优化业务决策的制定，以及推动技术创新。

数据中心算力的提升可以通过多种方式实现，包括增加服务器数量、升级服务器硬件、优化软件算法和架构等。此外，还可以利用云计算和分布式计算等技术，将多个数据中心或服务器资源进行集成和协同工作，进一步提升整体的算力水平。

如今，我国各地涌现出大量的数据中心，每个数据中心内部配备了数十万甚至上百万台计算机。这些计算机的算力通过云计算方式得以充分利用，这在目前已成为一项极为重要的算力资源。

互联互通：

未来计算发展的重要趋势

目前，高性能计算（HPC）、人工智能（AI）和大数据分析（BiData）的需求呈现融合趋势，很可能在不久的将来实现三大算力的整合。具体来看，有三个因素推动算力融合趋势的出现：

首先，科学人工智能的出现使得HPC程序中包含了AI算法，HPC和AI的融合成为必然需求；其次，数据处理是AI的基础，将数据和AI相结合是自然而高效的；最后，虽然HPC、AI和大数据分析在某些方面存在差异，但对存储、高性能网络和访问内存等方面的需求却有相似性。

互联和互通成为未来算力发展的关键词。全球各地的算力基础设施正在得以完善，算力之间的联网和统一调度已成为趋势。最近，我国提出了“算力网络”的概念，旨在通过网络将全国各个计算中心连接起来，形成一台庞大的计算机。

当前，国内各计算中心之间还没有建立联系，这给大数据传输带来了极大的不便。举例来说，如果要将4TB的原始数据从北京传输到无锡，即使使用目前最快的网络，并在保证网络无故障的情况下，传输时间将高达5天。由此来看，国家高度重视大数据互通，将各地的数据中心统一连接起来，形成集成化的数据中心，是明智的决策。

算力的互联互通尤为重要，需要注意以下三个建设要点：

提高算力传输效率，通过并网实现高带宽、低延迟的算力互联；
屏蔽异构基础设施，通过统一的资源管理和调度软件实现算力互通；
建议成立“东数西算”研究院，以系统性优化算力的统一调度。

总的来说，算力在国民经济和国家安全方面发挥着重要作用，实现算力之间的互联和统一调度，需要依赖高端高带宽的互联网络和国产技术体系的兼容性。

本文根据中国工程院院士、清华大学计算机科学与技术系教授郑纬民的报告整理

整理：陈荣

责编：陈荣

投稿或合作，请联系：eduinfo@cernet.com

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：高校信息化 > 《待分类》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

高校信息化

关注对话

TA的最新馆藏

将IT治理定位为高校战略职能
展望2024年互联网治理：合作共赢还是零和博弈？
校务委员会副主任陈丽：人工智能在教育领域的应用，高校责无旁贷，应该先行先试...
案例分享丨高校多部门协同优化离校系统
2023年全球IP地址回顾①丨2023年IPv4地址分配和转让
2024高校网络安全发展趋势分析

喜欢该文的人也喜欢更多

热门阅读换一换