抓住新风口！大模型时代的机遇与挑战

罗宋汤的味道 2023-07-13 发布于青海

展开全文

1950年，英国数学家阿兰·图灵在发表了一篇划时代的论文——《机器与智能》，首次提到了人工智能。1956年夏，在美国达特茅斯学院 “如何用机器模拟人的智能”的研讨中，首次提出“人工智能（Artificial Intelligence，简称AI）”这一概念，标志着人工智能学科的诞生。

时至今日，历经70年发展，AI经历了三波发展浪潮。AlphaGo的出现引领了第一次AI应用发展高峰，带动了神经网络、深度学习等技术的发展，围棋游戏、图像识别、智能驾驶等领域应用随之涌现；ChatGPT的出现，引领AI应用走向第二个发展高峰，进一步带动大模型、NLP、生成式AI等技术跃升，聊天、绘画、写作、翻译、甚至玩游戏等都有无限想象的可能。

AIGC概念持续火爆，短时间吸引了超百亿美元的风投资金，出现了10多家AI领域的独角兽。生成式AI将比历史上任何创新更快地改变世界，甚至从根本上改变了企业运作方式，流程应用、人员合作关系和工作属性等都发生巨大的改变。

▶ AIGC依处于早期阶段，AIGC应用深化将带来产业巨大变革，从行业广度、深度、应用、技术和人员角度重塑工作方式

根据咨询公司Gartner对AI应用的判断，生成式AI应用依处于发展的早期阶段，其应用依然会出现不少错误。但生成式AI学习能力很快，会在错误中不断学习，达到基本模型的成熟；基本模型随后进入早期应用阶段，生产式AI会在冲突中学习进步；经历早期应用学习进步之后将进入大规模应用阶段，生成式AI会通过最佳实践来学习应用经验，最终进一步完善应用上的实践。

虽然AIGC应用还处于早期，但生成式AI正在迅速进化，变得不仅更智能、更快、更便宜，甚至在某些极端情况下比普通人创造的东西更好，每一类需要人类智慧创造的行业都有可能被重新洗牌。

生成式AI所涉及的领域涵盖知识工作和创造性工作，其影响涵盖数十亿人，生成式AI可以使这些人力的效率或创造力至少提高10%。因此，生成式AI有可能产生数万亿美元的经济价值。

生成式AI对企业带来的影响是多维度、多方面的，从行业角度，金融、政府、医疗、零售等几乎所有行业都会被其影响：从应用维度，客户服务、人事服务、营销管理、销售管理等都会发生深刻变革；从技术维度，机器学习、智能算力、数据科学等新的技术会部署到企业；从流程和管理角度，流程会重塑，人员需求和角色定位也会彻底改变。

▶ 大模型训练和AI大模型面向行业的应用将极大拉动存储产业需求，2030年AI相关存储空间将达到232亿美元

大模型训练和面向行业的应用对系统硬件的需求巨大，以ChatGPT为例，为节省时间，ChatGPT利用Azure的GPU网络，需要协调上千节点和30000个GPU同时工作，训练一次需要消耗9万度电，花费200万美元。随着ChatGPT的火热，各个厂商纷纷投资硬件，训练自己的大模型。云厂商和运营商投资往往是成千上万节点规模，而行业型大厂投资在几百节点规模。

根据Precedence Research公司预测，2023年，全球人工智能硬件市场规模为167.8亿美元，预计到2030年将超过约892.2亿美元，从2022年到2030年的复合年增长率（CAGR）为26.96%。

▶ AI大模型对存储产业带来的机遇和挑战

AIGC的火热，或者说ChatGPT的成功，首先来自于大模型的逐渐成熟。大模型成熟的先决条件又来自强大的算力，成熟优化的算法，以及大规模高质量的数据。

有规模与质量的数据要素是大模型的核心前提，ChatGPT原始文本类训练数据达到45TB，同时叠加基于人类反馈数据来提升准确性。从GPT的训练过程可以看出数据在大模型训练过程中的重要意义，强化学习过程是ChatGPT 效果区别于其他模型的主要原因。

▶ 大量数据预处理的挑战

大模型的数据是从互联网及数字图书馆上收集的海量数据，这些数据并不能直接用于训练。要将不同格式和不同数据源的数据归集到一起，需要先将多样化、多格式的数据进行清洗、去重、过滤、加工，大量的数据预处理工作需要耗用大量的CPU 和GPU算力。未来大模型会加入图片和视频数据预处理，其原始数据更将以几何指数增加，仅仅是搬运或加载这些数据进行预处理都会对存储系统产生巨大压力，是否能不大规模搬运这些数据，就能完成数据预处理，是给当前AI基础设施提出的挑战。

▶ 大数据加载到多节点内存，对存储性能和带宽提出挑战

大模型由于训练数据过于庞大，45TB数据无法全部加载到单节点的内存中，通常利用并行计算的方法加速训练完成，需要将数据加载到多个节点内存中共同计算。如此庞大的数据要加载到成百上千个节点中，这对存储的性能和带宽提出了挑战。随着大模型将图片和视频加入到训练数据集，数据加载的压力进一步加大，呼唤新的AI基础设施架构，近存计算或近算存储架构是可能的解题思路。

▶ 大模型训练节点众多易于中断，如何保障数据恢复和训练继续

相较于传统深度学习模型，大模型带来千亿级别训练参数、训练数据集呈指数级增加。AI大模型训练持续迭代，要求频繁的参数调优，服务器故障、网络的故障经常造成节点中断，需要Checkpoint机制确保数据能够重新加载，训练能够快速恢复。而随着参数规模的不断增加，重新加载的时间越来越长，严重影响训练进度，需要数据存储的提供更大带宽的数据访问性能。

▶ 大模型训练中的数据资产的安全

大模型训练非常耗费资金，训练中的大模型资产、训练数据和人工标注数据都是宝贵的资产，如何集中管理这些资产，如何管理不同版本的训练数据集以及匹配的训练模型，需要专有的数据存储管理系统。

综上，大模型的发展、AIGC的应用将带来大量的存储需求，数据的收集、加载、训练以及后续的推理和应用，都要求存储系统的配合。如何满足大模型对性能和容量的暴增需求，需要存储系统在满足现有技术时，出现创新性的架构来迎接未来的挑战。