大模型对互联网生态影响及其发展趋势

小飞侠cawdbof0 2023-09-11

展开全文

来源：中国网信杂志

作者：张洪忠任吴炯

张洪忠

北京师范大学新闻传播学院教授

新媒体传播研究中心主任

大模型指具备超大规模预训练语料、拥有超千亿规模模型参数的深度学习模型。由美国开放人工智能研究中心（OpenAI）研发、基于大模型的人工智能产品ChatGPT被认为是人工智能技术的新突破，推出仅两个月后月活跃用户就已超1亿，成为历史上用户群增长最快的消费应用，并引发大模型开发热潮。党的二十大报告对信息技术、人工智能领域建设作出新的科学部署，提出“推动战略性新兴产业融合集群发展，构建新一代信息技术、人工智能、生物技术、新能源、新材料、高端装备、绿色环保等一批新的增长引擎” 。面对人工智能大模型技术的突飞猛进，本文聚焦ChatGPT的技术逻辑、大模型技术应用对互联网生态影响等方面的问题，深入探讨相关技术、产品、生态等发展趋势。

ChatGPT的两项关键技术突破

从技术逻辑来看，以ChatGPT为代表的大模型应用在自然语言处理技术领域有两个重要的突破点。

一是面向开放域的多轮对话。在很长一段时间里，自然语言对话任务的处理技术无法突破单轮对话瓶颈，针对提问的回答通过检索来匹配，只能实现僵硬的一问一答式对话。但基于大模型应用的ChatGPT支持开放域的多轮对话，即一方面支持同一模型下的多类型、多领域对话，另一方面支持追问式的多轮对话。通过引入“上下文学习”（In-Context Learning）的模型训练机制，ChatGPT等应用能不断回溯上下文内容，学习并整合用户多轮对话信息，逐轮聚焦、精准理解用户需求，以提供更准确地响应。

二是生成式文本。ChatGPT沿用的生成式技术以“字词接龙”形式实现文本生成。通过引入自回归机制，ChatGPT能将每一轮历史对话的信息和当前用户追问的信息同时纳入模型，自动生成新的预测序列，并进一步结合已习得的海量数据、具体对话语境，逐步预测回复文本的各个字词，并生成新的回复文本。这项技术突破机器写作的模板化模式，将文本预测的基本单元由句段精细到字词层级，继而生成更多样、灵活、自然的文本内容。

ChatGPT的这两项技术突破意味着人工智能由“猴”向“类人”的质变跨越。ChatGPT的多轮对话和生成式文本两项技术展现出推理决策、概念抽象等处理能力，推动人机交互进入新阶段，解决单轮对话的“前言不搭后语”“答非所问”“程式化问答”“无法存留记忆”等问题，使机器具备与人交流的基本能力。此外，不同于以往人机对话应用，ChatGPT将用户与机器引入一定对话场景中，针对某一话题开展多轮开放对话，模拟并建构起人际对话的临场感，带给用户更连贯、自然、真实的对话体验。换句话说，ChatGPT超越图灵测试的人工智能标准，使机器开始像“人”一样与用户交流，外显出一定“人”的语言行为特征。

大模型对互联网生态的影响

ChatGPT是GPT生成式预训练转换器对大模型的一项应用，GPT大模型在刷新人机交往新体验的同时，也将对互联网生态产生影响。正如开放人工智能研究中心首席执行官山姆·阿尔特曼所预测的那样，人工智能大模型技术将以聊天机器人为切入点，逐步纳入图像、音频等多模态模型，成为继移动互联网之后最大的技术平台。大模型对互联网生态的影响将从四个方面考量。

一是大模型是否会成为未来互联网竞争的门槛。大模型的出现与计算机科学的数据获取与存储能力、数据计算能力的发展紧密相关。近年来，云计算、超算技术等走向应用化，训练大模型成为可能。同时，互联网的普及带来海量可用数据为训练大模型奠定丰富的数据基础。ChatGPT只是大模型应用的“冰山一角”，建立在大模型基础之上的应用还将出现，下一步的互联网应用是否会建立在大模型之上？互联网产业生态竞争的重点是否会转移到大模型研发赛道？当大模型研发成为主流竞争赛道，大模型是否会成为企业参与互联网竞争的门槛？

二是大资本支持的算力是否会成为互联网竞争的基础。算力是大模型的基础保证，从早期的词向量预训练语言模型（ELMo）到基于转换器的双向编码表示模型（BERT-L）再到GPT3.0模型，大模型对算力的需求持续增长，但算力需要资金的支撑保障。一方面是GPU建设需要，以GPT大模型为例，其算力基础设施至少需要上万片英伟达旗舰数据中心显卡GPU A100，而一片英伟达顶级GPU的采购成本达到8万元、GPU服务器成本超过40万元，总成本远超中小型企业负担能力；另一方面是训练成本需要，尽管计算技术和数据资源条件充分，大模型训练成本仍是一道无法轻易跨越的门槛。以GPT3.0模型为例，该模型拥有1750亿参数，需借助超算基础设备进行训练，单次训练所需费用达460万美元。基于大模型的互联网竞争并非停留在技术本身，而是一定意义上关系到是否有资金支持。因而，能否获得资本支持可能成为未来企业参与大模型研发与互联网竞争的基础。

三是云端是否会成为下一个互联网竞争空间。大模型的开发与场景化应用将与基于云端的数据存储、传输和计算功能的联系愈加紧密，依托云端建立起大模型计算任务执行与大规模算力基础设施之间的连接。云端不仅是计算云和储存云，对云端的开发能力还将决定互联网应用的质量高低。云端为人工智能的芯片层、框架层、模型层和应用层提供跨地理的连接与信息交流的窗口，各方能够在算力支持、算法服务、模型训练、应用开发等环节“大显身手”，进而可能形成大模型及其应用汇聚、衍生、对话、竞合的洼地。进一步来说，未来用户对云厂商的需求更加聚焦智能服务，重点考察框架是否稳健、模型是否善于计算，以及模型、框架、芯片、应用这四层架构之间的协同水平。

四是“对话即平台”或将成为大模型时代产业趋势。2016年，微软首席执行官萨提亚·纳德拉提出“对话即平台”理念，即对话将成为下一代人机交互的界面，并将其视为人工智能时代的核心革命。“对话即平台”不仅意味着人机交互以自然语言对话的形式进行，更强调用户拥有个人的智能助理，能定制化完成用户各项需求任务，且不再需要直接使用其他软件应用。大模型的出现将人机交互的形式由计算机语言、图像界面切换为基于自然语言的对话，回归到人类最自然的交互方式，对话似乎成为主流趋势。尽管通用型人工智能助理仍是一种展望，但“对话即平台”的理念在大模型应用中已有显现。GPT-4大模型与微软办公软件（Office）的接入，即是这一理念的场景应用探索。随着大模型应用场景增加，单一功能产品可能无法顺利“出圈”；通用型、一体化新产品或将成为主流趋势，以满足个性化用户需求。此外，随着人机交互程度深化，大模型应用可能进一步强化情感体验，对人类情感的理解与机器情感的建构有望成为重要突破方向。

GPT-4是一个多模态大型语言模型，即支持图像和文本输入，以文本形式输出。

我国大模型研发现状

目前，多家中国企业、科研院所积极进入大模型竞争赛道，涌入大模型研发行列，竞相开发各自的大模型，在短时间内国内呈现“百模大战”的竞争态势。2023年2月7日，百度官宣大模型新项目“文心一言”，成为国内首个公开推出的大模型。随后，多家企业、科研院所相继宣布或推出各自的大模型。在研发通用大模型的赛场上，既有百度、阿里、腾讯等互联网企业，也有商汤科技、科大讯飞等AI公司，还有清华大学、复旦大学、北京智源人工智能研究院等科研院所，比如，清华大学唐杰团队的ChatGLM。同时，更有一批“另起炉灶”的创业者转型大模型研发，包括美团联合创始人王慧文创建的“光年之外”、创新工场创始人李开复创办的“Project AI2.0”等。

2023年2月7日，百度官宣大模型新项目“文心一言”，成为国内首个公开推出的大模型。

2023年4月14日，腾讯云新发布面向大模型训练的新一代HCC高性能计算集群。

与此同时，一部分拥有超算资源的互联网企业选择以“服务者”角色加入“百模大战”，通过为大模型培育客户提供其具备的算力支持，辅助其做好大模型开发。以字节跳动为代表，旗下火山引擎依托云端推出大模型训练云平台，面向其他AI大模型团队提供算力等技术服务，为这些团队提供大模型竞争的“入场券”。统计显示，目前国内大模型领域的数十家企业，近七成基于火山引擎云平台开发大模型，毫末智行、名之梦（MiniMax）、智谱AI、昆仑万维等科技企业都借助火山引擎的支持进行大模型训练迭代。这种基于云端的算力分配与调用，将芯片层、框架层与模型层连接起来，可能成为云端竞争的一种新模式。

还有一批企业机构锚定垂直领域大模型开发。自ChatGPT推出以来，各行各业就开始基于行业构建大模型应用场景。在医疗、金融、教育等行业，一批拥有用户数据积累的中小型企业已开始基于国内外大模型底座训练适配自身应用场景的垂类大模型，探索垂类大模型应用开发。与此同时，已发布通用大模型的企业也相继推出面向特有行业的模型，如百度基于“文心大模型”推出的“文心千帆”大模型服务平台，支持用户开发垂类大模型。这些如雨后春笋般生长的垂类大模型以应用与场景先行，进一步将大模型接入用户层面。同时，新产品研发倒逼垂直领域的大模型优化提升，与通用大模型发展形成正向反馈，有望加速大模型应用生态形成。

我国应对大模型时代到来的思考

从最早的PC互联网时代，到移动互联网时代，再到可能进入的大模型时代，每次互联网的演变都给社会发展带来深远影响，如何跟进技术发展变革的步伐将影响我国互联网在全球的竞争力。

一是对大模型要有准确的认知判断。以ChatGPT为代表的大模型是人工智能技术发展的一个新突破，为通向通用人工智能提供了一个可能的技术路线，大模型领域的落后或许意味着人工智能技术的整体落后。同时，大模型的广泛应用也可能会带来虚假信息衍生、模型算法偏见、人机与人际信任争夺、用户的情感依赖等问题。降低大模型应用的风险需执行有效明确的规则，以积极的态度建立政府、企业、公众各层面统筹应对机制，面向大模型训练、应用开发等环节建立健全法律法规，防止大模型技术被恶意使用。

二是按照技术逻辑推进大模型的培育发展。应对人工智能领域的大模型浪潮，首要一点是从技术逻辑出发推进大模型的培育与发展。技术逻辑意味着遵循技术发展路径、营造技术创新环境。更具体来说，算力是大模型发展的物质支撑，算力决定了大模型的参数规模、数据量级与运算效率。大模型是全球竞争的市场，为大模型发展提供政策环境，鼓励企业投入大模型研发，用市场方式积聚全球顶尖技术人才，才可能做强做大。

三是积极培育大模型应用生态开发。无论是PC互联网还是移动互联网，通信技术的升级迭代与应用生态的开发建设都需要“并驾齐驱”。应用生态开发是我国强项，尤其在移动互联网时代涌现出诸多全球创新领先的应用技术。在即将到来的大模型时代，模型的训练优化同样离不开应用生态的开发建设，两者相辅相成。一方面，基于大模型的强大算力优势，针对垂直应用场景开发适配行业需求的垂类大模型产品应用，加快大模型产品的价值落地，倒逼垂直领域大模型技术迭代；另一方面，释放云端大数据的竞争活力，推动多元化创意、技术、需求、场景的碰撞与融合，实现模型-应用层面的有机接入与资源循环，不断提升大模型应用的多样化和通用化能力，探索“大模型+”的产业融合集群发展。

总之，大模型的出现将人机关系推向新阶段，并对互联网生态形成新一轮变革。面对大模型时代的到来，我国应加快布局，多方合力推进大模型应用生态建设，在新一代人工智能技术发展赛道上夺得先机。