AGI大模型现状及发展路径研究 2024

mrjiangkai 2024-04-16 发布于上海

展开全文

文末有福利！

文章很有深度，比较长，可以二倍速听读！

目前大模型能力仍处于 Emerging AGI 水平，就模型成熟度而言，语言大模型>多模态大模型>具身智能大模型。根据DeepMind 的定义，AGI 应能够广泛学习、执行复杂多步骤的任务。

模型的 AGI 水平可分为 Level-0 至 Level-5 共 6个等级，现阶段大模型在处理任务的广泛性上还有很大提升空间，即使是国际顶尖的大模型也仍处于 Level-1Emerging AGI 阶段。

不同类型大模型成熟度差异较大，目前大语言模型能力相对完善，落地应用场景丰富，底层技术路线较为成熟；多模态大模型已经能够面向 B\C 端推出商业化产品，但细节优化空间较大；具身智能类大模型还在探索阶段，技术路线尚不清晰。

现阶段讨论 AGI 能力提升仍需聚焦于多模态大模型的训练和应用。目前学界和业界重点关注 Scaling Law 的有效性，以及模型算法的可能改进方向。

Scaling Law 仍有深入空间。根据 OpenAI 研究，随模型参数量、数据集规模、训练使用的计算量增加，模型性能能够稳步提高，即 Scaling Law。从训练样本效率、训练时长、各类资源对模型的贡献维度来看，目前 ScalingLaw 仍是提高模型性能的最优方法。OpenAI 测算在模型参数量扩展到 88 万亿及之前，Scaling Law 依旧有效，则中短期仍可延续此路线进行训练。
模型骨干网络架构尚未演变至终局，微调及稀疏结构成为提升模型性能的重要方法。目前主流大模型均采用Transformer 作为底层骨干网络，但针对编码器\解码器选择、多模态融合、自注意力机制等方面的探索仍在持续推进。微调使用更小的数据量、更短的训练时间，让模型能够适应下游任务，以降低边际落地成本。以 MoE 为代表的稀疏结构通过分割输入任务并匹配专家模型，能够提高模型的整体性能。

开源模型性能优化速度快于闭源模型。我们认为，目前第一梯队 AI 大模型纷纷进军万亿参数，且不远的将来大模型将逐步逼近十万亿参数收敛值，对于本轮 AI 浪潮而言，找场景或优于做模型。

在场景选择方面，对“幻觉”容忍度高且能够替代人工的场景可实现应用率先落地，如聊天机器人、文本/图像/视频创作等领域；而对“幻觉”容忍度较低的行业需要等待大模型能力提升或使用更多场景数据训练。

2022 年 11 月 ChatGPT 推出后，自然语言处理领域取得重大突破，正式进入大模型时代，2023 年被称为“大模型元年”；

2023 年 3 月,具备多模态能力的 GPT-4 惊艳发布，海内外科技巨头、研究机构等纷纷跟进；

至 2024 年 2 月 Sora 面世，大模型在视频生成领域实现代际跃迁，虚拟现实成为可能。

在此背景下，学界和业界对于大模型终局，即是否能够实现 AGI（Artificial general Intelligence，通用人工智能）的讨论热度日益提升。

本文主要盘点目前各类主流大模型性能情况，试图讨论大模型性能提升并最终实现 AGI的可能路径，并分析在实现 AGI 过程中的相关产业链投资机会。

1. 距离 AGI 还有多远：语言大模型较为成熟，处于 Emerging AGI 水平

根据 DeedMind 的创始人兼首席 AGI 科学家 Shane Legg 的定义，AGI 能够执行一般人类可完成的认知任务、甚至超越这个范围。具体而言，AGI 应能够学习广泛任务，能够执行复杂、多步骤的任务。DeepMind 根据 AI 模型性能和学习处理任务的广泛性对 AGI 水平进行分类，从 Level-0 无人工智能，到 Level-5 超越人类共 6 个等级。

图表1：AGI 可以根据性能和广泛性划分为 6 个等级

现阶段大模型在处理任务的广泛性上还有很大提升空间，虽然 GPT-4、Gemini 1.5、Claude3 等模型已经能够处理文本、图像、视频等多模态输入，但尚未具备独立决策和执行行动的能力。

此外，现阶段更多的模型仍聚焦在某单一领域进行性能提升，比如 Kimi 在处理长文本输入领域表现突出，但尚不能进行图片生成；Sora 能够高质量完成文生视频任务，但不具备问答功能。因此，现阶段评价大模型性能情况、分析模型演进方向，仍需根据模型专长领域进行分类。

图表2：大模型可根据功能进行分

在语言大模型以及偏重问答能力的多模态模型领域，自 2020 年 GPT-3 发布后进入爆发期，各主流玩家加速模型迭代，包括 OpenAI 的 GPT 系列、Google 的 Gemini系列、Meta 的开源 LLaMA 系列等。

目前定量测评分数最高的为 Anthropic 旗下的Claude 3 Opus，在 MMLU（Undergraduate Level Knowledge）、GSM8K（GradeSchool Math）、MGSM（Multilingual Math）等多个测试项目中准确率超过 85%；模型参数量最高的为 23 年3 月谷歌发布的 PaLM-E，参数量达到 5,620 亿，是 ChatGPT的 3.2 倍，模型能够理解自然语言及图像，还可以处理复杂的机器人指令；谷歌于24 年 2 月发布的 Gemini 1.5 能够处理的上下文长度高达 100 万 tokens（相当于 70万单词，或 3 万行代码，或 11 小时音频，或 1 小时视频），为目前长文本处理能力的上限。

图表3：海内外语言及多模态大模型进展概览

文生图、文生视频类模型可追溯至 2014 年的 GAN 框架，2021 年 OpenAI 发布DALL-E 后图像生成类模型开始爆发，包括谷歌的 Imagen、OpenAI 的 DALL-E 2、Stability 旗下的 Stable Diffusion；至 2023 年文生图功能与大语言模型相结合，并出现文生视频技术，24 年 2 月 OpenAI 发布文生视频模型 Sora，在生成视频长度和质量上均为目前最优水平。

图表4：海内视觉及其他大模型进展概览

机器人模型包括感知、决策、控制、交互 4 个部分，涉及视觉、图像、声音、导航、动作等多个模态，在实际应用中需要根据特定的环境、动作、障碍、反馈等数据进行决策，因此，机器人对算法的跨模态、泛用性要求更高。

图表5：机器人涉及到的模型种类较多

将语言大模型的底层框架和训练方式应用于机器人的感知、决策、控制成为现阶段重要趋势。2021 年 OpenAI 推出基于 Transformer 架构和对比学习方法的 VLM（视觉-语言模型）CLIP；2022 年起，谷歌先后推出 RT-1/RT-2/RT-X/RT-H 系列模型，同样采用 Transformer 架构，能够将语言描述的任务映射为机器人行动策略；24 年 3月，初创公司 Figure 与 OpenAI 合作推出机器人 Figure01，由 OpenAI 提供视觉推理和语言理解能力，Figure01 能够描述看到的一切情况、规划未来的行动、语音输出推理结果等。

图表6：将 Transformer 架构应用于机器人决策、控制等成为现阶段重要趋势

按照 DeepMind 的 6 级 AGI水平分类，目前国际顶尖大模型仍处于 Level-1 Emerging AGI阶段。具体而言，各类大模型成熟度：语言大模型>多模态大模型>具身智能类大模型。

语言大模型能力相对完备，底层技术路线大多选择 Transformer Decoder-only 架构，结合MOE和多模态embedding，算法细节优化方向区别较小。以GPT-4、Gemini 1.5、Claude 3 为例，语言大模型在推理、长文本、代码生成领域已经能够完成初级任务，但距复杂、专业水平仍有差距；
多模态大模已经能够面向 B\C 端提供商业化产品，底层技术路线主要采用 DiffusionTransformer，但细节优化空间较大，高质量和成规模的数据集仍在发展初期；
具身智能类大模还在探索阶段，底层技术路线尚不清晰，数据收集、训练方法、测评方法等都处于发展初期。在实际应用场景中准确率较低。

图表7：各类大模型能力现状

2. 如何实现 AGI：Scaling Law 仍有深入空间，底层算法框架有待升级

参考 OpenAI 的大模型研发布局，实现 AGI 的过程可以分为 3 个阶段，目前处于多模融合的第 2 阶段。AGI 发展路径与当下各类模型水平相对应，即在语言大模型、视觉大模型相对成熟的基础上发展多模态大模型，而后探索具身智能类应用。

第一阶段为单模态系统，包括语言模型、视觉模型、声音模型等，各个模态独立发展；
第二阶段为多种模态、多种任务模型相融合。但根据模型的能力侧重点不同仍可分为两类：一是以 GPT-4 等为代表的多模态理解模型，二是更强调生成性能的多模态生成模型，如 Sora 等。预计这两种能力会在后续的大模型发展中进一步融合。
第三阶段将进一步强调模型与外部环境的交互，以及面对复杂任务的处理能力，将以机器人或者一个设备的大脑为载体，进一步靠近乃至实现 AGI。

因此，现阶段讨论 AGI 能力提升仍需聚焦于多模态大模型的训练和应用，在多模理解和多模生成能力较好融合后，再推演具身智能的模型框架、训练方法会更加清晰。

图表8：以 OpenAI 布局为例，看 AGI 发展路径

多模态大模型与语言大模型的训练流程相似，包括数据工程和模型工程两部分。其中数工程包括数据清洗、分词、位置编码等，模型工程包括模型框架选择、训练方法选择、算法选择、模型预训练、微调等。模型的预训练、微调、推理等环节均需要算力支持。

图表9：大模型训练主要环节

模型架构及神经网络层数决定模型参数量，通常将参数规模千万量级及以上的深度学习模型称为“大模型”；训练使用的数据集大小需要与模型参数规模相匹配，避免产生过拟合或训练不充分等问题；算力需求与模型算法结构、参数规模等紧密相关。因此当我们讨论模型性能提升时，可以重点从神经网络架构和训练方法、数据量、算力等维度入手。本文后续章节将就目前学界和产业界重点关注的问题进行讨论：

在保持现有模型架构不变的情况下，增加神经网络层数，进而扩大参数规模、训练数据集规模的 Scaling Law 的天花板在哪里？
当仅凭 Scaling Law 不能进一步提升模型性能时，算法层面有哪些可以改进的方向？

图表10：多重因素决定模型性能

2.1 Scaling Law：中短期内，持续扩大参数量仍能改善模型表现

OpenAI 通过研究证明，随着模型大小、数据集大小和训练所用计算量的增加，语言模型的性能也会稳步提高。为了获得最佳性能，这三个因素必须同时放大：1）当不被其他两个因素瓶颈限制时，模型性能表现与每个单独的因素之间存在幂律关系；2）在其他两个因素充足的前提下，模型表现和第三个因素成幂方关系。

图表11：模型性能随着模型大小、数据集大小和训练所用计算量的增加呈现幂律提升

从训练样本效率、训练时长、各类资源对模型的贡献维度来看，目前 Scaling Law 仍是提高模型性能的最优方法：

参数规模更大的模型在训练过程中的样本效率更高、性能提升更快。当计算量固定（比如固定要进行 n 次浮点计算）而数据集大小 D 和模型参数量 N 不固定时，OpenAI发现训练大模型的性价比更高。主要由于随着模型规模的增加，每个优化步骤所需的数据点数量减少，从而提高了样本效率。

图表12：参数规模更大的语言模型在训练过程中的样本效率更高且性能提升更快

模型参数规模对于性能提升的贡献度更高。研究表明，在有限的资源下，为了达到最佳的训练效果，应当优先考虑扩大模型参数量 N，同时合理调整其他训练参数以保持训练效率和避免过拟合。

图表13：模型参数规模对于性能提升的贡献度更高

OpenAI 对 Scaling Law 的适用空间进行测算，认为模型参数量在扩展到 88 万亿及之前Scaling Law 仍会发挥作用。目前业界预测 OpenAI 下一代大模型 GPT-5 参数量预计达到10 万亿级别，神经网络层数或达 1,300 层，相较 88 万亿的“天花板”仍有扩充空间。因此，中短期来看持续扩大模型参数量仍有望改善模型表现。

2.2 算法改进：骨干网络架构仍有创新空间，微调及稀疏结构能够提升性价比

我们曾经在 2023 年 3 月发布报告《大模型时代，AI 技术向效率提升演进》，对大模型训练方法、数据效率、开发效率、算力效率、工程化效率的发展趋势进行梳理，本节将结合过去一年的大模型迭代情况，进一步讨论可能的算法演进方向。

2.2.1 基于 Transformer，在架构选择、多模态融合、自注意力机制方面进行创新

2017 年谷歌将注意力机制引入神经网络，提出了新一代深度学习底层算法 Transformer。由于其在物体分类、语义理解等多项任务中准确率超过 CNN、RNN 等传统算法，且能应用于 CV、NLP 等多个模态，Transformer 的提出使得多任务、多模态的底层算法得到统一目前主流大模型均采用 Transformer 作为底层骨干网络，但在编码器\解码器选择、多模态融合、自注意力机制等方面有所创新。

图表14：Transformer 模型结构及自注意力机制原理

针对 Transformer 的编码器-解码器（Encoder-Decoder）结构进行拆分选择：

Transformer 模型采用编码器-解码器结构，其中编码器负责从输入内容中提取全部有用信息，并使用一种可以被模型处理的格式表示（通常为高维向量）；而解码器的任务是根据从编码器处接收到的内容以及先前生成的部分序列，生成翻译后的文本或目标语言。

目前主流大模型可以根据骨干网络架构的差异分 Encoder-only、Encoder-Decoder、Decoder-only 共 3 类，其中 Encoder-only 主要为谷歌的 Bert 及其衍生优化版本；使用 Encoder-Decoder 架构的模型有谷歌的 T5 以及清华智谱的 GLM 等；OpenAI 的GPT 系列、Anthropic 的 Claude 系列、Meta 的 LLaMA 系列等均采用 Decoder-Only架构。

图表15：根据底层骨干网络差异可以将大模型分为三类

Decoder-Only 架构更适合生成类任务且推理效率更高，为大模型厂商所青睐：

1）功能方面，Encoder-Only 架构更擅长理解类而非生成类任务，以采用 Encoder-Only 架构的 Bert 为例，其学习目标包括 Masked LM(随机遮盖句子中若干 token 让模型恢复)和 Next Sentence Prediction(让模型判断句对是否前后相邻关系)，训练目标与文本生成不直接对应；

2）推理效率方面，Encoder-Decoder 和 Decoder-Only 架构均能够用于文本生成，但在模型效果接近的情况下，后者的参数量和占用的计算资源更少，且具有更好的泛化能力。

图表16：三种骨干网络特点对比

使用 Encoder-Decoder 亦可训练出成熟的多模态大模型，或将凭借架构优势在多任务融合领域实现反超。

清华大学和智谱 AI 公司共同研发的 GLM 系列模型采用Encoder-Decoder 架构，于 24 年 1 月发布 GLM-4 最新版本，模型在基础能力（英文）、指令跟随能力（中英）方面能够达到 GPT-4 90%以上的水平，在对齐能力（中文）、长文本能力方面超过 GPT-4，在文生图方面能力逼近 DALLE-3。

目前 GLM4支持根据用户意图，自由调用网页浏览器、代码解释器和文生图模型，并上线个性化智能体定制功能。

图表17：智谱 GLM-4 在多项任务中能力比肩 GPT-4

Transformer+其他现有算法，推进多模态性能提升：

自注意力机制（Self-Attention）使得 Transformer 架构能够处理多模态任务。自注意力机制将输入数据进行线性映射创建三个新向量，分别为 Q/K/V，其中 Q 向量可以看作是某个人的关注点，V 向量可以看作是具体的事物，而 K 向量可以看作是人对不同事物的关注程度。通过计算 Q 向量和 K 向量的点乘，可以得出一个值，表示这个人对某个事物的关注程度，然后将这个关注程度与 V 向量相乘，以表示事物在这个人眼中的表现形式。这种方式使得模型能够更好地捕捉长序列中不同部分的关联性和重要性，而各种模态的信息均可以通过一定方式转化为一维长序列，因而Transformer 具备处理多模态问题的能力。

以上海 AI Lab 和香港大学联合推出的 Meta-Transformer 为例，该模型通过一个多模态共享的分词器，将不同模态的输入映射到共享的数据空间中，进而实现了处理 12种非成对的模态数据，包括文本、图像、点云、音频、视频、X 光、红外等。

图表18：Meta-Transformer 模型能够处理 12 种非成对的模态数据

将 Transformer 与其他模态领先算法融合，能够显著提升多模态处理能力，有望加速大模型多模态融合趋势。24 年 2 月 OpenAI 发布文生视频大模型 Sora，主要根据Diffusion Transformer（DiT）框架设计而成。其中，扩散模型（Diffusion）是一种图像生成方法，通过逐步向数据集中添加噪声，然后学习如何逆转这一过程。

扩散模型能够生成高质量的图像和文本，但仍存在可扩展性低、生成效率低等问题。

DiT 模型在扩散模型基础上引入 Transformer 架构，通过将图像分割成小块（patches），并将这些块作为序列输入到 Transformer 中，DiT 能够有效地处理图像数据，同时保持了Transformer 在处理序列数据时的优势，能够显著改善扩散模型的生成效率。此外，将自动驾驶领域的 BEV（鸟瞰视图）模型与 Transformer 相结合，已经成为目前自动驾驶领域主流感知框架，并在众多辅助驾驶产品中量产应用。

图表19：扩散模型示意图

图表20：Diffusion Transformer 模型结构

基于 Transformer 的细节创新已成为学界重点研究方向，非 Transformer 结构的探

索持续推进，有望推动骨干网络升级。

Transformer 自 2017 年发布后对深度学习领域产生颠覆性影响，学界在持续探索改变框架细节以实现模型性能进一步突破。目前针对 Transformer 的创新尝试包括模块改进、架构改进、效率优化等方面。

华为诺亚方舟实验室等联合推出新型大语言模型架构盘古-π，通过增强非线性，在传统 Transformer 架构上做出改进，由此可以显著降低特征塌陷问题。在使用相同数据训练的情况下，盘古-π（7B）在多任务上超越 LLaMA 2 等同规模大模型，并能实现 10%的推理加速。

图表21：针对 Transformer 的创新研究持续推进

2.2.2 微调方法的改进促进模型性能和落地效率提升

“基础模型+微调”已成为大模型开发范式，通过微调让基础模型针对特定任务类型、应用场景进行二次训练，能够极大提升大模型在实际应用中的智能水平。相较于过去“一场景、一任务、一模型”的训练方式，微调能够是使用更小的数据量、更短的训练时间使模型能够适应下游任务，显著降低了边际落地成本。

目前大模型的微调方法可以分为全量微调（Full Fine-tuning）和参数高效微调（PEFT，Parameter-Efficient Fine-Tuning）两种：

1）全量微调：利用特定任务数据调整预训练模型的所有参数，以充分适应新任务。它依赖大规模计算资源，但能有效利用预训练模型的通用特征。

ChatGPT（InstructGPT）使用的基于人类反馈的强化学习微调 RLHF 即为全量微调，通过使用 RLHF 模型输出内容能够更加符合人类语言习惯。23 年 7 月，Meta 旗下的开源模型 Llama-2-chat 对 RHLF进行了改进，通过创建两个奖励模型、增加额外的拒绝采样步骤，使得生成内容在安全性和有用性方面表现更好。

图表22：InstructGPT 中的 RLHF 技术

图表23：Llama-2 对 RHLF 的奖励模型进行改进

2）参数高效微调：旨在通过最小化微调参数数量和计算复杂度，实现高效的迁移学习。它仅更新模型中的部分参数，显著降低训练时间和成本，适用于计算资源有限的情况。常见的 PEFT 技术包括 LoRA、Prefix Tuning、Prompt Tuning、Adapter Tuning 等多种方法。其中 LoRA 是微软推出的低秩自适应技术，它相当于在原有大模型的基础上增加了一个可拆卸的插件，模型主体保持不变，随插随用，轻巧方便，使用 LoRA 时可以节省 33%的 GPU 内存。

图表24：针对 Transformer 架构大模型的 PEFT 微调方法

2.3.3 使用 MoE 进行任务分割，更高效地利用计算资源

AI 大模型的计算架构决定了模型中人工神经网络的各神经元之间相互作用的方式。计算架构可分为稠密结构和稀疏结构 2 种：1）使用稠密结构的大模型在计算时需要激活整个神经网络，算力和内存消耗较大，主要应用于 GPT-3 等早期 AI 大模型中；2）稀疏结构允许系统的某些特定部分单独执行计算，根据输入的特定特征或需求，只有部分参数集合被调用和运行。

稀疏结构的代表是 MoE 混合专家模型，通过将输入数据根据任务类型分割成多个区域，并将每个区域的数据分配一个或多个专家模型。每个专家模型可以专注于处理输入这部分数据，从而提高模型的整体性能。

图表25：MoE 结构中只激活部分网络

尽管 MoE 提供了若干显著优势，例如更高效的预训练和与稠密模型相比更快的推理速度，但仍有继续改进的空间:

训练挑战: 虽然 MoE 能够实现更高效的计算预训练，但它们在微调阶段往往面临泛

化能力不足的问题，长期以来易于引发过拟合现象。

推理挑战: MoE 模型虽然可能拥有大量参数，但在推理过程中只使用其中的一部分，

这使得它们的推理速度快于具有相同数量参数的稠密模型。然而，这种模型需要将所有参数加载到内存中，因此对内存的需求非常高。

3. 如何商业落地：借力模型开源及 B 端合作，寻找高人工替代率的场景

3.1 开源模型 vs 闭源模型？——Scaling Law 不再 work 之后，找场景或优于做模型

本轮 AI 底层模型创业需求依赖资本密集的人才与算力持续投入。据 BofA GLOBALRESEARCH，2023 年，全球生成式 AI 公司融资额度高达 218 亿美元，同比 22 年提升 4倍，超过 19~22 年 4 年融资总额；2023 年全球生成式 AI 公司融资笔数多达 426 笔，同比提升 65.8%。我们认为，融资笔数同比增速大幅低于融资额度说明 2023 年 AI 创业公司平均融资额度较大，可能与 AI 大模型创业公司对人才、算力需求较大所致，变相说明本轮 AI 模型创业相对资本密集，对于持续高额融资的需求较为旺盛。

图表26：2023 年生成式 AI 融资额度与融资笔数快速提升

开源模型快速追赶闭源模型，开源模型性能优化速度快于闭源模型。AI 底层模型创业客观上、依托投资人的持续投入，以支撑模型训练对于尖端人才与大规模算力的需求。

一方面，性能卓越的爆款应用（killer app）往往需要基于足够强大的模型能力，甚至

于会有 MaaS（Model as a Service，模型即服务）说法的出现——“好模型等于好应用”每家 AI 公司都应该自研大模型；

另一方面，在国内外众多创业者投身底层模型研发的过程中，AI 大模型第一梯队的领跑者也会阶段性地开源已有的较先进的模型，以塑造围绕自身的开发者生态——在Scaling Law 不再 work 的世界中，开源模型迟早会追平（或无限接近）闭源模型性能不必重新造轮子，中长期看找应用场景优于卷大模型。

据 BofA GLOBAL RESEARCH，目前开源模型性能优化速度快于闭源模型，我们认为，目前第一梯队 AI 大模型纷纷进军万亿参数，且不远的将来大模型将逐步逼近十万亿参数收敛值，对于本轮 AI 科技浪潮而言，找场景或优于做模型。

图表27：开源模型性能改善速度快于闭源模型

3.2 如何定义一个好场景？——“幻觉”尚未消除的世界，高人工替代率或为重点

基于未来开源模型性能表现终将追平或接近闭源模型能力这一假设，我们认为以中长期视角来看，找到一个能够将 AI 落地且可以产生商业化收入的场景对于大多数 AI 厂商而言或将成为更优的投入方向。

结合我们上一篇 AI 行业研究报告——《AI 应用落地的商业模式探索》与本篇报告前述章节的讨论，我们认为 AI 落地场景大致可以分为 5 类：

第一类-真实世界中基于具身智能的应用场景。
第二类-虚拟世界中场景更需要“生成”为主，且现阶段可以替代人工的场景。
第三类-虚拟世界中场景更需要“生成”为主，且现阶段不可以替代人工的场景。
第四类-虚拟世界中场景更需要“分析”为主，且容错率较低的场景。
第五类-虚拟世界中场景更需要“分析”为主，且容错率较高的场景。

已经落地的场景往往对“幻觉”具备一定的容忍度。只有第二类和第五类场景是目前 AI能够应用落地且可以产生商业化收入的。第二类场景例如生成某种风格类型的小说/插画/音乐以及基于 Sora 等多模态模型得到的短片。第五类场景例如 ChatGPT 或者Character.ai 等满足效率工具与角色扮演需求的聊天机器人，以及例如 Perplexity 等 AI辅助搜索。

我们认为，以上两类场景之所以能够在现阶段落地的核心原因是它们均能够在一定程度上容忍“幻觉”（Hallucination，指在 AI 生成或反馈结果当中存在的不符合常理的情况），其中，对于第二类场景所对应的文本/图像/音乐/视频创作（错题生成也可以被视作文本创作的一部分）而言，其本身便不存在唯一性的最优解；而对于第五类场景所对应的问答互动与信息总结需求而言，固然存在更优的回答与更有效率的信息归纳方式，但用户对于 AI 偶尔出现不符合常理的反馈仍有一定的宽容度。

图表28：AGI 演进过程中的应用场景分类

尚无法落地的场景需要解决“幻觉”所产生的问题。对于尚无法应用落地或至少不能形成商业化收入的第一/三/四类场景而言，我们认为最重要的是要解决“幻觉”所带来的问题。

对于第一类场景而言，基于具身智能的机器人置身于真实的物理世界当中，其每一个行为动作都可能会对工厂与居家安全带来风险（比如，一个错误的参数反馈可能导致生产事故，一个错误的指令理解可能伤害到居家住户），因此天然对于“幻觉”的容忍度很低。
对于第三类场景而言，尽管多数依赖生成式 AI 的创意工作都已经得到落地，但我们依然可以在 Sora 对外披露的视频中看到不符合物理世界常识的画面出现，涉及大量物理世界规律的长视频制作目前依然无法完全取代人工。
对于第四类场景而言，部分直接涉及人类生命安全的领域，如自动驾驶与医疗诊断也天然对“幻觉”具有较低的容忍度。

综合前述，我们认为，假如第三类场景中的“幻觉”得以解决或至少控制在足够低的范围内，将有助于反哺第一与第四类场景进行数据训练，从而加速 AI 的落地进展。

3.3 如何处理“幻觉”？——Scaling Law 信仰派 vs 引入知识图谱改良派

在处理模型幻觉、进而实现 AGI 的路径方面，学界主要存在着两派声音——基于连接主义的“Scaling Law 信仰派”与基于符号主义的“引入知识图谱改良派”：

连接主义（Connectionism）：又称为神经网络或并行分布处理，是一种模仿人脑神经网络结构和功能的人工智能方法。它的核心思想是通过大量简单的、相互连接的处理单元（类似于神经元）来实现复杂的智能行为。这些处理单元之间的连接强度代表了信息的权重，而智能则体现在这些单元如何通过学习和调整连接强度来处理信息。用一个简单的比喻，连接主义就像是一张由许多节点（神经元）组成的大网。每个节点都可以接收和发送信号，而节点之间的连接则决定了信号如何传递。当这张网接收到输入信号时，它会通过调整节点之间的连接强度来学习新的模式和任务，就像人脑学习新知识一样。连接主义认为，现阶段的“幻觉”只是模型参数与训练数据集的规模未达到理想情况导致的，Scaling Law 将会持续改善模型效果直至“消除”“幻觉”。
符号主义（Symbolism），也称为逻辑主义或规则主义，是一种基于符号处理的人工智能方法。它的核心思想是认为智能行为可以通过对符号的操作和处理来实现。这些符号代表了现实世界中的对象、概念或事件，而智能则体现在如何通过逻辑规则对这些符号进行有效的组合、推理和转换。举个例子，符号主义就像是我们使用的语言和数学公式。我们通过文字和公式来表达思想和解决问题，而符号主义 AI 则通过预设的规则和逻辑来操作这些符号，从而实现智能行为。比如以 Yann LeCun 为代表的Meta、Google、Stanford 等科学家认为目前的生成式 AI 模型没有真正理解内容。

图表29：连接主义 VS 符号主义

“改良派”认为，知识图谱可能用以减轻“幻觉”问题。知识图谱是一种存储信息并展示相关信息源之间关系的方法。知识图谱具有一个集中准确的知识来源，并且能够将不同格式的信息进行结构化的组织。

AI 大模型有时会“很有信心”提供一些不准确的信息。知识图谱从多个来源摄取大量事实信息，并在它们之间建立联系，将知识图谱与大模型整合，将促使大模型内部的概念之间形成逻辑连接。

理想状况下，AI 大模型可以利用包括结构化和非结构化数据在内的各种信息来源，生成更准确的输出。知识图谱不像 AI 大模型那样的概率引擎，其基于一个准确的知识中心进行推理和解释，进而也可以减少 AI 大模型训练对大量标记数据集的需求。

图表30：知识图谱通过机器学习和自然语言处理来构建节点、边和标签的全面视图

4. 展望

目前大模型正处在 Emerging AGI 阶段，多模态融合是现阶段发展的重点方向。在模型性能提升方面，无论是继续沿 Scaling Law 推进，还是探索神经网络骨干架构和细分算法的创新，均需要大模型厂商与数据工程类、算力支持类公司合作推进。

图表31：大模型向 AGI 演进，模型训练产业链有望持续收益

大模型厂商：国内头部 AI 大模型上市公司包括科大讯飞、商汤等。其中科大讯飞于2023 年 5 月发布讯飞星火大模型，至 24 年 1 月模型已升级至 V3.5 版本，根据公司测评，在七大核心能力上都获得了全面提升，在数学、语言理解和语音交互能力上还超越了 GPT-4 Turbo。商汤于 23 年 4 月发布日日新系列大模型，24 年 2 月模型更新至 V4.0 版本，其中日日新商量大语言模型支持 128K 语境窗口长度，综合整体评测成绩水平比肩 GPT-4。
数据工程厂商及拥有丰富垂类数据的公司：海天瑞声是我国语音类基础数据服务领域头部企业，目前公司已推出 DOTS-LLM 大模型服务平台，平台包括数据采标、数据管理、模型训练和模型评测四大功能，旨在为千行百业数字化转型赋能。此外，在微调环节需要使用垂类行业数据，以提升模型在具体应用中的性能，拥有丰富行业数据积累的公司也有望收益。
算力产业链：上游包括芯片和元器件，中游包括服务器和网络设备，下游包括 IDC以及云服务等。其中，浪潮信息是算力系统供应商，支持多元异构算力、可适配多种架构的 AI 加速芯片；中科曙光积极建设“全国一体化算力服务平台”，致力于链接遍布各地各类算力中心；宝信软件多年专注于自主研发工业互联网平台宝联登 xln3 Plat和 AI 中台。我们在《算力深度报告一：算力研究框架-产业链全梳理》进行了详细投资标的梳理。