从零开始了解AI大模型 - 技术篇（中）：GPT自回归大模型演进和技术

mrjiangkai 2023-09-19

展开全文

背景：ChatGPT - 或许是2022年末开始至今最热的新词之一，这个词汇如热浪一般席卷大街小巷，充斥朋友圈和各大网站，它的爆火程度简直让人瞠目结舌。ChatGPT的炙手可热点燃了全球AI的狂潮，让曾经有些冷清的AI领域重新燃起了昂扬的风帆。ChatGPT的惊世之举，让大家见识到通用人工智能的辉煌崛起，也让AI在文本创作、摘要提炼、多轮对话甚至代码生成等领域迈向了一个质的飞跃。本文是从零开始了解AI大模型系列的技术篇（中），带你走进大模型的技术世界，聚焦在GPT自回归大模型的演进和技术。

GPT自回归大模型的演进和技术

GPT-1：筑基Decoder-only自回归架构，生成式预训练语言模型GPT的奠基者

GPT-1是GPT系列的第一个模型，它采用了12个Transformer模型的解码器进行堆叠，形成了一种预训练语言模型。由于Transformer解码器的主要功能是在每次训练过程中生成一个单词，因此GPT系列模型又被称为“生成式预训练语言模型”。与其他预训练语言模型类似，使用GPT-1完成各种具体任务也需要经过两个步骤：预训练（Pre-Training）和微调（Fine-Turning）。

其涉及的关键理论和技术如下：

无监督预训练：训练使用的数据都是自然文本数据，不需要人工针对不同任务对数据打标签，因此该过程叫作“无监督预训练”。训练数据不需要人工标注，这让数据获取的工作量大大降低，使搜集大规模高质量的数据成为可能。

有监督微调：GPT-1模型需要将待训练的分类文本打上相应的标签，比如判断文本的情感态度是积极的还是消极的，这往往需要用数字来表示态度类别。这一过程就是人工标注，使用这种数据进行训练，也被称为“有监督训练”。因此，微调过程也被称为“有监督微调”(Supervised Fine-Tuning，SFT)

黑板报划重点-科普说人话：GPT-1是生成式预训练语言模型GPT的奠基者，筑基Decoder-only自回归架构，其关键技术涉及到预训练（Pre-Training）和微调（Fine-Turning）

GPT-2：扩大GPT-1参数量和预训练数据量，应用Prompt和Zero-shot开始可支持多任务的通用大模型

GPT-2模型的核心思想是摒弃了GPT-1中的微调环节和预训练步骤，转而将合理的问题作为输入，让模型通过文字生成的方式直接生成答案。这种输入通常被称为一个“Prompt”。从基本结构上来说，GPT-2与GPT-1是一样的，都是多个Transformer解码器的堆叠。然而，GPT-2在解码器的细节方面做了一些调整，比如改变了归一化层的位置，并新增了一层归一化层。更重要的是，GPT-2通过将解码器的堆叠个数扩展到48个，增加多头注意力机制的头数以及位置编码的个数，大大增加了参数量。GPT-1只有1.2亿个参数，而GPT-2的参数量扩展到了15亿，这极大地提高了模型学习文本的能力。与模型参数量的增加相比，预训练数据规模的扩大也是GPT-2不需要微调的关键。GPT-1的预训练数据规模为5GB，而GPT-2的数据规模则扩大到GPT-1的8倍，达到40GB。

GPT-2在训练数据上的获取方式相当独特。它从著名的在线社区Reddit上爬取了具有问答特性的训练数据，并根据社区用户的投票结果筛选出优质的内容。通过这种方式，GPT-2成功训练出了1.5亿参数量，并且取得了与BERT相媲美的效果。

其涉及的关键理论和技术如下：

Prompt：将合理问题作为输入（Prompt），令模型直接通过文字生成的方式生成答案。

零样本学习(Zero-shot Learning)：只给出任务描述（description）和任务提示（prompt）。任务也可以通过设计相应的Prompt来完成，这里的Prompt中并没有任何关于问题应该如何回答的提示。

黑板报划重点-科普说人话：GPT-2是扩大GPT-1参数量和预训练数据量，不需要像GPT-1进行各任务微调，应用Prompt和Zero-shot开始可支持多任务的通用大模型。

GPT-3：大力出奇迹并引入上下文学习，落地 few-shot少样本学习

GPT-3可以说是GPT-2的强化版，从GPT-2的15亿个参数量增加到1750亿个。GPT-3的训练数据不再是单纯的自然语言文本，而是针对具体任务的高质量Prompt，并且每个Prompt中都会包含十几个到几百个案例提示。总而言之，GPT-3可以被看作模型参数和预训练数据量增加的GPT-2。

GPT-3实际上可以被看作是GPT-2的强大进化版，将模型参数数量从GPT-2的15亿个飙升到了惊人的1750亿个。同时，GPT-3在训练数据方面也经历了一场革命性的变革。它不再依赖单纯的自然语言文本，而是采用了一种高度质量的'Prompt'，而且每个Prompt中都包含了十几个到几百个案例提示。这种全新的训练方式使得GPT-3具备了更为广泛的应用能力，可以处理各种复杂任务。

综上所述，GPT-3可被视为在模型参数和预训练数据量两个方面都取得了显著突破的GPT-2的强大继任者。这一进化使得它在自然语言处理领域成为了一颗璀璨的明星，展示出了无限的潜力。

其涉及的关键理论和技术如下：

小样本学习(Few-shot Learning)：给出任务描述，给出若干个例子，给出任务提示。模型根据这些小样本的提示，只需要通过前向计算的方式就可以获得期望的答案

黑板报划重点-科普说人话：GPT-3进一步扩大参数量和预训练数据量，是大力出奇迹的结果，并引入上下文学习，落地 few-shot少样本学习。

GPT-3.5/ChatGPT：人类反馈强化学习进行后处理生成更符合用户诉求的高质量结果

GPT-3.5/ChatGPT与GPT-3在原理上基本保持一致，但在训练数据方面进行了一些重要的改进。它引入了Codex数据集来进行微调，这使得在ChatGPT中也能展现出对代码的理解和解析能力。ChatGPT在GPT-3的基础上经过人类反馈的强化学习，同时对生成的回答内容进行了'无害化'处理。

'无害化'处理可以看作是对模型结果的一种后处理步骤，旨在确保生成的回答不会包含有害或不适当的内容。这一步骤并没有引入新的技术，而是对模型输出进行了额外的过滤和修正。

可以说，强化学习RLHF是和'无害化'处理是GPT-3进化成ChatGPT的关键技术，使其更加适用于各种实际应用场景，并提供更安全和可控的对话体验。这些技术的引入为ChatGPT的性能和可用性带来了显著的提升。

其涉及的关键理论和技术如下：

RLHF(Reinforcement Learning from Human Feedback)：可以将其理解为通过训练一个反馈模型(Reward Model，RM)来模拟人类对语言模型回答的喜好程度，然后借助这个反馈模型使用强化学习的方式来训练语言模型，使其生成的回答越来越符合人类的喜好。

RLHF的训练过程可分为三个核心步骤。

(1) 收集以往用户使用GPT-3的数据，进行有监督微调。

(2) 收集回答质量不同的数据，组合训练反馈模型。

(3) 借助反馈模型，采用强化学习算法PPO训练语言模型。

黑板报划重点-科普说人话：GPT-3.5/ChatGPT是通过强化学习RLHF和'无害化'进行后处理，生成更符合用户诉求的高质量结果。

GPT-4：史上最强和最接近AGI 通用人工智能的多模态AI大模型

OpenAI的GPT-4技术报告出奇制胜，它没有透露任何模型的架构、参数、训练硬件和算力等具体技术信息。然而，总体而言，GPT-4在各种专业和学术基准上都展现出了与人类水平相媲美的能力，并且显著改善了生成式模型中的虚幻和安全性等问题。

GPT-4更进一步支持多模态数据，包括图片等不同模态的数据识别能力，这一拓展使得GPT-4的应用领域更加广泛，同时也开启了OpenAI的插件应用生态，为未来的应用发展提供了更多可能性。虽然技术细节保持神秘，但GPT-4的实际能力和潜力无疑引领了自然语言处理和人工智能领域的发展方向。

GPT-4目前已知信息如下：

更长的上下文：ChatGPT支持的最长上下文长度为2048个单词（准确说是token），而GPT-4则大幅提升了这个数字，支持最长32768个单词的上下文。这意味着，GPT-4能够胜任更加复杂的任务。例如，你可以将一篇完整的论文作为输入，让GPT-4解读、摘要论文内容，甚至为你提供对实验分析的深入理解。或者，你也可以让GPT-4阅读冗长的保险条款，为客户解答与保险相关的问题。

支持图像信息：GPT-4不仅在自然语言领域有着强大的影响力，还开始渗透到计算机视觉领域。它具备了图像识别的能力，可以理解图片中的信息，甚至对图像进行评价。不同于以往的方法，GPT-4不需要将图像转化为文本信息，而是直接将图像作为预训练任务的输入，这让模型能够真正理解图片。

更智能的问答：GPT-4在回答问题时表现更为出色。举例来说，它可以在SAT（美国高中毕业生学术能力水平考试）中取得高分，甚至通过法律领域相关的专业考试。相比之下，ChatGPT在考试方面的能力相对较弱。此外，GPT-4生成的回答更加安全，不容易引起用户的反感，因此在安全性方面也更为可靠。

黑板报划重点-科普说人话：GPT-4被认为是目前已知的最强大、最接近AGI（通用人工智能）的多模态AI大型模型。它具备了多模态能力，支持插件应用，能够处理更长的上下文信息，并且在智能问答方面表现出色。这使得GPT-4在各种领域和任务中都有着巨大的潜力，为人工智能领域的发展开辟了新的前景。