分享

第一次见有人把Transformer、BERT和GPT大模型讲的这么通俗易懂!

 祈雨馆 2023-03-31 发布于北京

本篇博客将从技术角度介绍三种模型的工作原理、输入输出和一些训练技巧领域,不涉及复杂的公式,注重向想了解AI算法的非专业人士深入通俗地解析人工智能背后的科学原理。


近年来,TransformerBERTGPT大模型成为自然语言处理领域的三个重要技术,它们以其强大的模型能力和良好的表现在自然语言处理任务中得到了广泛的应用。用三句简短的话分别概括就是:

① Transformer使用自注意力机制进行编码和解码,能够处理长序列数据;

② BERT使用掩码语言模型和下一句预测任务进行训练,能够在不同的自然语言处理任务中取得良好的效果;

③ GPT大模型是一种基于自回归模型的语言模型,能够生成连贯、自然的文本内容。


下面我将从更深入的角度通俗易懂地介绍一下上述三个模型,包括使用的组件、训练技巧、输入输出等方面,并给出形象的比喻。

  1. Transformer是一种新型的神经网络架构,用于处理自然语言任务,比如机器翻译和文本生成。它的特点是能够同时考虑输入序列中所有位置的信息,并且具有非常好的并行化性能。它使用了自注意力机制进行序列建模的神经网络架构,也采用了残差连接和层归一化等技术,以加快模型收敛速度和提高模型的泛化能力。

这里提到了一个新的名词:“注意力机制”,那么什么是自注意力机制呢?

简单理解就是一种能够在序列中捕捉每个位置之间相对关系的机制。自注意力机制可以用于学习词之间的依赖关系,从而更好地理解和生成自然语言。什么?还是不懂?

这么说吧,我们可以把序列中的每个元素简单地比喻成珠子,自注意力机制就像是一个拼珠子的游戏。在这个游戏中,每个珠子都要考虑和其他珠子的关系,以确定自己在整个模型中的重要性。

具体来说,我们可以让每个珠子和其他珠子进行比较,计算它们之间的相似度。相似度高的珠子就会获得更高的权重,表示它们在序列中更为重要。

这个过程就像是每个珠子在考虑自己周围的珠子时,会对跟自己相似度更高的珠子给予更多的注意力

最终,所有珠子都会根据它们的权重被重新组合,形成一个新的序列表示。这个表示会保留序列中每个珠子的信息,但是会把更多的注意力放在那些与其他珠子有更紧密关系的珠子上

文章图片1

Transformer简易工作原理图 图源网络

文章图片2

点积注意力机制 和 多头注意力机制 图源网络


  1. BERT是一种基于Transformer架构的预训练语言模型它使用大量未标记的文本进行预训练,然后使用标记的数据进行微调。全称Bidirectional Encoder Representations from Transformers。

BERT的特点在于它可以双向地处理输入序列,从而更好地捕捉上下文中的语义信息。BERT模型的输入是两个序列,一个序列作为模型的输入,另一个序列作为模型的输出,模型需要判断这两个序列是否相互关联。这个过程被称为下一句预测任务。此外,BERT还使用了掩码语言模型,其中模型在输入序列中随机地掩盖一些单词,并要求模型预测这些被掩盖的单词。这个训练任务有助于模型更好地理解语言中的上下文信息。

什么是掩码技术?专业术语叫做masking。

简单理解就是,这种masking的训练技巧可以理解为在做一种语言填空练习,就像我们在学校里做英语完型填空题一样。

在这种练习中,Bert会随机选择一些文本中的词汇并进行屏蔽,就像把填空题的空格用一条横线代替一样。然后,Bert需要根据上下文和语法规则来猜测被屏蔽的词汇,就像我们需要根据句子的意义和语法规则来猜测填空题的答案一样。经过不断的反复练习,Bert就变成了一个无情的做题狂魔。

这样Bert就能更好地理解和表示文本的含义。此外,由于在屏蔽词汇时需要随机选择,这也可以帮助Bert更好地应对文本中出现的不同词汇和语言变化,增强其泛化能力

文章图片3

BERT masking


  1. GPT大模型(全称是Generative Pre-training Transformer)技术是一种使用自回归模型进行语言建模的预训练模型,和Bert一样它也采用了Transformer架构,并使用了大量未标记的文本进行预训练

GPT的特点在于它能够自动地生成自然语言文本,可以用于文本生成、对话系统等任务。它采用了无监督的预训练方法,不需要人工标注的数据,可以更好地利用现有的大规模文本语料库。

它的独特之处在于它具有非常大的参数量和深度,能够学习到更多的语言知识,并生成更加自然的文本。

GPT模型的输入是一个文本序列,目标是生成与输入序列相关的下一个单词或单词序列。在GPT中,每个单词的表示都是通过自回归模型计算得到的,这个模型会考虑前面所有的单词,以及它们对应的位置,来预测下一个单词。

那么什么是自回归?

简单理解就是想象这么一副画面、

一个人在拍连环画,每一页连环画都是前一张连环画的延续。也就是说,人需要看前一张画才能知道该画什么内容。类似地,自回归模型中的每个时间点都需要前一个时间点的信息才能计算出当前时间点的输出值。

就像拍连环画一样,自回归模型中各个时间点之间存在着紧密的联系和依赖关系,这种联系在预测时间序列数据时非常有用。

文章图片4

总之,Transformer、BERT和GPT大模型是自然语言处理领域中的三个重要技术,它们的出现为自然语言处理任务的解决提供了新的思路和方法。

关注我,每天一起学习,定期推送不一样的能让你看得懂的知识!

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多