分享

3分钟入门大型语言模型

 江海博览 2024-03-31 发布于浙江
3分钟入门大型语言模型

什么是人工智能?

简单地说,智力是指思考、学习、理解和解决问题的能力。它使人类和某些动物能够理解周围的环境,适应情况并根据他们的经验和知识做出决定。

智力包括推理能力、从错误中学习的能力以及有效利用信息来克服挑战的能力。

从本质上讲,正是我们的能力使我们能够驾驭周围的世界并成功地参与其中。现在让我们深入研究智能 (AI) 的概念。

人工智能可以被看作是一个助手,它擅长处理大量信息,同时根据这些数据做出明智的选择。可以把它想象成有一个大脑在你身边,可以帮助你完成一些任务,比如推荐你可能喜欢的电影或歌曲,帮助医生准确分析医学图像,甚至在没有人为干预的情况下自动驾驶车辆。

人工智能之所以令人着迷,是因为它依赖于算法(分步说明)和数据来发挥作用。把它看作是一台从错误中吸取教训的计算机。通过实践逐步改进分配的任务。这意味着人工智能可以被那些探索其工作原理的人解释和理解。

什么是机器学习?

你有一台电脑。你希望它做一些聪明的事情,比如识别图片显示的是猫还是狗。解决这个问题的一种方法是给计算机指令,让他们搜索毛皮、耳朵、尾巴等特征。但是,这种方法可能会变得非常复杂。

机器学习则走的是一条不同的路线。这类似于通过示例来教计算机。你会让它看到猫和狗的照片,渐渐地,它会开始理解猫和狗的区别。它通过发现图像中的模式和相似之处来学习。

从本质上讲,机器学习构成了人工智能的学习方面。计算机从数据到任务的学习。因此,人工智能包含更广泛的能力,如推理、解决问题和语言理解。所有这些都可以通过机器学习得到极大的增强。

什么是机器学习模型?

要理解LLMs,必须首先掌握“模型”的含义。可以把它想象成机器背后的思想或智能,它从数据示例、规则和模式中学习。例如,它可以学习区分特征,例如猫有胡须或狗的腿更长。利用这些学习的经验或模式,当呈现图像时,它可以做出明智的决定或预测。

为了更深入地研究比,将语言模型设想为能够执行涉及文本的某些操作的模型。这些模型使用来自互联网的大量文本数据进行训练,并具有生成与人类产生的文本内容相当的能力,有时甚至超过人类的质量。例如,像 GPT 4 这样的模型已经展示了他们在创作诗歌、智能回答问题甚至生成计算机代码方面的实力。

什么是神经网络?

为了使模型生成预测,它需要了解数据中观察到的模式。有一些方法可以实现这一点,其中一种方法是利用神经网络。

神经网络在机器学习和人工智能中发挥着重要作用,使我们能够处理复杂的任务,如图像识别、语言理解和预测。

它们由称为神经元的单元层组成,这些单元协作处理信息。把你的大脑想象成一个由神经元组成的网络。例如,当你遇到一只猫的图像时,你大脑中的神经元会激活,根据毛发、耳朵和胡须等特征来识别它。神经网络的运作方式类似,它使用跨层的神经元来识别数据中的模式。然而,它们比人脑的工作要简单得多。

3分钟入门大型语言模型

用一个相关的类比来深入了解网络世界,比如烤蛋糕。想象一下,你的任务是创建一个网络,根据蛋糕的成分和烘焙过程,准确预测蛋糕是否美味。以下是网络中的不同概念如何与这个烘焙类比保持一致;

  • 将您的成分和配方视为输入数据,类似于您为神经网络收集的原材料。
  • 烘烤的整个过程象征着一个网络的结构,由相互连接的层组成,这些层协同工作。
  • 该过程中的每一步都代表着一个神经元及其激活功能。这类似于根据温度和混合时间等因素调整配方。
  • 正如调整成分数量会影响蛋糕的味道一样,网络中的权重决定了神经元连接的强度。
  • 最终,您的目标是制作一个蛋糕,反映神经网络如何努力实现准确的预测或分类。
  • 如果你的蛋糕没有达到预期,你就改进你的食谱。就像神经网络中的反向传播一样。

什么是深度学习?

在烘焙类比的上下文中,深度学习和普通神经网络之间的主要区别在于网络的深度,即隐藏层的数量。

3分钟入门大型语言模型

常规神经网络,也称为神经网络,通常由位于输入层和输出层之间的一个或几个隐藏层组成。在神经网络的情况下,每个隐藏层都可以看作是代表烘焙过程的各个阶段或方面。例如,隐藏层可能会考虑混合时间、温度和成分数量等因素。通过结合这些功能,网络能够对蛋糕的质量进行预测。

深度学习神经网络的特点是将多个隐藏层堆叠在一起。这些深度神经网络通过每个额外的隐藏层捕获复杂和抽象的特征。例如,虽然第一个隐藏层可能专注于混合时间和温度等特征,但后续层可以深入研究更复杂的方面,例如成分相互作用。这种分层表示功能使网络能够掌握数据中的模式和关系。

什么是语言模型?

想象一下,你正在玩一个文字游戏,目的是完成一个句子。你会遇到这样的句子:“阳光明媚,鸟儿在歌唱”。你必须猜出下一个词。

一个语言模型利用它对句子中的单词的了解,会做出明智的猜测,如“明亮”或“美丽”,因为这些单词通常跟在关于宜人天气的短语后面。

它并没有就此结束。语言模型为接下来可能出现的每个单词分配概率。例如,它可能会为“明亮”分配较高的概率,为“大象”分配较低的概率,因为在讨论天气后通常不会使用“大象”。因此,语言模型会尽最大努力根据这些概率进行预测。语言模型可以看作是单词向导,它依赖于过去实例中的模式来确定句子中最有可能的下一个单词。它们并非完美无缺,但非常擅长帮助完成任务,例如在手机上提供自动完成建议或在您输入消息时预测下一个单词。

什么是编码器和解码器?

3分钟入门大型语言模型

语言模型中的编码器可以比作听众密切关注您所说的单词。他们分析句子的前置单词,例如“阳光明媚,鸟儿正在”仔细考虑它们的含义和关系,以建立上下文理解。然后,将此摘要上下文传递给“解码器”。

3分钟入门大型语言模型

解码器用作单词建议器。他们从编码器接收信息,这可能表明该句子与鸟类有关,并生成可能的下一个单词列表。例如,他们可能会建议“唱歌”或“唧唧喳喳”,因为这些词通常与鸟类和宜人的天气有关。解码器的每个建议都会被分配一个概率,其中可能的单词获得最高概率。

在我们的文字游戏中,类比编码器从单词中获取上下文,而解码器利用此上下文通过考虑与各种选项相关的概率来对下一个单词进行有根据的猜测。这类似于与专心倾听的合作伙伴(编码器)和专家顾问(解码器)进行对话,后者根据他们所听到的内容提供最佳单词选择。他们共同帮助您构建有意义的句子。

什么是编码器-解码器设置中的上下文?

在具有编码器和解码器的设置中,术语“上下文”是指有关输入序列(通常是一系列单词或标记)的详细信息,解码器存储和利用这些序列来创建输出序列。

编码器的作用是从输入中捕获和编码此上下文,而解码器任务是利用此上下文以生成输出。

下面介绍了上下文在编码器-解码器设置中的工作原理:

3分钟入门大型语言模型

编码上下文(编码器)

编码器接收输入序列。逐步处理它,通常将每个元素(如句子中的单词)转换为固定长度的表示。

这种表示形式称为上下文向量,它汇总了整个输入序列中的所有信息。它捕获输入元素之间的关系和依赖关系。

利用上下文(解码器)

解码器从编码器接收上下文向量作为其状态。这种浓缩的信息形式包含有关输入序列中存在的内容的详细信息。

使用此上下文,解码器一次生成一个元素,生成输出序列的每个部分。它还可以考虑从该输出序列中以前生成的元素。

通过利用此上下文,解码器可以就下一步应该做什么做出明智的决定,以便在给定的上下文中生成连贯且相关的输出。

生成模型

生成模型是指“屏蔽”语言模型。现在,我们所说的“掩蔽”语言模型到底是什么意思?

蒙面语言模型 (MLM) 非常擅长玩猜词游戏。让我用一些例子来解释它们是如何工作的。

想象一下,你有一个带有单词的句子,比如“[面具]正在追球”。挑战在于找出合适的词来填补空白。传销是解决这些单词难题的专家。

它们的不同之处在于它们不依赖于猜测。相反,他们会仔细分析句子中空格前后的所有单词。

这些模型已经过使用大量互联网文本进行训练。他们观察了单词在句子结构中是如何组合在一起的。因此,在根据他们所学的知识用适当的单词完成句子时,他们具有预测能力。

使用不同的掩码模型,例如 BERT 和 GPT,它们都是生成模型,以其在预测句子中下一个单词方面的卓越能力而闻名。GPT 代表 生成式预训练转换器。我们之前讨论过生成和预训练方面;现在,让我们深入探讨一下“变形金刚”的含义。

什么是Transform?

Transformer 是 Vaswani 等人在 2017 年的论文“Attention Is All You Need”中引入的一种深度学习模型。它们在处理顺序数据(如文本)方面特别有效,因为它们能够有效地捕获远程依赖关系。

Transform架构建立在两个组件之上;编码器和解码器。这两个部分都有层。

  • 编码器:编码器采用输入序列,例如句子。逐个令牌处理它。每个标记最初都转换为维度空间中的向量。然后,在编码器自身的每一层中,注意力机制开始发挥作用,使模型能够理解每个标记相对于输入序列中所有其他标记的重要性。通过组合这些加权表示,模型可以有效地捕获信息。此外,编码器的每一层都使用前馈神经网络来优化这些表示。
  • 解码器:与编码器类似,解码器也由层组成,但包括一个额外的注意力机制,该机制专注于编码器的输出。在解码过程中,该模型逐步生成输出序列。在每个步骤中,它利用自我注意力来考虑先前生成的标记,并注意编码器的输出,其中包含来自输入序列的信息。这种双向注意力使解码器能够根据其输出中的上下文生成令牌。

自我注意力

自我注意力在转换器模型中起着重要作用,使它们在理解序列中单词之间的联系方面非常强大。

它允许模型掌握文本序列中单词或元素之间的关系,使其能够根据每个单词与序列中其他每个单词的相关性为其分配重要性。此过程生成具有高度意义的表示形式。

自我注意力在变压器模型中的重要性可归因于关键因素:

  1. 掌握上下文:自我注意力使转换器能够捕捉上下文并理解单词在序列中如何相互关联。注意力不仅要考虑相邻的单词本身,还要考虑整个序列,这对于理解自然语言上下文至关重要。
  2. 学习远程依赖关系:自我注意力有助于帮助转换器学习数据中跨越距离的依赖关系。事实证明,此功能对于语言翻译或文本生成等任务至关重要,在这些任务中,有意义的短语或单词可能在句子中分开。

ChatGPT是怎么回事?

ChatGPT 结合了来自转换器、掩码模型、编码器解码器等世界的概念。ChatGPT 的强大之处在于它融合了基于 Transformer 的架构、对大型数据集的广泛预训练、针对特定任务的微调以及生成连贯的上下文感知和自适应响应的能力。

以下是 ChatGPT 如此有效的几个原因:

  • Transformer 架构:ChatGPT 建立在 Transformer 架构之上,该架构擅长处理数据,特别适合理解和生成人类语言。
  • 广泛的预训练:在用于聊天机器人交互等任务之前,ChatGPT 会接受来自互联网的大量文本数据的训练。这个预训练阶段使模型能够理解语言、语法规则和一般知识。
  • 双向自注意 ChatGPT 利用自注意力机制,允许标记(单词或单词的一部分)考虑句子中的前后单词。这种双向理解有助于模型捕获上下文和单词之间的依赖关系,以便更好地感知上下文。
  • 微调 在最初的预训练阶段之后,ChatGPT 会进行微调,以完善其针对特定任务的能力,例如聊天机器人交互。

此外,还有另一种称为强化学习的技术,来自人类反馈 (RLHF),有助于 ChatGPT 的独特性。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多