一文读懂「LLM，Large Language Model」大语言模型

netouch 2024-05-11 发布于北京

展开全文

2023年是大语言模型（Large Language Model，LLM）应用爆发的元年，大语言模型将从2023年开始推动整个人工智能及IT产业快速进入新时代。

如果说2000年至2010年是PC互联网时代，2011年至2020年是移动互联网时代，那么自2023年起的未来10年就是大语言模型主导的人工智能时代。
在这里插入图片描述

一、什么是大语言模型？

1.1 概念

大语言模型是一种建立在 Transformer 架构上的大规模神经网络程序，其功能主要是理解和处理各种语言文字。这种模型的优势在于，其能够在多种任务中实现通用学习，无须对特定语言文字进行大量定制，是目前人类世界中第一个通用的人工智能模型。当我们讨论大语言模型时，主要是关注如何让计算机能够理解和生成人类语言。

简单来说，大语言模型是一种算法，其目标是理解语言的规则和结构，然后应用这些规则和结构生成有意义的文本。这就像让计算机学会了“文字表达”。

1.2 发展历程

OpenAI在2022年11月30日发布了基于GPT模型的聊天机器人ChatGPT，这一里程碑标志着大语言模型走向全人类的新纪元。仅仅在2个月的时间内，ChatGPT的用户数量就突破了2亿。OpenAI推出的GPT-4大语言模型，其模型参数量高达万亿级别，应用场景十分广泛，从文本生成到复杂问题的解答，再到诗歌创作、数学题求解等，各方面都已经遥遥领先普通人。
在这里插入图片描述

在全球主流大语言模型中，除了GPT-4，还有其他一些备受瞩目的优秀模型。其中包括 Anthropic 推出的Claude2模型、Meta推出的LLaMA2开源模型，以及Google推出的PaLM2模型等。
在这里插入图片描述

二、训练部署流程和步骤

https://mp.weixin.qq.com/s/mt2wsi5C2PXo6C4riX-njw

三、应用场景

常用场景在这里插入图片描述
一些模型和产品

四、拓展阅读

什么是Token？

Token是大语言模型的基本单位，Token 是自然语言处理中的一个重要概念，它是大语言模型理解和处理文本的基本单位。在英文中，一个Token可能是一个单词、一个标点符号，或者一个数字。在处理其他语言时，如中文，一个Token 可能是一个单字符。在许多NLP任务中，原始文本首先被分解成Token，然后模型基于这些Token进行理解和预测。

什么是prompt

提示词就是驱动大语言模型运行的命令，在探讨大语言模型，如GPT-4或ChatGPT的运行机制时，无法忽视的一个关键因素就是“提示词”。提示词在这些模型的运行中起着至关重要的角色，提示词通俗地说就是输入大语言模型的文字，实际是驱动大语言模型运行的命令。提示词的选择对模型的输出有着显著影响。提示词的具体内容不同，模型可能会给出完全不同的回应。例如，输入一个开放性的提示词，比如“讲述一下太阳系的构成”，模型可能会生成一段详细的介绍；而输入一个更具指向性的提示词，比如“火星是太阳系的第几大行星”，则会得到一个更具体的答案。

什么是上下文长度

上下文长度指的是模型在生成新的文本或理解输入的语句时，可以考虑的最多字数，可以理解成大语言模型的“脑容量”。例如，8K版本可以处理包含8000个Token 的短篇文章，而32K版本则可以处理包含32000个Token的长篇文章。这个功能能升级是非常重要的，尤其是在处理大型的、连贯输入的文本时体现得淋漓尽致，比如长篇小说、研究报告等。如果你和大语言模型聊着聊着，发现它回答的内容已经偏题或者重复，说明它已经忘记了之前和你聊的内容，“脑容量”不够了。

在GPT报价表中，可以明显看出，GPT-4 模型分为两个版本：8K版本和32K版本。这两个版本的主要区别在于，它们对上下文长度的支持及使用价格不同。32K版本的模型使用价格要比8K版本的模型使用价格高出近一倍。对于8K和32K这两参数，它们是衡量GPT-4模型对上下文长度支持能力的关键指标。

大语言模型支持上下文长度的能力提升是以更高的计算成本为代价的。更长的上下文长度意味着需要更强大的处理能力和更多的存储空间，这是导致32K版本使用价格更高的原因。OpenAI在2023年11月6日推出了支持128K上下文的GPT-4Turbo模型，对于那些需要处理长篇文章的用户来说，32K和128K版本将会是一个更好的选择。

什么是AI幻觉

大语言模型应用过程中偶尔会出现一种被称为“幻觉”的现象，即给出看似合理但偏离事实的预测。这是因为这类模型并不能真正理解语言和知识，而是模仿训练数据中的模式来生成预测，这种预测可能看似合理，但实际上并无依据。因此，大语言模型在计算机科学中常被认为存在普遍性错误。由于它们不能进行真正意义上的逻辑推理或严谨的事实检验，因此可能导致一些不可避免的错误，特别是在涉及算术或复杂推理链的场景中。大语言模型之所以会“编造”非真实信息，往往是因为遇到的问题超出了其训练范围。当面对陌生的问题时，它无法像人类一样思考和查询，只能尝试使用训练数据中的模式来预测可能的答案。这种预测可能会带来误导，特别是在需要精准和专业知识的情况下。