一、Google的BERT
来源:51CTO技术栈 本文将深入研究大语言模型领域的最新进展,改变AI的6大NLP语言模型,每个模型能够引入的增强功能、以及潜在功能应用与限制。 在快速发展的人工智能(AI)领域,自然语言处理(Natural Language Processing,NLP)已成为了研究人员和开发人员的关注焦点。作为该领域显著进步的标志,近年来业界出现了多种突破性的语言模型。它们推动了机器理解和生成能力的进行。在本文中,我们将深入研究大语言模型领域的最新进展,探索每个模型能够引入的增强功能、以及潜在功能应用。 下面,我们将从2018年具有开创性的BERT模型开始,向您介绍如下大语言模型:
一、Google的BERT
2018年,Google AI团队推出了源于Transformers的Bidirectional Encoder Representations(BERT)自然语言处理(NLP)模型。它在设计上允许模型考虑每个单词的左右与上下文。虽然其概念相对简单,但是BERT能够在11种NLP任务上获得最新的结果。其中包括问答、已命名实体识别、以及与一般语言理解相关的其他任务。该模型标志着NLP进入了预训练语言模型标准的新时代。 1、目标 消除早期语言模型的局限性,特别是在预训练中表现出的单向性。这些限制了可用于预训练的架构选择,以及微调的方法。例如,OpenAI的GPT v1使用从左到右的架构,其中每个token(表征)只关注变形的自我关注层(self-attention)中的先前token。因此,这种设置对于语句级(sentence-level)任务来说是次优的,而对于token级任务则更加不利。毕竟在token级任务中,合并双方的上下文是非常重要的。 2、如何处理
3、结果 该技术提升了11项NLP任务,其中包括:
4、在哪里可以了解更多关于这项研究的信息?
5、在哪里可以获得实现代码?
二、OpenAI的GPT-3
OpenAI团队引入了GPT-3,作为为每个语言任务提供标记数据集的替代方案。他们建议,扩展语言模型可以提高与任务无关的小样本(few-shot)性能。为了测试这一建议,他们训练了一个带有175B参数的自回归语言模型——GPT-3,并评估了它在二十多种NLP任务上的性能。在小样本学习、单样本学习、以及零样本学习下的评估表明,GPT-3取得了不俗的结果,它们甚至偶尔会超过微调模型,获得最新的结果。 1、目标 当需要对每个新语言任务标记数据集时,可将其作为现有解决方案的替代。 2、如何处理
3、结果 未经微调的GPT-3模型在许多NLP任务上都取得了令人满意的结果,甚至有时超过了针对特定任务进行微调的最先进模型:
在人类参与的评估中,由175b参数的GPT-3模型生成的新闻文章,很难与真实文章相区分开来。 4、在哪里可以了解更多关于这项研究的信息? 研究论文:《小样本学习语言模型》 5、从哪里可以获得实现代码? 虽然无法直接获得其代码,但是可以获取其被发布在GitHub上(https://github.com/openai/gpt-3)的一些统计数据集,以及来自GPT-3的无条件的、未过滤的2048个token的样本。 三、Google的LaMDA
对话应用语言模型(Language Models for Dialogue Applications,LaMDA)是通过对一组专门为对话设计的、基于Transformer的神经语言模型进行微调而创建的。这些模型最多有137B参数,并且经过训练可以使用外部的知识来源。LaMDA有三个关键性目标——质量、安全性和真实性(groundedness)。结果表明,微调可以缩小其与人类水平的质量差距,但在安全性和真实性方面,该模型的性能仍然低于人类水平。 作为ChatGPT的替代品,谷歌最近发布了由LaMDA提供支持的Bard(https://blog.google/technology/ai/bard-google-ai-search-updates/)。尽管Bard经常被贴上无聊的标签,但它可以被视为谷歌致力于优先考虑安全的证据。 1、目标 该模型是为开放域的对话式应用构建的。其对话代理不但能够就任何主题展开对话,而且可以保证其响应是合理的、特定于上下文的、基于可靠来源的、以及合乎道德的。 2、如何处理 基于Transformer(https://ai./2017/08/transformer-novel-neural-network.html)的LaMDA是Google Research于2017年发明并开源的神经网络架构。和其他BERT和GPT-3等大语言模型类似,LaMDA是在TB级的文本数据的基础上训练出来的。它能够了解单词之间的关系,进而预测接下来可能出现的单词。 然而,与大多数语言模型不同的是,LaMDA经历了对话训练,因此能够捕捉到,将开放式对话与其他语言形式区分开来的细微差别。 同时,该模型也通过微调来提高其反应的敏感性、安全性和特殊性。例如,虽然像“那很好(That's nice)”和“我不知道(I don 't know)”之类的短语,在许多对话场景中可能有不同的含义,但是它们不太可能会导致后续有趣对话的发生。 通常,LaMDA生成器首先会生成几个候选的响应,然后根据它们的安全性、敏感性、特殊性、以及有趣程度,对其进行评分。其中,安全得分较低的响应会被过滤掉。最终,生成器会选择排名靠前的结果作为响应。 3、结果
4、在哪里可以了解更多关于这项研究的信息?
5、在哪里可以获得实现代码? 我们可以在GitHub的链:https://github.com/conceptofmind/LaMDA-rlhf-pytorch处,找到用于LaMDA预训练架构的开源式PyTorch实现。 四、Google的PaLM
Pathways Language Model(PaLM)是一个包含了540亿个参数的基于Transformer的语言模型。它使用Pathways在6144个TPU v4芯片上进行训练。这是一种新的机器学习系统,可在多个TPU Pod上进行高效训练。该模型展示了在小样本学习中扩展的好处,能够在数百种语言理解和生成基准上,产生最先进的结果。PaLM在多步推理任务上优于经过微调的先进模型,而且在BIG基准测试中的表现,也超过了人类的平均水平。 1、目标 提高大语言模型规模对于如何影响小样本学习的理解。 2、如何处理 该模型的关键思想是使用Pathways系统,来扩展具有540亿个参数语言模型的训练:
PaLM模型的训练数据包括了英语、以及多语言数据集组合,其中不乏高质量的Web文档、书籍、维基百科、对话、以及GitHub代码。 3、结果 大量实验表明,随着团队扩展到更大的模型,该模型的性能会急剧上升。目前,PaLM 540B在多项困难任务中,都达到了突破性的性能。例如:
4、在哪里可以了解更多关于这项研究的信息?
5、在哪里可以获得实现代码? PaLM研究论文中有关特定Transformer架构的非官方PyTorch实现,可在GitHub的链接--https://github.com/lucidrains/PaLM-pytorch处获得。不过,它不会扩展,仅出于教育目的而发布。 五、Meta AI的LLaMA
Meta AI团队曾断言,在更多token上训练较小的模型,更容易针对特定产品的应用,进行重新训练和微调。因此,他们引入了LLaMA(Large Language Model Meta AI),这是一组具有7B到65B参数的基础语言模型。LLaMA 33B和65B在1.4万亿个token上进行了训练,而最小的模型LLaMA 7B则在13万亿个token上进行了训练。他们只使用公开可用的数据集,而不依赖于专有或受限的数据。该团队还实施了关键的架构增强和训练速度的优化技术。总之,LLaMA-3B的性能优于GPT-10,体积小了65倍以上,而LLaMA-65B则表现出与PaLM-540B相仿的性能。 1、目标
2、如何处理 为了训练LLaMA模型,研究人员只使用公开可用的数据,并与开源相兼容。同时,他们还对标准的Transformer架构进行了一些改进:
最后,Meta AI团队通过如下方式提高了模型的训练速度:
3、结果 尽管减小了3倍以上,但是LLaMA-13B仍然超过了GPT-10,而LLaMA-65B仍然相对PaLM-540B具有竞争力。 4、在哪里可以了解更多关于这项研究的信息?
5、在哪里可以获得实现代码? Meta AI在个案评估的基础上,为学术研究人员、政府、民间组织、学术机构、以及全球行业研究实验室相关的个人,提供了对于LLaMA的访问。您可以通过GitHub存储库的链接:https://github.com/facebookresearch/llama进行申请。 六、OpenAI的GPT-4
GPT-4是一种大规模的多态模型,可以接受图像和文本的输入,并生成文本输出。出于竞争和安全的考虑,其相关模型架构和训练的具体细节被隐匿了。在性能方面,GPT-4在传统基准测试上已超越了以前的语言模型,并在用户意图理解和安全属性方面表现出了显著改进。同时,该模型还在各种考试中达到了人类水平的表现能力,例如,在模拟统一律师考试中,就取得了前10%的分数。 1、目标
2、如何处理 鉴于竞争格局和安全影响,OpenAI决定隐瞒有关架构、模型大小、硬件、训练计算、数据集构建、以及训练方法等详细信息,仅透露了:
3、结果
4、在哪里可以了解更多关于这项研究的信息?
5、在哪里可以获得实现代码? 目前,仍无法获悉GPT-4的代码实现。 七、大语言模型的实际应用
近年来最重要的AI研究突破,主要来自在庞大的数据集上训练的大语言模型。这些模型展示了卓越的性能,并将对诸如:客服、营销、电子商务、医疗保健、软件开发、以及新闻业等领域,带来彻底的改变。在大语言模型的广泛应用中,我们以GPT-4为例,其典型应用场景包括:
八、风险和限制
当然,在现实生活中部署此类模型之前,我们需要考虑由此产生的相应风险和限制。有趣的是,如果您向GPT-4询问其风险和局限性,它可能会为您提供一长串相关考虑。在此基础上,我进行了按需筛选和添加,并为您列出了如下大语言模型的关键风险和限制:
九、小结
综上所述,大语言模型能够生成类似人类的文本、自动执行的日常任务、以及在创意和分析过程中提供各项帮助。这使得它们已成为了如今快节奏的、技术驱动的世界中,不可或缺的工具。它们不但彻底改变了自然语言处理领域,并且在提高各类角色和行业的生产力方面,显示出了巨大的潜力。 当然,正如上文提到的,鉴于大模型的相关局限性与风险,以及可能出现的偏见、错误、甚至是恶意使用等问题也不容忽视。随着我们持续将AI驱动的技术,整合到日常生活中,必须在利用其能力和确保人类监管之间取得平衡。我们只有负责任地去谨慎采用生成式人工智能技术,才能为人类更美好的未来铺平道路。 |
|
来自: 小飞侠cawdbof0 > 《智能》