分享

GPT背后的提升源自prompt tuning——prompt统一范式,“万物皆可生成”。

 AI量化实验室 2023-10-12 发布于北京

原创文章第191篇,专注“个人成长与财富自由、世界运作的逻辑,AI量化投资"。

01 人工智能的路径

图像技术再如何突破,我是比较无感的,因为图像里包含的信息非常有限,谈不上智能。人

人工智能的前途一个是NLP,可是由于没有落地场景,NLP研究一度比较鸡肋。

我之前设想过一种路径,知识图谱+深度强化学习=AGI。知识图谱代表结构化的信息,可以使用bert这样的预训练模型来提取。深度强化学习在alphago上证明了其有效性。知识+概率学习的模式,也许可以带来智能。

但知识图谱这条路比NLP本身还难落地。

chatGPT给出了一个新的可能性。GPT与bert预训练没有本质区别,底层都是transformer,也就是都是预测下一个字的概率模型。那如何解决语义与知识体系的问题呢?

我们需要审视一下模型进化的核心逻辑。

以GPT3为首提出是基于预训练语言模型的新的微调范式:Prompt-Tuning,其通过添加模板的方法来避免引入额外的参数,从而让语言模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果。

传统模式:自从GPT、EMLO、BERT的相继提出,以Pre-training + Fine-tuning 的模式在诸多自然语言处理(NLP)任务中被广泛使用,其先在Pre-training阶段通过一个模型在大规模无监督语料上预先训练一个预训练语言模型(Pre-trained Language Model,PLM),然后在Fine-tuning阶段基于训练好的语言模型在具体的下游任务上再次进行微调(Fine-tuning),以获得适应下游任务的模型。这种模式在诸多任务的表现上超越了传统的监督学习方法,不论在工业生产、科研创新还是竞赛中均作为新的主流方式。

这种预训练+微调的模式,最大的问题在于:下游任务的目标与预训练的目标差距过大导致提升效果不明显,微调过程中依赖大量的监督语料等。

超大规模的模型只要配合好合适的模板就可以极大化地发挥其推理和理解能力。其开创性提出in-context learning概念。

其实prompt看似复杂,但理解起来并不难。

把下游的任务,都转化成“提示”,“模板”。这样就变成是一个“完形填空”的问题。把阅读理解转成完形填空。

Prompt Tuning的本质是复用预训练语言模型在预训练阶段所使用的目标和参数

  • 万物皆可生成:将所有任务统一为文本生成,极大化利用单向语言模型目标;

  • 万物皆可抽取:将所有任务统一为抽取式阅读理解,并设计抽取式预训练目标;

  • 万物皆可推理:将所有任务建模为自然语言推断(Natural Language Inference)或相似度匹配任务。

 最近大火的ChatGPT则是基于“万物皆可生成”的思想,将单向语言模型的ALM发挥到极致,实现对所有任务的大一统。

prompt是一个有意思的范式,生成也好,抽取也好,推理也罢,都可以统一到这个大范式下面,大大提升了预训练模型的商业潜力,值得一试。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多