预训练基础模型(PFMs)被视为具有不同数据模态的各种下游任务的基础。预训练的基础模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大规模数据上进行训练,为广泛的下游应用提供了合理的参数初始化。PFMs背后的预训练思想在大型模型的应用中起着重要的作用。作为一种迁移学习范式,预训练通过冻结和微调技术应用于计算机视觉,显示出良好的性能。词向量在自然语言处理中也可以看作是修饰词的一种,但它存在多义词等问题。与之前应用卷积和循环模块进行特征提取的方法不同,生成预训练(GPT)方法应用Transformer作为特征提取器,并以自回归范式在大型数据集上进行训练。类似地,BERT应用transformer在大型数据集上作为上下文语言模型进行训练。最近,ChatGPT在大型语言模型上显示出可喜的成功,它应用了零样本或很少提示的自回归语言模型。随着PFMs的非凡成功,人工智能在过去几年中在各种领域掀起了浪潮。文献中提出了相当多的方法,数据集和评估指标,需要更新的综述。 ChatGPT是PFM应用的一个很好的例子。ChatGPT是对生成式预训练transformer GPT-3.5进行微调的,它是在文本和代码的混合上进行训练的[15,16]。ChatGPT应用了来自人类反馈的强化学习(RLHF)[17,18],这已经成为将大型语言模型与人类意图[19]相结合的一种有希望的方法。ChatGPT令人惊讶的优越性能可能会导致每种类型PFM训练范式的转变——应用指令对齐技术,如强化学习(RL)、提示调整[20,21,22]和思维链[23,24],向人工通用智能发展。重点介绍了文本、图像和图形的PFMs,这是一个比较成熟的研究分类。对于文本,它是一个多用途的语言模型,用于预测序列中的下一个单词或字符。例如,PFMs可用于机器翻译、问答系统、主题建模、情感分析等。对于图像,它类似于文本上的PFMs,使用巨大的数据集来训练一个适用于许多CV任务的大模型。对于图,类似的预训练思想也被应用于获得pfm,用于许多下游任务。除了特定数据域的PFMs,还回顾和介绍了其他一些先进的PFMs,如语音、视频和跨领域数据的PFMs,以及多模态PFMs。此外,还出现了一种处理多模态的PFMs大收敛,即所谓的统一PFMs。首先定义了统一PFMs的概念,然后回顾了近年来SOTA统一PFMs的最新研究进展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。 根据现有PFMs在这三个领域的特点,我们得出PFMs具有以下两个主要优势。首先,需要轻微的微调来增强模型在下游任务上的性能。第二,PFMs已经在质量方面进行了综述。我们可以将PFMs应用于与任务相关的数据集,而不是从头开始构建模型来解决类似的问题。PFMs的巨大前景激发了大量相关工作,以关注模型效率、[29]、安全性[30,31,32]和压缩[33,34]等。 有一些综述研究[35,8,5,6,7,1]回顾了一些特定领域的预训练模型,如文本生成[6],视觉transformer[7],目标检测[8]。Bommasani出版社。[1]总结了基础模型的机会和风险。然而,现有工作没有在预训练任务、效率、功效和隐私等不同方面对不同领域(如CV、NLP、GL、语音、视频)的PFMs进行全面的回顾。在本次调查中,我们专门跟踪了NLP领域的PFMs的演变,以及预训练是如何转移到CV和GL并被采用的。与其他调查相比,我们没有对这三个领域现有的PFMs进行全面介绍和分析。与以往预训练模型的综述不同,本文总结了现有的模型,从传统模型到pfm,以及这三个领域的最新工作。传统模型强调静态特征学习。动态PFMs介绍了结构,这是目前的主流研究。进一步介绍了一些针对PFMs的其他研究,包括其他先进和统一的PFMs、模型效率和压缩、安全性和隐私。最后,总结了不同领域未来的研究挑战和开放问题。全面介绍了附录F和附录g中的相关评价指标和数据集。总结而言,本文的主要贡献如下:
专知便捷查看 |
|