自从 BERT 横空出世以后,尽管算力要求比较大,但预训练语言模型仍层出不穷,有点类似当年 GAN 大量更新的盛况。虽然只过去了一两年,但形形色色的预训练语言模型确实让我们弄不清楚整体状况到底是什么样的。 我们知道 BERT、ALBERT、XLNet 等众多优秀模型,但它们之间的关系、差别、分类到底是什么样的?这还是主流模型,如果没读过具体论文,我们是很难分清楚的,对于更多的变体与扩展,基本上就无能为力了。但近日复旦大学邱锡鹏等研究者发了一篇论文,它以两张图详细展示了预训练语言模型的现状与分类。 复旦的这篇综述性论文非常丰富,它以 25 页的篇幅展示了预训练语言模型的方方面面,不论是新奇的预训练任务,还是各种模型针对领域知识的扩展,我们都能快速 Get 到。 论文:Pre-trained Models for Natural Language Processing: A Survey论文地址:https:///pdf/2003.08271.pdf 具体而言,以邱锡鹏为第一作者的研究者们对用于 NLP 的预训练模型进行了全面的回顾,文章体结构如下: