大型语言模型的发展历程并不完全一帆风顺。 回顾深度学习发展的前10年,模型的性能提高主要依赖于网络结构的变革。由于“模型尺寸呈指数增长,性能只会线性增加”的语言模型的缩放定律的现象,研究人员发现,即便是最大的GPT-3模型,在有提示的情况下,其性能也不不如精心调教的小模型。同时超大的网络规模极大增加训练所需数据量、训练和推理成本。 所以,当时并没有必要铤而走险,投入大量资源去训练一个“庞然大物”。 然而,随着神经网络设计技术的日臻成熟,要仅通过优化网络结构来获得显著性能提高已然困难重重。近年来,着计算机算力的提高和数据集规模的扩大,研究者开始把目光转向模型规模的扩张。实验结果显示。 一旦模型大小达到某个“临界质量”,其性能提高将远超比例关系,呈现出量变引发的质变。简而言之,当模型的参数数量超过某个阈值,它会突然展现出远超小模型的强大能力。这就催生了大规模预训练语言模型的蓬勃发展,尤其在自然语言处理领域。 |
|