分享

梨花教育退费 大型语言模型的发展历程

 三色冰激凌怦燃 2023-06-07 发布于广东

大型语言模型的发展历程并不完全一帆风顺。

回顾深度学习发展的前10年,模型的性能提高主要依赖于网络结构的变革。由于“模型尺寸呈指数增长,性能只会线性增加”的语言模型的缩放定律的现象,研究人员发现,即便是最大的GPT-3模型,在有提示的情况下,其性能也不不如精心调教的小模型。同时超大的网络规模极大增加训练所需数据量、训练和推理成本。

所以,当时并没有必要铤而走险,投入大量资源去训练一个“庞然大物”。

然而,随着神经网络设计技术的日臻成熟,要仅通过优化网络结构来获得显著性能提高已然困难重重。近年来,着计算机算力的提高和数据集规模的扩大,研究者开始把目光转向模型规模的扩张。实验结果显示。

一旦模型大小达到某个“临界质量”,其性能提高将远超比例关系,呈现出量变引发的质变。简而言之,当模型的参数数量超过某个阈值,它会突然展现出远超小模型的强大能力。这就催生了大规模预训练语言模型的蓬勃发展,尤其在自然语言处理领域。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多