梨花教育退费大型语言模型的发展历程

三色冰激凌怦燃 2023-06-07 发布于广东

展开全文

大型语言模型的发展历程并不完全一帆风顺。

回顾深度学习发展的前10年,模型的性能提高主要依赖于网络结构的变革。由于“模型尺寸呈指数增长，性能只会线性增加”的语言模型的缩放定律的现象，研究人员发现,即便是最大的GPT-3模型，在有提示的情况下，其性能也不不如精心调教的小模型。同时超大的网络规模极大增加训练所需数据量、训练和推理成本。

所以，当时并没有必要铤而走险，投入大量资源去训练一个“庞然大物”。

然而，随着神经网络设计技术的日臻成熟，要仅通过优化网络结构来获得显著性能提高已然困难重重。近年来，着计算机算力的提高和数据集规模的扩大，研究者开始把目光转向模型规模的扩张。实验结果显示。

一旦模型大小达到某个“临界质量”，其性能提高将远超比例关系，呈现出量变引发的质变。简而言之，当模型的参数数量超过某个阈值，它会突然展现出远超小模型的强大能力。这就催生了大规模预训练语言模型的蓬勃发展，尤其在自然语言处理领域。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：三色冰激凌怦燃 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

三色冰激凌怦燃

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换

梨花教育退费 大型语言模型的发展历程