搜索

分享

QQ空间 QQ好友新浪微博微信

【LLM】通过多token预测实现更好更快的大模型

天承办公室 2024-05-07 发布于北京

展开全文

一句话结论

这篇论文提出了一种在训练语言模型时同时预测多个未来token的方法，证明了其在提高样本效率、推理能力和推理速度方面的优势。

论文的背景

尽管基于下一个token预测的大型语言模型取得了令人印象深刻的成就，但这种方法获取语言、世界知识和推理能力的效率依然较低。与人类儿童相比，这种模型需要更多数量级的数据才能达到同样的流利程度。因此，研究人员认为需要探索新的训练方法来提高语言模型的样本效率。

论文的实现方法

该论文提出了一种多token预测架构，在训练语料库的每个位置，模型会使用多个独立的输出头并行预测接下来的n个token，所有输出头共享相同的模型主干。这种方法可以作为辅助训练任务，而不会增加训练时间或内存开销。

论文的效果

实验证明，多token预测在大规模情况下更有益，13B参数的模型在HumanEval和MBPP代码问题上分别比基线模型解决了12%和17%更多的问题。在小型算法任务上，多token预测也有助于归纳头部和算法推理能力的发展。此外，使用4token预测的模型在推理时的速度高出3倍，即使在大批量情况下也是如此。总的来说，这种成本免费且简单的修改可以训练出更强大、更快速的transformer模型。

论文标题：Better & Faster Large Language Models via Multi-token Prediction

论文链接：https:///pdf/2404.19737

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：天承办公室 > 《002理论研究》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

天承办公室

关注对话

TA的最新馆藏

仿古诗词：鹊桥谣
仿古诗词：风月佳人
菩提老祖的大本事
打击恐怖主义！中方捐赠大批武器，贝宁100万桶石油运往中国
29个地外文明正在‘监视’地球？人类未来将面临怎样的抉择？
迄今为止，最好看的《三体》来了，足以激荡三体迷的心灵！

喜欢该文的人也喜欢更多

热门阅读换一换