分享

【LLM】通过多token预测实现更好更快的大模型

 天承办公室 2024-05-07 发布于北京

图片

一句话结论

这篇论文提出了一种在训练语言模型时同时预测多个未来token的方法,证明了其在提高样本效率、推理能力和推理速度方面的优势。

论文的背景

尽管基于下一个token预测的大型语言模型取得了令人印象深刻的成就,但这种方法获取语言、世界知识和推理能力的效率依然较低。与人类儿童相比,这种模型需要更多数量级的数据才能达到同样的流利程度。因此,研究人员认为需要探索新的训练方法来提高语言模型的样本效率。    

论文的实现方法

该论文提出了一种多token预测架构,在训练语料库的每个位置,模型会使用多个独立的输出头并行预测接下来的n个token,所有输出头共享相同的模型主干。这种方法可以作为辅助训练任务,而不会增加训练时间或内存开销。    

图片    

论文的效果

实验证明,多token预测在大规模情况下更有益,13B参数的模型在HumanEval和MBPP代码问题上分别比基线模型解决了12%和17%更多的问题。在小型算法任务上,多token预测也有助于归纳头部和算法推理能力的发展。此外,使用4token预测的模型在推理时的速度高出3倍,即使在大批量情况下也是如此。总的来说,这种成本免费且简单的修改可以训练出更强大、更快速的transformer模型。    

图片    

图片    

图片

论文标题:Better & Faster Large Language Models via Multi-token Prediction

论文链接:https:///pdf/2404.19737    

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多