分享

浅析 | 大语言模型细节、训练及微调

 520jefferson 2023-09-06 发布于中国香港

在之前推文中,笔者从初学者角度简要阐述AI1.0和AI2.0,详见文章浅析 | 从AI1.0到AI2.0 — 概念、原理及技术,并在文中推荐阅读综述《A Survey of Large Language Models》(2023年),现已上传其对应的中文版本,私信本号'PPT'获取。最近,笔者关注的知乎博主"回旋托马斯x"(文章链接详见附录)最近也发表了类似PPT综述,介绍大模型结构、训练目标、位置编码、tokenizer、层归一化、激活函数及多头注意力机制等重要细节;同时对大模型数据并行、张量并行、零冗余优化器ZeRO、混合精度训练、Flash Attention、Paged Attention等主流常见的分布式训练技术进行了分析汇总;最后对prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA大模型高效微调技术也进行说明,虽然关于高效微调技术的内容在笔者往期文章中大部分已提到,但为了保持原作文章完整性,这里做了保留。"回旋托马斯x"的综述很适合作为笔者之前文章的姊妹篇或进阶篇,该综述针对大模型及其前沿技术做了更为具体全面的介绍,非常利于大家按图索骥理解并掌握大模型最核心的学习脉络,因此,在经作者允许情况下,笔者将其梳理如下。

图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
图片
参考

https://zhuanlan.zhihu.com/p/647843722


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多