搜索

分享

QQ空间 QQ好友新浪微博微信

浅析 | 大语言模型细节、训练及微调

520jefferson 2023-09-06 发布于中国香港

展开全文

在之前推文中，笔者从初学者角度简要阐述AI1.0和AI2.0，详见文章浅析 | 从AI1.0到AI2.0 — 概念、原理及技术，并在文中推荐阅读综述《A Survey of Large Language Models》（2023年），现已上传其对应的中文版本，私信本号'PPT'获取。最近，笔者关注的知乎博主"回旋托马斯x"（文章链接详见附录）最近也发表了类似PPT综述，介绍大模型结构、训练目标、位置编码、tokenizer、层归一化、激活函数及多头注意力机制等重要细节；同时对大模型数据并行、张量并行、零冗余优化器ZeRO、混合精度训练、Flash Attention、Paged Attention等主流常见的分布式训练技术进行了分析汇总；最后对prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA大模型高效微调技术也进行说明，虽然关于高效微调技术的内容在笔者往期文章中大部分已提到，但为了保持原作文章完整性，这里做了保留。"回旋托马斯x"的综述很适合作为笔者之前文章的姊妹篇或进阶篇，该综述针对大模型及其前沿技术做了更为具体全面的介绍，非常利于大家按图索骥理解并掌握大模型最核心的学习脉络，因此，在经作者允许情况下，笔者将其梳理如下。

参考

https://zhuanlan.zhihu.com/p/647843722

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： 520jefferson > 《机器学习/深度学习/tensorflow》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

520jefferson

关注对话

TA的最新馆藏

一些通用的Makefile文件模板
领域/场景大模型也太难训了吧
PEFT | Transformer参数量、计算量、显存占用分析
Broadcast,Scatter,Gather,Reduce,All
浅析 | 大语言模型细节、训练及微调
[转] LLMs之InternLM：InternLM/InternLM-7B模型的简介、安装、使用方法之详细攻略

喜欢该文的人也喜欢更多

热门阅读换一换