发文章
发文工具
撰写
网文摘手
文档
视频
思维导图
随笔
相册
原创同步助手
其他工具
图片转文字
文件清理
AI助手
留言交流
新智元报道
GPT-3发布以来最大里程碑
革命性架构,训练更稳定
2T token训练,性能超越Llama2-7B
一些感想
这个工作从有想法到最终完成,经历了近两年的时间。期间经历数次失败,也学习到了很多大规模预训练时代正确做科研的方法。
对于两个不同模型架构的比较必须要在数据完全相同的条件下才有说服力。当数据不同的时候,哪怕不同的比例很小(<10%),最后的结果也可能有明显的差别。包括training loss和下游任务的结果,都受到训练数据的很大影响。
对于不同的架构,一定要在模型得到充分训练的条件下的比较才有意义。例如对于7B大小的模型,2T的训练数据几乎是基本要求。有的模型可能在数据少的时候表现的很好,但是数据规模增大后反而落后其他模型。因此,对于大模型架构的比较,结果有说服力的前提是充分的训练。
对于架构差别很大的模型,传统的基于flops的scaling law的比较意义在降低。原因是两个不同架构的模型,即使有相同的flops,他们的实际速度可能差几倍。这个和架构算法本身是不是适合在最先进的GPU上计算有很大的关系。因此,真正贴合实际的比较方法是像本文中那样分成数据学习效率和计算效率两个方面。但是这样在实际中对于研究员的工程能力有很高的要求。在大模型时代,新算法的开发已经和系统等方面高度结合在一起。
来自: 天承办公室 > 《023新智元说》
0条评论
发表
请遵守用户 评论公约
Transformer 架构中的 Encoder & Decoder
每个 encoder 层的输入 embedding 与输入具有相同的大小,我们很快就会看到这些 encoder 层的主要作用是“更新”输入 embedding 以生成...
时下改变AI的6大NLP语言模型
时下改变AI的6大NLP语言模型。本文将深入研究大语言模型领域的最新进展,改变AI的6大NLP语言模型,每个模型能够引入的增强功能、以及潜...
最强LLaMA突然来袭!只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2
只改一个超参数,实现上下文3.2万token,多个任务打败ChatGPT、Claude 2.在LLaMA 2中,它的位置编码采用的是旋转编码RoPE方法。在此,Me...
200万上下文窗口创飞Gemini 1.5!微软来砸谷歌场子了|研究人员
并且1000步微调内,即可完成从短上下文到长上下文的扩展,同时保持原来短上下文窗口性能,也就是说训练成本和时间又省了一大笔。即使在...
LLaMA中SwiGLU的实现形式
LLaMA中SwiGLU的实现形式。在LLaMA中,SwiGLU作为一种新型的实现形式,用于替代传统的Transformer中的FFN(Feed-Forward Network)前馈...
BERT模型详解
BERT模型详解1 简介。Token Embeddings, (1, n, 768) ,词的向量表示Segment Embeddings, (1, n, 768),辅助BERT区别句子对中的两个句...
复旦大学邱锡鹏教授:NLP预训练模型综述
PTMs概述PTMs 的主要区别在于上下文编码器的使用、预训练任务和目标。3.2 PTMs的拓展3.2.1 引入知识的PTMs通常 PTMs 都是用大量语料训...
论文解读:Bert原理深入浅出
Bert 是一个语言表征模型,能实现语言表征目标训练,通过深度双向 Transformer 模型达到语义理解的目的。然后对每个 Token 进行 3 个 Em...
一文读懂深度学习:从神经元到BERT
一文读懂深度学习:从神经元到BERT.长短期记忆网络( LSTM )ELMo 从左往右的语言模型和从右往左的语言模型其实是独立开来训练的,共享 em...
微信扫码,在手机上查看选中内容