【原】陈根：谷歌开发超级模型，救场研究经费缺乏的窘境

陈根谈科技 2021-03-01

展开全文

文/陈根

去年，OpenAI的GPT-3在外网走红。GPT-3作为著名人工智能科研公司 OpenAI 开发的文字生成人工智能，以天文数字级别的1,750亿参数量引发轰动。

GPT-3是迄今为止最强大的语言模型，庞大的参数量也让GPT-3几乎无所不能，包括答题、翻译、写文章，甚至是数学计算和编写代码。由GPT-3所写的文章几乎达到了以假乱真的地步，在 OpenAI 的测试中，人类评估人员也很难判断出这篇新闻的真假，检测准确率仅为 12%。

然而，GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果，而不是真正的聪明。GPT-3的智能是天文数字级别的参数量和运算的叠加。可以说，大规模模型的训练只是少数需要复杂模型重构和昂贵GPU集群的人的游乐场。对于很多缺少足够经费的普通研究人员来说，训练这些大规模模型只能“纸上谈兵”。

近日，来自微软、加州大学默塞德分校的研究者提出的名为“ZeRO-Offload”的异构深度学习训练技术，或将拯救这一“缺少足够经费”的窘况——ZeRO-Offload可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型，让普通研究者也能着手大模型的训练。

简单来说，ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU，以此减少神经网络训练期间 GPU 内存占用的方法，其使用方法也相对简单，只需要在DeepSpeed中设置完毕后，使用 ZeRO-Offload ，然后修改一些标志和配置文件就可以。

与 Pytorch 等流行框架相比，ZeRO-Offload 将可训练的模型规模提升了 10倍，而且不需要数据科学家对模型做出任何改变，也不会牺牲计算效率。

此外，它还可以与模型并行性一起工作，在一个DGX-2盒子上训练超过700亿参数的模型，与单独使用模型并行相比，这一参数量实现了 4.5 倍的规模提升。可以说ZeRO-Offload使大规模模型训练更加大众化。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：陈根谈科技 > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

陈根谈科技

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换