分享

陈根:谷歌开发超级模型,救场研究经费缺乏的窘境

 陈根谈科技 2021-03-01

/陈根

去年,OpenAIGPT-3在外网走红。GPT-3作为著名人工智能科研公司 OpenAI 开发的文字生成人工智能,以天文数字级别的1,750亿参数量引发轰动。

GPT-3是迄今为止最强大的语言模型,庞大的参数量也让GPT-3几乎无所不能,包括答题、翻译、写文章,甚至是数学计算和编写代码。GPT-3所写的文章几乎达到了以假乱真的地步,在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为 12%

然而,GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果,而不是真正的聪明。GPT-3的智能是天文数字级别的参数量和运算的叠加。可以说,大规模模型训练只是少数需要复杂模型重构和昂贵GPU集群的人的游乐场。对于很多缺少足够经费普通研究人员来说,训练这些大规模模型只能“纸上谈兵”。

近日,来自微软、加州大学默塞德分校的研究者提出名为ZeRO-Offload的异构深度学习训练技术,或将拯救这一“缺少足够经费”的窘况——ZeRO-Offload可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型,让普通研究者也能着手大模型的训练。

简单来说,ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU,以此减少神经网络训练期间 GPU 内存占用的方法,使用方法也相对简单,只需要在DeepSpeed中设置完毕后,使用 ZeRO-Offload ,然后修改一些标志和配置文件就可以。

  Pytorch 等流行框架相比,ZeRO-Offload 将可训练的模型规模提升了 10倍,而且不需要数据科学家对模型做出任何改变,也不会牺牲计算效率。

此外,它还可以与模型并行性一起工作,在一个DGX-2盒子上训练超过700亿参数的模型,与单独使用模型并行相比,这一参数量实现了 4.5 倍的规模提升。可以说ZeRO-Offload使大规模模型训练更加大众化。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多