lindan9997 / 陈根科普 / 陈根:谷歌开发可训练数十亿参数的超级模...

分享

   

陈根:谷歌开发可训练数十亿参数的超级模型,拯救经费贫穷

2021-03-01  lindan9997

陈根

知名科技作家为你解读科技与生活的方方面面。11小时前

文/陈根

去年,OpenAI的GPT-3在外网走红。GPT-3作为著名人工智能科研公司 OpenAI 开发的文字生成人工智能,以天文数字级别的1,750亿参数量引发轰动。

GPT-3是迄今为止最强大的语言模型,庞大的参数量也让GPT-3几乎无所不能,包括答题、翻译、写文章,甚至是数学计算和编写代码。由GPT-3所写的文章几乎达到了以假乱真的地步,在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为12%。

500

然而,GPT-3类似人类的输出和惊人的通用性只是优秀技术的结果,而不是真正的聪明。GPT-3的智能是天文数字级别的参数量和运算的叠加。可以说,大规模模型的训练只是少数需要复杂模型重构和昂贵GPU集群的人的游乐场。对于很多缺少足够经费的普通研究人员来说,训练这些大规模模型只能“纸上谈兵”。

近日,来自微软、加州大学默塞德分校的研究者提出的名为“ZeRO-Offload ”的异构深度学习训练技术,或将拯救这一“缺少足够经费”的窘况——ZeRO-Offload可以在单个 GPU 上训练拥有 130 亿参数的深度学习模型,让普通研究者也能着手大模型的训练。

简单来说,ZeRO-Offload 是一种通过将数据和计算从 GPU 卸载到 CPU,以此减少神经网络训练期间 GPU 内存占用的方法,其使用方法也相对简单,只需要在DeepSpeed中设置完毕后,使用 ZeRO-Offload ,然后修改一些标志和配置文件就可以。

500

与 Pytorch 等流行框架相比,ZeRO-Offload 将可训练的模型规模提升了 10 倍,而且不需要数据科学家对模型做出任何改变,也不会牺牲计算效率。

此外,它还可以与模型并行性一起工作,在一个DGX-2盒子上训练超过700亿参数的模型,与单独使用模型并行相比,这一参数量实现了 4.5 倍的规模提升。可以说ZeRO-Offload使大规模模型训练更加大众化。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>