Facebook最新的庞大语言AI遭遇计算瓶颈，哪怕使用500个英伟达GPU！

板桥胡同37号 2019-11-14

展开全文

Facebook AI研究部门在自然语言理解方面的最新突破名为XLM-R，可以处理诸多任务，比如针对包括斯瓦希里语和乌尔都语在内的100种不同语言解答问题。这既表明深度学习模型变得越来越大，还表明它们遇到了现有计算系统中严重的资源瓶颈。

Facebook的巨型“XLM-R”神经网络经过精心设计，可以针对包括斯瓦希里语和乌尔都语在内的100种不同语言处理单词问题，但即便使用500个世界一流的英伟达GPU，它也遇到了计算瓶颈。

随着机器学习模型变得越来越大，最先进的AI研究继续遇到传统计算技术的瓶颈。

这是Facebook AI团队的研究人员最新的重大研究工作的成果之一。上周，他们发布了有关其发明XLM-R的报告；XLM-R是一种自然语言模型，基于谷歌广受欢迎的Transformer模型。

题为《大规模的无监督跨语言表示学习》的论文（https:///pdf/1911.02116.pdf）发表在arXiv上，论文作者有Alexis Conneau、Kartikay Khandelwal Naman、Goyal Vishrav、Chaudhary Guillaume、Wenzek Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov，他们都是Facebook AI研究部门的人员。

XLM-R经过精心设计，能够在100种不同语言之间进行翻译。它基于Conneau今年早些时候与Facebook的Guillaume Lample携手开展的工作，Facebook创建了最初的XLM。他们写道，这与今年早些时候谷歌研究人员展示的对103种语言进行跨语言训练的那个系统极为相似。

与以前在各种基准测试任务（比如语言之间的问题解答）方面所做的研究工作相比，这是很大的改进。尤其是，它在所谓的“低资源”语言方面取得了可喜的进步，这些语言没有太多的文字资料，比如斯瓦希里语和乌尔都语。

但是，尽管使用了500个功能最强大的英伟达GPU，XLM-R仍遇到了资源瓶颈。论文作者们称之为“多语言诅咒”。如果你将越来越多的语言填塞到单单一个端到端的Transformer中，低资源语言将从中受益，但到了一定程度，每种语言都遇到瓶颈。

这是由于XLM-R很大，它有24层、16个“注意力头”以及5.5亿个参数，不过它仍然容量有限。终究有一天，它可以处理要求它执行的各项任务。

作者们写道：“模型容量（即模型中参数的数量）由于实际考虑因素而受到限制，比如训练和推理过程中的内存和速度。”

XLM-R被要求处理大量的训练数据，即使用CommonCrawl程序从网上收集的2.5万亿字节数据。XLM-R甚至还不是市面上最大的网络。OpenAI今年早些时候推出的GPT2其最大版本有48层和15亿个参数。正如Facebook的PyTorch负责人Joe Spisak今年初告诉IT外媒ZDNet，网络变得越来越大。