【原】XTREME：用于评估跨语言泛化的大规模多语言多任务基准

雨夜的博客 2021-12-16

展开全文

自然语言处理 (NLP) 的主要挑战之一是构建不仅可以使用英语而且可以使用世界上所有约 6,900 种语言的系统。幸运的是，虽然世界上大多数语言都是数据稀疏的，并且没有足够的可用数据来自行训练强大的模型，但许多语言确实共享大量的底层结构。在词汇层面上，语言往往有同源词——例如，英语中的“ desk”和德语中的“ Tisch”都来自拉丁语“ discus”. 同样，许多语言也以类似的方式标记语义角色，例如在汉语和土耳其语中都使用后置词来标记时空关系。

在 NLP 中，有许多方法在训练中利用多种语言的共享结构来克服数据稀疏问题。从历史上看，这些方法中的大多数都专注于以多种语言执行特定任务。在过去的几年里，在深度学习进步的推动下，尝试学习通用多语言表示的方法数量有所增加（例如，mBERT、XLM、XLM-R)，旨在捕获跨语言共享的知识，并且对许多任务有用。然而，在实践中，对此类方法的评估主要集中在一小部分任务和语言相似的语言上。

为了鼓励对多语言学习的更多研究，我们引入了“ XTREME：用于评估跨语言泛化的大规模多语言多任务基准”，它涵盖了 40 种不同类型的语言（跨越 12 个语系），并包括 9 个需要对不同语言进行推理的任务。语法或语义级别。选择 XTREME 中的语言是为了最大限度地提高语言多样性、现有任务的覆盖范围以及训练数据的可用性。其中有许多未被充分研究的语言，例如达罗毗荼语泰米尔语（在印度南部、斯里兰卡和新加坡使用）、泰卢固语和马拉雅拉姆语（主要在印度南部使用）以及尼日尔-刚果语斯瓦希里语和约鲁巴语，在非洲使用。代码和数据，包括运行各种基线的示例，可在此处获得。

XTREME 任务和语言

XTREME 中包含的任务涵盖了一系列范式，包括句子分类、结构化预测、句子检索和问答。因此，为了使模型在 XTREME 基准测试中取得成功，他们必须学习可推广到许多标准跨语言迁移设置的表示。

file

每个任务都涵盖 40 种语言的一个子集。为了获得用于 XTREME 分析的低资源语言的额外数据，自然语言推理 ( XNLI ) 和问答 ( XQuAD ) 这两个代表性任务的测试集被自动从英语翻译成其余语言。我们表明，使用这些任务的翻译测试集的模型表现出的性能与使用人工标记的测试集所达到的性能相当。

零样本评估

要使用 XTREME 评估性能，必须首先使用鼓励跨语言学习的目标在多语言文本上对模型进行预训练。然后，他们对特定于任务的英语数据进行微调，因为英语是最有可能获得标记数据的语言。然后，XTREME 评估这些模型的零样本跨语言传输性能，即在没有看到特定任务数据的其他语言上。从预训练到微调再到零镜头转移的三步过程如下图所示。

file

在实践中，这种零样本设置的好处之一是计算效率——预训练模型只需要针对每个任务的英语数据进行微调，然后就可以直接在其他语言上进行评估。然而，对于其他语言中可用的标记数据的任务，我们也比较了对语言数据的微调。最后，我们通过获得所有九个 XTREME 任务的零样本分数来提供综合分数。

迁移学习的测试平台

我们使用几种最先进的预训练多语言模型进行实验，包括：多语言 BERT，流行 BERT 模型的多语言扩展；XLM和XLM-R，两个更大版本的多语言 BERT，已经在更多数据上进行了训练；以及大规模多语言机器翻译模型M4。这些模型的一个共同特点是它们已经在来自多种语言的大量数据上进行了预训练。对于我们的实验，我们选择了这些模型的变体，这些模型在大约 100 种语言上进行了预训练，包括我们基准测试的 40 种语言。

我们发现，虽然模型在大多数现有英语任务上的表现接近人类，但许多其他语言的表现要低得多。在所有模型中，结构化预测和问答任务的英语性能与其余语言的性能之间的差距最大，而结构化预测和句子检索任务的跨语言结果分布最大。

为了说明起见，在下图中，我们显示了在所有语言系列中按任务和语言划分的零样本设置 XLM-R 中性能最佳的模型的性能。跨任务的分数不具有可比性，因此主要关注点应该是跨任务的语言的相对排名。正如我们所看到的，许多高资源语言，尤其是印欧语系的语言，一直排名靠前。相比之下，该模型在汉藏语、日语、韩语和尼日尔-刚果语等其他语系的许多语言上的性能较低。

file

总的来说，我们做了一些有趣的观察。

在零样本设置中，M4 和 mBERT 在一些较简单的任务上与 XLM-R 竞争，而后者在特别具有挑战性的问答任务等方面的表现优于它们。例如，在 XQuAD 上，XLM-R 得分为 76.6，而 mBERT 为 64.5，M4 为 64.6，在MLQA和TyDi QA上的分差相似。
我们发现使用机器翻译的基线（翻译训练数据或测试数据）非常有竞争力。在 XNLI 任务中，mBERT 在零样本传输设置中得分为 65.4，在使用翻译训练数据时得分为 74.0。
我们观察到，少样本设置（即，在可用时使用有限数量的语言标记数据）对于更简单的任务（例如 NER）尤其具有竞争力，但对于更复杂的问答任务则不太有用。这可以从 mBERT 的性能中看出，它在 NER 任务上在小样本设置中从 62.2 提高到 88.3，提高了 42%，但对于问答任务（TyDi QA），仅提高了 25%（59.7 到 74.5 ）。
总体而言，在所有模型和设置中，英语和其他语言的表现之间仍然存在很大差距，这表明跨语言迁移的研究潜力很大。

跨语言迁移分析

与之前关于深度模型泛化能力的观察结果类似，我们观察到如果语言有更多的预训练数据，例如 mBERT，与 XLM-R 相比，结果会有所改善，XLM-R 具有更多的预训练数据. 然而，我们发现这种相关性不适用于结构化预测任务、词性标注(POS) 和命名实体识别(NER)，这表明当前的深度预训练模型无法充分利用预训练模型。 - 训练数据转移到这样的句法任务。我们还发现模型难以转移到非拉丁文字。这在 POS 任务中很明显，mBERT 在西班牙语上实现了 86.9 的零样本准确率，而在日语上仅为 49.2。

对于自然语言推理任务 XNLI，我们发现模型在大约 70% 的时间内对英语的测试示例和另一种语言的同一示例做出相同的预测。半监督方法可能有助于鼓励改进对示例的预测与其不同语言的翻译之间的一致性。我们还发现，模型难以预测在经过微调的英语训练数据中没有看到的 POS 标签序列，这突出表明这些模型难以从用于预训练的大量未标记数据中学习其他语言的语法。 -训练。对于命名实体识别，模型最难预测远程语言的英语训练数据中未出现的实体——印度尼西亚语和斯瓦希里语的准确率分别为 58.0 和 66.6，而葡萄牙语和法语的准确率分别为 82.3 和 80.1。

在多语言迁移学习方面取得进展

尽管世界上只有 15% 左右的人口会说英语，但英语一直是 NLP 最新进展的焦点。我们相信，在深度上下文表示的基础上，我们现在拥有在为世界其他语言提供服务的系统上取得实质性进展的工具。我们希望 XTREME 能够促进多语言迁移学习的研究，类似于GLUE和SuperGLUE等基准如何刺激深度单语模型的发展，包括BERT、RoBERTa、XLNet、AlBERT等。