原创
朱文昊
南大NLP
2023-05-15 10:20
发表于江苏
01 研究动机 以ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。通过情景学习(In-Context Learning,ICL),大语言模型可以根据任务示例和任务指令,在不更新模型参数的情况下,完成特定下游任务。然而,值得注意的是,这些大语言模型主要基于大规模的数据进行语言模型任务的学习,并没有在大规模多语言翻译数据上训练过,我们非常好奇于:(1)大语言模型的多语言机器翻译能力如何?(2)哪些因素会影响大语言模型的翻译表现?为了探究这些问题,本文评测了XGLM[1],OPT[2],BLOOMZ[3],ChatGPT[4]等众多热门大语言模型在百余种语言上的翻译能力,并且分析了在情景学习中各种因素对翻译效果的影响。 02 贡献
03 实验设定 为了全面地衡量大语言模型的多语言机器翻译能力,本文选用Flores-101数据集[5]进行实验。在应用大语言模型进行情景学习的过程中,本文设置任务示例数目为8,任务指令模版为“<X>=<Y>”,其中“<X>”和“<Y>”分别为源句和目标句对应的占位符。此外,本文也报告了M2M-100-12B[6]以及NLLB-1.3B[7]这两个强大的传统有监督模型的多语言翻译表现作为参照。 04 大语言模型多语言机器翻译能力评测 在系统地评测大语言模型的多语言翻译能力后,本文得出了以下主要结论:
表格 1 不同模型在各语系上的平均BLEU分数
05 大语言模型机器翻译能力影响因素分析 为了更好地理解大语言模型如何通过情景学习中完成翻译任务,本文以XGLM为例分析了情景学习中诸多因素对翻译效果的影响。以下介绍本文在关于任务指令和任务示例两方面的相关发现: 1. 与任务指令相关的发现: 大语言模型在下游任务上的良好表现依赖于精心设计的指令:本文发现大语言模型在下游任务上的表现会随着指令内容的不同而剧烈变化。并且在不同翻译方向上,最好的指令也不同(表格2)在这些指令中,“<X>=<Y>”取得了最高的平均BLEU分数。而“[SRC]: <X> \n [TGT]: <Y>”的效果是最差的。这说明在情景学习中,任务指令起着十分重要的作用。 即使是不合理的指令也可以引导大语言模型完成翻译任务:直觉上,人们认为大语言模型理解了任务指令所以能够完成指定的下游任务。但是本文发现,在情景学习时使用任务无关的指令,大语言模型依然可以完成目标任务。例如,面对指令“<X> can be summarized as <Y>”,模型依然可以生成翻译而不是生成摘要。这样的发现说明,以往的研究可能误解了任务指令在情景学习中的作用。 表格 2 使用不同任务指令对翻译效果的影响
根据语义选择示例与随机选择示例效果相当:为了研究任务示例对情景学习效果的影响,本文对比了包括随机检索、稀疏检索、稠密检索在内的多种任务示例选择策略(图4)。实验结果表明当任务样例数目从1增加到8时,BLEU分数会显著提升。但是进一步增加样例数目,BLEU分数基本变化不大,甚至会开始下降。相比于根据语义进行选择,随机选择也可以取得相似的效果。并且即使根据目标句进行检索,也没有展现出明显的优势。这些实验结果表明,翻译任务示例可以帮助大语言模型理解翻译任务,但是大语言模型可能很难从语义相关的翻译示例中直接获取有帮助的翻译知识。 图 4 使用不同任务示例选择策略对翻译效果的影响 翻译任务示例帮助大语言模型理解翻译任务的核心特征:为了理解翻译任务示例如何影响大语言模型理解翻译任务,本文观察了大语言模型在不同任务示例下的翻译表现(表格3)。当使用不匹配的翻译句对作为任务样例时,大语言模型完全无法进行翻译。这说明模型从翻译任务示例中学习到需要保证源句和目标句语义一致。当使用词级别或者段落级别翻译对作为翻译示例时,模型的翻译质量显著下降,这说明任务样例的粒度也很重要。当使用重复的翻译句对作为翻译样例时,模型的翻译质量也会下降,这说明保持任务示例的多样性也是保证模型下游任务性能的必要条件。总体来说,这些对比实验的结果说明大语言在情景学习中,通过任务样例理解了翻译任务的核心需求。 表格 3 在给定不同任务示例时XGLM的翻译表现 使用跨语言任务示例也可能带来翻译性能提升:本文发现在机器翻译的情景学习中,使用不同语言对的翻译句对作为任务示例并不一定会导致翻译质量下降。例如,在进行德语-英语翻译时,如果使用跨语言任务示例会导致翻译质量下降;而在进行汉语-英语翻译时,使用跨语言任务示例则可以大幅提升翻译性能(图5)。这显示了跨语言任务示例在情景学习中的潜在用途。 图 5 使用跨语言翻译任务示例的效果 在上下文末尾位置的任务示例对于大语言模型的行为有着更大的影响:本文发现使用与目标翻译方向相反的翻译句对作为任务示例时,大语言模型完全无法进行正确的翻译。利用这种特性,本文考察了在上下文的不同位置的任务示例对大语言模型的翻译行为的影响程度。表格4中的实验结果表明,在使用相同数量的反向任务示例时,反向任务示例出现在上下文的末尾位置时,大语言模型的翻译表现会更差。这说明在末尾位置的任务示例对于大语言模型的行为有着更大的影响。 表格 4 反转任务示例翻译方向对翻译效果的影响 06 总结 本文系统地评测了包括ChatGPT在内的一系列大语言模型在102种语言,202个以英文为核心的翻译方向上的多语言机器翻译能力,探究了使用大语言模型进行多语言机器翻译的优势与挑战。我们发现即使是最强的大语言模型(ChatGPT),仍然在83.33%的翻译方向上落后于强大的有监督基线模型(NLLB)。经过进一步的分析实验,我们发现在机器翻译任务上,大语言模型展现出了一些新的工作模式:例如,在情景学习时,任务指令的语义可以被大语言模型所忽视;使用跨语言任务示例可以提升低资源机器翻译效果。更重要的是,我们发现BLOOMZ在公开数据集上的表现是被高估的,而如何公平地比较不同语言模型的能力将是大语言模型时代的一个重要话题。 【该工作由南京大学NLP研究组、上海人工智能实验室、上海交通大学、北京大学、香港大学和加州大学圣巴巴拉分校共同合作完成。预印本论文已发布在arXiv,预印本论文链接为:https:///pdf/2304.04675.pdf。该工作的讲解视频已发布在组内官方B站账号“南京大学NLP研究组”,视频链接为:https://www.bilibili.com/video/BV16h411j7nW 】 论文参考文献 [1] Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, and Xian Li. 2022. Few-shot Learning with Multilingual Generative Language Models. EMNLP’2022. [2] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher De- wan, Mona Diab, Xian Li, Xi Victoria Lin, et al. OPT: Open Pre-trained Transformer Language Models. arXiv:2205.01068. [3] Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilic, Daniel Hesslow, Ro- man Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. Bloom: A 176b- Parameter Open-access Multilingual Language Model. arXiv:2211.05100. [4] OpenAI. https:///blog/chatgpt. [5] Naman Goyal, Cynthia Gao, Vishrav Chaudhary, PengJen Chen, Guillaume Wenzek, Da Ju, Sanjana Krishnan, Marc’Aurelio Ranzato, Francisco Guzmán, and Angela Fan. The Flores-101 evaluation benchmark for low-resource and multilingual ma- chine translation. TACL’2022. [6] Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin. Beyond English-centric Multilingual Machine Translation. JMLR’2021. [7] NLLB Team. No Language Left Behind: Scaling Human-centered Machine Translation. arXiv:2207.04672. |
|