【原】ACL2020 最佳论文放榜！一作为微软成员

学术头条 2020-11-27

展开全文

第 58 届 ACL 会议正在如火如荼的进行，随着主会议的开始，本届会议的最佳论文也已被选出。

刚刚，自然语言处理领域的顶会 ACL 2020 公布最佳论文，本次共颁布了 4 个奖项共 8 个获奖名额，分别是：

最佳论文（1 篇）
最佳主题论文（1 篇）
最佳 DEMO 论文（1 篇）
荣誉提名论文（5 篇）

那我们来看看今年的最佳论文讲了什么，属于哪些主题，各个国家及机构的表现如何吧：

最佳论文

最佳论文的获奖者为美国的研究人员，论文题目为：
Beyond Accuracy: Behavioral Testing of NLP models with CheckList
文章来自微软研究院的 Ribeiro Marco Tulio，华盛顿大学的 Wu Tongshuang 、Guestrin Carlos，加州大学欧文分校的 Singh Sameer。

这篇文章提出了自然语言处理的一种模型无关和任务无关的测试方法，虽然测量精度一直是评价通用化的主要方法，但它往往高估了 NLP 模型的性能，而评价模型的替代方法要么侧重于个体任务，要么侧重于具体行为。受软件工程中行为测试原理的启发，作者介绍了一种测试 NLP 模型的不确定任务方法 CheckList。Checklist 包括一个通用语言能力和测试类型的矩阵，它有助于全面的测试构思，以及一个快速生成大量不同测试用例的软件工具。作者用三个任务的测试来说明 Checklist 的效用，在商业和最先进的模型中识别出了关键的失败。在一项用户研究中，一个负责商业情绪分析模型的团队在一个经过广泛测试的模型中发现了新的、可操作的错误。在另一项用户研究中，具有 Checklist 的 NLP 实践者进行了两倍多的测试，发现的 bug 几乎是没有 checklist 的用户的三倍。

论文地址：https://www./pub/5eb9222f91e0118cfef98287

最佳主题论文

本届的最佳主题论文为：
Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data
文章来自华盛顿大学的 Emily M. Bender 及萨尔兰大学的 Alexander Koller

NLP 的现状是大型神经语言模型（LMs），如 BERT（Devlin et al，2019）或 GPT-2(Radford 等人，2019 年)，正在一系列任务上取得巨大进展，包括那些表面上意义重大的任务。在学术和流行出版物中，这导致了这种模型“理解”或“理解”自然语言或学习其“意义”的说法。

而在本文中，作者们认为，与当前的一些炒作相比，意义不能仅仅从形式中学习，意义是语言形式与交际意图之间的关系。这意味着，即使是像 BERT 这样的大型语言模型也不会学习“意义”；它们学习一些意义到语言形式中的反映，这在应用中非常有用。

为了与 ACL2020 主题“总结我们曾经到过的地方和我们将要去的地方”保持一致，作者认为，对形式和意义之间的区别的清晰理解将有助于引导该领域朝着围绕自然语言理解的方向发展。作者提供了一些关于如何保持一个健康的，但不夸张的，乐观的关于这些 LMs 的研究的想法。特别是，这篇论文可以被看作是在讨论当前模式的成功时精确地使用语言，以及在处理自然语言时要谦虚。

论文地址：https://www./pub/5ec49a639fced0a24b4de76a

最佳 demo 论文

最 demo 论文的获奖者为来自伊利诺伊大学、哥伦比亚大学及美国陆军研究所的Manling Li
, Alireza Zareian, Ying Lin1, Xiaoman Pan, Spencer Whitehead,Brian Chen, Bo Wu, Heng Ji, Shih-Fu Chang，Clare Voss, Daniel Napierski, Marjorie Freedman 等人

论文题目为：GAIA: A Fine-grained Multimedia Knowledge Extraction System

这篇文章里，作者推出第一款全面、开放的、源多媒体知识提取系统，它将来自不同来源和语言的大量非结构化、异构的多媒体数据流作为输入，并且创建一个连贯的、结构化的知识库，索引实体、关系和事件，遵循丰富、细粒度的本体。GAIA 系统，可以无缝搜索复杂的图形查询，并检索多媒体证据，包括文本、图像和视频。GAIA 在最近的 NIST TAC SM-KBP2019 评估中获得最佳性能。该系统在 GitHub 和 DockerHub，有完整的文档。

GAIA 架构

论文地址：https://www./pub/5edf299b9e795e5d07d32486

荣誉提名论文：

另外本次会议还给出了 5 篇荣誉提名论文，分别为：
1 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
作者：Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey and Noah A. Smith
论文地址：https://www./pub/5ea2b8bf91e01167f5a89c9f
2 Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics
作者：Nitika Mathur, Timothy Baldwin and Trevor Cohn
论文地址：https://www./pub/5ec49a639fced0a24b4de909
3 How Can We Accelerate Progress Towards Human-like Linguistic Generalization?
作者：Tal Linzen
论文地址：https://www./pub/5eb7896cda5629cf24430504
4 Torch-Struct: Deep Structured Prediction Library
作者：Alexander Rush
论文地址：https://www./pub/5e3940c73a55ace46ed438ba
5 Prta: A System to Support the Analysis of Propaganda Techniques in the News
作者：Giovanni Da San Martino, Shaden Shaar, Yifan Zhang, Seunghak Yu, Alberto Barrón-Cedeño and Preslav Nakov

论文地址：https://www./pub/53e9b32bb7602d9703df9bde

AMiner 开发的 ACL2020 专栏现已将上述最佳论文收录且提供了解读和总结，点此进入了解。

会议概况：

今年的论文提交数量创了新纪录，ACL2019 共接收了 2906 篇论文，今年则收到了来自 57 个国家的 3429 篇论文，比 2019 年增长了 18％。此外，本次接收的论文数量也创了历史新高，共有 779 篇被接收，其中有 571 篇是长论文，而 208 篇是短论文。如果将 29 篇直接被拒和 312 篇撤回的排除在外，接收率为 25.2％。但如果加上直接被拒和撤回的，接收率只有 22.7%，跟去年持平。

机器学习、对话和交互技术、机器翻译、信息提取和 NLP 应用等领域均提交了超过 200 篇论文。

今年提交的论文涉及 25 个主题，其中包含 4 个新主题：第一，道德和 NLP 主题，包含评估了 NLP 应用程序在社会中普及时相关的伦理学假设和后果的论文；第二，对 NLP 模型的解释和分析主题；第三，理论和形式主义主题；最后一个主题是盘点我们探索过的领域和我们将要探索的领域。

会议热点词云统计

中美投稿仍占主要部分

在国家和地区层面，根据论文作者提交的国家/地区的相关统计信息，共有 57 个国家/地区提交了论文。中美依旧是 ACL 的最大输出国，贡献了超过 64% 的论文！而这两国之中，中国（包括香港、台湾、澳门）共提交论文超过 1170 篇，比美国多出了 130 多篇！稳坐投稿量第一的位置。

在被接收数方面，中国只有 205，比美国少了 100 篇。中国接收率 17.5% 遗憾未进前十，美国则未进前五。被接受论文最多的五个国家是美国（305）、中国（205）、英国（50）、德国（44）和日本（24）。如果我们考虑在提交的数量的前 15 个国家/地区，接受率最高的是以色列（40.9%）、英国（31.1%）、美国（29.4%）、德国（29.3%），香港和新加坡（两者都有26.7%）。

不同赛道的接受率统计：

自然语言处理（数学和语言学）的理论与形式，主题，资源与评估，为接受率最高的几个方向，均超过了 30%。

评审机制改革

今年评审委员会的规模创历史新高，有 9497 个审稿人注册。最终 2519 名被选为主审稿人以及 458 名被选为次审稿人，299 名被选为领域主席，40 名被选为高级领域主席。

Schütze 介绍了 ACL 的审稿制度改革，整个方案分为短期和长期，短期方案在 6 月份通过，长期方案只是一项建议。在短期方案中一个比较特殊的点是：会建立 ACL Archives，建立的动机是有很多好的论文因为没有它们没有达到 25% 的削减标准（因为它们没有达到 25% 的削减标准）。这里给出的建议是除了接收 25%，还要发表额外的 10% 在 ACL Archives。

当然，这是同行审议的另一种选择，这会导致 35% 的论文被接收，当然也没有人强制你在 ACL Archives 上发表论文，一切都是自愿的，一切都在实验中。另外，值得一提的是，ACL Archives 是独立于主会议之外的。