ToTTo：受控表到文本生成数据集

雨夜的博客 2021-09-27

展开全文

在过去几年中，用于文本摘要等任务的自然语言生成研究取得了巨大进展。然而，尽管实现了高水平的流畅性，神经系统仍然容易产生幻觉（即生成可理解但不忠实于来源的文本），这可能会阻止这些系统用于许多需要高度准确性的应用程序。考虑来自Wikibio 数据集的一个示例，其中负责总结比利时足球运动员Constant Vanden Stock的 Wikipedia 信息框条目的神经基线模型错误地总结了他是美国花样滑冰运动员。

file

虽然评估生成的文本对源内容的忠实度的过程可能具有挑战性，但当源内容是结构化的（例如，以表格格式）时，通常会更容易。此外，结构化数据还可以测试模型的推理和数值推理能力。然而，现有的大规模结构化数据集通常是嘈杂的（即无法从表格数据中完全推断出参考句子），这使得它们在模型开发中用于测量幻觉是不可靠的。

在“ ToTTo: A Controlled Table-To-Text Generation Dataset ”中，我们展示了一个开放域表到文本生成数据集，该数据集使用一种新颖的注释过程（通过句子修订）以及一个受控文本生成任务来创建，该任务可用于评估模型幻觉。ToTTo（“Table-To-Text”的简写）包含 121,000 个训练示例，以及每个用于开发和测试的 7,500 个示例。由于注释的准确性，该数据集适合作为高精度文本生成研究的具有挑战性的基准。数据集和代码在我们的 GitHub 存储库上开源。

Table-to-Text 生成

ToTTo 引入了一个受控生成任务，其中包含一组选定单元格的给定 Wikipedia 表格用作生成单个句子描述任务的源材料，该描述总结表格上下文中的单元格内容. 下面的示例演示了该任务带来的许多挑战中的一些，例如数值推理、大量的开放域词汇表和不同的表结构。

file

注释过程

设计注释过程以从表格数据中获得自然但干净的目标句子是一项重大挑战。许多数据集（如Wikibio和RotoWire）将自然出现的文本与表格配对，这是一个嘈杂的过程，很难确定幻觉主要是由数据噪声还是模型缺陷引起的。另一方面，可以引出注释者从头开始编写句子目标，这些目标忠实于表格，但生成的目标在结构和风格方面往往缺乏多样性。

相比之下，ToTTo 是使用一种新颖的数据注释策略构建的，其中注释者分阶段修改现有的维基百科句子。这导致目标句子既干净又自然，包含有趣且多样的语言特性。数据收集和注释过程从从维基百科收集表格开始，其中根据启发式将给定的表格与从支持页面上下文收集的摘要句子配对，例如页面文本和表格之间的单词重叠以及引用表格数据的超链接。此摘要句子可能包含表格不支持的信息，并且可能包含仅在表格中找到先行词的代词，而不是句子本身。

注释器然后突出显示表中支持该句子的单元格并删除该表中不支持的句子中的短语。在必要时，他们还对句子进行去上下文化，使其独立（例如，具有正确的代词解析）和正确的语法。

file

我们表明注释者在上述任务上获得了很高的一致性：0.856 Fleiss Kappa用于单元格突出显示，以及 67.0 BLEU用于最终目标句子。

数据集分析

我们对 ToTTo 数据集进行了超过 44 个类别的主题分析，发现 Sports 和 Country 主题，每个主题都包含一系列细粒度的主题，例如，体育的足球/奥运会和国家的人口/建筑，共占数据集的 56.4%。其余 44% 的主题范围更广，包括表演艺术、交通和娱乐。

file

此外，我们对超过 100 个随机选择的示例数据集中不同类型的语言现象进行了手动分析。下表总结了需要参考页面和章节标题的部分示例，以及数据集中可能对当前系统构成新挑战的一些语言现象。

语言现象百分比

需要参考页面标题 82%

需要参考章节标题 19%

需要参考表格说明 3%

推理（逻辑、数字、时间等） 21%

跨行/列/单元格的比较 13%

需要背景资料 12%

基线结果

我们展示了文献中的三个最先进模型（BERT-to-BERT、Pointer Generator和Puduppully 2019 模型）在两个评估指标BLEU和PARENT上的一些基线结果。除了报告整体测试集的分数之外，我们还在由域外示例组成的更具挑战性的子集上评估每个模型。如下表所示，BERT-to-BERT 模型在 BLEU 和 PARENT 方面表现最佳。此外，所有模型在挑战集上的表现都相当低，表明域外泛化的挑战。

蓝色  家长  蓝色  家长

模型（总体）（总体）（挑战）（挑战）

BERT 到 BERT 43.9 52.6 34.8 46.7

指针生成器 41.6 51.6 32.2 45.2

Puduppully 等人。2019年 19.2 29.2 13.9 25.8

虽然自动指标可以给出一些性能指标，但它们目前不足以评估文本生成系统中的幻觉。为了更好地理解幻觉，我们手动评估表现最好的基线，以确定它对源表中内容的忠实度，假设差异表明幻觉。为了计算“专家”性能，对于我们多参考测试集中的每个示例，我们提供一个参考并要求注释者将其与其他参考进行比较以确保其忠实度。结果显示，表现最好的基线似乎在大约 20% 的时间里产生幻觉信息。

忠诚  忠诚

模型（总体）（挑战）

专家 93.6 91.4

BERT 到 BERT 76.2 74.2

模型错误和挑战

在下表中，我们展示了一些观察到的模型错误，以突出 ToTTo 数据集的一些更具挑战性的方面。我们发现最先进的模型在幻觉、数值推理和稀有主题中挣扎，即使使用干净的引用（红色错误）。最后一个例子表明，即使模型输出是正确的，它有时也不如包含更多关于表格的推理的原始参考（以蓝色显示）提供信息。

参考模型预测

在 1939 年的咖喱杯中，西部省份在开普敦以 17-6 输给了德兰士瓦。在第一Currie杯子在1939年发挥transvaal1在新-土地，与西部省份赢得17-6。

ibm 于 2000 年发布了第二代微型驱动器，容量增加到 512 mb 和 1 gb。 2000 年有512 个微驱动器型号：1 GB。 1956 年的摩托车大奖赛赛季包括 5 个级别的 6 场大奖赛：500cc、350cc、250cc、125cc 和 sidecars 500cc。 1956 年大奖赛摩托车赛季包括8场大奖赛，分为五个级别：500cc、350cc、250cc、125cc 和 sidecars 500cc。

在特拉维斯·凯尔斯 (travis kelce) 的最后一个大学赛季中，他在接球 (45)、接球码数 (722)、每次接球码数 (16.0) 和接球达阵 (8) 方面均创下个人职业生涯新高。 travis kelce 完成了 2012 赛季，完成了 45 次接球，传球 722 码（场均 16.0 次）和 8 次达阵。