AAAI 2019 | 选择型阅读理解问题上的空间卷积Attention模型

taotao_2016 2019-05-10

展开全文

作者丨陈致鹏

单位丨科大讯飞

研究方向丨机器阅读理解

选择型阅读理解任务，需要通过阅读一个篇章，然后结合问题从候选答案中选择出正确的答案。本论文首先通过抽取篇章、问题以及选择之间的互信息来获得包含互信息的篇章、问题及选项的表示，然后进一步使用 Attention 方式计算出篇章、问题及选项之间的匹配矩阵，最后通过使用不同窗口大小的卷积神经网络来抽取匹配矩阵的匹配特征得到每个选择作为答案的概率。

其它相关工作在选择型阅读理解任务上都是通过将篇章、问题及选项通过不同方式进行组合匹配，然后再分别计算匹配程度，最后得到选项成为答案的概率，而该论文通过卷积神经网络将所有的匹配矩阵做统一处理，同时综合考虑选项与篇章及问题的匹配，来得到最终的答案。该论文的方法在多个选择型的阅读理解数据集上都获得显著的提高。

数据集简介

选择型阅读理解问题主要包括三个部分，篇章、问题及选项。本论文主要在 RACE 及 SemEval-2018 Task11 两个选择型阅读理解数据集上进行实验。具体数据形式如图。

RACE 数据集的数据来源是中国初高中英语阅读理解题，是中国初高中用了检查学生英语阅读理解水平的的数据，所有题目都是相关老师及教育机构的进行专门设计的。数据集中包含大量的需要概括推理的问题。

SemEval-2018 Task11 是 NAACL 下的一个阅读理解评测任务，与 RACE 最大区别是选项个数为二，另外 SemEval-2018 Task11 上的问题相对较简单。

模型及相关公式介绍

主要模型结构如图：

模型主要包括四个大的层级，分别是 Embedding Layer、RNN Layer、Attention Layer 及 Answer Layer。

Embedding Layer

该部分主要是模型的输入。模型的输入包括词级别的词向量（GloVe）和字符级别词向量（ELMo），以及相关特征。

特征主要包括词性特征和匹配特征。词性特征是通过词性标注得到每个词的词性，然后将每个词的词性用一个 Embedding 表示。匹配特征包括篇章与问题、篇章与选项及选项与问题中词之间的完全匹配（两个词完全相同）和部分匹配（两个词属于包含关系）。最后词级别的词向量和字符级别的词向量以及相关特征拼接在一起，再输入到一个共享权重的 Highway 得到最终的表示。

RNN Layer

RNN Layer 将 Highway 的输出进行包含上下文语义的建模，采用的模型结构为双向 LSTM。通过双向 LSTM 的处理，当前词不但包含上文的信息还包含了下文的信息，极大的丰富当前词的向量表示。

Attention Layer

该结构通过 Attention 的方式进一步丰富了篇章、问题及选项的表示。选项通过与篇章问题计算 Attention，然后使用 Attention 信息从篇章问题中抽取相关的信息，得到。问题使用 Attention 从篇章中得到以及 Self-Attention 得到。具体计算步骤和公式如图。

通过 Attention 我们得到了包含篇章及问题信息的选项表示，以及包含篇章信息的问题表示。然后将他们两两之间做矩阵乘。最后得到六组匹配矩阵，这六组匹配矩阵中就包含了篇章问题及选项之间的语义空间的匹配关系。

Answer Layer

在这个大的模块里，将上面得到的六组匹配矩阵当作六个通道的语义匹配图，我们专门设计对应的卷积模块从该图中抽取当前选择能够作为答案的匹配特征，然后使用匹配特征通过全连接得到当前选项作为答案的概率。

我们一共定义了三组卷积神经网络和对应的池化操作，分别用于抽取不同粒度的匹配特征。具体公式如图：

M 是 6 通道选项长度乘以问题长度大小的语义匹配图，我们在‘问题’这个维度定义了 5（词）、10（短语）、15（整句）三个不同大小窗口的卷积网络，用于抽取不同粒度匹配特征。同时我们也对应的定义了三个 Max-Pooling，用于进一步抽取更加突出的语义匹配信息。我们称这个部分为 Convolutional Spatial Attention。

通过这个部分可以抽取到匹配特征（O1,O2,O3），后续我们将这些特征链接在一起输入到全连接神经网络，最终得到每个选项作为答案的概率。具体公式如图。

实验及结果

实验的数据集为 RACE 和 SemEval-2018 Task11，实验设置如图。

两个数据上采用相同的实验设置。实验结果如下图。

在 RACE 数据上我们是达到了 State-of-art 的水平。同样从下图可以看出我们在 SemEval-2018 Task11 任务上也是达到了最好的水平。

分析

这部分主要是分析我们在 RACE 数据上不同类型的问题上的效果，对比的是不包含使用 Attention 丰富表示的模型，从图中（左图开发集，右图测试集）我们可以看出无论是在开发集还是在测试集上，我们的模型在 why 和 how 这两类问题上都是要明显高于参照系统，说明我们的系统在这类需要推理的问题上有着明显的优势。

同时我们也进一步做了进一步的消融实验，具体实验结果如下图。

从表格我们可以看出，将 Convolutional spatial attention 结构替换成全连接后，模型的效果明显下降，说明了该结构是非常有用的。