ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

昵称32937624 2019-02-15

展开全文

ACL 2018 Long Papers

跨域情感分类中的可迁移信息识别

Identifying Transferable Information Across Domains for Cross-domain Sentiment Classification

印度技术学院

Indian Institute of Technology

本文是印度技术学院发表于 ACL 2018 的工作，本文为跨域情感分析任务，提出在不改变词语极性和意义的情况下，表示跨域情感分类的可迁移（可用）信息。本文提出了一种基于x2检验和词语上下文向量余弦相似性的跨域极性保持词语的识别方法。此外，我们证明了分类器的加权集合提高了跨域分类的性能。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

引言

选择表达意见的词取决于领域，因为用户经常使用领域特定的词。例如，在电影领域中，entertaining和boring经常被用来表达观点；然而，在电子领域中这些词却很少见。此外，有些词可以跨域使用，但是从一个域到另一个域很可能改变极性取向。例如，像“unpredictable”这样的词在电影领域是肯定的（unpredictable plot），但在汽车领域是否定的（unpredictable steering）。这种极性变化词在电影领域应该被赋予正向，在汽车领域应该被赋予负向。由于这些跨领域的差异，在标记的源域上训练的监督算法在未标记的目标域上不能很好地泛化，跨域性能下降。

一般来说，监督学习算法在每个新的领域，必须使用手动标注的评论语料库重新训练。这是不实际的，因为存在许多新的域，并且为每个新域手动获取标注数据是一项昂贵且耗时的任务。另一方面，领域适应技术与基于跨领域迁移所学知识的传统监督技术相比，现有的基于迁移学习的跨域分类域自适应算法，通常被证明在减少标记数据需求方面是有用的，但它们不考虑像unpredictable那样改变跨域极性取向的单词。改变极性词的迁移（重用）对跨域性能有负面影响。因此，人们需要衡量从源域到目标域的迁移。

在本文中，我们提出使用跨域具有相同重要度和一致极性的词，表示用于跨域情感分析的可用信息。x2是用于识别标注语料库中单词重要性和极性的一种普遍使用的可靠统计检验。然而，对于未标记语料库，没有这样的统计技术是适用的。因此，识别跨领域极性一致的重要单词是一项不简单的任务。本文提出了一种基于x2检验和词语上下文向量余弦相似性，识别跨领域极性一致(SCP)词语的方法。

1. 提取跨域极性一致的单词：利用单词的上下文向量之间的余弦相似性和x2检测来识别跨标记源域和未标记目标域的SCP单词。

2. 基于集成的自适应算法：在标记源域中基于SCP单词训练的分类器（Cs）充当种子，以启动针对目标特定特征的分类器（Ct）。然后将这些分类器组合成一个加权集合，以进一步增强跨域分类性能。

结果表明，我们的方法在识别可迁移词方面比结构化对应学习（SCL）和普通一元文法在统计学上有显著提高，这最终有助于在目标域中实现更精确的情感分类器。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

模型

本文提出的方法可以识别在源和目标域的情感分类上同等重要且具有一致极性的词。这些重要一致极性（SCP）单词构成了一组可从标记源域到未标记目标域的可迁移知识，用于跨域情感分析。该算法通过学习目标域的特定特征，进一步适应于未标记的目标域。

1. SCP特征提取

在标记的源域中对分类不重要的单词，不通过源域中训练的监督分类器将有用的知识传递到目标域。此外，在两个域中都重要但极性不同的单词通过在标记源域中训练的监督分类器将错误信息传递到目标域，这也降低了跨域性能。

本文算法可以识别所有单词在各自域中的重要性和极性。然后利用极性一致的两个域中的重要词来启动跨域自适应算法。下面几节将详细说明如何在标记源域和未标记目标域中获得单词的意义和极性。

从标记源域中抽取具有极性倾向的重要词汇。由于在源域中具有极性标注数据集，因此可以应用x2检验等统计检验来发现语料库中单词对于情感分类的重要性。在正向和负向语料库中，我们使用了相同数量的评论拟合chi2检验。该测试通常用于确定样本数据是否与空假设一致。这里，空假设是单词在正语料库和负语料库中的用法是一样的。x2次试验的具体公式如下：

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

其中，

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

是在正向文档中观测到的词w的数量，

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

是负文档中观测到的数量。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

是正负文档集合中词频的平均值。这里

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

是空假设中期待的数或值。x2值和p值有倒数关系。在单词导致小于临界p值（0.05）的情况下，我们拒绝零假设。因此，我们通常认为w属于数据中的特定类（正或负），因此它是用于分类的一个重要的词。

标记源域中的单词极性：卡方检验证实了单词与类标签在统计学上的显著关联。基于这种关联，我们为域中的单词分配极性倾向。换言之，如果通过x2检验发现单词有意义，那么通过比较

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

和

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

来确定单词的确切类别。例如，如果

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

比

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

高，那么这个词是正向的，否则是负向的。

从无标记目标域提取极性倾向的重要词：目标域数据没有标记，因此，x2检测不能用于发现单词的重要性。然而，为了跨域获得SCP单词，我们利用了这样一个事实，即我们必须仅识别目标领域中那些已经在源域中证明重要的单词的重要性。根据x2检验，我们假定在源域中很重要且在目标域中频率大于某个阈值（θ）的单词在目标域中也是重要的。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

上式在未标记目标（t）域中制定重要性检验。这里，函数significants保证了单词w在标记的源（s）域中的重要性，countt给出t中w的规范化计数。x2检验有一个关键假设，即观测变量的期望值不小于5才被称为重要。以这个假设为基础，我们将θ的值固定为10。

未标记目标域中的词语极性：一般来说，在极性语料库中，正向词语在其它正向词语的上下文中出现得更频繁，而负向词语经常在其它负向词语的上下文中出现。由上下文向量良好地捕获了单词的上下文信息，以将极性分配给目标域中的单词。邻近词(如“go”和“to”)的上下文向量之间的相似度高于彼此不相邻或远程词。这里，观察到的概念是，如果一个单词是正的，那么从极性评论语料库中学习到的它的上下文向量，其与给出与已知正极性单词的余弦相似度，高于与已知负极性单词的余弦相似度，或者反之亦然。因此，基于余弦相似性得分，我们可以将已知极性词的标签分配给未知极性词。我们把已知的极性词称为Positive- pivot和Negative-pivot。

上下文向量生成：为了计算单词（w）的上下文向量（conVec），我们使用基于skip-gram模型的公共可用的word2vec工具包。在这个模型中，使用每一个词的Huffman编码作为一个具有连续投影层的log线性分类器的输入，并在一个给定的窗口内预测。我们从未标记的目标域数据中为每个候选词构造100维向量。下式中给出的判定方法定义了对目标域的未知极性词的极性分配。如果单词w与PosPivot(正-)的余弦相似度高于NegPivot(负-)，则决策方法将正极性分配给单词w，否则负极性分配给单词w。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

Pivot选择方法：经验上来说，在语料库中具有最高频率的极性词在使用上下文向量时，给出更多的覆盖来估计其他单词的极性取向。从本质上讲，词语在语料库中的频繁出现，使得它经常出现在其他词的上下文中。因此，观察到在目标域具有最高频率的极性词作为识别输入词极性的pivot更加准确。下表显示了电子领域中基于相似性分数导出极性取向的几个词的示例。在电子领域中用PosPivot和NegPivot词获得。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

可迁移知识：所提出的算法使用上述技术来识别标记源数据和未标记目标数据中的单词的重要性和极性。发现在相同极性取向的两个领域中重要的单词形成一组SCP特征用于跨域情感分类。由于SCP特征在标记源域和标记源域中的影响是一致的，因此分类算法为标记源域中的SCP特征学习到的权重可以在未标记目标域中重用于情感分类。

2.基于集成的跨域自适应算法

下表列出了算法中使用的符号。跨域自适应算法的工作如下：

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

跨域自适应算法的伪码如下：

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

加权和模型（WSM）：分类器的加权集合有助于克服单个分类器产生的错误。在上述算法的STEP 6中给出了WSM的公式。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

实验与分析

我们报告了所有系统对测试数据的准确性。下表显示了数据集的统计数据。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

在本文中，我们将我们的方法与结构化对应学习（SCL）和普通一元文法进行比较。Bhatt等人（2015）使用SCL来识别从标记的源域到未标记的目标域的可传输信息，用于跨域情感分析。他们显示SCL提取的可迁移特征比结构化特征对齐提取的可迁移特征提供更好的跨域情感分析系统。

下表描述了用CS、Ct和WSM获得的情感分类精度。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

下表显示了使用WSM在目标域中分别使用一元文法、SCL和我们的方法对对源和目标获得的最终跨域情感分类精度。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

下表显示了域内情感分类的准确性。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

下表显示了对六个不同系统产生的精度分布进行显著性检验（t检验）的结果。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

下表显示了4个领域中常用词的百分比（%）。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

SCP单词识别任务（来源_目标）的F值得分与黄金标准SCP单词的对比。

ACL 2018｜印度技术学院：跨域情感分类中的可迁移信息识别

总结

本文提出重要一致极性（SCP）词表示从标记源域到未标记目标域的可迁移信息，并用于跨域情感分类。结果表明，该方法识别出的SCP单词与未标记目标域的情感分类准确度呈极显著正相关，相关系数为0.78。本质上，一组错误较少的可迁移特征导致在未标记的目标域中实现更精确的分类结果。我们还提出了一种基于x2检验和词语上下文向量余弦相似度的SCP词识别方法。结果表明，与结构化对应学习（SCL）算法和基本一元文法相比，该方法给出的SCP单词能更准确地表示可迁移信息。此外，我们证明了基于SCP特征和目标特定特征的集成分类器克服了单个分类器的实验误差。

论文下载链接：

http:///anthology/P18-1089