分享

事件图谱入门:事件抽取的任务、模式策略、学习模型方法与关键问题总结

 520jefferson 2021-11-29

事件抽取是构造事件图谱的一个重要技术手段,与知识图谱构建类似,旨在抽取得到事件、事件要素以及事件之间的关系等知识。

基于这个知识,可以支撑包括事件搜索等实际的业务场景。我打算用3到5篇文章把事件图谱入门讲完。

有兴趣的,可以跟着这个系列,一起去展开思考、实践,学到点真正的东西。

一、事件元素抽取任务的定义

事件抽取任务,主要识别一段文本中事件触发词(trigger)、事件触发词所属类型(event type)、事件要素(argument),其中事件要素包括每个要素涉及的角色(role)。

一般来说,事件抽取任务可以拆分两个子任务:

1、事件检测。也叫事件识别,通过识别文本中的事件触发词检测事件,并判断事件类型。每种事件类型对应唯一的事件表示框架,例如生活-出生类型事件表示框架为{人物,时间,地点}。

2、元素识别。也叫角色分类,根据事件表示框架判断文本中的实体是否为事件元素,并确定元素角色。

后者输入依赖于前者输出,也有更细分来处理,将其变成3个或者4个子任务,如:触发词识别、事件类型分类、论元识别和角色分类任务。

1)触发词识别

触发词识别,也称事件触发词检测,即识别出句子中的特定词语,通常是名词和动词。事件触发词是事件的关键,通常是事件的发生词,事件触发词的类型确定了事件的类型。

例如:“今天我市内发生一起抢劫案件”中的“抢劫”为动词性触发词,“2008年汶川发生地震”中“地震”为名词性触发词。

2)事件类型分类

事件类型分类,也称事件触发词分类,旨在判断句子中的指定触发词所对应的事件类型,是一个多分类任务。

图片

例如,ACE2005定义了8种事件类别以及33种子类别,每种事件类别/子类别对应唯一的事件模版。

3)事件论元识别

论元识别,也称事件元素识别,论元角色分类任务的输入是识别出的触发词和所有候选实体,即识别出事件中的论元类型。

例如,对于下图的结婚事件,需要识别出结婚的人、结婚时间以及结婚地点这三个论元。

图片

4)论元角色分类

角色分类,也称事件元素角色识别,是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。

5)事件属性识别

事件属性识别,包括对事件主体之外的信息进行识别,例如:事件的极性,表示肯定的事件或者否定的事件;事件的时态,表示事件正在发生、已经发生、即将发生等;事件的模态,表示事件是假设事件、肯定事件或者信念事件。

图片

上图描述了一个典型的事件抽取任务,该句子描述了两个事件:

死亡事件(Die):

触发词为died,argument包括Victim(cameraman)、Place(Baghdad)、Instrument(American tank)。

攻击事件(Attack):

触发词为fired, argument包括Target(Palestine Hotel)、Place(Baghdad)、Target(cameraman)、Attacker(American tank)。

二、基于模式匹配的事件元素提取

模式匹配方法是当前基于规则的事件抽取方法,可以分为有监督的模式匹配方法和弱监督的模式匹配方法两大类。

1、有监督的模式匹配方法

有监督的模式匹配方法依赖于人工标注语料进行事件模式学习。Ellen等(1993)通过建立触发词词典和13种事件匹配模式进行事件识别与抽取,事件匹配模式主要利用事件元素初始描述和事件元素上下文语义进行构建,并开发了AutoSlog模式匹配事件抽取系统;

Kim等(1995)引入WordNet语义词典,利用语义框架和短语结构进行事件抽取,并开发了PALKA模式匹配事件抽取系统,利用语义框架和短语模式结构来表示特定领域中的模式,用语义树来表示语义框架,使用短语链模型来表示短语模式,从而使其更加擅长处理开放域信息抽取问题;

2、弱监督的模式匹配方法

弱监督的模式匹配方法只需对语料进行预分类或制定种子模式的少量人工标注工作,然后自动进行事件模式学习;

Ellen等(1995)在AutoSlog基础上开发出AutoSlog-ST系统,不需要对语料中的所有事件元素进行标注,只需标注事件类型,然后利用预分类语料自动学习事件模式。姜吉发(2005)提出一种领域通用事件模式匹配方法IEPAM,将事件抽取模式分为语义模式、触发模式、抽取模式,基于概念知识库和有监督的学习方法,进行事件模式的自动扩展,针对MUC-7语料的飞行事故进行了事件抽取;

3、模式匹配方法的流程

模式匹配方法的核心思想为:

采用各种模式匹配算法将待抽取的事件和已知的模式进行匹配,包括事件触发词构建、候选事件句获取、事件模式获取以及事件元素抽取等几个关键步骤

在事件抽取环节,先准备事件触发词表,接着进行候选事件抽取(寻找含有触发词的句子),然后进行事件元素识别(根据事件模版抽取相应的元素)。

1)事件触发词的构建

尽可能多的事件触发词个数和事件抽取模式能够保证事件抽取性能的覆盖度和召回率,但触发词如果存在大量的噪声和歧义性,则又会影响到时间抽取的准确性。例如,下表展示了典型财经领域事件类型下的事件触发词列表。

图片

与实体词扩展类似,事件触发词的构建可以采用人工自定义种子词+迭代扩充的方式进行构建,例如基于外部同义词扩展、基于word2vec向量余弦相似度+阈值的扩展等典型方法。

对每个类别事件选择若干种子触发词,然后基于同义词词林或者Word2vec的方法对种子触发词进行扩充,过滤后得到每个事件类别对应的触发词。

2)候选事件句的获取

在实际的事件抽取工作中发现,对事件句的统计分析,出现某类术语或词汇的句子文本中含有事件句的概率非常高,如:包含“发生”、 “袭击”、“研制”、“生产”、“举行”、“举办”、“开幕”等动词的句子,

如“今年三月份在地铁3号线发生乘客猝死事件”、“周杰伦将于2010年6月11日在台北小巨蛋举办周杰伦超时代演唱会”等基本为事件句子。

因此,我们认为,描述一个事件元素的句子至少应该包含一个事件触发词,即将包含事件触发词的句子都称为候选事件句,文中描述事件的句子,通常由一个触发词和任意数量的事件论元组成。

通过事件词匹配,含有触发词的句子即为候选事件句,并将触发词所映射的事件类型作为改句子中的事件类型结果。

3)事件模式的构建 

对每个类别的事件分别构建模式库,方法是把事件实例中的事件元素用特殊符号代替生成初始的模式,进一步的泛化与过滤后,选择置信度高的模式加入模式库。

三、基于机器学习的事件元素抽取

基于模式规则的方法很难胜任大规模复杂类型数据集上的抽取任务,与基于模式匹配的方法不同,机器学习方法将事件类别及事件元素的识别转换成为分类问题,主要核心在于是选择合适的特征,以及合适的分类器两个主要部分。

根据学习方式不同,可以进一步分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。

基于流水线的方法将事件抽取任务分为事件识别和论元角色分类任务两个独立任务,后者输入依赖于前者输出,论元角色分类任务的输入是识别出的触发词和所有候选实体。

Grishman等(2005) 采用最大熵模型,引入unigram、bigram、命名实体、短语等简单特征,将事件抽取看成一个分类问题;

Ahn等(2006)将事件抽取分为事件触发词分类、事件元素分类、事件属性分类、事件共指消解四个子任务,分别判断词语是否为事件触发词和事件类型、判断实体词语是否为事件元素、判断事件属性、判断两个事件实例是否属于同一事件。

例如,给定句子:**“At daybreak on the 9th, the terrorists set off a truck bomb attack in Nazareth.”**句中存在“冲突/攻击”类型的事件。

事件提取器应通过检测句子中的触发词“attack”并将其分类为“Conflict/attack”事件类型来发现此类事件并识别其类型。

接下来应该从文本中提取与此事件类型相关的所有参数,并根据预定义的事件结构标识它们各自的角色。

通常,根据所使用特征的范围,可以将事件抽取方法分为句子级的事件抽取方法和篇章级的事件抽取方法。句子级的事件抽取方法只使用句子内部获取的特征,主要包括有如下离散特征:

(1)词法特征。 如当前词及周边词的一元/二元语法、词性标签、词干、同义词等。

 (2)句法特征。 如当前词的依存词和核心词、涉及的依存关系、是否是未被引用的代词、句法分析树中路径等。

 (3)实体信息。 如实体类型、距离最近的实体类型、是否是相同类型论元候选中距离触发词最近的等等。

Ahn等(2006)在特征选择上,利用词汇特征、字典特征、句法特征、实体特征完成触发词分类子任务,利用事件类型、触发词特征、实体特征、句法特征完成事件元素分类子任务,并将每一个词作为训练实例,然后采用二元分类器判断当前词是否为触发词。

篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息,如:相同/类似事件对应的论元一致性,同一文档内的相同单词触发的事件类型一致性特征,相同类型的实体参与的事件一致性特征。

基于串行的事件抽取方法最大的缺陷就是错误传播,如果事件触发词识别中就出现了错误,之后会造成论元识别的准确度,但即便如此,使用这种方法一能够简化整个事件抽取任务,受到广泛使用。

四、基于神经网络的事件元素抽取

基于机器学习的事件元素抽取需要花费大量的时间去进行人工定义特征。

神经网络的出现以及算力的提升,使得将事件抽取建模成端到端的系统成为可能。

和传统方法不同之处在于特殊的特征表示和特征学习方式,神经网络使用自动学得的连续型向量特征替换人工定义的离散型特征。

1、基于卷积神经网络的事件抽取

Nguyen等(2015)采用了卷积神经网络进行事件抽取,Chen等(2015)提出基于动态多池化卷积神经网络(DMCNN)的事件抽取方法,用词的分布式表示(Word Embedding)捕获语义信息,用CNN捕获句子层信息,考虑到CNN只能捕获一句话中最重要的信息,当句子中含有多个事件时可能会有信息丢失,因此,该模型依据触发词和元素的位置,动态切分卷积操作后的特征图,然后再分别对切分后的每部分做max-pooling,这样就能保存更多关键地事件信息。

具体的: 初始特征表示方面,采用了预训练的词向量作为每个单词的初始表示;

词汇级表示方面,利用词向量捕获词汇级语义,将候选词(候选触发词和候选事件元素)的词向量和候选词上下文的词向量拼接起来作为事件元素抽取段的词汇级表示;

句子级表示方面,输入由表示上下文的词向量特征、用于表示与候选词相对位置的位置特征和用于表示事件类型的事件特征三部分拼接而成,并通过动态多池化卷积构成最终的句法特征;

事件元素分类方面,利用Softmax分类器为每个候选事件元素计算扮演不同角色的概率,完成事件元素分类。

2、基于循环神经网络的事件抽取

随着循环神经网络的盛行,Nguyen等(2016)年利用双向LSTM,将事件抽取任务从分类问题变成了序列标注问题,抽取句子中的语义特征,然后联合句子结构特征同时抽取事件触发词和事件元素;

Li等(2013)提出了一个基于全局特征的联合框架,同时抽取事件触发词和事件元素。基于联合的抽取方法,旨在借助一个模型,同时用于事件触发词与事件论元的提取,此类方法的一大好处在于能够产生事件触发词与事件论元之间的双向信息流交互,因为串行中信息只能从事件触发词流向事件论元。

到了后面,注意力机制对于结构信息的建模的不断提出,注意力机制的特性决定了它能够在不考虑位置信息的条件下使用全局对局部进行建模,在更新单词语义表示时有很好的应用效果,后续有注意力机制的模型出现。

3、基于多轮问答范式的事件抽取

前几年已经有人提出利用问答的方式进行实体识别,也就自然不少人将该思路推广到事件抽取,这个在知识图谱入门系列有介绍过。

在2020年EMNLP会议中有9篇paper关于事件抽取(event extraction),有5篇paper都是将事件抽取任务转成问答任务。

代表性的,《Event Extraction as Multi-turn Question Answering》一文将事件抽取可以看着一个多轮问答的过程,

图片

例如,上图显示了该工作的经典分成三步,包括问触发词是什么?问基于触发词问事件类型?基于事件类型和触发词问论元。在实现上也使用了三个递进式的模型结构。

图片

五、事件抽取中的关键问题

1、事件抽取schema带来的定义难题

预先定义好待抽取的事件类型是事件抽取的首要条件,不同的领域需要定义出不同的事件类型。

事件抽取不仅需要抽取文本中的事件实例并识别其类型,而且需要为每个事件实例抽取所涉及的论元并赋予相应的角色。通常,在进行事件抽取时,都需要预先定义特定领域的事件体系(事件本体)。

以ACE对事件抽取的界定,事件由事件触发词(Event Trigger)和描述事件结构的元素(Argument)构成,事件要素包括了事件参与者、事件发生时间、事件发生地点等成分。

此外,对于一个事件,还提供了属性信息(Attribute),包括:类型(Type)、子类(Subtype)、模态(Modality)、倾向性(Polairty)、普遍性(Genericity)和时态(Tense) 等信息。

实际上,标注一个这样的体系的代价是很大的,因为消费者和专家语言学家需要在指定事件和参数角色的类型之前检查大量数据,并为模式中的每个类型编写详细的注释指南。

例如,Petroni等(2018)定义了“洪水”、“风暴”、“火灾”等7种突发事件类型,Yang等(2018)定义了“股权质押”、“股权冻结”、“股权回购”等9种金融事件类型,刘振等(2018)提出了常见科技政策领域内的事件类型,设计了“组织设立”、“会议”、“宣布事件”等6种科技事件类型。

手动定义的事件模式通常提供低覆盖率并且无法推广到新域。

因此,后续有了事件体系(event schema induction)生成的工作,自动从文本中进行事件体系以及事件论元结构发现。

2、抽取范围带来的技术难题

传统的事件抽取任务大多数基于句子层面,但是这样具有很明显的缺陷,一方面,一个事件会涉及到触发词和多个论元,但是实际情况中,很少会有触发词和所有的论元都出现在一个句子中的理想情况,所以如果在实际的文本中,孤立的从单个句子抽取,很可能会得不到完整的事件信息。

实际上,只研究句子级的事件抽取会忽略2个关键的问题:

论元分散和多事件句。 论元分散指事件中的论元分散在多个句子中,只研究句子级事件抽取,会造成事件论元丢失;多事件句指一个句子中包含2个或2个以上的事件将句子只分为一个事件类型,事件论元必定会匹配错误。

角色重叠问题。 某些角色在事件中出现地非常频繁,以至于它们与某些词相互重叠,甚至是共享相同的论元。比如“The explosion killed the bomber and three shoppers”这句话中,“killed”这个词出发了一个“袭击”事件,“the bomber”在扮演袭击者的同时,也扮演了受害者。

实际上, 除了句子级、篇章级的抽取,还有跨篇章的抽取场景

3、训练数据的缺失问题

基于学习和神经网络方式的事件抽取需要大量的标注数据,而这个标注数据的标注难度十分大,并且常会因为标注的主观性而出现不一致的情况。

因此,弱监督的事件抽取方法希望通过结构化知识库或者少量人工标注数据,自动生成大规模、高质量的标注数据。

以ACE数据集为例,其整体数据仅来源于599个英文文档,定义的33个事件类型中有超过60%的类型样本数不超过100个,甚至有3个事件类型的样本没有超过10个。

一是通过少量标注数据来生成大规模标注数据,二是通过外部知识或者知识库来扩展标注数据,类似于远程监督,如引入框架语义学知识库FrameNet、引入语义资源库WordNet/HowNet、借助机器翻译对中英文事件抽取语料互译以扩展数据集。

例如:

1)基于半监督的数据扩充

Chen等(2009)提出利用少量人工标注数据训练模型,在未标注数据上反复迭代自动扩充标注数据,利用模型推理未标注数据,迭代地扩充标注样本;

2)借助外部事件知识库的数据扩充

Chen等(2017)提出利用Freebase、Wikipedia、FrameNet等知识库的远程监督方法,自动生成大规模的标注数据。

Freebase由一系列元数据组成。每条元数据包括一个类型和一系列CVT实例,其中每个实例包括很多论元和角色。因此,每个元数据实例可以被认为是一个事件实例,包含一个事件类型、一组论元及其角色。

图片

该工作首先通过统计方法选择出Freebase中每个事件类型的关键论元集合,然后针对Wikipedia中每个句子,通过判断其是否包含Freebase中任一事件实例的所有关键论元来甄别其中是否包含事件。

在包含事件的Wikipedia句子中,通过统计方法选择出每个Freebase事件类型的关键触发词。

而后借助FrameNet进行触发词筛选和名词性触发词扩展。最后通过远距离监督方法从Wikipedia中获得有标记的事件数据集;

3)借助新闻语料与百科的数据扩充

Liu等(2016)提出利用ACE语料数据训练模型,FrameNet中定义的框架与ACE数据集中的事件结构具有很高的相似度,可以结合FrameNet知识库扩充标注数据。

基于ACE2005训练得到的事件识别模型识别出 FrameNet中的可能触发词。然后,通过基于概率软逻辑模型(Probabilistic Soft Logic,PSL) 的限制条件选择出置信度较高的触发词组成 Event-FN数据集;

Zeng等(2018)从 Wikipedia 和 Freebase 中构建大规模事件数据集。将包含了 Freebase 中任一事件实例的所有关键论元的 Wikipedia 句子作为事件抽取正例;

Ferguson等(2018)对描述同一事件的新闻进行聚类,使用聚类后的数据来扩展指定事件类型的已标注数据。

4)基于语义角色标注的数据扩充

融合外部资源的神经网络方法是当前构建大规模事件数据集的重要方式,鉴于语义角色标注任务 ( Semantic Role Labelling,SRL) 和事件抽取任务的相似之处,借助大规模语义角色标注相关资源辅助事件抽取是未来的一个方向。

此外,在许多标注数据之中,数据类别十分不均衡。以ACE数据集中为例,大约60%的事件类型对应只有不到100个的标注样本,甚至有3个事件类型样本数不到10个。

六、项目总结

本文就事件抽取中的任务的定义、基于机器学习的事件元素抽取、基于模式规则的事件元素抽取、事件抽取中的关键问题等内容进行了介绍。

我们需要明确的是,事件图谱比实体知识图谱要难得多,无论是抽取范围,还是用到的技术,后者的所有流程都能在前者得到体现。而且,在语言资源的基础工作上,事件图谱更是处于缓慢推进、相对匮乏的状态。

参考文献

1、https://blog.csdn.net/muumian123/article/details/81746583

2、https://blog.csdn.net/real_ilin/article/details/106065232

3、https://m.sohu.com/a/156430929_500659/?pvid=000115_3w_a

4、https://mp.weixin.qq.com/s/I9DDi8GMJ0SjK26MQ501gA

5、https://www./anthology/2020.findings-emnlp.73.pdf

6、https://zhuanlan.zhihu.com/p/360173680

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多