人工智能——基于深度神经网络的自动文本摘要

漫步之心情 2017-08-31

展开全文

近年来，随着深度神经网络的广泛兴起和应用，基于神经网络的生成式文本摘要得到快速发展，并取得了不错的性能。2017年8月24日，飞马网邀请了北京大学博士陶重阳，为大家做在线直播，讲解自动文本摘要的概念、分类及评价方法，重点介绍基于深度神经网络的生成式自动文本摘要技术原理，并着重分析几个典型的神经摘要模型。

人工智能——基于深度神经网络的自动文本摘要

文本摘要的重要性

信息爆炸的时代：据IDC统计，互联网数据量已跃居ZB级别，预计2020年达到35ZB。

搜索引擎不能有效解决信息过载的问题：冗余、片面、杂质。

移动设备的普及使用：屏幕小、网络宽带低等特点需要新的信息浏览与阅读方式。

文本摘要是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。摘要具有多样化、相关性、连贯性、易读性等特点。

据陶博士介绍，文本分类可以从许多方面进行区分。比较简单的分类有：

传统文档摘要：如面向新闻文档，包括单文档和多文档。如这两年被热议较多的写稿机器人，都是从传统文档的角度实现的。

互联网文本摘要：面向互联网异质文本，如新闻、社交媒体、学术文献等。

而根据文本摘要的构成、文本来源及目的可以分为监督式摘要和无监督式摘要。

另外，陶老师又为我们分析了不同类型文档/文本的技术特点如下：

单文档

* 内容紧凑，句子位置比较重要；

* 摘要可读性容易保证；

* 摘要效果理想，可以实用；

多文档

* 摘要可读性不易保证；

* 不同人对多文档中的要点有不同看法，因此对于同一摘要质量也有不同看法；

抽取式

* 实现简单，保留完整句子，可读性良好；

* 基于启发式规则：句子位置、句子TFIDF、关键词等；

* 基于机器学习：句子分类、序列标注、句子排序等；

压缩式

* 同时进行句子提取与压缩或融合；

* 能有效提高ROUGE值，但会牺牲句子可读性；

生成式（语言模型/生成模型）

* 直接从意义表达生成摘要句子；

* 难度大，更接近摘要的本质；

* 目前效果不佳，但值得鼓励；

抽取式摘要的实践原理

陶老师告诉我们，抽取式摘要比较强的一个假设是：一篇文档的核心思想可以用文档中的某一句或几句话来概括。因此，在实践过程中我们需要先对句子进行打分，然后是对句子进行选择，句子重组。另外，陶老师强调，这三个步骤并非是界限分明的，通常情况下，它们需要融合起来做。并且第三个步骤（句子重组）在具体实践中出现的并不是很多。以下是陶老师以第一个步骤（句子打分）为例为我们做的解释：

对句子打分，首先第一个方法就是基于图排序，这是基于非监督模型。它的思想是将文档的每句话作为节点，句子之间的相似度作为边权值构建图模型，然后用PageRank算法就可以得到每个句子的得分。而其代表算法有TextRank、LexRank。第二类算法是基于特征的句子打分，它其实是属于监督模型的。它提取了句子的某些特征，如句子位置、句子长度、关键词等，然后去回归句子的打分，其中的代表算法是TextTeaser。

文本摘要的评价方法

评价可以分为人工评价和自动评价。人工评价虽然在很大程度上是可信的，因为人可以基于自己的知识来判断这个摘要是否合理。但是人工评价时间成本较高，效率低。陶老师为我们介绍了一个自动评价方法：ROUGE。

ROUGE是2004年被提出的自动评价方法，目前被广泛运用在文本摘要的评测中。ROUGE的思想是来计算生成摘要和参考摘要的n元词的共现信息来做我评价依据。

人工智能——基于深度神经网络的自动文本摘要

基于深度学习的文本摘要

相比于其他NLP任务，深度学习技术比较晚、比较少地应用于文本摘要任务。尽管目前已有多种尝试，但总体性能提升并不明显。而据陶老师表示，基于深度学习的文本摘要应用主要包含以下难度：

* 任务的特殊性：子集选择问题/压缩问题；

* 受限于数据规模（尤其是多文档摘要任务）；

* 答案的不确定性；

* 长文档的语义表示；

提到深度学习，还有自然语言处理，最火的要数序列生成模型。序列生成模型起源于机器翻译。它其实也属于编解码结构，它的思想就是用一个神经网络作为编码器，将输入的语句转化为上下文表达，然后再用另外一个神经网络作为解码器，把中间结构转化为摘要的语句从而实现摘要的目的。而具体选用什么样的神经网络进行解码，其实并不是那么重要的。

人工智能——基于深度神经网络的自动文本摘要