分享

人工智能——基于深度神经网络的自动文本摘要

 漫步之心情 2017-08-31

近年来,随着深度神经网络的广泛兴起和应用,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的性能。2017年8月24日,飞马网邀请了北京大学博士陶重阳,为大家做在线直播,讲解自动文本摘要的概念、分类及评价方法,重点介绍基于深度神经网络的生成式自动文本摘要技术原理,并着重分析几个典型的神经摘要模型。

人工智能——基于深度神经网络的自动文本摘要

文本摘要的重要性

信息爆炸的时代:据IDC统计,互联网数据量已跃居ZB级别,预计2020年达到35ZB。

搜索引擎不能有效解决信息过载的问题:冗余、片面、杂质。

移动设备的普及使用:屏幕小、网络宽带低等特点需要新的信息浏览与阅读方式。

文本摘要是利用计算机自动地从原始文档中提取全面准确地反映该文档中心内容的简单连贯的短文。摘要具有多样化、相关性、连贯性、易读性等特点。

据陶博士介绍,文本分类可以从许多方面进行区分。比较简单的分类有:

传统文档摘要:如面向新闻文档,包括单文档和多文档。如这两年被热议较多的写稿机器人,都是从传统文档的角度实现的。

互联网文本摘要:面向互联网异质文本,如新闻、社交媒体、学术文献等。

而根据文本摘要的构成、文本来源及目的可以分为监督式摘要和无监督式摘要。

另外,陶老师又为我们分析了不同类型文档/文本的技术特点如下:

单文档

* 内容紧凑,句子位置比较重要;

* 摘要可读性容易保证;

* 摘要效果理想,可以实用;

多文档

* 摘要可读性不易保证;

* 不同人对多文档中的要点有不同看法,因此对于同一摘要质量也有不同看法;

抽取式

* 实现简单,保留完整句子,可读性良好;

* 基于启发式规则:句子位置、句子TFIDF、关键词等;

* 基于机器学习:句子分类、序列标注、句子排序等;

压缩式

* 同时进行句子提取与压缩或融合;

* 能有效提高ROUGE值,但会牺牲句子可读性;

生成式(语言模型/生成模型)

* 直接从意义表达生成摘要句子;

* 难度大,更接近摘要的本质;

* 目前效果不佳,但值得鼓励;

抽取式摘要的实践原理

陶老师告诉我们,抽取式摘要比较强的一个假设是:一篇文档的核心思想可以用文档中的某一句或几句话来概括。因此,在实践过程中我们需要先对句子进行打分,然后是对句子进行选择,句子重组。另外,陶老师强调,这三个步骤并非是界限分明的,通常情况下,它们需要融合起来做。并且第三个步骤(句子重组)在具体实践中出现的并不是很多。以下是陶老师以第一个步骤(句子打分)为例为我们做的解释:

对句子打分,首先第一个方法就是基于图排序,这是基于非监督模型。它的思想是将文档的每句话作为节点,句子之间的相似度作为边权值构建图模型,然后用PageRank算法就可以得到每个句子的得分。而其代表算法有TextRank、LexRank。第二类算法是基于特征的句子打分,它其实是属于监督模型的。它提取了句子的某些特征,如句子位置、句子长度、关键词等,然后去回归句子的打分,其中的代表算法是TextTeaser。

文本摘要的评价方法

评价可以分为人工评价和自动评价。人工评价虽然在很大程度上是可信的,因为人可以基于自己的知识来判断这个摘要是否合理。但是人工评价时间成本较高,效率低。陶老师为我们介绍了一个自动评价方法:ROUGE。

ROUGE是2004年被提出的自动评价方法,目前被广泛运用在文本摘要的评测中。ROUGE的思想是来计算生成摘要和参考摘要的n元词的共现信息来做我评价依据。

人工智能——基于深度神经网络的自动文本摘要

人工智能——基于深度神经网络的自动文本摘要

人工智能——基于深度神经网络的自动文本摘要

基于深度学习的文本摘要

相比于其他NLP任务,深度学习技术比较晚、比较少地应用于文本摘要任务。尽管目前已有多种尝试,但总体性能提升并不明显。而据陶老师表示,基于深度学习的文本摘要应用主要包含以下难度:

* 任务的特殊性:子集选择问题/压缩问题;

* 受限于数据规模(尤其是多文档摘要任务);

* 答案的不确定性;

* 长文档的语义表示;

提到深度学习,还有自然语言处理,最火的要数序列生成模型。序列生成模型起源于机器翻译。它其实也属于编解码结构,它的思想就是用一个神经网络作为编码器,将输入的语句转化为上下文表达,然后再用另外一个神经网络作为解码器,把中间结构转化为摘要的语句从而实现摘要的目的。而具体选用什么样的神经网络进行解码,其实并不是那么重要的。

人工智能——基于深度神经网络的自动文本摘要

如果前面编码的是一个图像,后面解码器生成的是一个语句,这个就是现在非常火的图像描述生成任务。而如果前面编码的是一个图像,解码是还是个图像,那就是图像里面非常火的图像分割转换的任务。

下面是陶老师以循环神经网络为例为我们介绍了编解码过程中的具体细节:

人工智能——基于深度神经网络的自动文本摘要

首先,通过编码的神经网络,我们可以得到一个包括全局信息的引变量,然后我们将这个引变量作为解码器当中的循环神经网络中的输入,来生成摘要,可以发现,我们是把原语句都压缩成了引变量,而这时,有可能会出现信息的瓶颈,对于较长的语句或文档,句子的信息保存的并不是很充分。

为了解决信息瓶颈的问题,有人提出了一个“注意力机制”。它的思想是使解码的每一步可以动态地利用到原语句句子中不同的词汇。并且这种方式在机器翻译中可以得到较好的翻译效果。

另外,陶老师为我们介绍了谷歌、Facebook等几种翻译模型:

人工智能——基于深度神经网络的自动文本摘要

人工智能——基于深度神经网络的自动文本摘要

人工智能——基于深度神经网络的自动文本摘要

三种深度神经网络在摘要里边的模型结构:

人工智能——基于深度神经网络的自动文本摘要

本文为飞马网原创,转载请注明名出处,关注飞马网服务号,还可观看直播回放~

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多