面试题：文本摘要中的NLP技术

印度阿三17 2021-03-26

展开全文

解析：

人类很难手动汇总大型文本文档。文本摘要是NLP为源文档创建简短、准确和流畅的摘要问题。

随着推送通知和文章摘要获得越来越多的注意力，为长文本生成智能且准确摘要的任务每天都在增长。

通过首先计算整个文本文档的单词频率来自动汇总文本。

然后，存储和排序100个最常用的单词。

然后根据它包含的高频词数对每个句子进行评分，更高频率的词，价值更大。

最后，根据它们在原始文本中的位置来获取和排序前X个句子。

[object Object]

文本摘要有两种基本方法：提取和抽象。

前者从原始文本中提取单词和单词短语以创建摘要。

后者是学习内部语言表示以生成更像人类的摘要，解释原始文本的意图。

提取摘要的方法是通过选择子集来工作。

这是通过从实际文章中提取短语或句子以形成摘要来完成的，LexRank和TextRank是众所周知的摘要总结，它们都使用了Google PageRank算法的变体。

· LexRank是一种无监督的基于图形的算法，它使用IDF修改的余弦作为两个句子之间的相似性度量。

该相似度用作两个句子之间的图形边缘的权重。

LexRank还采用了智能后处理步骤，确保为摘要选择的顶级句子彼此不太相似。

· TextRank是一种类似于LexRank的算法，具有一些增强功能，例如使用词形化而不是词干，结合词性标注和命名实体分辨率，从文章中提取关键短语，以及根据这些短语提取摘要句子。

除了文章摘要外，TextRank还从文章中提取了有意义的关键短语。

抽象概括的模型属于深度学习。

使用深度学习的文本摘要已经取得了一定的突破。

以下是一些NLP领域最大公司最显着的公布结果：

· Facebook的神经注意是一种神经网络架构，它利用基于本地注意力的模型，能够根据输入句子生成摘要中的每个单词。

· Google Brain的Sequence-to-Sequence模型遵循编码器-解码器架构。

编码器负责读取源文档并将其编码为内部表示，解码器是一种语言模型，负责使用源文档的编码表示在输出摘要中生成每个单词。

· IBM Watson使用类似的序列到序列模型，但具有注意力和双向递归神经网络功能。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：印度阿三17 > 《开发》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

印度阿三17

关注对话

喜欢该文的人也喜欢更多

热门阅读换一换