分享

【算法新闻】内容的建模和分析——以文本型内容为例

 地球知识年鉴 2022-05-31 发布于辽宁

1. 内容的预处理

“去除重复文章”,包括内容消重,标题消重和相似主题消重。出于提高存储、运行效率和吸引用户的考虑,推荐系统不宜持续给用户推荐相同或相似的内容,这会导致推荐内容的单一化倾向,容易使用户产生审美疲劳。

首先内容消重,如果内容库中的诺干篇文章都是关于同一事件或主题的相同或相似的版本,则系统可以依据一定的规则,选取并保留一份主要版本进行内容推荐,而不必将相似的内容重复地保存在系统中或者重复地推荐给用户。同时,系统可以对标题高度相似的文章和图片高度重合的文章进行删减。

此外,系统也可以进行相似主题文章的消重。内容,标题的相似性可以从文字部分直接直观地体现出来,而相似主题的识别则涉及对自然语言的理解。通过使用主题相似度判别算法,某些直观上文字重合度并不高的内容也能被识别为同一主题,而这类文章也不宜推荐给相同用户。

对内容库文章进行消重处理之后,还需要对文章进行合理的审核,把不符合法,不合规或者质量低俗的内容排除在推荐内容之外,才能进行文章推荐阶段。

2. 文本型内容的建模和分析

目前算法推荐系统可以处理的文件型包括文本型,也包括图片、视频等类型。

文本型内容的建模和分析是计算科学的一个重要的分支,涉及的技术包括自然语言处理,数据挖掘,机器学习等。文本型内容的建模主要研究怎样表示文本,怎样提取文字内容中的特征并利用这些特征进行针对不同用户的个性化推荐。

首先需要把文章分为一些细粒度的基础结构,比如名词、动词等;然后再对这些及其可处理的基础结构进行语义分析和理解,从而完成个性化推荐,以中文文本型内容为例,在文本的层面要进行的分析包括分词、词频统计等工作;在内容方面要进行的分析包括关键词的挖掘,主题的识别,感情分析,文本的分类和聚集等等。

分析中文文本,首先要进行最基础的分词工作,通过分词和词频统计,系统识别出文章出现频率较高的词,为下一步的文本特征识别做好准备。

好的分词算法应该把单次对应的实体逐一合理地抽取出来,也就是说,经过第一步的分词之后,就可以把文章切成一个一个的特征。

词频统计,经过分词之后,还需要进行词频统计。词频统计就是计算每个词在一篇文章中出现的次数。

3. 文本的向量模型

提取出文章的特征之后,计算机需要对其进行形式化的表示和计算,因此出现了词和文件的向量模型。一般地,向量可以具有多种维度,如表示空间上的一个位置可以使用(经度、纬度,海拔)这样三维向量来定位,向量的一个维度就其某一种特征的表示和刻画。在文本建模中,一种对文本的抽象方法就是建立向量空间模型,使用多维向量来表述词和文本。

4. 文本分析模型在系统推荐中的作用

首先,从用户角度分析,文本分析模型可以帮助实现用户兴趣建模和更新。比如,系统可以搜集到用户阅读过的所有文章,提取出其中高频词,进而将其作为用户标签,反馈到用户画像中;增加现有标签的权值,或者添加标签。

其次,在内容组织方面,文本分析模型可以帮助系统优化内容的组织。一般地,推荐系统根据一定的分类体系对内容库中的文章进行分类组织,如果依靠人工分类,则每一篇新加入内容库的文章都需要消耗人力为其分类,而文本分析恰恰可以利用提取出的文章特征值,将文章分到相应的类别或内容组织频道中。

最后,最关键的应用就是算法推荐部分,文本分析模型可以帮助系统进行内容推荐。由于用户和内容都分别打上了标签,因此可以直接根据标签是否匹配来进行推荐。

5. 文本特征体系

第一类体系是语义标签类,从语义体现文章的主题。

第二类是隐式语义特征。使用计算机算法对文本内容进行聚类和主题词的挖掘时,生成的类别,主题和关键词具有一定的相关性,但是由于某些类别可解释性不强,因此不能明确指出这些类别的具体语义,因此,我们把这种自动聚类生成的主题中的语义特征称为隐式语义特征称为隐式语义特征。

第三类特征标签关注文本相似度,称为文本相似度特征。此类特征与消重有一定关联,消重需要判断不同文章的标题、内容和主题是否相似,可以使用字符相似度,主题相似度等计算函数来进行计算,计算过程中使用到的文本特征均属于文本相似度特征。

第四类是文本的时间空间特征。比如文章中提到的时间发生的时间、地点,时效性如何,由此判断其是否为突发时间,或是发生了一段时间的事件,或是对时间不敏感的事件。

是否合规、是否符合社会公序良俗,内容是否低俗,是这类文本标签重要考量依据。从商业和运作的角度来说,需要识别文章是否为软文、鸡汤文、恶意竞争的文章。通过抽取这些与质量相关的文本特征并拦截低质文章,算法推荐系统可以从源头上保障推荐内容的质量。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多