分享

头条号去重消重过程(三)

 尴情尬事 2017-09-26

每一篇文章都有属于自己的「身份证」,用来与平台中的其他文章进行比对。通常有以下几种不同的消重机制:

1. 内容消重与「关键项」

在计算一篇内容的「身份证」之后,基本上有两种情况。其一,这是一个系统中独一无二的身份证,换言之,同样的内容在系统里只有这样一篇。对于内容发布者来说,这恐怕是最理想的情况了,这种情况下,在向读者推荐相同内容时,系统除了推荐这一篇外,别无选择。

第二种就要复杂得多了,同时也是非常常见的情况:系统里存在多篇不同内容,都具有同一张身份证。这时,系统就需要从这些相同内容中选择一篇“关键项”向用户推荐。进行选择的最终目的是保证向用户推荐的内容来自更权威、更有可能是原创来源的头条号。

如何判断哪个头条号更权威、更有可能是原创呢?两篇相同的内容,在内容本身之外可能存在很多的差异,这些差异就是判断的关键,具体的计算标准是非常多的,其中最重要的一些包括:

来源头条号是否开通「原创」标记;

发布时间;

来源的权威性和在网络上被引用的次数。

举例来说,假如「央视新闻」通过头条号平台在5月19日上午发布了一篇内容,「门头沟新闻」的头条号在5月20日上午转发了同样一篇内容,两者都没有标记原创,那么:

首先,根据文本分析,这两篇内容会被计算出一个相同的「信息指纹」;

接着,「央视新闻」是比较权威的新闻报道媒体,而且,「央视新闻」的内容发布时间更早,因此,是权威、原创来源的可能性就远远大于「门头沟新闻」;

那么,「央视新闻」所发布的同一篇内容,就会被认定是这两篇内容中的关键项(官方英文名叫Keyitem),继而向用户推荐。

那么,假如说,同样的内容,5月19日先由「门头沟新闻」的头条号发布,5月20日再出现在「央视新闻」的头条号上,系统会如何判定呢?这就比较复杂了,但是综合看来,系统选择最佳内容来源的可能性非常大。

有一种例外的情况是,某篇内容被头条号利用「原创」功能,标记了「原创」,那么在这种情况下,系统会有很大的几率把这篇内容选择为「关键项」,无论其他因素的比较结果如何(尽管如此,「原创」头条号应该尽量谨慎地使用这个功能,一旦被举报滥用原创,查实后会被永久取消申明原创的资格)。

一旦系统发现了可能对某篇内容感兴趣的用户正在刷新今日头条客户端,那么系统会自动把具有同样「信息指纹」的内容中,经过挑选最优的一篇推荐到用户的信息流。剩下具有相同「信息指纹」的内容,就几乎不可能获得推荐了

这就是基于内容的消重规则,这解释了为什么许多非原创的内容无法在今日头条获得推荐量的原因。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多