一文即可明白什么是：用户画像、文章画像与智能推送

豫龙晏子 2017-09-11

展开全文

1.算法按照何种规则推送文章

用户对一篇文章的行为，包括：点击数、分享数、评论数、收藏数、用户停留时长等；而对公号来说，名是订阅数以及订阅后公号与读者之间的黏度。

一文即可明白什么是：用户画像、文章画像与智能推送

那么，谁又有权力对内容进行分发？在传统媒体时代，只有编辑拥有这种权力。比如，点击数取决于文章的位置、曝光时长，也取决于标题和配图，这就是编辑的权力。而分享数取决于文章的质量，评论数取决于能不能挑动社会情绪，收藏数取决于文章有没有价值，用户停留时长取决于文章质量。这些，都是要靠人来运营的。

但在今天，由于社交媒体的兴起，专业人士之外，社交媒体中的每一个人都有权力发言、转发；人工智能的应用，则让算法同样具有了内容分发的权力。

因为一点资讯是一个靠人工智能分发的App，我们就跳过社交，进入算法是如何进行内容分发的环节。

在这里，先要讲个小故事，让大家弄清楚几个概念：人工智能、机器学习，以及算法主导的内容分发。

这个故事，讲述的是“我”是如何在老板的眼皮底下看日本AV动作片的。

图说：有谁认识这位同学，请举手！

我的工位就在老板办公室附近，每次他出门都要经过。可我非常想在上班时间看日本动作片。于是，我首先要安装一个摄像头，摄像头对着他办公室大门。只要他一出办公室门，摄像头能就拍下他，然后传输到我的电脑上。我在电脑上放了“一点资讯算法分发逻辑”的屏幕保护，只要镜头拍到他，屏幕就自动从动作片跳到“研究算法分发”这个页面上，老板就会认为我在努力工作。

核心的问题来了——为什么只要摄像头拍到他，我的屏幕就能变化？因为我做了一套人脸识别系统。我用尽一切手段（包括上百度搜索、贿赂他的秘书等等），收集了老板10万张照片，然后输入到我的计算机里，计算机对这些照片进行学习（学习又分为有监督学习、无监督学习、半监督学习、深度学习等等，总之就是拼命学），于是可以判断出摄像头拍到的照片和我输入的照片的相似性。一旦相似度达到一定的数值，就认定是老板走过来了。于是就给屏幕下达指令，迅速从AV切换到研究算法分发的页面。

这就叫人工智能（AI）。人工智能是最大的概念。而向计算机里输入照片，学习辨别此人是不是老板的过程，就是机器学习。人工智能有很多应用，比如这个小故事里讲的叫“人脸识别”，此外还包括无人驾驶、健康诊断，著名的阿尔法狗则是人工智能在围棋领域的应用。在一点资讯的应用，就是通过算法分发信息，实现千人千面、私人定制。

全球最伟大的人工智能公司是谷歌。他们有一个机构叫“谷歌大脑”，主要研究人工智能的应用；中国的百度公司也在向人工智能公司进发，他们通过搜索积累了大量的数据，这就如同上一个小故事里讲的搜集照片的过程——没有大数据，无法实现人工智能。

2、要实现精准分发有三个要素：一是用户画像，二是文章画像，三是算法模型。

用户画像：他是谁？喜欢什么？

文章画像：这是什么内容？是图文、视频还是图集？是时政、社会还是财经？这个内容是好是坏？

算法模型：用户画像和文章画像之间，以什么样的方式来匹配？

先看用户画像。

如上图展示：在用户画像中，生活环境是基础。生活环境又包括两个层次，第一是地理位置。一点资讯已经能定位到商圈和小区，而百度地图、滴滴打车已经能实时定位到你站的地方。衣食住行、水电煤气，包括政府提供的产品服务，都和你的生活环境、地理位置有关系，所以，地理位置越精准越好。

时间场景来说，早上推的东西应该是硬的、偏资讯类的内容，因为过了一夜，大家需要看到昨晚发生了什么。而且，上班族在早晨都比较忙，没有时间看长篇大论。到了晚上则相反，用户有时间而且希望放松，所以需要推送偏软性、偏娱乐的内容，包括一些美文——在安静的夜里，才能读出其中的味道。

第二个层次是手机环境。它同样包含两个含义，一是手机型号，不同型号的手机使用者的阅读习惯是不一样的，比如红米用户和苹果用户。即使是同一个品牌的手机——OPPO A57和OPPO R11，使用者的阅读习惯也是不相同的，这都需要我们通过数据去洞察。另外，我们的手机里激活了哪些软件，使用的频率如何，在不影响用户隐私的情况下，都需要去深刻洞察。

第三个层次是用户信息。如果你是注册用户，你的性别、年龄、身份、学历等，都可以成为我们判断你兴趣的依据。另外，为了把一个用户画像描述得更精准，一点资讯设计了一个开屏问卷——问用户喜欢什么。有超过50%的用户做了选择，于是，我们能够了解到他们的基本兴趣。当然，也有人不愿意填写，甚至不愿意透露自己的地理位置。所以，这就给我们提出了难题——冷启动时，应该给用户提供哪些信息。

3、落地页是关键

落地页，指用户打开网页后或下载某个App后第一次打开见到的页面。它如同恋爱的第一次见面，它的重要性毋庸置疑。用户打开之后呈现的第一屏，大概有5条信息。测试表明，如果在这5条中，用户点击了一条，那么它的次日留存率就会比没有点击的人高一倍。所以，花多大精力去打造这5条内容都不为过。为此，我们做了大量的对比试验——包括尝试推送相关型号手机的资讯，包括推送相关地理位置的资讯，有成功也有失败。在冷启动中，因为用户画像不够清晰，所以基本原则应该是推送重要事件、大概率领域（比如足球，而不是高尔夫球），而不能推送拿些小众内容去赌，否则你很容易失败。

当用户阅读完首屏内容之后，可能会产生五种情况：

（1）有点击下拉；（2）无点击下拉；（3）无点击上滑；（4）有点击上滑；（5）直接走人。针对这些不同的行为方式，我们应该启动不同的策略。这需要非常细腻的数据观察，要从中总结规律。从此，用户的行为也变得多样化——比如点击、分享、收藏、评论、用户停留时长等等，这都是算法判断推送哪些内容的依据。

这是一个非常复杂的运算过程。比如，有个用户点击了五次“吴晨光”，搜索了一次“邹明”（凤凰网总编辑），如果只给他推一条，应该先推“吴晨光”还是“邹明”？从数量上来说，一定是“吴晨光”更多，但是搜索属于深度行为，他主动去搜索说明对“邹明”很感兴趣，这种情况应该去推谁？

再如，他点击了五次“吴晨光”，点了两次“邹明”。但关于吴晨光的优质内容没有了，只有关于“邹明”的好文章，那是应该推一条很水的关于“吴晨光”的文章，还是推出关于 “邹明”的好文章？

还有，他点了五次“吴晨光”的图文，要不要推一个视频、音频或者问答？或者一个用户很喜欢“吴晨光”，今天突然出了“邹明”的绯闻，是应该把“邹明”的热点推出来，还是，依然根据用户的兴趣继续推“吴晨光”？

所以，用户画像的复杂性，不是简简单单的群体划分问题。它是对人性的深刻洞察，一个行为，比如点击，背后的含义也完全不同，有的是因为真的感兴趣，有的是因为标题党。

再看文章画像。对于编辑而言，文章画像相对简单，因为这是我们的专业。在传统媒体时代，我们就对文章进行画像——比如说消息、通讯、特稿，还包括我一直在尝试的调查报道和解释性报道。

当然，今天的文章画像的复杂性远远高于传统媒体时代。因为这里的文章泛指内容，而不是单纯的文字概念。它包括：

体裁——是文字、图片、视频、音频、直播，还是问答，或者类似微博的短内容？

作者——作者其实代表着背后的自媒体号，包括它的级别、知名度、订阅数等；

标签——这是对于文章描述的领域的认知，比如体育—足球—中超—国安。我们把打标签的权力交给了自媒体作者，他们可以在自己生产的内容下打好标签。同时，我们的审核编辑、频道编辑会修正标签；算法也会对标签做进一步调整。最后综合评判，给文章一个最准确的定位。如果是算法很聪明，做了深度学习，那么还可以分析出更多关于文章的特点，也就是像人一样，去理解文章的中心思想、段落大意。当然，这个很难。特别是对视频、图片的识别更难。

内容质量——它有两个维度，第一是编辑判断，第二是算法判断。编辑的判断前面已经讲过，无非是选题、采访、写作和包装四个维度；而算法判断无非依据数据，还是点击、分享、收藏、用户停留时长等等。

用户画像有了，文章画像也有了。我们现在开始匹配。匹配的依据就是算法模型。我们可以把模型做详细拆解，分为很多模块——比如垃圾过滤模块、热点模块、本地模块等等。算法在每个模块里，进行文章的挑选、排序；不同模块里的文章也在进行竞争、排序。最后择准、择优分发给用户。

我们以热点模块为案例，做具体分析。

热点是一个很好理解的词，就是刚刚发生的、关注度较高的新闻。它有别于其它非时效性的资讯。首先，我们要告诉算法，什么是热点。这里有很多方式——比如，监控百度。百度热搜词可能就是热点。在一点资讯要闻频道，编辑置顶的也是热点。我们还可以人工定义一些文章是热点：比如挂“新华社快讯”字头的就认为是热点。这是第一步。让算法了解热点，这就是机器学习。

第二步，我们要把热点内容做“召回”。这里的召回和问题汽车的召回不一样，是指把相关热点文章聚集在某一个池子里。我们称之为“热点池”。我们会把热点池分若干层次，在3年前，我就在《超越门户》中描述了搜狐网重大突发事件的规则，从三级到特级。来一点资讯做总编辑后，又进行了进一步修订。现在，我们把标准通个案例的方式输入计算机，让算法来判断热点的大小，以决定向什么样的群体进行推送。

一文即可明白什么是：用户画像、文章画像与智能推送

文章分为两个类型——抓取源文章（RSS）和自媒体文章。但不管什么样的文章,都需要经过反垃圾模块的过滤，去除有害政治信息、低俗内容、虚假广告、“标题党”文章等。所以，反垃圾模块里应该有这些功能。如果你问，这些功能是如何实现的，那还是前面提到的答案——输入案例或者关键词，让机器学习，找到特征并举一反三。

垃圾过滤之后，算法或者编辑给文章打了标签、做了分类，文章就聚集在各种池子里。刚才说了，这个过程就叫做召回。按照文章的标签分类以及不同的属性，它们被分配到各个池子里——包括我们刚才所说的热点模块、本地模块，还包括被编辑挑出来的好文章，进入精品池模块。如果有些文章又有本地属性、又是精品，就会同时放在两个池子里。还有一些文章，被打上了体育标签或者财经标签，就放在了体育或者财经的池子里。

最后到了分发过程，主要是针对某一个用户，这么多内容先出谁后出谁。这就是排序。用户下拉首页流看到的内容，就是排好序的。其它频道流也是如此。排序具体的规则取决于算法，也就是说用户画像、文章画像和算法模型之间的关系。刚才，我们已经讨论过了。

关于如何去衡量分发的效果，大概有几个点：

第一是准——推的东西就是用户喜欢的；

第二是快——好内容要第一时间推送；

第三是优——同一领域的文章，一定是先推高品质的。否则，我们的优质内容就没有流量，获得不了利益和影响力。优秀的自媒体人也会因此远离这个平台，进而形成恶性循环。

最后是宽——不让用户陷入信息孤岛。要有准确的兴趣探测，能预判你喜欢什么不喜欢什么。这就是我们讲的，保证用户的更多“知情权”。