【韩佩/钛媒编辑】这是一个信息爆炸的时代,因而信息过滤和基于大数据的个性化推送,便成了至关重要的事情。而这,也正是今日头条可以从众多新闻客户端中脱颖而出的重要原因。 2012年8月,今日头条上线,以其独有的大数据分析和定制化推荐而迅速受到热捧。从资讯客户端变为数据挖掘的推荐引擎,创业不足三年,这家公司的估值已经达到5亿美元,而这些都是今日头条背后所蕴藏的大数据算法的价值。
如何推测你的喜好?好算法不如大数据 关于大数据算法有一个经典的案例是这样的:
那同样做大数据推荐的今日头条是怎么做的?它背后的推理逻辑又是什么?今日头条的负责算法数据的技术副总裁杨震原给了我们答案。 “个性化推荐算法就是基于投票的方法,”杨震原说到,今日头条个性化推荐的核心理念其实就是投票。“实际上个性化推荐并不是机器给你推荐,而是人与人之间在互相推荐。” 他将个性化算法比作是数豆子的方法,每一个人拿一个豆子,喜欢哪一篇文章就把豆子给这篇文章,然后由机器去数,最后得到结果。依照这种算法,同样两篇文章,当前三个人都对第一篇文章做出“投票”时,那么,给第四个人推送的必然就是第一篇文章了。 此外,人群可以基于年龄、性别、地域、职业等分类,而文章也可以通过关键词、发布时间、所属地区等分类,再结合用户反馈的数据,才有了“你关心的,才是头条”。杨震原表示,今日头条推荐的方法也是机器学习的算法,在移动互联网时代有很多豆子产生,当你拿着手机每看一篇文章,你的每一次点击和搜索,各种行为,都会被记录下来产生数据。 如杨震原所说:
今日头条的下一个五年,机器才能抹平信息鸿沟 创业三年以来,张一鸣的团队,积累了2.2亿用户的使用习惯和数据。这些数据要怎么才能更好玩呢?于是,他们搞了一场有关“算数”的发布会,第一次通过数据,向外界展示了今日头条的用户是怎样的一群人。 根据他们发布的数据报告显示,男性用户占到了65%的比例,而虽然女性用户较少,但是她们的平均停留时长在8分钟,明显高于男性的5.5分钟。
这都是今日头条根据用户习惯得出的数据。张一鸣解释说,“过去是依靠人总结知识,现在可以通过系统、学习用户的行为特征来储存智慧。有很多人问我,未来5年今日头条会变成什么样?其实大家看我研究的APP,大概能知道我在关注什么。”
张一鸣边说边把自己手机里400多个APP展示给大家看。他自己总结了三个努力的方向: 一是让更多种类信息,包括文字、图片、短视频如何在更多场景下给用户更好的推荐。其次是能不能把握用户越来越多的习惯和数据,使基于相同兴趣的用户更好的进行交流和互动。第三是希望能够连接更多O2O的服务,让今日头条变为“今日生活”。 那么在今日头条背后做数据支持的算法和大数据呢? 张一鸣认为,在下一个五年中,将有越来越多人的兴趣、行为被投影到网络世界,当数据越来越多,机器就会越来越懂我们。在张一鸣看来,大数据就网络空间的“上帝”,在俯视观察着所有人。
上线不足三年,2.2亿用户,2000万日活。对于团队所取得的成绩,张一鸣并没有太过沾沾自喜,毕竟今日头条算法推送的背后还有着太多需要改进和优化的地方,远不能达到“准确预测怀孕”的程度,产品也仍在遭到用户不断的吐槽。更重要的是,1月19日,搜狗刚刚推出了“微信头条”,竞争对手,正在紧随其后。 最后,附数据图两张,小伙伴们请自行对号入座哦~
(关注更多钛媒体作者观点,参与钛媒体微信互动(微信搜索“钛媒体”或“taimeiti”)) |
|