亚马逊在业内有「推荐系统之王」之称,亚马逊有 35% 的销售额是与推荐系统相关的。但是最近,微软的研究员 Amit Sharma 发表了一篇 paper《Estimating the causal impact of recommendation systems from observational data》,对这个事情提出了质疑。这篇论文分析了 Amazon 上 4000 种不同商品的相关数据,认为与我们通常归因于推荐系统的点击次数相比,实际上仅有四分之一真正是由推荐系统引起的,其他四分之三和推荐并没有关系。 论文里举了一个例子,如下图左图,大家主要看一下红圈标明的地方,这是 Amazon 的单品页上非常重要的一个推荐位「Frequently Bought Together / 经常一起购买的商品」。冬天来了,小明想买一顶帽子御寒,他在 Amazon 上看中了图中的这顶帽子,这个时候 Amazon 向小明推荐说,买这顶帽子的人通常还会买红圈里的那副手套,而恰好小明也需要一副手套,所以就一起下单了。例子中手套的销售通常被认为是推荐系统的作用。 而论文作者的观点是,即使没有推荐,如上图右图,小明因为御寒的需要,一样会寻找并购买一副手套,因此这种购买不应该计入推荐系统。作者把没有推荐系统就不会发生的点击称为「因果性点击」,而把上例中小明购买手套的点击成为「便利性点击」——有没有推荐系统手套的购买都会发生,推荐系统仅仅是带来了「便利性」。论文试图用实验的方法来证明,推荐系统带来的绝大部分点击都是这种「便利性点击」,因此推荐系统的价值很大程度上被高估了。 为了干这个事情,论文作者发明了一种称为「Shock-IV」的测量方法。论文的实验数据来自于 Bing 工具条用户的真实访问日志,包括了 210 万匿名用户在 2013-14 年间的 9 个月时间内对 Amazon 上 140 万商品的访问记录,并以推荐系统中最最常见的推荐形态「Customers who bought this also bought / 买了还买」作为评价目标。具体的细节我这里略去不表了,有兴趣的同学可以自己去读一下 paper。论文的结果如下图。 图中显示了使用 Shock-IV 方法得到的因果性点击率(CTR)的估计值(绿色曲线),同时为了对比,还给出了把便利性点击计算在内的推荐系统点击率(红色虚线)。可以看到,例如书这个品类,因果性点击率只有5%,而我们通常认为 10% 以上点击是来自于推荐系统。对于不同的商品类别,相比于推荐系统真实有效的点击,即因果性点击,我们通常会高估了 200% 的推荐效果。接下来是论文的常见套路之列举不足,然后给出了结论,他们使用的 Shock-IV 这套实验方法是相当 data-driven 的,有很大的应用价值应该推而广之。 有人把这个实验结果 po 到了 Quora 上,结果推荐领域的大神 Xavier Amatriain 怒了。 熟悉推荐领域的人想必都知道 Xavier 的大名,他上一份工作是 Netflix 推荐团队的负责人,现在是 Quora 的工程 VP。Xavier 之所以对这篇论文很不满,一个重要的原因是他认为原论文的作者是在他们领域里受到尊重的研究人员,而这篇论文本身却既不严谨又缺乏行业认知,大牌研究人员发布不靠谱的结论,误导性非常大,因此他有必要站出来拨乱反正。 针对前文中「帽子-手套」的例子,Xavier 认为原论文提出的问题——如果没有推荐用户会怎么做——是毫无意义的。在没有推荐的时候,用户会有两个选择:1)自主选择其他一副手套;2)抛弃你的服务,去别的地方。实际上,第二个选择是非常值得关注的,且与原论文的另一大缺陷相关:仅是简单地使用 CTR 来评估推荐系统。一个推荐系统的好坏不仅仅取决于有一个更好或更坏的 CTR,非常重要的一点是,它有助于减轻用户寻找到「正确选择」的负担。假设两个网站A和B,在网站A里用户 3 秒内就找到了他想要的东西,而在网站B需要 3 分钟,那么显而易见地用户会更经常使用A网站。换句话说,推荐系统带来的不仅仅是简单的点击,更重要的是让用户「重复使用」。 原论文中对「推荐」的定义太过狭隘,暂且不说现如今很多搜索结果都是个性化过的,像 Amazon 这样的网站,推荐几乎已经无所不在了。而「便利性点击」恰恰正是推荐系统所追求的目标之一。推荐系统让用户生活更容易、更便利,从长期上看,用户因此会购买更多商品,或者对服务的满意度更高。所以从实践意义上看,原论文定义的问题根本就是个杯具。当我们使用A/B测试衡量一个推荐系统的效果时,我们更加看中的是推荐是否让用户「爽」了,用户使用服务爽了,就会带来更多的活跃与营收。「便利性」不是给推荐系统添乱,它是使用推荐系统应该具备的固有益处。 另外,原论文中说因为数据层面的限制他们做不了在线的A/B测试,很多人很多场景也都做不了,因此它们提出的 Shock-IV 可以作为推荐系统A/B测试的一种替代方案。Xavier 的意思是,你们别闹了,并给出了他之前在前东家 Netflix 的一个案例,在「Netflix 推荐系统的最新解读:算法、商业价值与创新」一文中,Netflix 发现个性化技术可以显著提高推荐影片的被接受度(Take-Rate),即推荐给用户的影片真正被播放的比率。Netflix 做了一个对比分析,见下图,黑色线是基于热门度的曲线,红色线是基于个性化 PVR(Personalized Video Ranker)指标的曲线,个性化推荐使得接受度有了巨大的提升。而且除此之外,比接受度提高更有意义的是,优秀的推荐技术使得用户的参与度(观看时长)与退订率都受益匪浅。Netflix 的月退订率很低(很小的个位数百分比),大部分是因为支付的问题,真正主动选择退订的非常少。通过在个性化推荐领域的多年耕耘,月退订率得以降低了可观的百分比。月退订率的降低,一来有效延长了会员的付费存续期,二来也降低了为弥补流失用户所要付出的成本。 Xavier 列举了他认为原论文中的不妥之处,包括:
在 Quora 的回答里,Xavier 围绕这些问题一一进行了反驳,内容很长,建议大家去仔细读一读原答案,对大家学习理解推荐系统会非常有帮助。 其实关于如何评价推荐系统的作用,很早以前在 ResysChina 论坛里同学们也有过很多的讨论。比如,如果以 CTR 为考核指标,把豆瓣电影单品页中「喜欢这部电影的人也喜欢」这部分换成推荐热门电影,这样这部分的点击率会提高很多。但如果考察用户点击的深度,即点击了推荐项之后又继续沿此路径发生了多少次点击,推荐系统给出的结果就要远超热门结果了。所以推荐系统从长期用户价值来看更有用处。 Amazon 对待推荐系统价值的认知,《一键下单》书中有一段 Amazon 创始人贝索斯自己对它的评价:
而且贝索斯还曾拿推荐系统作为武器来制衡供应商,《一网打尽》中提到过这个事情:
这个故事也从侧面印证了原论文的假设是多么不靠谱。简单讲,这篇被批判的 paper 最大的问题之一,就是把推荐仅当做「买了还买」这么一项功能来看,推荐系统现在绝不仅仅是一个算法或者一项功能了,它承载着传递用户价值的重大作用。 最后,关于「买了还买」这个推荐领域的经典应用,在 Greg Linden 的《Early Amazon》也里有过相关的内容,推荐给大家。
对《Early Amazon》全系列感兴趣的,请关注 ResysChina 微信公众号,回复「amazon」即可 |
|