Tim O＇Reilly：算法时代的媒体

CCI16 2016-11-29

展开全文

编者按：美国总统选举结果导致的假新闻问题仍在发酵。美国对此掀起了一场大讨论，有观点认为Facebook应该承担起好坏信息筛选的责任，也有观点认为Facebook应该保持中立。但Tim O'Reilly认为，在这个信息无限、注意力有限而算法当道的时代里，上述有关媒体责任的观点都犯了一个根本性的错误。事实是，试图操纵系统的假新闻和坏网站问题已经变成行业公敌——公司应该共享数据和最佳实践来进行斗争。

自从美国选举以来，引起的非议就一直不断，其中有很多的指责是针对Facebook的。批评认为，Facebook的新闻流算法在传播错误信息以及放大两极分化方面扮演了主要角色。其中一些文章批评得很有见地，有些替Facebook的辩词也经得起推敲，但有的则充斥着错误信息和极端化，为的是能让自己的文章能出现在每个人的新闻流顶部。但依我之见，在思考处在算法时代的媒体时，所有人都犯了一个根本性的错误。

我们可以看看Jessica Lessin在《The Information》中提出的观点：

我非常非常担心自己听到的那些呼吁，那些记者和我的朋友认为，为了确保公民知情并得到平衡的观点，Facebook应该干预并承担责任。
……由Facebook来促进可信度听起来不错。谁会不赞成有人去承担责任，搜出那些错误信息呢？但如果Facebook方面采取这一重大举措，要排除坏信息传播好信息的话，将会把该公司摆到一个不可能的位置，那就是Facebook必须确定“事实”，而事实这东西远比真相要主观得多。此外，这对社会也是有害的。

我的回应：Facebook早就已经跨过这条河了。一旦他们开始对新闻流进行干预（curate）而不是简单地当作时间线看待时，他们就已经把自己摆在了大家所看到东西的中介的位置。他们变成了看门人和向导。这不是不可能的位置。这是他们的工作。所以，他们最好把擅长这件事情摆在优先位置。

但是那些强烈要求Facebook承担好坏信息筛选责任的人也搞错了。比方说，Timothy B. Lee在Vox写道：

这里的一大问题是Facebook对编辑的角色定位。在传统的新闻组织里面，有经验的编辑人员扮演的是资深的角色。但Facebook已经把自己少量的编辑决策权下放到资历不高的员工手上。比方说，直到今年年初以前Facebook还有一支15到18人的独立承包商团队，负责为Facebook的“趋势新闻”编写头条新闻。
当Facebook面临这些员工压制保守派故事的指控时，Facebook慌了，然后把他们全都解雇了，趋势故事栏变成了自动化的特写文章。但这做法也不是很好，因为假新闻总是在趋势新闻栏冒头。
这里的问题不在于Facebook雇佣人工编辑去评估故事和编写头条。问题是Facebook的领导层并没有把它当作Facebook运营的重要部分来看待。
如果Facebook有一支有经验的资深编辑团队的话，就可以做很多事情来引导用户去看那些高质量的深度报道，远离那些肤浅、情绪化或者完全事实的文章。

新闻流策划不是新员工和独立承包商干的事情，在这点上Lee是对的。但他说这份工作应该由“有经验的资深编辑团队”来干就不对了。这应该是Facebook算法团队里面最聪明的头脑来干的事情！

Lee还说，Facebook雇佣人工编辑来评估故事和编写头条没有问题。但问题恰恰就在这里。

就像司机按照GPS引导开过一条不存在的桥一样，Jessica Lessin和Timothy Lee手上拿的都是过时的世界地图。在这张旧地图里面，算法是由人来看管的，在特殊情况下后者会进行干预，从而弥补它们的错误。Lessin说得很对，这是一个巨大的滑坡谬误。

Jessica说：

我们不应该让Facebook回避自己制造或者加剧的所有问题。但同样我们也没办法让它为每一个问题背锅。就像Sam经常说的那样，互联网已经把你想对任何人说任何事情的成本降到了0，我们正在见证着这样一个世界的影响。这是一个不可逆转的趋势，没有一家公司可以阻挡，我们也不应该让他们这么做。

但是另一种方案就有一个现成的好证据，Facebook一直都想努力模仿这种做法。

Google长久以来就已证明，引导大家看到更好结果与不妨碍任何人的言论自由，这两者是可以兼得的。跟Facebook一样，他们每天也都面临着在成千上万个相互竞争的声音当中哪一个应该置顶的艰难抉择。Google之所以成立，是因为这个独特洞察，即每一个链接都是一张选票，而那些出现已经很久的声誉好的引用的链接，它们的价值应该比其他链接更高，这个就是Google最初用来排沙简金的工具。但这些年来，Google已经设计了许多信号（没有上千也有好几百了）来确定哪一个链接的价值最高。

在这20年的大部分时间里，Google一直在不知疲倦地完成一件艰巨的任务——在任何人都可以创作的内容当中用算法编排出新闻源，然后选出赢家和输家。关键是：他们的做法并没有对页面的实际内容进行判断。“真实的信号”是那些元数据而不是数据。

在这个信息无限而注意力有限的世界里，任何人想要理解一家21世纪公司怎么进行编辑内容管理的问题都应该好好研究一下Google搜索质量团队的历史和最佳实践，这些早已经记录在案并且广为分享。这里就有一个前Google web垃圾内容处理团队负责人Matt Cutts提供的视频。Google教会了我们一点，那就是通过改进算法来提供更好的搜索结果是一场持久战，因为总有人想操纵系统。但他们还教会了我们，移除特定结果的人工干预并不是正确的做法。

Google和Facebook都在不断地设计和测试新算法。是的，这里面也会牵涉到人的判断。但这种判断只是应用到系统的设计而不是特定结果上。为搜索或者新闻流设计有效算法，其更多的共同点是在搭载搜索或者新闻的飞机的设计方面，或者能让它飞得比旧的更快的新飞机设计方面，而不是决定飞机飞到哪里去方面。

要想改善文章的“真实值”，并不能像该问题正反两方的某些评论员所认为那样，靠人工干预来剔除坏结果，而只能去发现能导致好结果置顶的信号。

问题是怎么来决定什么才是“好结果”。

如果是让飞机能飞，目标就很简单——能在空中保持姿态，能飞得更快，消耗燃料更少——设计变更可以用期望结果来进行严格测试。搜索有很多类似的问题——比如找到最好的价格，或者某主题最权威的信息来源，或者特定文档——以及许多界定远没有那么严格的东西。当用户得到自己想要的东西时，用户自然就会很高兴，同样地，一般广告商也会很高兴。搜索就是这样，用户对找到答案然后继续自己生活的渴望与“为他们提供最好结果”一般都是一致的。不幸的是，Facebook对“互动”的强调可能却会导致错误的方向。对Facebook收入最有利的未必就是对用户最有利的。

即便是在航空动力学或者飞行工程这样的物理系统，往往对测试或者修正也会有隐含的假设。有一个例子非常著名，它决定了航空航天业的未来，需要我们对如何处置金属疲劳具备全新的理解。德克萨斯大学的Michael Marder教授是这么介绍的：

英国已经准备要统治喷气机时代。1952年，德哈维兰彗星型客机（de Havilland Comet）开始提供商业服务，成功地把伦敦和大英帝国的最远端连接到了一起。这款喷气式飞机比竞争对手领先了好几年，外形华丽，同时为飞行舒适和安静设定了新标准。但随后却出了大事。
1953年，一架彗星型飞机从天上掉了下来，坠毁原因被归咎为糟糕天气和飞行员错误……1954年，第2架彗星型飞机又在罗马附近坠毁，但这次是晴好天气。于是所有飞机都停飞2个月进行检修。随后公司发布了恢复飞行声明，声明称‘尽管尚未找到事故的确切原因，但我们已经就所有可能导致灾难的因素进行了检修。在这些检修完成并且经过满意的飞行测试之后，董事会认为已经没有理由不让飞行服务重启了。’但刚刚写完这些字的4天后，第3架彗星型飞机又在晴好天气下在那不勒斯附近的海域坠毁了，所有飞机再度开始无限期的停飞。
……1955年，彗星型飞机的事故报告公布。与此同时，美国东北角的一家鲜为人知的军方承包商正在完成其民用喷气飞机的原型工作。波音过去在民用航空方面少有建树。该公司知道了裂隙是导致彗星型飞机坠毁的原因所在，而且在波音707坠毁之前他们就已经对此有着更好的了解了。
那年夏天，波音引进了一位名为Paul Paris的暑期生，这位研究人员是一名机械工程师，刚刚拿到硕士学位，准备到利哈伊大学继续博士生学习……巴黎提供给波音的裂片外观跟导致彗星飞机坠毁的碎片有着极大的不同。于是裂隙成为了调查的核心。结果发现，裂隙无法消除。飞机结构内部到处都是这种裂隙，但因为太小而看不到。结构没法做到完美，结构天生就有瑕疵，而工程设计的目标不是保证机身没有裂隙，而是能够容忍裂隙。

算法设计的精髓不是消除所有的错误，而是要让结果在面对错误时具有鲁棒性。哈维兰的思路是把材料做得足够坚韧可抵挡任何裂隙和金属疲劳，结果企图徒劳无功，而波音则意识到正确的办法应该是在设计上要容忍裂隙，但要防止扩散而导致灾难性故障。这也是Facebook面临的挑战。

从Facebook对 Timothy Lee的回应可以看出，他们是理解自己所面临的挑战的：

我们重视信息的可靠，始终在倾听那些不愿看到错误信息的Facebook用户的意见。我们的新闻流利用了各种基于社区反馈的不同信号来确定哪篇文章可能包含有不准确的信息，同时减少这些文章的传播。在趋势新闻中，我们借助多样化的信号来帮助确保头条能反映时事，并且采取额外措施来预防错误或者误导内容的出现
尽管有了这些努力，但我们知道要做的还有很多，所以我们不断改进检测错误信息的能力才如此重要。我们会继续致力于解决这个问题，同时改善我们平台的体验。

要提出的关键问题不是Facebook该不该对新闻流进编撰，而是怎样编撰的问题。他们要做的事情显然还有很多。但我认为他们对这个问题是非常认真的。我希望他们能取得突破，不必被迫在商业模式和为用户提供更好体验之间做出选择。如果不能的话，恐怕就算他们的意图是好的的，但最终还是商业模式占上风。他们的目标是想办法让飞机飞得更快，但同时要保证安全。

好的一面：寻找兼顾事实和互动的可能性会让Facebook获得一些非凡的发现。迎难而上会让你变得更好。

但是答案不应该是让Facebook引入记者来排沙简金。而是要像他们如此成功地领悟出导致更高互动性的功能一样，弄清楚如何开发出兼顾“事实”与流行度的算法。

而且他们还得问问自己，他们究竟是哈维兰还是波音。

更新

我把文章发给了Google前web垃圾内容处理团队负责人Matt Cutts。他领导了Google在2011年的Panda搜索算法更新，这次更新针对的正是低质量的“内容农场”的冒头。我想他的经验对现在这场讨论是非常重要的。当时的Google跟今天的Facebook很相似，也有很多文章谈Google的失败。（我也是其中之一，说Google正在“输掉对垃圾内容制造者的战争。”）就像今天的Facebook一样，Google已经在全力以赴应对这些担忧，但是在让Google认真对待该问题的事情上，公众反馈仍然扮演着重要角色。

Matt回应道：

对于谷歌来说，“内容农场”和低劣网站的增多，已经威胁到了用户对Google搜索结果的信任。当外部的评论者把我们的内部讨论和担忧搬出来时，我们的确应该警惕了。Panda 算法就是谷歌的回应，它寻求奖励高质量的网站，鼓励更加健康的web生态体系。
就我个人而言，我认为Panda算法和 Facebook现在的经历有着相当直接的相似性。Facebook的评判标准似乎一直是连接人和增加互动。但是，但你衡量什么就得到什么，互动的阴暗面可能也会制造出见不得人的故事，产生恶作剧式的谣言，不准确的信息，或者放大迷因这些意外后果。
Panda算法对Google的一些合作关系造成了很大的收入冲击，以至于Google需要在一次盈利电话会上把Panda列为重大影响。但我认为，无论是从用户对我们的长期信任还是从为发行商提供一个更好的生态体系来看，推出Panda都是正确的决定。Facebook是一家不同的公司，但我对看看他们如何处理近期的这些问题仍然很有兴趣。

正如前面所指出那样，试图操纵系统的假新闻和坏网站问题是一场持久战。Google目前也在努力应对一大波假新闻网站的问题。你可以通过Aza Raskin的这条推特看到一些假Google新闻搜索结果的例子。这是个全行业性的问题，不仅仅是Facebook一家的，大家都应该共享数据和最佳实践来与之作斗争。