在数据为王的时代，自动驾驶数据共享真的可行？ | 厚势

只摘不看 2019-10-15

展开全文

2017-09-29 23:50

引子

厚势本周三头条文章《大数据和机器智能对未来社会的影响》的作者吴军博士曾经讲过一个在 Google 公司早期发生的真实故事：

当时有几所大学，想向Google借 1000 台服务器，花三个月算一些题。Google很爽快就答应了，虽然当时谷歌的服务器资源也很紧张。

另外，还有一位知名学者，想拷贝一份Google下载的新闻，做一下自然语言处理的研究。因为他认为这些新闻也是Google自己下载的，所有权并不是Google的，而且就算总监拷贝一份，Google自己还有。但是这件事Google 最后死活没有同意。

最后吴博士解释道，在 Google 眼中，无形的数据比有形的服务器更值钱！

数据为王 OR 算法为王？

大约两年前，有一条微博引起了「对于实现无人驾驶，数据与算法哪个更重要？」的讨论，如图 1 所示：

一方认为：数据为王，再牛的智能算法也拼不过海量的数据！

而另一方则认为：数据只是建材，强大的分析能力才能让它变成摩天大楼，对效率的追求导致了算法，大数据取代不了算法！

图 1 引发讨论的微博

在 9 月 22 日的推送文章《为什么最早发明无人驾驶汽车是谷歌而不是传统汽车制造商？》中，厚势提到：

即使如丰田、通用和大众这样的汽车巨头，也不具有 Google 那么多的数据，因此它们虽然在自动驾驶汽车的研制方面早起步几十年，但是很快就被拥有数据优势的 Google 超越。这与其说是 Google 的科研能力碾压了车企，毋宁说是体现了大数据的威力以及企业采用大数据思维的重要性。

所以，这一讨论的初步判断应该是：数据为王！不过，既然「大数据思维」是一种思维方式，在其它领域必定都有应用。周三推送的文章《大数据和机器智能对未来社会的影响》中提到的两个 Google 的产品案例——即搜索和机器翻译，恰好可以作为「数据为王」的有力证据。

搜索

众所周知，Google 是做互联网搜索起家的，基于搜索的 AdWords 和 AdSense 自动广告系统至今依然是 Google 最主要的利润来源。和关于无人驾驶的讨论一样，大多数人认为 Google 的搜索比微软的 Bing 在质量上做得略好一点的原因是「Google 的算法好」。

对此，吴军博士曾在《智能时代》中解释道，「这种看法在 2010 年之前是对的，因为那时 Bing 在技术和工程方面明显落后于 Google。与搜索算法尚不成熟的 2000 年不同，今天已经不存在一个未知的方法，仅凭它就能将准确率提高哪怕一个百分点。今天这两家公司在技术上已经相差无几了，Google 还能稍稍占优，很大程度上靠的是数据的力量。」

图 2 Google 的两位创始人 Sergey Brin 和 Larry Page

Google 凭借 PageRank 算法给搜索结果带来了质的变化，而好的搜索结果能吸引更多的用户使用 Google 的搜索引擎，这不知不觉间给 Google 提供了大量的点击数据。有了这些数据之后，Google 可以训练出更精确的「点击模型」，而点击模型贡献了今天搜索排序至少 60%~80% 的权重，这将吸引更多的用户。

整个过程是一个典型的不断自我强化的正反馈过程，是「网络效应」发挥威力最后形成市场垄断的典型案例。Google 正是充分利用了大数据的力量，在如大禹治水般治理混乱的互联网的同时，顺利成为了对整张互联网举足轻重的「枢纽节点」，非常自然地实现了对互联网的垄断。如果拿掉了 Google 这个节点，中国之外的整个互联网就会陷入瘫痪。

机器翻译

去年的这个时候，Google 发布了新版本的神经机器翻译系统（Google Neural Machine Translation，GNMT），宣称该系统的翻译质量接近人工笔译。大多数网友在实际测试过后，都表示眼前一亮。与此同时，这也引起了某些翻译工作者的恐慌：「作为翻译看到这个新闻的时候，我理解了 18 世纪纺织工人看到蒸汽机时的忧虑与恐惧。」而这其实也是充分利用大数据的结果。

图 3 2005 年 NIST 从阿拉伯语到英语的翻译（封闭集）评比结果

其实早在 2005 年，Google 机器翻译的质量就让全世界从事自然语言处理的人震惊不已了：从来没有从事过机器翻译的 Google，在美国国家标准技术研究所（National Institute of Standards and Technology，NIST）的年度测评中遥遥领先。如图 3 所示，在阿拉伯语到英语翻译的封闭测试集中，Google 系统的 BLUE 评分为 51.31%，领先第二名将近 5%，而提高这 5 个百分点在过去需要学术界研究 5 ~ 10年。

图 4 机器翻译专家Franz Och博士

Google 究竟是怎么做到的呢？除了Google 一贯的行事风格——把该领域全世界最好的专家、南加州大学 ISI 实验室的弗朗兹·奥科（Franz Och）博士挖过来之外，最关键的还是 Google 手里握有改进机器翻译系统所需要的大数据。

从奥科 2004 年加入 Google 到 2005 年参加 NIST 测试，期间只有一年时间，如此短的时间只够他将在南加大的系统用 Google 的程序风格重新实现一遍，完全没有额外的时间做新的研究。而从图 3 中我们可以看到，Google和南加大系统的水平差了5~10 年。

其中的秘密就在于：奥科在Google还是用的在南加大使用过的方法，但充分利用了Google在数据收集和处理方面的优势，使用了比其他研究机构多上万倍的数据，训练出一个机器翻译的六元模型（一般来讲 N 元模型的 N 值不超过 3）。当奥科使用的数据是其他人的上万倍时，量变的积累导致了质变的发生，而这就是当今人工智能领域的权威杰弗里·辛顿（Geoffrey Hinton）教授所坚持的「多则不同」吧。

值得一提的是，上图中的排在末位的 SYSTRAN 公司是一家使用语法规则进行翻译的企业，在科学家们还没有想到或者有条件利用统计的方法进行机器翻译之前，该企业在机器翻译领域是最领先的。但现在与那些采用了数据驱动的统计模型的翻译系统相比，它的翻译系统就显得非常落后了。

经过上述分析，对本节开头的讨论终于可以下一个肯定的结论：在当下的企业竞争中，相比于算法或数学模型，数据的重要性的确要大得多！因为前者往往由学术界在几十年前就已经发现了，所有企业都可以加以利用，但是多维度的完备数据并不是每一个企业都拥有的。

今天很多企业在产品和服务上的竞争，某种程度上已经是数据的竞争了，可以说没有数据就没有智能。因为从理论上讲，只要能够找到足够多的具有代表性的数据，就可以利用概率统计结果找到一个数学模型，使得它和真实情况非常接近，从而节省了大量人力成本或给予了用户更愉悦的体验。

数据共享？不可能！

在讨论 Google 搜索案例中提到的「网络效应」其实具有普适性：通过收集更多数据，公司会有更大的空间来改进产品，从而吸引更多用户，产生更多数据，如此循环。

将「网络效应」应用到自动驾驶产业：如果某家企业现将自动驾驶汽车投放市场，再从中收集数据以改进自动驾驶系统，改善后的系统会吸引更多的用户来购买，更多的自动驾驶汽车在路上跑会产生更多的数据。由此，自动驾驶系统将进一步得到改善，如此反复循环。

或许这就是特斯拉 2017 年第一季度只卖出了 2.5 万辆车，但市值曾一度超过卖出 230 万辆汽车的通用汽车还高的原因之一——海量的数据积累充当了产品的护城河。

图 5 数据驱动式收购

图 5 中的收购案例由《经济学人》杂志所整理。从数据的角度看，大公司之所以收购某家公司，其真正想要的或许是收购标的所拥有的数据。例如，Intel之所以花 153 亿美元收购Mobileye是因为后者拥有经过大量数据训练过的处理图像数据的数学模型及其芯片产品，微软之所以花 262 亿美元收购LinkedIn是因为后者拥有最全的职场社交数据，Google之所以花 12 亿美元收购Waze是因为后者拥有的地图数据以及收集地图数据的方法，等等。

如果各家巨头花重金收购企业的目的真是为了获得数据，那让它们把数据共享出啦就难上加难了，特别是自动驾驶这样一个市场潜力达万亿级别的产业。有几个案例可以证明这一点。

图 6 Federal Autonomous Vehicles Policy

去年 9 月 20 日，美国国家公路交通安全管理局颁布了《联邦无人驾驶汽车政策：加快实现下一代道路安全技术革命》（Federal Automated Vehicle Policy：Accelerate the Next Revolution in Roadway Safety）。该文件中要求参与无人车道路测试的企业在测试汽车发生事故时必须与NHTSA以及其他企业共享该故障的相关数据，但很明显，各企业对此表现得并不热心。

代表 Google、Uber 和 Lyft 三家企业的大卫·思特里克兰德（David Strickland）表示，「在商业竞争激烈的无人驾驶汽车领域，要求企业共享出宝贵的、甚至包含有机密商业信息的数据，确实令企业为难。」

此外，nuTonomy 创始人卡尔·雅奈玛（Karl Iagnaema）在接受 MIT Technology Review 的一次采访中也表示：「汽车厂商共享数据的行为将非常有意义，特别是对于无人驾驶这种需要大量且多样数据的技术领域。但是，汽车厂商的高层们担心这会削弱自身优势，因而心底并不是很情愿，这使得共享数据资源变得十分困难。」

首先，需要指出的是，Google 无人驾驶虽然只完成了 300 万英里的道路测试里程，但是虚拟测试里程已经达到几十亿英里的量级。

其次，在各方都意识到数据重要性的今天，即便某一家企业把自家的数据共享出来，在「黑暗森林法则」的重要概念——「猜疑链」的作用下，其它企业真的敢用么？要知道，自动驾驶技术中，第一重要的便是安全性。

可能是基于上述考虑，Google 并没有重走早已轻车熟路的「Android 联盟」模式，而是走苹果公司「软硬件一体化」的模式——将自动驾驶技术的竞争带到了需要玩家开发自动驾驶软件系统、自制专用人工智能芯片和所有感知硬件系统的高度！

当然，这一切还是为了保证自动驾驶汽车的安全！

参考资料

吴军. 智能时代. 中信出版社. 2016 年 8月

吴军. 大数据和机器智能对未来社会的影响. 电信科学. 2015 年第 2 期

Kate Conger. FederalPolicy for Self-Driving Cars Pushes Data Sharing. Tech Crunch. 2016.9.20

Will Knight. An Ambitious Plan to Build a Self-Driving Borg. MIT Technology Review. 2016.10.10

作者：厚势分析师拉里佩

-END-