原文: AI AND ‘ENORMOUS DATA’ COULD MAKE TECH GIANTS HARDER TO TOPPLE 来源: https://www./story/ai-and-enormous-data-could-make-tech-giants-harder-to-topple/
原文翻译: 新的一周,谷歌(Google)又公开了一项创纪录的新人工智能研究。这一次,研究的成果向我们提示了当前人工智能繁荣下的一项重要业务动态。传统上人们认为,消费者和社会经济日益倚重的科技公司生态系统通过颠覆来保持创新、杜绝垄断,小公司也正是凭借这种颠覆过程打败大企业。然而,一旦科技行业的竞争成败系于由巨量数据驱动的机器学习系统,打败一家科技巨头可能要比以往任何时候都更困难。
谷歌在周一发布了新论文的预印版本,其中描述了该公司跟卡内基梅隆大学(Carnegie Mellon University,以下简称CMU)成本高昂的合作项目。他们的图像识别实验在整整两个月里整合了50个强大的图形处理器,并使用了一个前所未有的庞大图集,其中包含了3亿张经过标记的图片(图像识别领域大多数研究工作所使用的标准图集仅包含100万张图片)。该实验项目旨在测试,能否通过向算法馈入更多的数据来使其得出更准确的图像识别结果,而不是对现有的算法设计进行调整。
答案是:可以。在谷歌和CMU的研究人员使用规模庞大的新数据集对一套标准的图像处理系统进行训练之后,他们称,系统在数项标准测试中得到了新的高分——这些测试旨在评估软件解读图像的能力,比如识别照片中的对象。研究人员馈入的数据量跟图像识别算法的准确性之间存在着明确的关联。这些发现在某种程度上解答了一个在人工智能学界流传的问题,即我们能否仅仅通过向现有算法馈入更多的数据来获得更强大的性能。
该研究揭示,即便本身就具备极大的规模,更多的数据也还是会带来更强大的性能表现。这表明,成为谷歌、Facebook或微软(Microsoft)那样掌握大量数据的公司,其好处远远超过我们此前的设想。图像处理系统基于谷歌包含3亿张图片的巨大数据集进行学习,这并未产生巨大的好处——从100万张图片到3亿张图片,系统识别对象能力的得分仅仅提升了3个百分点——但论文作者表示,他们认为可以通过调整软件更好地适应超大型数据集来扩大这种优势。即便事实证明情况并非如此,但在科技行业当中,很小的优势也可能造成重要影响。比如,就自动驾驶汽车视觉技术的准确性来说,每一点增益都是至关重要的;而对一款能够创收数十亿美元的产品而言,小小的效率提升将能产生滚雪球效应。
在聚焦人工智能的公司当中,囤积数据已经作为一种防御性战略相沿成习。谷歌、微软以及其他公司已经开源了大量软件,乃至硬件设计,但却收紧了对那些能够让软、硬件工具发挥作用的数据的控制。科技公司确实公开了一些数据:去年,谷歌发布了一个采集自700多万段YouTube视频的大型数据集,Salesforce也开放了一个取自维基百科(Wikipedia)的数据集以帮助算法分析语言。但卢克·德奥利维拉(Luke de Oliveira)表示——他是人工智能研发实验室Manifold的合伙人,同时也是劳伦斯伯克利国家实验室(Lawrence Berkeley National Lab)的访问研究员——(如你所想)这些被公开的数据通常不会对潜在竞争对手提供太大的价值。“它们从来不是那种对一款产品持续市场地位具有重要影响的数据集,”他说道。
谷歌和CMU的研究人员倒是说,他们希望自己关于“巨数据”价值的最新研究成果能够起到促进作用,催生出谷歌规模的更大开源图像数据集。“我们真诚地希望,这项研究能够启发计算机视觉技术领域的人士,让他们不要低估数据的价值,并共同努力来创建规模更大的数据集,”研究人员写道。来自CMU的阿比纳夫·古普塔(Abhinav Gupta)参与了这项研究,他表示,有一个选项是跟通用视觉数据基金会(Common Visual Data Foundation)合作,这是一家得到Facebook和微软支持的非营利机构,曾经发布开源的图像数据集。
与此同时,在一个拥有更多数据就能让算法变得更智能的世界中,那些缺少数据的公司如果想要生存下去,就必须要富有创造性。初创公司DataRobot的首席执行官杰里米·亚齐(Jeremy Achin)猜测,随着机器学习变得对越来越多的公司和行业举足轻重,一种见于保险行业的模式可能在更大范围内流行起来,即众多小保险公司(认真地)把各自数据“拼”到一起,以使其风险预测能够匹敌那些规模更大的竞争对手。
让机器学习不再那么渴求数据,这方面的进步有可能颠覆人工智能的数据经济学;优步(Uber)去年就收购了一家从事相关研究的公司。但现在,后来者仍然有可能试着避开人工智能巨头公司惯有的数据优势。Fast.ai是一家致力于让机器学习变得更易于访问的公司,其联合创始人蕾切尔·托马斯(RachelThomas)表示,初创公司可以在通常由互联网巨头把持的领域之外找到应用机器学习技术的地方,就比如说农业。“我不确信这些巨头公司一定在所有领域占据着优势,在很多特定领域中,根本没有人在收集数据,”她如是说。即便是人工智能领域的巨头也有盲点。 |
|