分享

A16Z合伙人:人工智能领域是否存在“赢家通吃”效应?

 文明世界拼图 2018-12-27

编者按:人工智能时代,数据是关键。但是,拥有大量数据的公司会在人工智能时代变得更加强大吗?近日,A16Z合伙人Benedict Evans近日在其博客上发表了一篇文章,对这个问题进行了回答。他认为,普遍情况下,人工智能只会让大公司更适合成为大公司。人工智能是否具备赢家通吃效应,还要看情况。原题为“Does AI make strong tech companies stronger?”文章由36氪编译,希望能够为你带来启发。

A16Z合伙人:人工智能领域是否存在“赢家通吃”效应?

机器学习,可能是当今所有的技术中最重要的。

由于机器学习的基础是数据——大量的数据——所以人们经常听到这样的说法,即已经拥有大量数据的公司会变得更加强大。

这有一定道理,但只是在小范围内可以这样说。与此同时,我们也能看到,机器学习会带来能力扩散,整个过程中,它带来的去中心化和集中化一样多。

首先,机器学习是关于数据的。这意味着什么?

由于机器学习的学术氛围,几乎所有的基础技术突破,在发现之后都会立即发表出版。每个人都能读到关于这些突破的论文,甚至有代码,可以复现这一突破。

在过去,软件工程师想要创建一个系统来识别某些东西,他们要写逻辑步骤(“规则”)。

为了识别图片中的猫,你需要写一些规则来识别猫的轮廓、皮毛、腿、眼睛、尖耳朵等等,然后把它们打包在一起,希望它能起作用。

问题在于,尽管这在理论上可行,但在实践中,就相当于试图制造一匹机械马,它所需要的复杂性逻辑是不切实际的。我们无法描述我们识别猫的所有逻辑步骤。

使用机器学习,你只需要给统计引擎提供例子(很多例子),这个引擎会生成一个模型来区分这些例子中的不同之处。

你给它100000张贴有“猫”标签的照片和100000张贴有“不是猫”标签的照片,机器就能找出区别。

机器学习,用从数据中自动确定的模式代替了手写的逻辑步骤。对于一些非常广泛的问题,它的效果更好。一些简单的应用是在计算机视觉、语言和语音方面,但它的用例要广泛得多。

你需要多少数据是不断变化的:有一些研究路径,可以让机器学习处理小得多的数据集。但现在,还是数据越多越好。

因此,问题是:如果用机器学习让做新的重要的事情,而且机器学习需要越多数据越好,这是否意味着那些已经很大并且拥有大量数据的公司会变得更强大?赢家通吃效应有多严重?

不难想象,会有一个良性循环,来强化赢家的主导地位:

更多数据=更精确的模型=更好的产品=更多用户=更多数据。

基于此,得出像“谷歌/ Facebook /亚马逊拥有大量数据”或者“中国拥有大量数据”,将会在人工智能领域占据上风的观点,会变得很容易。

好吧,也可以这样说。

首先,虽然机器学习需要大量的数据,但是你使用的数据要非常适合你试图解决的问题。

通用电气有大量来自燃气涡轮机的遥测数据,谷歌有大量搜索数据,美国运通有大量信用卡欺诈数据。

但你不能用涡轮机数据来训练模型,去发现欺诈交易,也不能用网络搜索数据训练模型去发现即将失效的燃气涡轮机。

也就是说,机器学习是一种可推广的技术——你可以将其用于欺诈检测或面部识别——但是你用它构建的应用程序并不具备可推广性。

你训练的每一个模型只能做一件事。

这与之前的自动化浪潮非常相似:就像洗衣机只能洗衣服,不能洗碗做饭,象棋程序不能交税一样,机器学习翻译系统也不能识别猫。

你构建的应用程序和你需要的数据集,都与你试图解决的任务强相关(尽管这也是一个不断变化的目标,有研究试图让机器学习模型在不同的数据集之间更容易迁移)。

这意味着机器学习的实现的分布将会非常广泛。

谷歌不会“拥有所有的数据”——谷歌会拥有所有的谷歌数据。谷歌给出更相关的搜索结果,通用电气将会有更好的涡轮机遥测技术,沃达丰将会有更好的呼叫模式分析和网络规划,这些都是不同公司建立的不同东西。

谷歌会越来越擅长成为谷歌,但这并不意味着它在其他方面也做得越来越好。

接下来,人们可能会争辩说,这只是意味着每个行业中的大公司变得更加强大——沃达丰、通用电气和美国运通都拥有它们做的任何事情的“所有数据”,从而形成了抵御竞争对手的护城河。

但是在这个方面,情况又变得更加复杂,会有各种有趣的问题涌现。比如谁拥有数据,数据有多独特,数据在什么层面上是独一无二的,以及聚合和分析数据的正确位置在哪里。

所以:作为一家工业公司,你会保留自己的数据并建立机器学习系统来分析它吗(或者付钱给承包商来帮你这样做)?

你会从供应商那里购买用其他人的数据训练的成品吗?你是将你的数据融入其中,还是用你的数据进行训练?供应商是否需要你的数据,或者它们已经有足够的数据了?

对于不同的业务部门、不同的行业和不同的用例,答案会有所不同。

从另一个角度来说,如果你正在创建一家公司来用机器学习解决现实世界的问题,那么有两个基本的数据问题:

你如何获得第一批数据来训练你的模型去获得第一个客户?你需要多少数据?

当然,第二个问题可以分解成许多问题:

是用相对较少且相当容易获得的的数据来解决问题?(但许多竞争对手可以获得) 。

还是你需要更多的、难以获得的数据去解决问题?

如果是这样的话,是否存在一种网络效应可以从中受益?一个赢家将获得所有的数据?

产品是随着更多的数据无限期地变得更好,还是存在一个S曲线?

这要看情况。

有些数据,是企业或产品所独有的,或者具有很强的专有优势。 通用电气公司的涡轮机遥测技术在分析劳斯莱斯的涡轮机方面,可能没有多大用处。当然,如果有用的话,他们也不会分享。

这可能是一个创办公司的机会,也是许多大公司的技术部门和承包商设计项目的地方。

一些数据,可以应用于许多公司甚至许多行业中的用例。

比如,“这个电话有些奇怪”,可能在所有信用卡公司中都有用。“顾客听起来很生气”,可能适用于任何设立有呼叫中心的企业。

基于此,诞生了许多创业公司,以解决许多公司或不同行业的共性问题,并且这里的数据具有网络效应。

但是也有这样的情况,即在某个时间点之后,供应商甚至不需要每个更多的数据了,因为产品已经开始工作了。

实际上,随着机器学习扩散到几乎所有领域,可以从很多创业公司种看到这些情况。我们(A16Z)的投资的公司Everlaw开发了一个法律发现软件:如果你起诉某人,他们给你一卡车的文件,这对你有帮助。

使用机器学习,他们能够对一百万封电子邮件进行情感分析,但不需要根据你的案件数据对模型进行训练,因为情感识别模型的训练数据,不需要来自这个特定的诉讼(或任何诉讼)。

另一家公司Drishti使用计算机视觉技术来检测和分析生产线,其中一些模型是根据你的数据训练出来的,另一些根本不是针对于你的业务,而是跨行业工作的。

还有一些极端情况。最近,我与一家大型车辆制造商的内部人士进行了交谈,这家制造商正在利用机器学习技术来开发更精确的爆胎检测器。

这是基于大量轮胎的数据训练出来的模型。但很明显,获得这些数据并不难。所以,这只能是一个功能,而不是算是护城河。

我早些时候说过,机器学习创业公司需要回答两个问题:

你是如何获得数据的?你需要多少数据?

但是这些只是技术层面的问题,你还需要问自己:

如何进入市场?你的目标市场是什么?你正在解决的问题对你的客户有多有价值?等等。   

也就是说,很快将不会有任何“人工智能”创业公司,它们将是工业流程分析公司、法律平台公司或销售优化公司。

事实上,机器学习的普及并不意味着谷歌变得更强大,而是意味着各种各样的创业公司,能够比以前更快地利用这一前沿技术来构建一个应用,解决一个问题。

这让我想到了我在其他地方用过的一个比喻:我们应该将机器学习与SQL进行比较。

它是构建新的重要的事情的基石,在未来将成为一切的一部分。如果你不使用它,而你的竞争对手会使用它,你就会落后。

一些人将基于此创建全新的公司,沃尔玛的一部分成功因素,就是使用数据库更有效地管理库存和物流。

但是今天,如果你创办了一家零售公司,并说“……我们将使用数据库”,这不会让你变得不同或有趣,因为SQL成为了一切的一部分,然后它就在话语体系中消失了。

机器学习也会如此。

原文链接:https://www./benedictevans/2018/12/19/does-ai-make-strong-tech-companies-stronger

编译组出品。编辑:郝鹏程

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多