分享

100年后谁重建了数字时代的「流水线」?数据的唯一真相是否存在?

 Triumph 2020-03-15

(文章转载自机器之能公众号)编译 | 机器之能

极客们或许不擅于表达,他们也从不以诗人自居。但当他们谈到处理数据遇到的主要挑战时,通常自有一套话语体系,比如难点在于寻找「真相的唯一版本」。

这很好地描述了 IT 技术出现 60 年以来的核心目标,并巧妙地概括了数据经济中企业的主要压力:寻找数据背后的真相,识别出那些准确反映现实的数据并将之融会贯通,变得愈发困难和重要。

愈发困难是因为数据和数据源都在成倍增加。愈发重要则是企业需要构建好自己的数据库才能从 AI 中收益,这是保持竞争力的必要条件。

咨询公司麦肯锡(McKinsey)调查显示,人工智能提高了收入,并降低了成本投入。

在麦肯锡的调查中,成本方面,供应链管理、战略和公司财务业务受人工智能技术影响较大,下降超过 20% 的比重较多。

收入方面,产品和服务开发、供应链管理、服务运营以及生产制造业务受人工智能技术影响较大,收入上升超过 10% 的比重较多。

什么是AI-ssembly line

幸运的是,技术为棘手的数据问题注入了希望。

数据处理软件和云计算正在让「AI 流水线」(AI-ssembly line)逐步落地。这个概念由 IT 领域投资人和资深观察家乔治·吉尔伯特(George Gilbert)提出,他借用了 100 多年前电气时代的故事。

当时成组的机器必须紧密地围绕在蒸汽机周围;然后电力取代蒸汽,成为工厂的主要动力来源,电力可以按需随处分配,便使得流水线作业成为可能。

数字时代里的故事恰恰相反:公司的业务应用程序和构建这些应用的软件,正在围绕着一种新的动力源进行虚拟重组,这种动力源被称为「数据仓库」或「数据池」,即中央数位存储库。假以时日,它可能会让公司得以建立完整的数字孪生体。

数字孪生的关键进步,是通过数字化的手段,将原先无法保存的专家经验进行数字化,并提供了保存、复制、修改和转移的能力。通过这种数字化的手段可以改变整个产品的设计、开发、制造和服务过程,并连接企业的内部和外部环境。

寻找数据背后的真相并非易事。因为数据来源复杂,格式繁冗,难以整合。即使是客户名称这样一个再简单不过的信息,也有不同的定义和存储方式。一家公司拥有的软件应用程序可能达到数千个,同时意味着数千个数据库。因为无法连接整合这些数据,大批首席信息官失去了工作。

早在数据被用来跟踪公司某种交易行为时,比如处理订单或管理供应链,数据集成的问题就出现了,并且一发不可收拾。在 20 世纪 90 年代,企业开始使用自有数据来计算行为特点,即所谓的「分析」。

十年前,他们开始透过挖掘数据进行业务趋势预测,这种方法最初被称为「大数据」,现在叫做人工智能。现在,企业数据不仅分布在各式各样的数据库中,还寄存在不同的云服务里,通过第三方和连接的设备中流入。

如何实现

首先,数据仓库和数据池的创新,让数据产品变得易用。数据的管理成本降低,而且不同来源的数据更容易获取,并能够被不同用户使用。AWS 和 Azure 等大型云计算服务商、初创公司雪花(Snowflake)都提供了类似产品。

其次,针对不同类型的实时数字流,设置专门的数据库分门别类处理。初创企业 Confluent 销售基于开源程序 ApacheKafka 的云服务,该程序分析数据流并将它们转储到数据池中。德国博世(Bosch)利用 Confluent 从电动工具端收集和挖掘数据,管理维修和建筑工地业务。

然而,真正让乔治口中「AI 流水线」成形的还是第三类软件和服务。这些工具可以梳理清洗数据,可以轻松设计和训练 AI 算法,将其部署到应用中能够自动执行决策并不断改进。

意大利国家电力公司(Enel)使用此类工具追踪到了头号偷电贼。壳牌石油公司通过算法确保成千上万种备件的供应链源源不断。非营利贷款公司 Kiva 与 Snowflake 合作建立了一个数据仓库,使它可以更好地决定谁应该得到贷款。

也有不那么幸运的公司,他们忘记了技术永远只是解决方案的一个部分。

他们因为「AI 能提升利润」宣传词而蠢蠢欲动,或者在你争我夺的商业竞争中而焦虑不安,试图胡乱拼凑出一条「AI 流水线」,却以失败告终。

他们缺少适合自身业务的开发人员和数据科学家,或者不想支付高昂的薪水。当然,这也为 IT 供应商提供了一个销售「AI 流水线」打包方案的机会,尽管销售方向各不相同。

背后的服务商们

就拿 IT 界的老祖宗 IBM 来说,他们的优势就是服务。

他们正在帮助企业构建「Data Plane」,一个用于开发 AI 应用的一系列程序,由其即将上任的新老板阿文德·克里希纳(Arvind Krishna)提出。

他还是一家「数据炼油厂」。他们会收集和销售能够帮助保险公司计算费率,让电力公司预测停电地点的天气颗粒数据。他们还提供一系列人工智能服务,包括视觉识别和机器翻译,客户可以将这些服务插入到他们的产品中。

甲骨文,全球领先的关系数据库供应商,仍然是 IT 界的主力军,并通过提供所谓的「自治数据库」(Oracle Autonomous Database Warehouse)来巩固其地位。

该服务结合并自动化了各种数字报告,加上人工智能,因此客户不必自己把所有这些程序放在一起。「在一个引擎中有许多数据引擎。」该公司的高级数据策略师 Paul Sondereger 解释道,这样的整合将是提高公司「数据生产率增加每数据输入的美元产出」的关键。

世界领先的关系数据库供应商甲骨文 (Oracle) 仍然是 IT 界的主力军,通过提供所谓的「自治数据库」来强化这一地位。这种类型的服务整合各类数据库和人工智能技术,以实现业务自动化。

「在一个引擎中包含了多个数据引擎」,高级数据策略师 Paul Sonderegger 解释道,这种集成对于提高公司的「数据生产率」(即增加每个数据输入的美元产出)至关重要。

至于年轻一点的 IT 公司,他们五花八门的服务产品正让其在数据市场如鱼得水。

Salesforce,以提供管理客户关系服务起家,在过去两年里花费了数十亿美元来开发自己的 AI 技术解决方案「爱因斯坦」,并收购了两家大数据公司 MuleSoft 和 Tableau。

Salesforce 的总裁兼首席运营官 Bret Taylor 表示,要让企业能够整合和连接其数据,以便对自己的客户「一目了然」,使得企业更轻松地预测客户的行为,提供个性化服务,无论客户出现在零售店还是网店都能识别出来。

此外还有一大批中小规模的公司。

Databricks 建立了一个 AI 平台,提供清洗数据、构建和部署算法的工具。C3.ai 提供类似的功能,但主要目标是帮助大公司进行数字化转型。Qlik 以分析和数据可视化闻名,最近已进入 AI 领域。

真相是否真的存在?

市场研究公司 Gartner 的黛布拉洛根(Debra Logan)表示,尽管有这样的工具,许多人工智能项目仍然令人失望。一个大问题是数据孤岛,这反映了企业的内部边界。

公司内部的不同部门害怕失去权力,不愿意分享他们的数据,也不愿意改变他们收集的内容和方式。某种意义上也说明,数据结构不过是被模糊后的权力结构。这使得许多公司无法制定连贯的「数据战略」,以确保它们真正能收集和分析实现业务目标所需的信息。

为了克服这种数据孤岛,一些企业进行了组织变革。越来越多企业开始设置「首席数据官」,他召集各部门领导层,确保 IT 部门和业务部门能够协同合作。在此之前,他们必须建立起类似于「AI 流水线」的架构。否则,高层以及技术方面的变革也无济于事。

根据 Gartner 最近的一项调查,「数据素质不佳」是公司数据项目的第二大障碍,仅次于「接受变革的文化挑战」。

Qlik 首席技术官迈克·波特(Mike Potter)表示,改变这一点并不意味着所有员工都必须成为数据科学家,而是要对数据可以用来干什么、不可以干什么有基本的了解。

他认为,数据永远都不是中立的,必须始终受到质疑:收集它们可能是出于政治原因,又或者以某种隐秘的方式。

「我们都认为数据是如此客观,」他说,「但实际上它们和莎士比亚一样,站在不同的角度就会有不同的解读。」

尽管技术如此丰富,但「唯一版本的真相」可能永远都不会有。

编译来源:经济学人 20200222 期 Business 版块,《The new AI-ssembly line》

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多