100年后谁重建了数字时代的「流水线」？数据的唯一真相是否存在？

Triumph 2020-03-15

展开全文

(文章转载自机器之能公众号)编译 | 机器之能

极客们或许不擅于表达，他们也从不以诗人自居。但当他们谈到处理数据遇到的主要挑战时，通常自有一套话语体系，比如难点在于寻找「真相的唯一版本」。

这很好地描述了 IT 技术出现 60 年以来的核心目标，并巧妙地概括了数据经济中企业的主要压力：寻找数据背后的真相，识别出那些准确反映现实的数据并将之融会贯通，变得愈发困难和重要。

愈发困难是因为数据和数据源都在成倍增加。愈发重要则是企业需要构建好自己的数据库才能从 AI 中收益，这是保持竞争力的必要条件。

咨询公司麦肯锡（McKinsey）调查显示，人工智能提高了收入，并降低了成本投入。

在麦肯锡的调查中，成本方面，供应链管理、战略和公司财务业务受人工智能技术影响较大，下降超过 20% 的比重较多。

收入方面，产品和服务开发、供应链管理、服务运营以及生产制造业务受人工智能技术影响较大，收入上升超过 10% 的比重较多。

一

什么是AI-ssembly line

幸运的是，技术为棘手的数据问题注入了希望。

数据处理软件和云计算正在让「AI 流水线」（AI-ssembly line）逐步落地。这个概念由 IT 领域投资人和资深观察家乔治·吉尔伯特（George Gilbert）提出，他借用了 100 多年前电气时代的故事。

当时成组的机器必须紧密地围绕在蒸汽机周围；然后电力取代蒸汽，成为工厂的主要动力来源，电力可以按需随处分配，便使得流水线作业成为可能。

数字时代里的故事恰恰相反：公司的业务应用程序和构建这些应用的软件，正在围绕着一种新的动力源进行虚拟重组，这种动力源被称为「数据仓库」或「数据池」，即中央数位存储库。假以时日，它可能会让公司得以建立完整的数字孪生体。

数字孪生的关键进步，是通过数字化的手段，将原先无法保存的专家经验进行数字化，并提供了保存、复制、修改和转移的能力。通过这种数字化的手段可以改变整个产品的设计、开发、制造和服务过程，并连接企业的内部和外部环境。

寻找数据背后的真相并非易事。因为数据来源复杂，格式繁冗，难以整合。即使是客户名称这样一个再简单不过的信息，也有不同的定义和存储方式。一家公司拥有的软件应用程序可能达到数千个，同时意味着数千个数据库。因为无法连接整合这些数据，大批首席信息官失去了工作。

早在数据被用来跟踪公司某种交易行为时，比如处理订单或管理供应链，数据集成的问题就出现了，并且一发不可收拾。在 20 世纪 90 年代，企业开始使用自有数据来计算行为特点，即所谓的「分析」。

十年前，他们开始透过挖掘数据进行业务趋势预测，这种方法最初被称为「大数据」，现在叫做人工智能。现在，企业数据不仅分布在各式各样的数据库中，还寄存在不同的云服务里，通过第三方和连接的设备中流入。

二

如何实现

首先，数据仓库和数据池的创新，让数据产品变得易用。数据的管理成本降低，而且不同来源的数据更容易获取，并能够被不同用户使用。AWS 和 Azure 等大型云计算服务商、初创公司雪花（Snowflake）都提供了类似产品。

其次，针对不同类型的实时数字流，设置专门的数据库分门别类处理。初创企业 Confluent 销售基于开源程序 ApacheKafka 的云服务，该程序分析数据流并将它们转储到数据池中。德国博世（Bosch）利用 Confluent 从电动工具端收集和挖掘数据，管理维修和建筑工地业务。

然而，真正让乔治口中「AI 流水线」成形的还是第三类软件和服务。这些工具可以梳理清洗数据，可以轻松设计和训练 AI 算法，将其部署到应用中能够自动执行决策并不断改进。

意大利国家电力公司（Enel）使用此类工具追踪到了头号偷电贼。壳牌石油公司通过算法确保成千上万种备件的供应链源源不断。非营利贷款公司 Kiva 与 Snowflake 合作建立了一个数据仓库，使它可以更好地决定谁应该得到贷款。

也有不那么幸运的公司，他们忘记了技术永远只是解决方案的一个部分。

他们因为「AI 能提升利润」宣传词而蠢蠢欲动，或者在你争我夺的商业竞争中而焦虑不安，试图胡乱拼凑出一条「AI 流水线」，却以失败告终。

他们缺少适合自身业务的开发人员和数据科学家，或者不想支付高昂的薪水。当然，这也为 IT 供应商提供了一个销售「AI 流水线」打包方案的机会，尽管销售方向各不相同。

三

背后的服务商们

就拿 IT 界的老祖宗 IBM 来说，他们的优势就是服务。

他们正在帮助企业构建「Data Plane」，一个用于开发 AI 应用的一系列程序，由其即将上任的新老板阿文德·克里希纳（Arvind Krishna）提出。

他还是一家「数据炼油厂」。他们会收集和销售能够帮助保险公司计算费率，让电力公司预测停电地点的天气颗粒数据。他们还提供一系列人工智能服务，包括视觉识别和机器翻译，客户可以将这些服务插入到他们的产品中。

甲骨文，全球领先的关系数据库供应商，仍然是 IT 界的主力军，并通过提供所谓的「自治数据库」（Oracle Autonomous Database Warehouse）来巩固其地位。

该服务结合并自动化了各种数字报告，加上人工智能，因此客户不必自己把所有这些程序放在一起。「在一个引擎中有许多数据引擎。」该公司的高级数据策略师 Paul Sondereger 解释道，这样的整合将是提高公司「数据生产率增加每数据输入的美元产出」的关键。

世界领先的关系数据库供应商甲骨文 (Oracle) 仍然是 IT 界的主力军，通过提供所谓的「自治数据库」来强化这一地位。这种类型的服务整合各类数据库和人工智能技术，以实现业务自动化。

「在一个引擎中包含了多个数据引擎」，高级数据策略师 Paul Sonderegger 解释道，这种集成对于提高公司的「数据生产率」（即增加每个数据输入的美元产出）至关重要。

至于年轻一点的 IT 公司，他们五花八门的服务产品正让其在数据市场如鱼得水。

Salesforce，以提供管理客户关系服务起家，在过去两年里花费了数十亿美元来开发自己的 AI 技术解决方案「爱因斯坦」，并收购了两家大数据公司 MuleSoft 和 Tableau。

Salesforce 的总裁兼首席运营官 Bret Taylor 表示，要让企业能够整合和连接其数据，以便对自己的客户「一目了然」，使得企业更轻松地预测客户的行为，提供个性化服务，无论客户出现在零售店还是网店都能识别出来。

此外还有一大批中小规模的公司。

Databricks 建立了一个 AI 平台，提供清洗数据、构建和部署算法的工具。C3.ai 提供类似的功能，但主要目标是帮助大公司进行数字化转型。Qlik 以分析和数据可视化闻名，最近已进入 AI 领域。

四

真相是否真的存在？

市场研究公司 Gartner 的黛布拉洛根（Debra Logan）表示，尽管有这样的工具，许多人工智能项目仍然令人失望。一个大问题是数据孤岛，这反映了企业的内部边界。

公司内部的不同部门害怕失去权力，不愿意分享他们的数据，也不愿意改变他们收集的内容和方式。某种意义上也说明，数据结构不过是被模糊后的权力结构。这使得许多公司无法制定连贯的「数据战略」，以确保它们真正能收集和分析实现业务目标所需的信息。

为了克服这种数据孤岛，一些企业进行了组织变革。越来越多企业开始设置「首席数据官」，他召集各部门领导层，确保 IT 部门和业务部门能够协同合作。在此之前，他们必须建立起类似于「AI 流水线」的架构。否则，高层以及技术方面的变革也无济于事。

根据 Gartner 最近的一项调查，「数据素质不佳」是公司数据项目的第二大障碍，仅次于「接受变革的文化挑战」。

Qlik 首席技术官迈克·波特（Mike Potter）表示，改变这一点并不意味着所有员工都必须成为数据科学家，而是要对数据可以用来干什么、不可以干什么有基本的了解。

他认为，数据永远都不是中立的，必须始终受到质疑：收集它们可能是出于政治原因，又或者以某种隐秘的方式。

「我们都认为数据是如此客观，」他说，「但实际上它们和莎士比亚一样，站在不同的角度就会有不同的解读。」

尽管技术如此丰富，但「唯一版本的真相」可能永远都不会有。

编译来源：经济学人 20200222 期 Business 版块，《The new AI-ssembly line》

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： Triumph > 《人工智能》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

Triumph

关注对话

TA的最新馆藏

张首晟对信息的认识S=-p log p
幽门螺旋杆菌的检测与治疗
双管齐下，延寿30%！约翰霍普金斯大学发现延寿新策略
让灭绝生物“重生”，这些科研利器立功了！
ChatGPT能预测未来特定事件，准确率高达97%
2024生物科技大爆炸：这10家初创公司将颠覆未来！质谱技术、过敏筛查、蛋白质测序、抗体合成！

喜欢该文的人也喜欢更多

热门阅读换一换