【原】关于数据和AI应用的思考

数据治理精英馆 2021-12-24

展开全文

将数据世界变成数据驱动的世界

曾经未知的事情现在可以通过几个查询来快速发现。决策者不再需要依靠直觉，他们更需要的是更广泛，更精确的证据。将数据输入到由机器学习和AI驱动的系统中，是此转换的核心。

在万物互联的时代，物理世界产生的数据呈指数级增长，他们有数千个来源：传感器、卫星图像、网络流量、数字应用、视频和信用卡交易等。这些类型的数据对决策具有重要影响。例如，过去，一家食品公司可能依靠人工调查来开发新产品。现在，它可以利用社交媒体、交易数据、搜索数据和人流量等信息，所有这些信息都表明人们可能已经对韩国烤肉产生了兴趣，这就是该公司应该集中精力关注的地方。

数据挖掘的潜力不仅应用在商业世界里，而且在公共卫生和安全领域也在广泛应用，政府机构和流行病学家都依靠这些数据来确定是什么导致了COVID-19的传播以及如何重新开放安全的区域。

但是，对于大多数组织来说，信息的爆炸式增长和对下一代分析工具的不熟悉可能是最大的障碍。

观点1：新的数据应用形式为组织提供了空前的速度和透明度

当首席执行官想要一个复杂问题的答案时，一个团队需要利用几个月时间给出答案，但是在竞争不断加速的世界中，这可能不够好。自动化的、数据驱动的AI系统的最大优势之一是能够快速回答战略问题。CEO期望当涉及到物理世界中发生的变化时，将其获得答案的时间减少到一个小时左右。

数据和AI不仅可以更快地找到答案，而且可以使模糊的问题变得透明。比如跨国公司就有需要确保其供应链可持续性的要求。像棕榈油这样的原材料可能在数百万个农场中生产，经过数千家炼油厂和工厂之后才到达该跨国公司的工厂之一。这是一条很难追踪的供应链。但是，先进的公司能够使用地理位置数据和卫星图像来跟踪物理世界中的供应链，并非基于可能不准确的商务文件信息，而是基于卡车行驶地点和森林砍伐地点的实时信息。

数据和AI不仅可以更快地找到答案，而且可以使模糊的问题变得透明。

由于构建和维护尖端算法的复杂性，非结构化数据尤其是图像和视频形式的数据对于组织使用仍然具有极大挑战性。CrowdAI正在释放从图像和视频中提取见解的能力。用户首先在原始图像中标记对象或像素，这是创建计算机视觉模型中最耗时的步骤。CrowdAI平台通过合并用户生成的标签来进一步自动化标签，并不断地根据人的反馈进行迭代，从而加快了标签流程。这样，消防员可以使用手机上的应用程序实时跟踪野火的行为，疫苗制造商可以在其生产线上使用计算机视觉来发现小瓶中可能会被人眼遗漏的微小缺陷。

有些公司利用可衡量的AI消除公司财务业绩中的一些猜测。例如公司可以使用自然语言处理和机器学习在获得用户许可的情况下在自己的邮件应用程序上汇总电子邮件回执，以进行统计建模。这种分析可以比传统的股票分析师更好地预测收益。例如可衡量的AI算法可以估算季度收益在实际收益的1％之内。

观点2：领域专业公司正在完善和优化可连接数据的收集和管理

由于数据范围如此之广，服务提供商正在寻找专门的领域，他们提炼各种复杂甚至凌乱的原始数据，并将数据反馈到机器学习或AI驱动的工具中进行分析。

比如专门致力于地理空间数据的公司。他们专注于收集、清理和更新有关兴趣点、建筑物占地面积和人流的数据，以使其可被应用程序和分析团队快速使用。此外，为了解决全球分配地址方式中许多古怪的问题，他们推出了Placekey，这是一个免费的开放式通用标识符，为每个物理位置提供一个标准ID。这使每个人在交互时都可以使用可识别的字符串，这一步骤将简化数据集的合并。这些数据经过处理整合，为其他组织的解决方案提供支持。

比如有的公司对来自卫星、移动设备、联网汽车、航拍图像和海上船只跟踪的数据进行整合汇聚。所有这些信息都采集到集成平台，使用户能够提取卫星图像中的所有内容，甚至自动记录感兴趣的对象并将其与平台上的其他数据连接。通过这些数据，您不必查看每一片玉米田或每条道路，就可以弄清农业收成是什么样，或者人们在COVID-19之后是否又回到了道路上。

观点3：大多数非科技组织都处于落后状态，但新技术可以赋能竞争力

对于人或组织来说，适应由数据驱动甚至自动化决策并非是件简单的事情。那些发展最快的公司已经有了数据科学技术。但是当涉及计算机视觉和AI等系统的复杂使用时，大多数非科技财富500强公司都处于滞后状态。首先是对他们数据的位置缺乏了解。现在，越来越多的可用工具和平台可以帮助他们。今天处理数据的公司数量比五年前大大增加。当时，需要世界一流的工程师才能从这些信息中获取价值，而非技术公司则很难在数据科学的最前沿吸引相关人才。但是，新的平台和分析工具正在以相对较低的成本提供的大量数据。现在，人们将能够以几年前只有最高级的工程师才能做的方式深入数据并对其进行分析。例如，先进的平台可为非数据科学家构建自定义计算机视觉模型，从而使所有技术成熟的组织都可以从AI中获得价值。

观点4：数据专家和领域专家需要深度合作才能从数据中提取真正的价值

数据科学团队可以构建具有奇迹般功能的模型，但是他们不可能自行解决高度特定的业务问题。数据工程师和科学家可能不了解要查找的内容的精妙之处，这就是为什么将它们与需要的业务领域专家搭配至关重要的原因。要使效率最高，必须让最接近问题的人员了解自动化。

在解释其他国家/地区的数据时，当地的业务知识尤其重要。比如作为新兴市场的交易数据提供商，涵盖了东南亚，巴西和大中华地区，但是您需要在不同地区采用不同的语言和合规标准。您需要知道，例如，中国人对电子邮件的使用不多，或者目前印尼的信用卡使用率仍然很低。即使数据提供者考虑了这些细微差别，该信息的最终用户也必须更深入地了解不同文化的本地业务逻辑，以免得出错误的结论。

观点5：组织需要建立完善的隐私保护措施和AI道德规范

数据的实用性与个人隐私权是社会面临的最大平衡行为之一。使用诸如健康指标或地理位置跟踪之类的个人数据来了解趋势具有巨大价值。但是人们都不希望被追踪。处理数据的公司通常会保证对数据进行匿名化和汇总，但是并非所有公司都具有相同的标准和网络安全保护。

可衡量AI的平台通过要求消费者选择加入并明确鼓励他们这样做来解决这个问题。如果要使数据经济可持续发展，就必须重视提供数据的人。可衡量数据令牌技术可以使用户通过加密共享他们的数据点，它建立在区块链上，这有助于验证交易并使其匿名。技术本身可以解决这个问题，同时差分隐私、同态加密和合成数据等领域也有最新进展。可以想象，这些技术可以实现连接个人级别的数据，对其进行分析，然后以不泄露任何个人级别信息的方式发挥数据的价值。