分享

这个关于数据化思想的心灵鸡汤值得读100遍!请细品

 数据治理精英馆 2021-12-24

      随着数据的增长,我们每个人的决策能力不是增强了,而是大大减弱了。这是因为,我们做决策是有成本的,数据的增加反而使得我们决策差异化的能力变弱了而这种能力是随着对大数据的认知和处理能力而变的。

      随着数据的积累,如何通过数据洞察其背后的本质,而不是盲目地被数据牵着鼻子走,从而形成独立、有批判性的分析思考能力,在大数据时代比任何时候都显得更加重要。从数据战略到数据治理,别让数据成为累赘。数据治理不是数据部门的工作,而是公司总体的战略。

      商业基础正因众多终端带来的全域大数据而发生着改变;· 当下不认真对待数据,之后想要用好数据的时候,就会被死死卡住;数据的价值,必须来自场景;移动大数据的核心重在实时(real time)、适时或最佳时机(right time)以及全时(all the time), 任何一个完整的高效服务都离不开这3T;最大的数据来自最小的设备。

      零售商和消费者开始从应用中感知到人(消费者)、货(商品)、场(渠道)这三种数据的高度连接所产生的“完美信息”及洞察力,而这意味着更贴心的服务和更多商机。

      在信息爆炸时代,拥有大量信息可能是灾难而不一定是好事,也不等于你有能力使用它;一切数据收集活动的出发点都来自业务需要或者可以应对未来的业务发展;从业务过程中收集信息、分类信息、整合信息,必须要成为日常思维的一部分,这是成为数据驱动智能的必要条件。

      一切皆可量化,表面上看似不存在的数据,其实也是有迹可循的;当我们学会量化以后,就是一个个从无到有的过程,很多重要的东西就这么“无中生有”了。这也是在新时代的特质下,企业想要实现“弯道超车”的一个难得的快捷方式。量化是对被量化事物的一种映射。如果X是我们关心的事情,我们就应该做到以下几点:

      · 澄清什么是X。例如,你想量化“开心”,但究竟什么是“开心”?“开心”跟“快乐”是否一样?你需要不断用问题去澄清X!

      · 如何量化X?如果我们认为开心的表现是笑,那我们可以量化“微笑”吗?面部情感识别的技术,微软已经有较成熟的软件了。

      · 量化之后能够增加我们对X的了解或者减少不确定性吗?我们能否找到量化后的“开心”指数,并在应用中确认其价值?否则只能回到第一步,重新澄清什么是X。

      大数据能力的根源来自连接,而连接的基础是数据的流通和标准化;所有的数据流通必须建立在一个永恒不变的道理上:互惠互利,否则你无法做到对数据进行适时的修正;大数据是自利、利他的成品;当利益高于双方之间的竞争时,数据共享会变得理所当然。

      在这个人工智能蓬勃发展的时代,数据的增量比存量多。多变的业务场景也意味着需要敏捷的数据更新(包括结构)。在你使用数据时,数据本身可能早就出现了定义上的变化,Data broken(数据断裂)指的就是数据已经不能反映当前现实。因此,以这些断裂数据为基础的任何人工智能算法,都会相应地产生偏差。

      作为企业,要实现数据打通,需要有一个非常清晰的、自上而下的数据资源战略方向,也需要具备良好的、自下而上的协同能力,这两者相辅相成;实现从0到1的过程中,首先必须找到个体与机构之间的平衡点。任何大数据的形成必须经历两个过程,即开放与规范,两者为递进关系,前者是深度连接的前提,而后者则涉及数据的可用性。

      数据是虚的,解决方案才是实在的,没有场景做目标的大数据如同一盘散沙,但太实相的大数据又不够灵活;数据应用有三个阶段:第一个阶段用数据,第二个阶段养数据,第三个阶段从看数据到用数据;数据分析的工作最终必须落在产品上;从数据的收集到使用,我们要学会与生态中的各种角色竞合,因为没有人能单枪匹马地完成整张数据大图。懂得这个道理的公司才会是未来的数据之王。

      如果你认同数据智能是未来商业的核心,就绝不能让企业的数据安全策略落后于他人; 数据使用权必然会是未来企业之间最大的竞争空间,当然也可能是最大的合作空间;过去,我们担心的问题是小样本导致的统计误差,而在大数据时代,这个问题并不会消失,反而会更加复杂、更难发现和解释。

      任何安全原则要想得到业务方面的支持,就必须契合企业的商业目标、风险承受能力和部署能力,而今天,大部分企业的管理层对数据安全还没有达成共识,要做到这些相当困难;要让数据安全真正起作用,安全原则必须把人、过程和技术都纳入考虑范围

      大数据、人工智能、机器学习等都是新生事物,水能载舟,亦能覆舟,趁人类仍掌控着大局时先打好基础、做好防范,乃是当务之急;云计算、混合云、弹性存储、流动数据等新技术的流行,也令数据中心的安全边界变得越发模糊。在反思大数据时代数据中心的运作方式时,企业必须考虑以下几个问题:

      · 监控日志应该在哪里,以及要收集什么?

      · 数据收集和流通时的加密机制是否完善?

      · 安全原则有多大程度会影响业务效率?

      · 数据敏感度的静态分层与基于业务的动态分类有多大区别?

      · 企业是否有能力捕捉到危险情报,并及时处理可疑行为?

      数据商业引擎的最佳原则是,人为干预越少,数据回流越顺畅;“大数据+人工智能”的魅力就在于,数字经济引擎的出现所带来的威力,足以让很多企业趋之若鹜;数据化转型中的生死线就在于切入点关注业务决策的过程,从问题中寻找数据化的机会;企业数据能力的泛化,要建立在数据产品的灵活性上;建立规范,确保数据供应的质量及稳定性;促进企业内部数据共创与共享机制的建立;建设外部数据积累及有使用权的数据战略储备

      当企业面对这个时代的变革机遇时,该如何应对?如果用简单的两句话来描述就是,找出知识产生的速度和业务发展的增长关系,同时关注产生知识所倚赖的“原材料”大数据如何才能有效地在企业内/外积累。这也是大部分企业在想到做之间不知道自己不知道的地方。虽然不容易,但“大数据+人工智能”的魅力就在于,数字经济引擎的出现所带来的威力,足以让很多企业趋之若鹜

      企业要找到能足够积累数据的场景,再匹配合适的人工智能,快速产生知识点,利用自动化的知识点嵌入其中实现业务价值,然后让生生不息的数据反馈作为优化的闭环系统。最后需要关注的,便是人们的惯性思维所造成的障碍永远多于技术本身数字经济引擎包括4种形态,分别是数据驱动决策、数据驱动流程、数据驱动产品以及数据驱动数据

      过去的数据从布点、收集、存储、更新到应用,对事件的描述、诊断、预测及行动,由于技术门槛、组织内部架构内的作业规范不同,导致每一个作业之间产生数据滞后、脱机运算或是人为隔膜所导致的断点。这样的断点让我们在数据积累和信息回馈上的能力大打折扣,更别说精确地决策了。但现在随着技术的优化,更重要的是管理层的投入,数据分析已经能够局部实现及时处理与应用,大数据开始因为闭环系统的修复而产生应有的商业价值。企业的分析模式也从事后分析飞跃到了事前分析。商业智能能否变为智能商业,取决于管理层有没有意识到适时变革作业方法。

      扩大数据量并不代表一定能够说明数据间隙的弥平,因为数据间隙的产生来自我们对要解决问题的理解,以及在解决问题的过程中我们所面临的数据落差。如果仅仅只是扩大数据的维度,而这些新增的维度都无法修补与问题之间的数据差距,那对于解决眼下问题的帮助其实是相当有限的。

      在不远的将来,数据的应用会如同电力一样,成为企业运营的必需品,渗透到企业的每一个业务环节, 随着计算与存储能力的增强,数据资源的供应将如同电力一样不可或缺,为企业提供源源不断的优化能力;无论是新兴行业还是传统行业,选择人工智能与大数据的切入点,场景选择尤为重要数据已经成为企业实现更大商业价值的最强驱动力

      未来,人与人之间的差别,拼的是他可使用的数据量和算法;人工智能因大数据而重生,但制约人工智能在各领域实现更广泛利用的,并不是算法不够先进,而是缺乏高质量的数据数据作为一种企业资产,需要与其他资产,如人力资源、硬件等相互组合才能发挥出最大的价值

      数据既然是核心资源,数据资产的运营就变得日益重要,对建立在数据基础上的互联网公司来说更是如此。盘点这些资源并不简单, 数据的盘点与实物不一样,数据可以无限衍生,而且多并不代表有用

      · 什么样的数据用量大、覆盖率高?具有公共属性的数据。

      · 什么样的数据稀缺但重要?具有战略性的数据。

      · 什么样的重要数据不可再生?因此必须备份。

      · 数据资源用完可以再用!因为复制成本极低。

      · 大数据的关联特性,让数据权属的边界变得越来越模糊。

      对于传统行业来说,拥有数据资源将使企业拥有创新的可能性,并降低被淘汰的可能性,更好地适应高速变化的市场环境和用户需求,从而更加具有竞争力。可惜,传统行业往往在信息化和数字化建设方面存在缺失,因此弥补短板是当务之急。当然这个急切性往往与公司的经营方向相关。在深入洞悉市场、快速精准地找出应对策略时,数据已经成为企业实现更大商业价值的最强驱动力

      数据来源的选择必定与商业模式相关,我的经验是,从小问题入手,弄清楚问题的本质往往是选择数据和算法的前提。每家公司的数据获取策略不尽相同,希望抛砖引玉与大家分享几点。

      · 从零开始创建好的专有数据集,几乎永远意味着,预先投入大量人力收集数据。但更痛苦的是,业务变化的同时,数据结构也需要时时更新,正如前辈所说:“数据集成的同时已经在断裂。

      · 即使是表面上拥有很多数据,但在运用机器学习时,仍会发现数据量的不足。你需要的数据量与你试图解决的问题紧密相关

      · 数据的收集、处理、运用,短期来说肯定是越贴近业务越有效率,然而从长远看并不利于数据的标准化及重复使用,导致开发周期变得漫长。我的经验是,起点可以从最小化应用做闭环,基于众多应用做长线规划

      · 确保早期创造的应用有足够的吸引力,让业务方及使用者甘愿交出他们的数据。大数据落地除了关乎技术问题,亦系于业务方及个人的意愿是否足够。只有互利互惠,才有长久合作

      · 在大范围使用大数据之前,必须严肃地面对数据的标准和质量问题,否则后果堪忧数据驱动型企业须明白,数据质量是全部员工的责任,并不仅仅是技术问题。

      · 大数据安全是一个命门,数据越多,责任越大,而且有时候会超出你的想象。原以为很安全的数据拼合其他数据之后,可能成为机密级别

      要解决企业在大数据时代面临的挑战与威胁,首先必须面对数据终将成为企业核心资产的事实。基于这个事实,必须首先确保数据能随时在线,因为大数据应该就是当你需要时就立即可以使用,所以数据必定要在线上而不能只存在于线下。大数据要成为企业核心资产的前提是,数据必须具有足够的流通性,而在这之前,要确保数据拥有方一直到数据最终使用方的中间过程有一个非常好的利益关系,这样,数据流通或是共享的价值链才会成立。

      对于技术公司来说,文本分析已不再有趣,下一步的关键是知识图谱,即如何从数据中提取知识。知识图谱的认知过程大致分为三个步骤:

· Read(读取):读入所有的数据文件,如邮件、文档、社交文本等,并将其结构化;

· Resolve(解决):从中提取重要的信息,并和其他信息相连接;

· Reason(推理):通过这些相连的知识图谱,利用机器学习的方法找出最后的图谱。

      每一种新技术被广泛使用之前都会存在很多障碍,区块链也不例外。任何区块链都必须要有效地实现规模化,从概念验证迈向成功实践的过程中,区块链需要一个管理机构来决定谁有权使用、谁负责维护。这些障碍虽然并非不可逾越,却说明了区块链技术不太可能像某些人期望的那样,迅速而彻底地颠覆各行业。如无意外,区块链的普及将是一个反复的过程。但从大数据实践的角度来看,我很肯定,区块链未来绝对会成为不可或缺的数据来源

      基于机器收到的数据之多,内容之丰富,机器将变得越来越聪明,这无疑将重新定义传统的生产方法、管理架构、服务形式,甚至重塑政府与民众之间的关系。企业想要获得更多利润,就必须懂得如何挖掘更多数据,并使用数据去驱动决策、流程、产品,甚至更多数据,让数据成为商业闭环系统中实现自我优化的原材料;大数据落地的三部曲是:意愿、能力、工具;未来的大数据将不限于公司之间的竞争,更是国与国之间的实力比拼。

      长期以来习惯了在数据缺乏下拍脑袋的人,当然很难明白“数据即先机”的道理运用数据把决策前置,既是一种技术较量,也是一场组织变革。从技术的角度来看,现今的CPU、存储、数据库、网络、计算能力等,其实都不适合高速和大量的非结构性数据运行。数据计算能力看似强大,有时却又举步维艰,这是因为数据量及其复杂化程度远远超出了我们的想象。

      在清洗数据时,定义一个数据口径的地方,往往便是成败的分水岭。若对数据口径和商业之间的理解不够,便会影响到我们最初的认知,事倍功半;想“弯道超车”,唯一的办法便是打破惯性的旋涡。如果连这点胆识都没有,那你粮草越多,反而会让你死得越快。我们见过的数据,只是我们见过的,那不是我们的,还要注意将其内化!

加入星球获得更多数据管理知识

这个“2-3”的数据分类分级方法也许对你很有价值


数据规划从剖析数据规划案例开始


如何在大数据时代构建数据治理体系

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多