【原】谈谈解决数据丢失、错误、时效等问题的方法：数据可观测性【含60个真实应用场景】

数据治理精英馆 2023-08-18 发布于浙江

展开全文

数据可观测性，即组织充分了解其系统中数据的健康状况和质量的能力，已成为现代数据工程中最热门的技术之一。

由于该技术具有很强的可扩展性，因此对于如何使用该技术提出了各种各样的建议，下面列出的每一个用例都已被可能与您数据团队类似的数据团队成功地应用于生产中。因此，下面描述了清晰而具体的示例。

核心数据可观察性用例

数据可观测性的主要用例是提高数据质量。具体来说，是为了减少数据停机时间或数据不准确、丢失或无法访问的时间。

减少数据停机时间的三个杠杆和数据问题的四种主要类型从该类别诞生的第一刻起就被定义了，因此是这里列出的前七个核心数据可观察性用例。

1.减少数据事件量

Resident是一家在线床垫和家居用品商店，拥有大量数据。事实上，数据工程总监王总和她的团队正在管理超过30,000个BigQuery表以及复杂的数据管道。随着时间的推移，数据团队大幅减少了数据事件的总数，这在很大程度上要归功于数据沿袭可见性的提高以及广泛的自动化数据新鲜度警报。

“我们现在发生的事件只有一年前的10%。数据团队非常可靠，数据消费者信赖我们，”王总说。“我认为每个数据工程师都必须拥有这种级别的监控，才能以高效且良好的方式完成这项工作。”

2.更快地检测数据事件

大多数数据团队在收件箱中收到数据消费者的电子邮件投诉时都会收到数据事件警报。通常这意味着数据在几天甚至几周内都是不正确的。

“……如果某个问题出现在仪表板中，但该团队中没有人使用过该仪表板，那么在他们通知仪表板出现问题之前，这个问题可能会持续12、18小时或更长时间，”Nick说JohnsonSquatch博士，IT、数据和安全副总裁。

数据可观测性平台部署机器学习监视器，在问题出现异常时进行检测，并为数据团队提供完整的上下文，使他们能够立即采取行动。Contentsquare已经部署了广泛的数据测试方案，在部署数据可观察性的第一个月内，检测时间缩短了17%。

3.更快地修复数据事件

随着现代数据堆栈和管道的复杂性不断增加，解决数据问题变得越来越困难。根据最近对200名数据专业人员的调查，解决数据事件的平均时间同比从9小时跃升至15小时。

数据可观察性平台部署数据沿袭、查询更改检测和相关性洞察等功能，以确定系统、代码或数据级别出现问题的位置。

数据可观测性帮助全球领先的社区旅游网络BlaBlaCar将解决问题的时间缩短了50%。

“调查根本原因的200小时现在基本上减少了一半。现在，数据工程师几乎不需要调查这个问题，因为根本原因就在你面前。”BlaBlaCar的BI和数据工程经理KineretKimhi说道。

由于数据可观察性，Choozle还发现总体数据停机时间减少了80%。“我们每周都会看到大约2到3起不同严重程度的真实事件。这些问题在一小时内就能得到解决，而以前可能需要一整天的时间。”Choozle首席执行官AdamWoods说道。“当你在接近损害时间时收到警报时，你的认知能力会更快地跳跃，以了解环境发生了什么变化。”

4.预防、检测、解决架构变更

让我们更深入地了解数据可观察性用例，并检查一些常见类型的数据问题，数据可观察性特别适合解决意外的架构更改等问题。在这些场景中，发出的数据的结构将发生变化，导致下游数据管道中断。

由于数据工程师很少能够控制发出数据的服务，因此这可能会造成相当长的数据停机时间。例如，在线市场Mercari能够快速检测并修复重大架构更改。

Mercari数据可靠性工程师表示：“当Google查询自动将数据类型转换为整数时，架构更改监视器为我们提供了帮助，这会导致问题。”“我们收到警报并在下游报告失败之前进行了处理。”

另一种常见的破坏性架构更改场景是数据团队将其生产数据库与其数据仓库同步，就像Freshly的情况一样。

“当我们的生产数据库中发生架构更改时，Fivetran会自动在新表中重建或具体化新数据。然后MonteCarlo会提醒我们发生了模式更改，我们能够确保由此产生的任何数据停机时间都可以忽略不计。”Freshly前高级数据总监VitalyLilich说道。

数据工程师有时也需要更改模式。数据可观察性平台使他们能够看到对表格、仪表板和下游消费者的影响，以计划和减轻任何影响。

例如，Yotpo的业务应用程序团队（负责集成和维护Salesforce等内部操作系统的团队）希望用新字段替换过时的字段。他们的许多仪表板严重依赖于该领域，因此他们使用数据可观察性平台中的数据沿袭功能来提前为这一变化做好准备。

5.预防、检测、解决数据新鲜度问题

数据需要按时交付才有价值——过时的数据会杀死数据驱动的组织。虽然数据新鲜度警报在技术上设置起来并不困难，但大规模管理它们却是一场噩梦。数据可观察性在组织的整个环境中自动化和扩展这些监视器。

FintechCheckout.com监控4,600多个数据集，每天支持300多个活跃数据平台用户，并支持每天运行各种转换的1,200多个dbt模型。

Checkout.com高级数据工程师MartynasMatimaitis表示：“这迫使我们在过程的早期就采用数据可观察性，或者本质上是数据质量和数据新鲜度，这成为我们日常业务的重要组成部分”。

6.预防、检测、解决数据量问题

您可以将表视为金发姑娘-添加的行数必须恰到好处。太少或太多都是数据质量的危险信号。手动编写测试或音量警报可能会很棘手，因为需要确定正确的阈值。否则，将错过事件或造成警觉疲劳。

数据可观察性的数据量监视器可以帮助检测几乎不可能发现的问题，例如空查询。例如，一家公司成功运行了更新三个表的查询，但没有添加新行。流量监控人员立即通过Slack向团队通报了该事件，并指出该事件的影响范围可能会多达200个数据仓库查询以及大量下游表和视图。

7.预防、检测、解决数据分布问题

如果数据超出历史值范围，或者NULL或唯一率出现峰值，则可能存在需要解决的数据质量问题。

数据可观测平台使用户能够深入挖掘并监控特定字段中的此类数据异常。一个数据团队将这些现场运行状况监视器应用到某些客户识别字段，并注意到“设备类型ID”和“顾客ID”字段的行值为0，这意味着它们无法与唯一的个人关联。这对他们的客户服务部门产生了影响，该部门依赖这些数据来对支持级别做出实时决策。

降低系统故障的风险

数据停机和四种类型的数据问题有助于高级类别解释数据可观测性的好处，但首先仔细研究这些数据质量问题出现的一些常见原因也很重要。

虽然数据损坏的方式几乎有无数种，但它们通常可以归因于系统、代码或数据级别的问题。我们在下面重点介绍了这些数据可观察性用例中一些更加丰富多彩的用例。

8.警报失败时的安全网

现代数据堆栈中的大多数解决方案层都能够在出现故障时设置警报。例如，Fivetran（摄取）、dbt（转换）和Airflow（编排）都具有这些功能。

这些警报通常是数据不感知的，这意味着它们知道作业是否成功运行，但不知道它们是否使用垃圾数据成功运行。另一个挑战是这些警报并不总是以有助于减轻损害的方式发出。“谁在监视观察者？对于Mercari来说，答案就是他们的数据可观察平台。

Mercari数据可靠性工程师XiZhou表示：“我们的一个流处理管道出现了连接故障，影响了数百个表。”“蒙特卡洛立即发现了这个问题，让我们能够快速修复它。快速检测和解决问题非常重要，因为它可以减少回填正确数据的过程。”

9.标记系统授权和集成失败

数据管道是复杂的、相互依赖的系统，具有许多部件。它们的连接和集成方式往往容易出现故障。这些通常是无声杀手，会给数据团队带来数据新鲜度问题和头痛问题。这是两个现实世界的例子。

Salesforce密码过期，导致一个数据团队的salesforce_accounts_created表停止更新。蒙特卡洛提醒他们，该表的更新已停止，使他们能够在引起高管注意之前找到并修复根本原因。

由于授权问题，另一个数据团队与GoogleAdwords的集成失败。结果，他们在表中丢失了一堆数据，然后在这些数据上运行了一堆聚合。

降低代码失败的风险

编码就意味着犯错。这就是为什么大多数组织都有广泛的代码审查和其他质量保证流程。

这很有帮助，但我们都知道代码和查询问题仍然会一直发生。代码故障特别隐蔽，因为故障排除通常涉及逐行梳理代码块……除非涉及数据可观察性。

10.查询变化检测

引入不良数据的最常见方式之一是修改、更新或更改查询。当厨房里有很多厨师或跨多个领域的数据专业人员时，这一点尤其有影响力。

数据可观察性平台可以通过指出数据质量问题何时与查询更改相关来帮助数据团队。

“当事件发生时，查看查询何时更改以及谁更改了它会很有帮助。我们可以直接联系该人，而不是到处询问，或者了解根本原因（如果是服务帐户）。”Mercari数据可靠性工程师DanielLameyer说道。

11.查询简化

有时查询会起作用……但它们可以更好地工作。数据可观测性和数据沿袭有助于降低复杂性，最终使数据系统更加可靠。

“我们有复杂的查询、许多重复、不一致的逻辑——真是一团糟。我们知道我们丢失了大量数据，并希望通过GoogleAnalytics和GoogleTagManager更好地跟踪我们的网站。我们没有任何监控，也没有关于客户成功情况的信息，并且发现我们与许多营销资源没有联系，”丹尼尔说。

“除了识别何时出现问题之外，[数据可观察性]还帮助我们了解哪里可能出现问题、哪里脆弱。随着时间的推移，我们投入了精力来清理我们的血统，简化我们的逻辑。”SeatGeek的人工智能和数据平台工程总监BrianLondon说道。

12.对BigQuery要格外注意

BigQuery是常见的故障点。常见的数据可观察性用例是提供见解来帮助识别这些查询，确定它们是否随着时间的推移表现较差（并面临超时风险），并允许用户放置自定义数据新鲜度监视器以确保它们成功运行。

一家成功的CMS公司使用这些自定义监视器来跟踪将数据加载到BigQuery的进程，这些数据由服务器场上的cron收集。由于处理大量数据需要几天的时间，因此他们设计了一个查询来检查每天和每周加载的行，以确保cron正常运行。

另一个数据团队注意到他们在Snowflake中有多个查询超时。一个周末，他们有21项不同的任务悬而未决。他们设置了自定义监视器，以提醒他们运行超过一小时的任何查询。

13.影响数据系统的上游代码

不仅仅是SQL查询会产生数据质量问题。另一个数据团队发现了由于上游代码合并错误导致的数据新鲜度和数量问题。

问题出在Lambda上，该Lambda从S3获取数据并将其推送到Snowflake中。他们最初以在代码中存储Snowflake凭证的方式构建此特定函数。当他们更新它时，他们没有更新传递凭据的方式，并且阻止了新数据的加载。

14.人为错误

只要人类参与数据工程过程，不良数据就永远不会得到彻底解决。然而，数据可观测平台可以帮助加速检测和解决，使数据停机时间易于管理。

一个例子是，一位工程师将回填流程插入到未经QA的生产数据中（众所周知，这种情况会发生）。问题是它每天都在运行。这影响了用于实时决策的机器学习算法和仪表板。幸运的是，数据可观测性解决方案发现了原本难以检测的问题。

降低数据故障的风险

软件工程师还面临着系统和代码问题的挑战，但数据工程师面临着数据本身问题的独特挑战。这就是为什么数据可观测平台需要同时具备数据管道监控和数据质量监控的功能。

15.保持第三方正确

数据通常是通过付费合同关系进行交换的。最常见的情况之一是营销部门支付广告费用并接收有关其营销活动绩效的数据，这对于他们的优化至关重要。

这些合作伙伴关系的范围包括从自动更新到手动加载的电子表格。无论哪种方式，如果合作伙伴提供错误数据或延迟发送该数据，都会出现问题。

因此，许多数据团队将创建一组监视器来评估合作伙伴收到的数据的质量和新鲜度，有些甚至会通过数据SLA设定期望。

例如，一个数据团队在产品进出仓库时收到的第三方运输数据上设置了自定义监控器。通过这样做，该团队发现了一个运输合作伙伴未发送数据的问题。我们联系了他们并立即发送了有问题的数据。

16.验证数据

就像数据团队需要让第三方承担责任一样，他们也需要验证来自业务其他部分的数据。这可能来自数据高级用户甚至其他内部数据团队。ThredUp数据工程主管SatishRane就是这种情况。

“我们对进入的数据采取了去中心化的方法，”拉恩说。“数据团队拥有一些神圣的东西，这对财务方面至关重要，而且所有其他数据人员可能不会经历与数据工程团队所经历的相同的过程。”

17.个人资料数据

嵌入式数据分析师可能了解其领域内专业数据的怪异之处，但不能指望数据工程师非常熟悉每个数据集。

数据分析是一个有用的数据可观察性用例，它使集中式数据团队能够快速了解数据集的关键质量，例如特定列中NULL或唯一值的百分比。

节省时间

让我们面对现实吧，数据工程专业知识是稀缺且有价值的。让最好的数据专业人员解决可预防的数据质量问题、为有问题的管道编写第91次数据测试或解决有关“我们确定这个数字吗？”的临时问题是一种浪费。

这不仅仅是数据团队的成员——高质量的数据可以让整个组织以最佳和最高效的方式运作。

18.节省数据工程师的时间

调查显示，数据专业人员花费了超过三分之一的时间来评估或检查数据质量——这太多了。提高数据工程师的效率是最有价值的数据可观察性用例之一。

很多时候，这是因为他们不必像Contentsquare和Gitlab那样手动实施和维护数百个数据测试。

Contentsquare前全球数据治理负责人奥塔维奥·巴斯托斯(OtávioBastos)表示：“我们的运营和数据分析师进行了太多的手动数据检查。”“这非常耗时。我们的内部报告效率低下，并且需要花费大量时间根据新指标构建新报告。”

Gitlab团队在dbt和整个数据堆栈中构建了手动测试，以尝试检查数据质量的准确性、新鲜度和其他属性。“但是这样做非常耗时，”Gitlab前数据和分析高级总监RobParker说。“你可以想象一下，加入一个包含十几个表的新数据集，构建行计数测试、数据量测试-这非常非常耗时。”

得益于数据可观察性，Optoro和Blinkist等组织每周可以分别节省44小时和120小时的数据工程时间。

19.组建小团队

当提高大型团队的效率时，可以实现巨大的成本节省，但降低小型数据团队的机会成本也同样重要。对于这些团队来说，通常需要在确保数据质量或执行其他高价值任务之间做出选择。

例如，一家保险公司的单人数据团队发现，他们花在维护工具上的时间比实际使用工具来交付数据的时间要多。由于存在这些瓶颈以及缺乏对数据的可访问性和信任度，许多数据消费者通过直接查询源数据找到了解决方法。

“我在这个数据堆栈上所做的所有投资都是徒劳的，”他们说。

20.节省数据分析师和数据科学家的时间

并非每个数据可观察性用例都以数据工程师为中心。在数据科学家或数据分析师对数据进行任何操作之前，他们通常需要花时间验证沿袭，确保没有任何丢失的行以及其他常规清理任务。

捷蓝航空数据科学家Derrick提到，数据科学团队知道他们不需要不断地对其数据集的数量进行“健全性检查”，因为他们知道他们的数据量正在受到监控，这对他们发现异常有很大帮助（以及新鲜度、模式和整体质量）。

21.节省分析工程师的时间

分析工程师作为技术和业务团队之间的联络人发挥着关键作用。他们通常还会部署数十个dbt模型，每个模型都会以如果不密切监控的话可能会产生质量问题的方式转换数据和底层SQL代码。

“通过数据可观察性，分析师几乎可以立即知道是否存在大问题，这可以节省大量时间。显然，代码经过了多次审查，但没有一个流程是完美的。”Dr.Squatch分析与战略副总监DanielleMendheinm说道。

“如果出现问题，可以立即解决，而拉取请求在他们的脑海中还很清晰，而不是必须在几周后重新调整冲刺来解决这个问题。我估计这可以为分析师团队每周节省几个小时，让他们不必重新打开拉取请求并调整代码，”她说。

增加收入

数据质量问题可能会造成高昂的代价，而降低这种风险是不容小觑的。然而，数据可观察性有几个可以直接增加收入的用例，但这些用例经常被忽视。

22.改进营销活动

根据Forrester的数据，与那些不使用数据来指导战略和决策的公司相比，数据驱动的公司实现收入目标的可能性高出58%。这种差异在营销领域尤其是付费广告活动的结果中体现得最为明显。

Blinkist就是这种情况，这是一家在全球拥有超过1600万用户的电子书订阅公司。他们的数据可观察性的主要用例是，他们可以满怀信心地进行大胆、积极的营销投资，以实现雄心勃勃的40%增长目标。

它让Blinkist能够快速转型，从而获得了竞争优势——事实证明，当COVID-19大流行导致市场发生急剧变化时，这一点至关重要。

那时，历史数据并不能反映受众日常生活的当前现实，实时数据变得至关重要——不仅可以确定广告支出，还可以了解用户与Blinkist应用程序交互的当前状态，以及网络上的内容。

“今年我们看到的增长规模是巨大的。虽然数据团队不能完全相信，但我绝对认为我们能够做的事情——在数据可观察性和数据运营透明度方面——改善了我们定位受众和渠道的方式。”前总监GopiKrishnamurthy说道。

23.建立强大的实验基础设施

实验是数据团队展示强大且易于量化的价值的一种手段。然而，统计显着性是一件脆弱的事情。如果因数据管道在实验过程中中断而遇到数据新鲜度问题或其他数据异常，那么投入的所有努力都将付诸东流。

不幸的是，在涉及同时对仪器进行多次变更的产品变更期间，不良数据特别有可能出现。考虑到实验受到严格审查，这可能是灾难性的。毕竟，精心设计的代码和促销活动往往是在线的。

清除这一障碍需要高度的数据信任。如果没有人相信他们每天查看的基础数据或仪表板，就很难说服部门启动实验或说服高管信任他们。通常，这些ETL系统会承受相当大的压力，因为所有利益相关者都希望以亚秒级延迟的方式以一百万种不同的方式查看每个指标。数据可观察性可以帮助确保您的实验计划取得成功。

24.区分数据产品

通常，从数据可观察性平台中获得最大收益的用户是以数据为产品或至少是其核心组件的公司。

生成和提供数据访问是他们增加收入的方式，对于这些组织来说，更高质量的数据意味着更高质量的产品。这有助于提高利润或增加产品差异化。

领先的数字广告软件公司Choozle发现了数据可观察性的价值，因为他们正在推出一项重大平台更新，让用户能够无与伦比地洞察他们的广告活动绩效。

例如，以前Choozle可以提供前20个邮政编码的广告活动效果，而现在，如果广告商想要深入了解该级别的数据，他们可以向广告商展示所有30,000个邮政编码的广告效果。

Snowflake使他们能够大幅增加数据量以及用户与其交互的方式，但数据可观察性在确保一切顺利整合方面发挥了关键作用。

25.让顾客满意

B2BSaaS行业的任何人都知道，客户的成功和幸福对于扩张和预防客户流失至关重要。

Blend数据团队利用数据可观察性来确保客户不会发现数据质量问题。

“在很多情况下，人们会说，'嘿，我们没有看到这些数据。我们没有看到这些行。这些在哪里？”Blend软件工程师AlbertPan说道。“当客户告诉你有什么问题或缺失时，这绝对不是一件好事。因此，我们需要一个主动的解决方案，可以在出现问题时告诉我们，并且我们可以在他们知道之前修复它。这是我们使用蒙特卡罗的主要原因之一。”

Optoro数据团队还优先考虑对发送给客户的数据进行密切监控。Optoro首席数据工程师PatrickCambell表示：“我们可以直观地了解受影响的数据源，从内部数据集市一直到下游的Looker报告，这些报告可能面向客户。”“能够快速识别客户面临的问题并积极主动确实是建立对我们数据的信任的关键。这个功能使数据工程师的工作变得更加轻松——我可以根据这里的经验明确地告诉你。”

26.保持关键的机器学习算法在线

在线零售商发现增加客户收入的一个好方法是自动向已放入在线购物车的商品推荐补充商品。此功能通常取决于对新数据进行操作的机器学习算法。

一家电子商务网站发现，他们的推荐算法未能利用估计价值约600万美元的机会，因为他们的模型在陈旧的数据和临时表上运行。保持这些收入来源在线且准确是一个常见的数据可观察性用例。

27.将生成式人工智能策略从宣传材料转向现实

如果说生成式人工智能是一场淘金热，那么高质量的数据就是镐。正如泄露的谷歌备忘录所说，对于这些类型的项目，“数据质量比数据大小更好”，这可以通过“小型、精心策划的数据集”进行训练来节省时间。

28.支持个性化等逆向ETL举措

数据可观测性和反向ETL就像花生酱和果冻一样结合在一起。为什么？数据越有价值，其停机成本就越高。

当仪表板显示陈旧数据时，这并不理想，但在许多情况下，这并不完全是一场危机。但是，如果直接插入营销自动化程序的数据管道中出现相同的数据新鲜度问题怎么办？其结果是受众群体陈旧、客户获取成本增加以及营销团队沮丧。

因此，我们的调查受访者表示，糟糕的数据质量平均影响了31%的收入。

29.深入研究关键业务指标

每个组织都有一些关键指标，可以帮助模拟业务的增长和整体健康状况。当这些数字的波动超出历史正常范围时，高管们将向数据团队发送一封电子邮件，以确定这是否是异常现象或值得庆祝的理由。智能数据团队不仅密切监控这些字段，还密切监控这些字段上游的表。

此外，创建自定义监视器来测量指标和其他输入之间的关系可能是一个好主意，以帮助解释确实出现的任何波动（例如，订单列峰值与位于纽约的客户地址的增加相关）城市）。

对于Contentsquare团队来说，这是一个有价值的数据可观察性用例。Contentsquare前全球数据治理负责人OtávioBastos表示：“我们可以使用SQL代码计算任何KPI，并且可以使用蒙特卡罗来验证[某个]指标的增加或减少速度是否快于正常标准。”

避免成本

数据可观察性平台还可以帮助数据团队通过避免成本来对业务产生直接影响。这里的许多用例都侧重于基础设施优化（下一节的重点），但也有其他常见示例。这里有一些。

30.防止因过度消费而产生的费用

大多数数据系统定价模型都是基于使用情况，但确切的公式有所不同。一种相对常见的模式是在一段时间内购买一定的容量，并为任何超额部分支付额外费用。

HotJar数据团队避免了大量成本，这要归功于他们的数据可观察性平台提醒他们，他们的分段MTU容量几乎已达到80%。Yotpo有一个类似的数据可观察性用例，当其Segment实例中的错误数据点生成的行数比预期多6倍时，即使考虑到季节性和正常数据波动也是如此。

31.避免合规和监管罚款

这是一个数据质量和数据治理用例，在假设中经常被引用，但并不总是与特定场景相关。虽然不是数据可观察性的主要用例，但在一个唯一比数据传播速度更快的是数据监管的世界中，它是一个非常现实的好处。

举一个具体但匿名的例子，数据团队的一名新团队成员对现有的生产管道进行了通配符更改，该管道负责满足地理市场内的强制性法律要求。得益于数据可观测平台，检测时间大大缩短，避免了“周末全力支持”和可能的罚款。

32.停止收入流失

随着世界变得越来越数字化，影响收入的错误越来越多地在数据系统中被发现。在这些情况下，数据可观察性平台不仅帮助解决数据问题，而且还解决业务问题。

例如，一个数据团队发现与特定货币汇率相关的列存在新鲜度问题。经过调查，发现app_purchase表已损坏，这对货币列产生了多米诺骨牌效应。从本质上讲，在问题得到解决之前，该组织一直在损失收入。

另一个组织发现其Financial_margin表上的行数激增。他们很快发现了一个差异，导致实时定价模型出现问题，从而可能产生严重的成本影响。

系统现代化和优化

数据工程中唯一不变的就是变化。这尤其适用于您的数据架构。幸运的是，数据可观察性可以帮助迁移、重构管道等。

33.数据仓库（或Lakehouse）迁移

对如何启动成功的数据仓库迁移感兴趣？数据可观察性工具中的数据沿袭功能可以提供帮助！

如果您拥有大量且变化率较高的数据，您可能需要通过后续增量迁移或CDC来设置多个Wave，以尽早捕获迁移引入的任何变化和回归。

那么，您应该如何对移民浪潮进行分组呢？一些最常见的方法是按域迁移或首先迁移最高价值的数据。然而，迁移一个表而不迁移它所依赖的上游表是没有意义的。这是数据沿袭可以帮助您确定和规划迁移波次的地方。

34.合并后集成数据堆栈

数据团队通常致力于创建“单一事实来源”，这可能使得合并后难以完全集成另一个数据堆栈。很少有团队想要“部分事实的两个来源”。数据可观测性和数据沿袭可以帮助数据团队在新环境中站稳脚跟。

随着VoxMedia吸收了GroupNine数据生态系统，高级产品经理VannaTreiu和他的团队需要找到一种方法来了解数据领域的情况。“这与第九组过去建立数据堆栈的方式没有什么不同，”万纳说，“但我们用大锤来做一些普通锤子可以完美完成的工作。”

该团队在不可扩展的手动流程上花费了大量时间。与VoxMedia的合并为Vanna和他的团队提供了实现方法现代化的机会。“有一些框架和工具可以胜任这些工作，而无需我们每次都编写定制脚本将源系统移入我们的仓库。”

35.减少混乱（表格、仪表板等）

未使用的仪表板、表和列会形成一个数据沼泽，对于数据消费者和数据团队成员来说都很难导航。它还增加了有人无意中从account_deprecated中提取数据的风险。

这是Dr.Squatch部署的数据可观察性用例之一。“整个团队都在努力创造新事物，而我正在努力修剪它们。我喜欢能够深入研究谱系，并在一个单一、统一的视图中查看表格是否有用。以前，我必须查看DAG，进入dbt，然后进入Looker并查看哪些表引用了该模型表。我喜欢血统”，IT、数据和安全副总裁NickJohnsonSquatch博士说道。“清理建议也很棒。这只是简单的验证。这样你就可以更快地清理东西，这是一个很好的护栏，让你知道什么不该删除。”

它还可以降低基础设施成本，这是ShopRunner享有的数据可观察性优势。“这就是蒙特卡洛的美妙之处，因为它使我们能够了解谁在使用数据以及数据在哪里被消耗，”ShopRunner前分析架构总监ValerieRogoff说道。“这实际上使我们能够从未使用的数据元素中释放出一些处理时间，这些数据元素没有人再使用并且不再相关。”

36.知道何时修复重构数据管道

正如肯尼·罗杰斯所说，“你必须知道何时握住它们，知道何时折叠它们，知道何时走开，知道何时逃跑。”我认为他并不是在谈论何时快速修补数据管道还是重构数据管道，但这仍然是数据工程师的相关建议。

Mercari数据可靠性工程团队密切关注有问题的管道和重复出现的问题。对于这些场景，调整底层基础设施是有意义的。

“我们对GoogleCloud中的一项新服务感到兴奋，那就是GCPDataFusion，它是一种完全托管的基于UI的数据管道工具，可以跨GCP产品进行原生集成，并且通过在后台运行的DataProc(ApacheSpark)实现快速摄取大型数据集，”DRE团队在他们的工程博客上分享道。

改进数据运营流程

DataOps是一组非常具体的实践，甚至是一些数据专业人员的工具。在这里，我更宽松地使用该术语，表示数据团队内部运营的改进，可以持续提高质量和效率。

37.进行剖析

没有一个头脑清醒的数据工程师看过他们的待办事项清单、团队中未填补的角色、管道的复杂性，然后说：“这需要变得更加困难。让我们有目的地破坏一些系统。”这可能是问题的一部分。

事前剖析或混沌数据工程是模拟数据系统故障以改进事件管理和响应的实践。它最终可以帮助防止数据事件并使系统更加稳健，但只有当团队能够观察他们的数据并确信他们可以安全地控制演习带来的任何影响时，它才有效。

Mercari数据团队初步计划以这种方式模拟数据管道故障。Mercari数据可靠性工程团队成员Daniel表示：“我们的想法是，我们将扮演来自特定数据集的警报，并逐步完成分类、根本原因分析以及与业务部门沟通的步骤。”“通过查看它们的实际情况，我们可以更好地了解恢复计划、我们如何确定优先级以确保首先恢复最重要的表，以及我们如何与跨越四个时区的团队进行沟通。”

38.分析数据事件影响和分类

老实说：并非所有数据事件都是一样的。为了使数据工程团队发挥最大影响力，他们需要上下文来帮助他们优先考虑对数据质量问题的响应。这只能通过利用集成到BI级别的数据沿袭的数据可观察性平台来实现。

“知道DAG损坏或dbt运行失败并不能说明底层数据结构中实际发生了什么，”Vox高级产品经理VannaTriue说。“这实际上意味着什么？这对数据有何影响？这对您的用户有何影响？这是否意味着这些数字在仪表板或他们在Looker中访问的报告中看起来会很奇怪？”

“该事件直接向Slack发出警报，并提供直接从那里进行分类的能力，这改变了游戏规则。这太棒了，如果我向某些摄取表添加新列，[我们的数据分析师]就会收到来自蒙特卡洛的警报。就像是，'看，这就是架构变化’”，Prefect工程经理DylanHughes说道。

39.过渡到数据网格

有时移动的不是数据，而是人。目前数据最热门的趋势之一是数据网格的实施，这是一种社会技术概念，涉及分散数据团队并将成员嵌入每个业务部门或领域。

转向领域优先、数据即产品的思维方式可能很困难，如果没有从数据集到领域所有者的明确血统，情况就更是如此。在线拼车网络Blablacar可以访问数据沿袭，作为其数据网格过渡的一部分，这是一件好事。“当我们决定转向数据网格时，我们做的第一件事就是定义我们的业务领域，为此我们使用了MonteCarlo的数据沿袭功能，它帮助我们理解了依赖关系，”BlaBlaCar数据工程和BI经理说道，基内雷特·金希。“它帮助理清了意大利面条的结构，并了解了10,000多张桌子上发生的情况，这是手动不可能完成的。”

40.优先考虑数据资产和工作

对数据质量采取“沸腾海洋”方法的数据团队将不堪重负，最终无法完成任务。

数据可观察性可以帮助团队确定关键资产并将其维护工作重点放在关键资产上——根据下游的查询和仪表板消费者的数量进行计算。对于已经了解其关键资产或数据产品的数据团队来说，数据沿袭可以帮助突出显示应保持在同样高水平的上游依赖关系。

Clearcover前首席数据工程师BraunReyes表示：“我们希望将注意力集中在企业正在使用的那些东西上。”“通过将这些关键资产隔离在特定的Slack渠道中，我的团队可以专注于那些特定的事件。”

41.改进事件记录

这不是最明显的数据可观察性用例，但拥有用于检测和解决数据问题的集中平台还可以为事件文档创建中央存储库。

由于每个事件的影响半径都很明确，因此团队还可以围绕应记录的事件类型和严重程度创建流程。这种类型的优先级很有帮助，因为您获取数据的能力实际上是无限的，但您记录数据的能力却并非如此。

采用数据可观察性平台后，Contentsquare的数据事件文档增加了46%。这是有价值的机构知识共享，可以让团队对公司的数据健康状况有更全面、细致的了解。

Contentsquare前全球数据治理负责人OtávioBastos表示：“我们可以看到它正在发挥作用，我们可以看到人们正在更快地解决[问题]，我们可以看到他们开始参与其中。”“我们可以看到他们开始在每个部门内协调一致来解决这些问题，并为分析师创建更好的数据环境来利用数据、创建仪表板、创建分析、关联、模型或任何数据产品。”

42.对抗警报疲劳

想象一下，您遇到一个上游表的问题，该表级联到跨多个下游层的多个其他表，如上图所示。您希望您的团队收到1个警报还是希望收到15个警报（所有这些警报都是针对同一事件）？

第一个选项准确地描述了完整的上下文以及开始根本原因分析的自然点。第二种选择类似于收到一本乱序的15页书，并希望您的待命数据工程师能够将它们拼凑成一个故事的一部分。

更不用说，太多多余的警报是引发疲劳的最快途径——科学上的定义是，数据工程师翻白眼、摇头，然后继续执行另一项任务。

另一种帮助消除警报疲劳并改进事件检测的方法是设置警报参数，仅通知您最重要的表的异常情况。然而，如果没有将本机数据沿袭纳入您的数据可观测性解决方案中，那么了解哪些资产真正重要是困难且耗时的。

对于Checkout.com，该团队发现他们之前的手动数据测试方法产生了大量误报，从而导致警报疲劳。

“基于机器学习的异常检测基本上在一周中的任何一天都超过了手动阈值，”Martynas说。“如果您实际上尝试在整个数据仓库中手动查看[架构更改或异常]，那么实际上需要付出很大的努力才能捕获这些内容。现在，由于这些模型实际上在不断学习，并且正在适应所有变化和负载模式，因此随着时间的推移，您只会得到很少的误报。”Checkout.com高级数据工程师MartynasMatimaitis说道。

提高可见性和透明度

有效的数据领导者在整个团队和整个组织中建立信任。数据可观察性提高了对数据健康状况以及数据工程师为确保高水平数据质量而采取的行动的可见性。通过这些努力可以建立数据驱动型组织所需的数据信任。

43.提高数据事件管理工作流程的可见性

数据领导者往往低估数据质量问题严重程度的原因之一是，大部分工作可能在孤岛中进行。营销部门的Jacq注意到数据问题，并通过电子邮件或直接向数据工程师发送消息来解决该问题，或者她可能会提交票证。

无论哪种方式，数据领导者通常都无法了解正在展开的数据事件检测和解决过程。这就是为什么数据领导者最喜爱的数据可观察性用例之一是提高数据事件管理工作流程的可见性。

“能够使用MonteCarlo来建立工作流程，好吧，团队中的某人已经收到警报，他们已将其标记为状态，他们已发表评论......在UI中确实很有帮助，”Jacob说Follis，协作成像数据主管。

“通过Slack发出的警报让我能够立即了解情况。我可以看到开发人员何时发现问题进行调查以及问题何时得到解决。”Choozle首席执行官AdamWoods说道。

44.增加对其他领域的可见性并分散数据质量

在某些组织中，数据质量由中央团队管理，但数据操作是分散的并由域级别拥有。当您无法完全了解其他域的流程时，就很难负责维护数据质量。

数据可观察性使中央团队能够授权分散团队监控和提高自己的数据质量，同时仍然保留监督。

例如，Checkout.com迁移到数据网格方法，多个职能领域在工作中利用数据，但数据团队缺乏跨领域数据的可见性。这种可见性缺陷威胁到了团队维持最佳数据新鲜度、数据质量和数据延迟水平的首要任务。

Checkout.com高级数据工程师MartynasMatimaitis表示：“我认为，将权力归还给领域所有者和领域专家是实现提高数据可观察性的最重要步骤之一。”

指定专用域“创建了一个环境，使作为领域专家的实际数据所有者能够了解自己的数据，”Martynas说。“实际上可能出现的任何问题都会针对他们（而不是数据团队），这会导致周转速度更快，并且单个团队不再存在瓶颈。”

Vimeo还通过利用数据可观察性来分散数据质量，同时仍然保持领域团队负责，从而发现了相当大的价值。

“对我们有帮助的事情之一是我们收到了精美的报告，这对我来说是一张出狱卡。现在，每当有人来找我说'嘿，数据很糟糕’，我就可以找出哪里的数据很糟糕，然后说'好吧，你们在过去一个月里都没有对警报做出响应，显然这很糟糕，’”Vimeo前数据工程副总裁LiorSolomon说道。

45.展示数据健康“大局”

我的同事肖恩·默里（ShaneMurray）在他关于数据信任的文章中谈到了他在《纽约时报》的经历，当时一位高管在一次有争议的会议后找到他并问道：“肖恩，那么数据可信吗？”

他当时的回应是，“其中一些内容，即使不准确，至少在方向上是有用的”，尽管很诚实，但可能令任何一方都不满意。借助数据可观察性，数据领导者可以展示而不是讲述其组织的整体数据健康状况。

PayJoy分析主管TrishPham表示：“蒙特卡罗是我们大规模了解数据质量的一个非常好的方法。”

“我们对组织的数据健康状况没有很好的了解。我们可以看到其中存在失败，并且我们有KPI，但它们无法为我们提供完整的情况，”BlaBlaCar数据工程和商业智能经理KineretKimhi说道。“就在那时，我们意识到我们需要数据可观察性，因为你无法计划找到数据与所有未知的未知数发生冲突的所有方式。”

建立问责制

关于明确问责制、所有权和目标设定的积极影响的研究如此之多，因此很难仅举一项。

现实情况是，数据质量充满了不如构建新管道那么令人兴奋的任务。如果没有责任感，平凡的、可见度较低的任务就无法总能完成应有的程度。以下是一些数据可观察性用例，有助于在整个数据团队中建立问责制。

46.设置数据SLA

建立问责制的最佳方法之一是为数据集设定标准，以确保它们对预期用途仍然有价值。为此，数据团队需要收集业务需求，这就是RedVentures数据工程总监BrandonBeidel每周与每个业务团队会面时所要做的事情。

他会问

你如何使用这个表？
你什么时候看这个数据？你们什么时候报告这些数据？这些数据是否需要更新到分钟、每小时、每天？
这样做的目的是什么？
如果这些数据延迟了，谁需要得到通知？”

“如果有人告诉我这些数据很重要，但没有人能告诉我它是如何使用的，我也会反驳。对话变得更加复杂，我什至会得到可以快速转换为查询的描述，例如“此列中没有空值”，”布兰登说。

一旦设定了数据SLA，就需要对其进行监控和执行，这就是数据可观察性对于PepsiCo、BlablaCar和Vimeo等组织发挥作用的地方。

“我们计划使用蒙特卡罗更好地定义SLI和SLO，”百事公司数据平台负责人SargerSaraiya说道。

BlaBlaCar数据工程和商业智能经理KineretKimhi表示：“我们仍在最终确定所有权，但我们已经制定了流程和理解，因此在出现问题时我们可以避免陷入烫手山芋的游戏。”“我们正在将数据合同视为一种胡萝卜方法——如果你想参与这个令人惊叹的网格，那么你需要遵守以下事项，包括一名数据管理员，他将与中心团队签订数据合同，涉及您需要满足的SLA和API合同等内容。”

去年我们花了很多时间来创建数据SLA或SLO，以确保团队对业务有明确的期望，以及何时响应任何数据中断。”Vimeo前数据工程副总裁LiorSolomon说道。

47.发布数据产品的正常运行时间

如果您有一次性数据产品，那么您的数据网格更像是筒仓而不是网格。发布每个数据产品的正常运行时间及其整体可信度可以增强跨领域的重复使用。

创建自助服务或发现机制后，请加倍努力来显示可靠性SLA以及产品满足该SLA的时间百分比。

48.建立清晰的所有权界限

当您的团队不确定谁负责哪些数据资产时，很难建立问责制。模糊的数据沿袭导致模糊的所有权。数据可观察性不仅有助于划定界限，而且还不断为团队创造机会，随着时间的推移划定更好的界限，就像Contentsquare和Vimeo的情况一样。

“这两个挑战密切相关，”Contentsquare数据治理策略师KenzaZanzouri解释道。“为每个特定的数据质量规则确定合适的人选可以减轻压力，简化采用，[并]及时正确地解决所有蒙特卡洛事件。”

“我们开始建立这些关系，我知道谁是驱动数据集的团队，”Lior说。“我可以设置这些警报所在的Slack频道，并确保利益相关者也在该频道上，发布商也在该频道上，我们有一个完整的kumbaya来了解是否应该调查问题。”

与企业建立数据信任

简而言之，可信数据领导者拥有可信数据。数据质量是一个生死攸关的问题，因为低质量数据没有用例。

49.第一个知道

套用RickyBobby的话：“就数据质量而言，如果你不是第一，那么你就是最后。”数据消费者捕获的每个数据事件都会暗中破坏您已建立的任何数据信任级别。

不幸的是，大多数数据团队都未能跨越这个障碍。在我们最近的调查中，令人震惊的是，74%的数据专业人士表示，业务利益相关者“总是或大部分时间”首先发现问题。

因此，第一个了解数据事件是最流行的数据可观察性用例之一也就不足为奇了。这样，数据团队就可以在无人知晓的情况下解决问题，或者主动通知受影响的业务团队。

Freshly前高级数据总监VitalyLilich表示：“如果我们的业务同事不信任数据，那么所有这些速度和自助服务访问都毫无意义。”“如果数据质量问题-表尚未更新、行太多或太少、模式已更改、数据源向我们提供了包含太多空值的垃圾数据，或者其他任何问题-达到这些目的然后，用户对数据的信任开始减弱。当这种情况发生时，我们对业务运营产生影响的能力就会随之减弱。”

Yotpo数据基础设施总监DoronPorat表示：“我们的员工一次又一次地联系我的团队，告诉我们数据是错误的，但我们并不知道数据最初是如何被破坏的。”“我们很清楚，我们必须更好地控制我们的数据管道，因为我们不能让数据消费者就数据问题向我们发出警报并不断感到意外，没有人能够以这种方式信任我们的分析”。

GopiKrishnamurthy表示：“数据可观察性的自助服务功能帮助重建了对数据的信任，因为用户看到了我们的实际行动：从红色警报变为蓝色“正在进行中”，再到绿色“已解决”。”，Blinkist前工程总监。“他们知道谁该负责，他们知道团队正在努力解决这个问题，一切都变得一清二楚。”

50.主动标记应用程序错误

从被动的票务接受者转变为主动的数据领导者的最佳方法之一是不仅要解决数据架构中的问题，还要设置可以帮助检测和解决应用程序问题的警报。

数据团队越来越流行的数据可观察性用例，可以在来自其外部应用程序的用户或客户识别字段上应用自定义监视器。如果这些显示为NULL，则需要修复某些问题。

Mercari数据可靠性工程师HatoneOshima表示：“我们喜欢将MonteCarlo现场运行状况监控器放在用户表上，特别是userID字段上。”“如果我们看到这些字段的NULL率从2%跃升至30%，我们可以帮助团队快速找到应用程序错误并回填数据。”

Vox高级数据工程经理VannaTriue表示：“我们每天收集有关视频表现的参与度指标，例如观看次数、点赞数、评论和反应。”“我们想知道是否没有收集指标，或者是否存在任何类型的统计异常需要我们检查。因此，我们在蒙特卡洛进行了自定义检查，以满足我们为视频设定的标准以及我们对视频性能的期望。”

“我们在关键表上使用现场运行状况监视器来查看折扣百分比等信息。如果折扣百分比非常高，或者我们的0美元订单数量激增，我们会迅速采取行动，”IT、数据和安全副总裁NickJohnsonSquatch博士说道。

“在某些情况下，MonteCarlo会通知我们产品中的错误，因为他们在数据未刷新时通知我们，”HotJar数据工程师PabloRecio说道。

51.跟上高速增长

当一个组织正在经历高速增长时，每个人都在快速行动……如果数据团队想被视为真正的合作伙伴，那么他们最好跟上。数据可观测性提供了大规模的效率和覆盖范围，使数据团队能够跟上疯狂的数据需求。

例如，Yotpo在过去几年中呈指数级增长，在全球范围内扩展业务并收购了SwellRewards和SMSBump等公司。随着Yotpo的发展，数据源的数量和数据管道的复杂性也在增加。随着时间的推移，跟踪数据完整性、沿袭性和质量（可靠数据的三个关键特征）变得越来越困难。

Contentsquare、BlaBlaCar和FoxNetworks还利用数据可观测性来跟上其快速发展的业务团队的步伐。

Contentsquare前全球数据治理负责人奥塔维奥·巴斯托斯(OtávioBastos)表示：“当我们说快速增长时，我们的增长是飞速增长。”“[这种增长]的结果是我们需要近乎实时的业务绩效监控。面临的挑战是团队发展如此之快，新流程不断创建，新数据不断发展。”

BlaBlaCAr数据工程和商业智能经理KineretKimhi表示：“我们从这个核心产品开始，突然收购了一条公交线路，然后又收购了另一家公司，突然之间我们就拥有了多种交通方式。”“我们花了一年的时间才将所有东西添加到中央仓库中，我们意识到，如果我们想帮助公司发展并增加更多的运输方式，我们需要找到一种扩大规模的方法。当我们进行调查时，我们意识到我们的大部分容量问题都来自于突然出现的数据质量问题。”

数据服务副总裁AlexTverdohleb表示：“如果你考虑采用集中式数据报告结构，过去你需要进来、开票并等待轮到你，那么当你得到答案时，通常已经太晚了。”，福克斯网络。“企业正在以我以前从未见过的速度发展和成长，并且决策正在以惊人的速度做出。你必须掌握数据才能做出正确的决定。”

52.证明并扩大数据投资的合理性

数据的爆炸性意味着很少有数据领导者会拒绝增加员工人数。但在当今的宏观经济环境下，这些投资需要合理。当企业不信任数据时，这会变得更加困难。

“我们实际上正在扩大我们的机器学习团队，并朝着这个方向更加努力。如果不建立对数据的信任感，就很难提倡雇用更多员工并承担更多业务风险。”Vimeo前数据工程副总裁LiorSolomon说道。

提高MLOps

由于MLOps和数据工程是涉及相似流程的相似技能集，因此数据可观察性可能是一个非常相关的用例。然而，这些平台不应与实际的MLOps平台混淆，后者提供更高级的功能，例如提供模型注册表、所有实验的日志以及帮助查看模型版本之间的微小差异。

以下是数据可观测性平台的一些适当的MLOps用例。

53.触发ML模型再训练

困扰MLOps工程师的一个核心问题是何时重新训练模型。

过于频繁地进行再培训不仅效率低下，而且会增加不必要的复杂性。重新训练的频率太低，您的模型将在陈旧的训练数据上运行，这些数据与当前生产中的数据有很大不同。

那么理想的情况是，一旦机器学习模型开始表现不佳，就立即重新训练。一些领先的数据团队已经找到了准确做到这一点的方法，即利用数据可观察性来自动监控并在准确性水平低于可接受的标准时发出警报。

从本质上讲，捷蓝航空在其模型上运行批量推理，将其写回雪花表，以便将这些预测与实际值结合起来以确定平均绝对误差。

然后，蒙特卡罗会监控该误差范围，因此如果达到某个点，就会发送警报。然后，他们的数据科学团队可以主动重新训练他们的模型，并在利益相关者失去对预测模型功能的信任之前联系他们。该团队现在开始评估MonteCarlo如何不仅可以监控模型漂移，还可以通过利用Snowflake数据共享来指示何时触发模型重新训练作业来监控数据漂移。

54.监控ML模型特征异常

当ML模型在陈旧数据上运行或为其提供数据的数据管道遇到问题时，它们可能会发生漂移，但当实际数据本身（特别是ML模型功能）出现异常时，它们也可能会出错。

对于真实的蒙特卡罗示例，我们的生产模型之一利用了“自上次元数据刷新以来的秒数”功能。该值是一个整数，并且在许多地方它都以带符号的形式存储，这意味着我们的系统非常乐意为此功能摄取负值。但我们知道这个值永远不应该为负，否则我们就会以某种方式测量未来的数据。

特征存储通常很复杂，因此我们可能从未为此边缘情况配置测试。通过在特征表上放置字段运行状况监视器，数据可观测性平台可以自动获知该字段的负率为0%，如果这种情况发生变化，则会向MLOps工程师发送警报。

一家领先的基于订阅的新闻公司利用MonteCarlo自动监控其定制的特征存储，以防止此类场景影响他们正在生产的数十个模型。

55.解决垃圾进、垃圾出的问题

由于特征向下游的ML模型提供数据，因此这种类型的监控可以加快检测时间，并可以在漂移/不准确发生之前防止它们。通过在上游捕获问题，与可能起作用的许多其他变量相比，也更容易将功能异常确定为根本原因。

但总而言之，机器学习模型的好坏取决于它们所获得的输入。如果数据管道不可靠，那么数据科学家将需要花费更多时间清理数据集并确保他们手头拥有所有相关数据。这正是MLOps工程师试图阻止的情况。

例如，一家公司的定制采集模型由于数据管道可靠性问题而出现了显着的偏差。Facebook将数据传输方式改为每12小时一次，而不是每24小时一次。他们团队的ETL设置为每天仅获取一次数据，因此这意味着突然有一半发送的活动数据没有得到处理或向下游传递，使他们的新用户指标从“付费”转向“有机”。

加速自助分析和数据民主化

就像扩展一个存在根本缺陷的流程并不能提高其效率一样，扩大对低质量数据的访问也是一个坏主意。这就是为什么许多数据领导者会在启动这些工作之前确保他们拥有适当的数据可观测性解决方案。

56.启用自助分析

如果您至少不尝试实施自助服务动议，那么每次失去具有特定部落知识的数据工程师时，您都需要从头开始采取行动。那无法扩展。

有价值的不仅仅是目的地，还有旅程本身。沿着自助服务路径是数据文档、素养、发现和质量的停靠站。所有这些对于一个组织来说都极其重要。当然，数据可观察性也发挥着重要作用。

对于FoxNetworks来说，集中式数据团队控制着几个关键领域：如何摄取数据、如何保证数据安全以及如何以最佳格式优化数据，然后将其发布到标准执行报告中。当中心团队能够确保数据源可信、数据安全，并且公司使用一致的指标和定义进行高级报告时，数据消费者就有信心在该框架内自由访问和利用数据。

FoxNetworks数据服务副总裁AlexTverdohleb表示：“其他一切，尤其是数据发现和临时分析方面的内容，都应该免费。”“我们为您提供数据来源并保证其可信。我们知道我们每天都会多次观察这些管道，并且我们知道里面的数据可用于X、Y和Z—所以请继续按照您想要的方式使用它。我相信这就是前进的方向：“努力让人们信任数据平台，同时为他们提供自给自足所需的工具和技能。”

“如果你不从易于发现、易于搜索和易于观察的角度来处理你的数据，它就会变得更像一片沼泽，”亚历克斯说。

57.执行平稳的数据目录推出

与数据目录计划一起实施数据可观察性通常是有意义的。

我们合作的一家电子商务组织启动了他们的目录计划，但面临的挑战是其价值并没有立即显现出来。他们的用户拥有一个数据资产目录，其中包含一些自动更新的上下文，但他们无法区分数据集之间的质量级别来确定哪些内容是可信的。现在，新的集成可以将数据停机警报直接发送到相关仪表板。

更深入、更广泛地覆盖您的数据质量

是的，数据可观察性将节省您的团队在繁琐的数据质量任务上的时间，但它也会发现您可能会错过的问题。提高数据质量覆盖范围是主要的数据可观测性用例。

58.大海捞针

数据可观察性使您能够更深入地研究数据，以捕获数据消费者不明显或数据测试标记的问题和异常。这是Contentsquare、Vimeo、Choozle、Farmer'sDog、Optoro等数据领导者最常引用的数据可观察性优势之一。

Contentsquare前全球数据治理负责人奥塔维奥·巴斯托斯(OtávioBastos)表示：“我们有某种无人监督的监控，可以自动开始检测人类无法检测到的一些非常重要的问题。”

“突然之间，我开始意识到我根本没有意识到的问题，”Vimeo前数据工程副总裁LiorSolomon说道。“例如，我不知道某个特定数据集每周会出现一次问题，两天不会刷新。”

Choozle首席执行官AdamWoods表示：“如果没有这样的工具，我们可能会监控最终结果表的覆盖范围，但这可能会隐藏很多问题。”“您可能看不到与该表中数以万计的广告活动中的一小部分相关的内容，但运行该广告活动的广告商将会看到它。有了蒙特卡洛，我们就达到了不必妥协的水平。我们可以对所有3,500张桌子发出警报。”

Farmer'sDog前数据策略主管RickSaporta表示：“当日常使用的数据发生故障时，您会立即知道，因为总是有人在关注它。”“但是你还有其他数据——这种数据在使用时至关重要，但并不是每天都会被查看。由于其性质，它有可能悄然崩溃，直到最关键的会议之前才被注意到。”

首席数据工程师帕特里克·坎贝尔(PatrickCambell)表示：“这不仅是数据工程在试图找出大海捞针问题方面的巨大胜利，而且还帮助我们让其他数据团队帮助我们保持对数据的信任。”，奥普托罗。“在这些情况下，建立这些框架可以使数据工程不再是中间人或女性……数据完整性确实应该是自助服务。您的数据工程师将会感谢您。”

69.捕捉未知的未知

数据测试的最大挑战之一是，您必须预测数据可能被破坏的所有巧妙方式……然后设置随着时间的推移有意义的阈值。通过利用机器学习监视器，数据可观察性使数据团队能够发现他们没有预料到的问题。通常这些是最值得检测的。

“我们进行了很多dbt测试。我们还有相当多的其他检查要运行，无论是手动还是自动，但我的脑海里总是有一种挥之不去的感觉，即某些数据管道可能以某种方式在某个地方被破坏，但我只是没有这样做。IT、数据和安全副总裁NickJohnsonSquatch博士说：“没有专门为此编写的测试。”

“真正有趣的第一件事是未知的未知数的想法……这种异常警报将设置在我可能根本不会想到设置警报的事物上，”Prefect工程经理迪伦·休斯(DylanHughes)说道。

“ELT很棒，但总是需要权衡，”Clearcover前首席数据工程师BraunReyes说。“例如，当您将CRM中的数据复制到Snowflake时，您的数据工程团队不一定是CRM或营销系统的领域专家。因此，我们真的很难跨所有这些来源定制数据质量测试。”

“无论是自定义SQL规则还是dbt测试，您都必须进行预先配置，”AutoTraderUK技术主管EdwardKent说道。“您必须提前知道要监视的内容，并完成设置过程。对于我们来说，我们每天定义了数百个数据模型并构建了数百个表。我们想要一种能够有效地启动并运行的东西，而无需我们付出这样的努力。蒙特卡洛提供的模式检查、数量检查和新鲜度检查都满足了这一点。”

60.最终数据可观察性用例：睡个好觉

我不会自称理解数据领导者如何使用数据可观察性作为睡眠辅助工具，但它已经被提到了很多次，如果我不把它包括在这里，那就太失职了。如果我没有提到任何与您的组织相关的数据可观察性用例，也许至少您可以使用它来帮助您停止在晚上翻来覆去。

Contentsquare数据治理策略师KenzaZanzouri表示：“通过预测并与对[数据质量信息]感兴趣的人进行沟通，我们实际上创造了一场革命。”“现在，我们晚上可以睡个好觉了。我们知道，如果我们的数据发生任何问题，我们将在仪表板的最终用户发现任何问题之前收到警报。”

“我认为任何数据领导者都会告诉你，让他们彻夜难眠的一件事是他们的数据是否已准备好用于早上的报告或第二天的分析，”Gitlab前数据和分析高级总监RobParker说道。

“我们的高管依靠我团队的仪表板来做出决策。借助蒙特卡罗，我们可以准确地知道当数据发生变化时要更新哪些内容，因此无需停机，也无需进行预防演习。我们的决策者更快乐，我晚上也能睡得着觉了，”Yotpo前业务绩效总监约夫·卡明(YoavKamin)说道。