50家公司、7个领域，定义全球未来10年数据行业标准

雷神2025 2022-05-13

展开全文

作者：a16z

编译：kefei，穆奕，Ting

排版：海外独角兽团队

数据赛道的美妙之处在于，它将软件开发、数据分析和人工智能结合起来，同时还享受了云计算浪潮的势头。如今，每一个人都是数据的生产者和消费者，需求的激增使数据成为企业基础设施服务领域中增长最快的赛道之一。

2022 年 3 月 23 日，a16z 发布 Data 50 榜单，介绍了全球 50 家代表下一代行业标准的数据初创企业，覆盖 7 个子领域：

数据查询与数据处理（Query & Processing）
人工智能与机器学习（AI / ML）
ELT 与编排（ELT & Orchestration）
数据治理与安全（Data governance & Security）

客户数据分析（Customer data analytics）
商业智能与演算本（BI & Notesbooks）
数据可观测性（Data Observability）

从融资金额上看，数据查询和数据处理公司筹集了绝大部分资金。而从公司数量上看，AI/ML 领域的公司最多，AI/ML 的发展推动新兴数据公司数量的增长。尽管每个领域发展驱动力不尽相同，但每个领域都吸引了投资者的兴趣。

除了分享这份 Data 50 的榜单，在本文的后半部分，我们还将和大家分享a16z 在最近更新的一份数据基础设施架构报告：为了探讨数据赛道巨大趋势背后的架构演变和驱动力，a16z 于年2020末发布了这套架构体系，并于2022年进行了更新，以帮助人们追踪数据基础设施行业变化。报告展示了跨越分析和运营系统的最佳技术以及每个架构自上一版本以来的变化，还试图解释了为什么会发生这些变化。

a16z 表示，核心数据处理系统在过去一年中保持相对稳定，而支持类工具和应用则迅速激增。文章探讨的假设是，数据平台开始在数据生态系统中出现，这一假设有助于解释数据栈演变中出现的特殊模式。

未来 10 年将是数据的 10 年，无论是基础层、应用层、还是介于两者之间的一切。

以下为本文目录，建议结合要点进行针对性阅读。

👇

01 The Data 50 List

02 Data 50 覆盖 7 个子领域

03 数据基础设施架构

04 数据基础设施蓝图

蓝图 1：现代商业智能
蓝图 2：多模态数据处理
蓝图 3：人工智能和机器学习

05 数据基础设施变化洞察

数据栈
数据平台
数据应用

06 未来

如果你想要第一时间跟踪「海外独角兽」更多活动和内容动态，欢迎添加「小象」的微信~

01.

The Data 50 List

在 "大数据 "概念诞生的十多年后，数据仍然是大型企业和新兴初创企业快速成长最重要的创新动力之一。不管是对业务基础运营进行诊断，还是通过机器学习使日常业务智能化、自动化，数据已经成为各组织进行决策的中枢神经系统。此外，数据使用者的范围远远超出了数据科学家、数据分析师和数据工程师，如今每个人都是数据的生产者和消费者。

市场对数据关注度日益提升，带来的结果是：数据管理已经成为企业基础设施中增长最快的领域之一，价值预计超过 700 亿美元，21 年20数据管理支出占企业所有基础设施支出的五分之一以上。

过去几年，数据产业的发展也催生了一些很令人兴奋、很有影响力的软件公司。比如已经上市的 Snowflake（市值 734 亿美元）和 Confluent （市值 121 亿美元），已经改变了上千家企业的运作方式和上百万产品的构建形式。然而，大多数人仍不太了解其他有影响力的企业——下一代定义行业标准的企业。

21 年20，数据公司获得了数百亿美元风险投资，2022 年已经到来，我们制作了首个 Data 50 榜单。这些公司都是数据领域的细分赛道龙头。总体来看，这 50 家公司的估值超过千亿美元，总融资额约 145 亿美元，其中 20 家在 21 年20晋级独角兽行列。其中的 Databricks、Fivetran 和 Scale 海外独角兽曾经发布过深度分析内容。

以下是 2022 年 Data 50 榜单：

榜单制作标准

Data 50 的上榜公司都在2008年后成立，过去两年内都进行过新一轮融资，员工人数每年至少增长 30%。他们的产品具有普适性，能为各行业数据或数据应用团队提供技术服务。

排名是基于公司最新的估值、规模、过去两年员工增长情况、运营年限以及当前收入等因素综合考虑。员工数据基于 LinkedIn 的公开数据，融资数据基于 Pitchbook 和 Crunchbase 的公开数据，日期截至 2022 年 3 月 22 日。

请注意，这份榜单主要关注分析型数据库，因此不包括交易型数据库公司，如 CockroachDB、PlanetScale 和 Yugabyte。

02.

Data 50 覆盖 7 个子领域

1. 查询与处理（Query & Processing）

查询和处理技术是访问、汇总和计算数据的核心引擎。它涉及两个主要类别：批量处理（如Databricks 和 Starburst）和实时处理（如 ClickHouse 和 Imply）。过去几年，由于对实时应用的需求不断增加，后者得到了更多关注。

2. 人工智能与机器学习（AI / ML）

AI/ML（人工智能和机器学习）包括应用算法建模和应用机器学习处理大数据的软件。从上榜公司的数量就能看出，这一领域正在逐渐成熟和蓬勃发展。其中一些公司专注于特定类型的数据（如 Rasa 和 Hugging Face 专注于自然语言），其他公司则专注于不同的领域，如人工智能的产品化（如 Scale 、Tecton 和 Weights and Biases）或运行人工智能工作负载的 "计算层"（如 Anyscale）。

3. ELT 与编排（ELT & Orchestration）

ELT 与编排赋予了数据移动的能力。这一类别里，产品是一个运输层，保证数据准确和及时地到达目的地。这一类别是从传统的基于“拖拉拽”操作界面的 ETL 供应商基础上演变而来的。另一方面，这一领域的新厂商大多是云原生的（如 Fivetran 和 dbt）、开发者友好的（如 Astronomer 和 Prefect），并且能处理不同数据环境中更复杂的依赖关系。

注：

ETL（Extract-Transform-Load），用来描述将数据从来源端经过提取、转换、加载至目的端的过程；ELT（Extract-Load-Transform）功能上与 ETL 无差异，仅顺序不同，ELT 是一个较新潮的概念，用于数据湖或数据中台。

编排，对单独组件和应用层的工作进行组织的流程。

4. 数据治理与安全（Data governance & Security）

随着数据栈变得越来越复杂，越来越多的利益相关者参与进来，数据治理和安全正成为关键问题。数据治理工具对于企业而言是必需的，尤其是强监管行业的企业，它可以确保企业的数据安全，确保企业在整个数据生命周期内保持合规性（如 OneTrust 和 Collibra）。这个赛道相对较新，通常服务于受监管的大型企业。

5. 客户数据分析（Customer data analytics)

客户数据分析传统上由营销团队所有。然而，由于其重要性增加，数据团队现在也更多地参与到将客户数据与中央数据平台整合的工作中。这个赛道主要捕捉客户数据（如 Rudderstack 和 ActionIQ）或将数据变得可操作，以服务一线业务案例（如 Census 和 Hightouch）。

6. 商业智能与演算本（BI & Notebooks）

商业智能与演算本（用于记录算法操作步骤）覆盖了数据的消费层。尽管这是一个成熟领域，但新参与者如 Preset 或 Metabase，正在采取一种开源优先的方式，吸引技术数据工程师以及 BI 团队。数据需求的快速变化也为迭代和交互式演算本（如 Hex）和自动生成的洞察（如 Sisu）创造了更多需求。

7. 数据可观测性（Data Observability）

数据可观测性从软件工程栈的最佳实践中获得灵感。随着数据栈与上下游工具的相互依赖性越来越强，数据的准确性也有了更广泛的影响，数据可观测性作为最新的赛道出现，为整个数据流提供监控和诊断能力。

数据查询和数据处理公司筹集了绝大部分资金

数据查询和数据处理领域公司数量只占 Data 50 的五分之一，但投资于该领域的资金几乎占所有资金的 50% —— 这是惊人的。即使这一数据受到 Databricks 最新的 16 亿美元融资的影响，但如果没有它，该领域仍占所有融资金额的 37%，是排名第二的领域两倍还多。

若从公司数量看，各领域分布则相对平衡。AI/ML 是公司数量最多的领域，主要因为该领域仍在不断发展，需要一套新的独立工具来训练、测量和产出模型。

Data 50 聚集在湾区

在这 50 家公司中，47 家（94%）位于美国，3 家位于美国以外的地区。大多数公司（33 家）位于旧金山湾区，9 家位于华盛顿特区、费城、纽约和波士顿的 I-95 走廊沿线，2 家位于西雅图，1 家位于辛辛那提，1 家位于亚特兰大。

这样的分布在很大程度受历史上大规模数据生态系统所在地的影响（例如，Oracle 和 Teradata 都是在湾区成立的）。然而，我们看到更多的数据公司在全球范围内出现（如 Firebolt 和 Matillion），因为数据工程人才以及对数据工具的需求几乎遍布每个大陆。

AI/ML 推动 2019 年新兴数据公司的激增

在 AI/ML 工具爆发的推动下，大部分 Data 50 公司都是在 2014 年之后成立的，在 2019 年左右达到高峰。事实上，还有很多数据公司在 2019 年之后成立，但由于我们关注的是已经达到一定规模的公司，所以大多数新公司还没有出现在这个名单上。

每个领域的投资金额都在增长

从每个领域的投资来看，最明显的趋势是，AI/ML 公司正在收获比以往更多的投资者兴趣，主要集中在早期阶段。ELT 和编排也是如此，主要由 Fivetran 和 dbt 的巨额融资推动。数据查询和数据处理公司继续吸引大笔资金，尽管这些公司往往处于后期阶段。

数据赛道的美妙之处在于，它将软件开发、数据分析和人工智能结合起来，同时享受了云计算浪潮的势头。尽管市场采纳的主要推动力是数据量和使用量的增加，但每个细分领域的根本驱动力不同。例如，查询和处理领域主要由计算和存储的分离、向云计算的迁移以及更便宜的算力所驱动。数据治理和数据可观测性领域主要由不断增长的实操案例以及数据工作流程的复杂性所驱动。

为了说明这一巨大趋势背后的架构演变和驱动力，我们于年2020底发布了一套结构体系。我们看到围绕数据构建的复杂系统的兴起，系统价值主要来自数据，而不是直接来自软件，这一趋势对行业产生巨大影响。

然而，我们发现，在这一趋势的前端，哪些技术是领先的，它们在实践中如何使用，大家仍然存在巨大困惑。因此，在过去几年中，我们与数百名创始人、企业数据领导者及其他专家进行交流，了解他们当前的数据堆栈与最佳实践，形成一个参考架构与体系。

自第一版架构体系发布以来，数据基础设施行业持续保持增长，几乎所有的关键行业指标都创下了历史新高，新产品类别的出现速度超过了大多数数据团队可以合理追踪的速度。为了帮助数据团队紧跟行业内发生的变化，我们最近又发布了一套最新的数据基础设施架构。它们展示了我们过去一年中从众多企业那里收集到的、跨越分析和运营系统的最佳技术。每个架构蓝图都包括自上一版本以来的变化摘要。

我们还试图解释为什么会发生这些变化。我们认为，核心数据处理系统在过去一年中保持相对稳定，而支持类的工具和应用则迅速激增。我们探讨的假设是，平台开始在数据生态系统中出现。这一假设有助于解释我们在数据栈的演变中看到的特殊模式。

为了更新参考架构，我们再次请教了几十位数据专家的意见。以下为更新后的架构，以及架构变化背后的原因。

03.

数据基础设施架构

在我们深入了解细节之前，先看看最新的架构图。这些是在领先的数据从业者的帮助下，根据他们内部运行的情况和他们对新部署的建议而编制的。

第一张架构图展示的是与所有数据基础设施用例相关的统一概述。

注：不包括 OLTP（On-Line Transaction Processing，联机事务处理过程）、日志分析和 SaaS 分析应用。

第二张架构图强调了机器学习，它是一个复杂的、越来越独立的工具链。

04.

数据基础设施蓝图

在此背景下，我们将对每个主要的数据基础设施蓝图进行详细介绍。下面的每一节都显示了一个更新的图表（与第一版架构进行比较）和对关键变化的分析。这部分主要为实施堆栈的数据团队提供参考。

蓝图 1：现代商业智能

为各种规模的公司提供云原生商业智能。

注：深黑色方框是新的或自年2020架构的第 1 版以来显著的变化；浅黑色方框为基本保持不变；灰色方框被认为与此蓝图不太相关。

什么没变

数据复制（如 Fivetran ）、云数据仓库（如 Snowflake）和基于 SQL 的数据建模（与 dbt）的组合继续构成这一模式的核心。这些技术的应用已经有了很大的增长，也使新竞争者（如 Airbyte 和 Firebolt）获得了资金和早期增长。
看板仍然是输出层中最常见的应用，包括 Looker、Tableau、PowerBI 以及像 Superset 这样的新入局者。

有什么新变化

人们对指标层（metrics layers）的兴趣大增，这是一个在数据仓库之上提供标准定义的系统。这方面的争论很激烈，包括它应该有什么功能，哪些企业应该开发和拥有它，以及它应该遵循什么规范。到目前为止，我们已经看到几个可靠的产品（如 Transform 和 Supergrain），并通过 dbt 拓展到这一类别。
反向 ETL 供应商已经有了显著的增长，特别是 Hightouch 和 Census。这些产品的目的是更新运营系统，如 CRM 或 ERP，以及从数据仓库中获得产出和洞察。

注：

反向 ETL，指将数据流程反转，传统流程为“业务系统-ETL-数据中心存储”，反向 ETL 流程则是“数据中心存储-ETL-业务系统”。通过反向 ETL，可以将处理后的用户或产品数据从中心存储（如数据仓库或数据库中）同步到业务所在的工具和平台上。

数据团队对新的应用程序表现出更大的兴趣，以强化他们的标准看板，尤其是数据工作空间（如 Hex）。广义上讲，新的应用程序可能是云数据仓库日益标准化的结果。一旦数据结构清晰且易于访问，数据团队自然希望对其做更多的处理。
数据发现和可观测公司激增，并且筹集了大量资金（尤其是 Monte Carlo 和 Bigeye）。虽然这些产品的好处很明显，即更可靠的数据管道和更好的协作，但产品的采用依然处于早期，因为客户也会关注相关的案例和预算。(说明：尽管在数据发现方面有几个可靠的新供应商，例如 Select Star, Metaphor, Stemma, Secoda, Castor，但我们的图表中一般不包括处于种子阶段的公司。)

蓝图 2：多模态数据处理

进化的数据湖支持分析和运营案例，这也被称为 Hadoop 难民的现代基础设施。

注：Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。Hadoop 作为一项技术正在衰退。

注：深黑色方框是新的或自年2020架构的第 1 版以来显著的变化；浅黑色方框为基本保持不变；灰色方框被认为与本蓝图不太相关。

什么没变

数据处理（如 Databricks 、Starburst 和 Dremio）、传输（如 Confluent 和 Airflow）和存储（AWS）方面的核心系统继续高速增长，并构成本蓝图的主干。
多模态数据处理在设计上仍然是多样化的，使公司可以在分析和运营数据应用中采用最适合其特定需求的系统。

有什么新变化

人们对湖仓一体架构的认识越来越清晰。我们已经看到这种方法得到了众多供应商（包括 AWS、Databricks 、Google Cloud、Starburst 和 Dremio）和数据仓先锋的支持。湖仓一体的基本价值是将强大的存储层与一系列强大的数据处理引擎（如 Spark、Presto、Druid/Clickhouse、Python 库等）配对。
存储层本身正在升级。虽然像 Delta、Iceberg 和 Hudi 这样的技术并不新鲜，但它们正被加速采用，并被构建到商业产品中。其中一些技术（特别是 Iceberg）也与云数据仓库（如 Snowflake）进行了交互操作。如果异质性仍然存在，这可能会成为多模态数据堆栈的一个关键部分。
流处理（即，实时分析数据处理）的采用可能会上升。虽然像 Flink 这样的第一代技术仍未成为主流，但具有更简单编程模型的新进入者（如 Materialize 和 Upsolver）正在获得早期用户，而且，据说现有的 Databricks 和 Confluent 公司的流处理产品的使用也开始加速。

蓝图 3：人工智能和机器学习

用于机器学习模型的强大开发、测试和操作的堆栈。

注：深黑色方框是新的或自年2020架构的 V1 以来有意义的变化；浅黑色方框为基本保持不变；灰色方框被认为与本蓝图不太相关。

什么没变

今天的模型开发工具与年2020基本相似，包括主要的云供应商（如 Databricks 和 AWS）、ML 框架（如 XGBoost 和 PyTorch）和实验管理工具（如 Weights & Biases 和 Comet）。

实验管理已经有效地将模型的可视化和调整，归为了独立的类别。

构建和运行一个机器学习堆栈是复杂的，需要专业知识。这个蓝图不适合胆小的人——对于许多数据团队来说，人工智能的实际应用仍然是一个挑战。

有什么新变化

ML 行业正在围绕以数据为中心的方法进行整合，强调复杂数据的管理，而不是增量的建模改进。有这几个影响：

数据标签（data labeling）的快速增长（如 Scale 和 Labelbox）以及对闭环数据引擎（closed-loop data engines）兴趣的不断增加，主要是仿照特斯拉的自动驾驶数据管道。
批量处理和实时使用的情况下，特征存储（feature stores）（如 Tecton）的使用率增加，作为以协作方式开发生产级 ML 数据的一种手段。

注：特征存储，是一个用于管理机器学习特征的数据管理系统，包括特征工程代码和特征数据，目标是使数据科学家能够缩短从数据摄取到ML模型训练和推理的时间。

对低代码 ML 解决方案（如 Continual 和 MindsDB）的兴趣再度产生，这些解决方案至少可以部分实现 ML 建模过程的自动化。这些较新的解决方案专注于将新用户（即分析师和软件开发人员）带入 ML 市场。

预训练模型的使用正在成为默认选项，特别是在 NLP 中。并为 OpenAI 和 Hugging Face 等公司提供了助力。这里仍有围绕微调、成本和扩展的，有意义的问题需要解决。

ML 的运营工具（有时被称为 MLops）正变得越来越成熟，它是围绕着 ML 监控，作为最需要的用例和即时预算而构建的。同时，一系列新的运营工具正在出现，功能包括验证和审计，最终市场仍有待确定。

人们越来越关注开发者如何将 ML 模型无缝集成到应用程序中，包括通过预构建的 API（如 OpenAI）、矢量数据库（如 Pinecone）和更多有指导意义的框架。

05.

数据基础设施变化洞察

数据栈

数据栈内核稳定

尽管在过去的一年中，数据基础设施领域的活动非常狂热，但某些方面变化之小令人惊讶，例如数据栈内核的稳定。

在我们的第一版架构中，我们区分了支持数据驱动决策的分析系统，和支持数据驱动产品的运营系统。然后，我们将这些类别映射到三种模式或蓝图中，这些通常由领先的数据团队实施。

其中一个关键问题是这些架构模式是否会融合。一年后，这似乎并没有发生。

尤其是分析和运营的生态系统都在持续蓬勃发展。像 Snowflake 这样的云数据仓库已经迅速增长，主要集中在 SQL 用户和商业智能用例。但其他技术的采用也在加速发展，例如，像 Databricks 这样的数据湖仓一体，客户量正在以比以往更快的速度增加。我们采访的许多数据团队证实，异质性很可能在数据栈中继续存在。

其他核心数据系统，即获取和转换，已被证明具有类似的持久性。这在现代商业智能模式中尤其明显，其中 Fivetran 和 dbt（或类似技术）的结合已经变得几乎无处不在。这在某种程度上也适用于运营系统，那里已经出现了Databricks /Spark、Confluent/Kafka 和 Astronomer/Airflow 等事实标准。

数据栈新变化

围绕着稳定的内核，数据栈在过去的一年里迅速发展，变化主要发生在以下两个领域：

支持关键数据流和工作流的新工具，如数据发现、数据可观测性或 ML 模型审计。

让数据团队和商业用户以更新、更强大的方式从数据中挖掘价值的新应用，如数据工作区、反向 ETL 和 ML 应用框架。

我们还看到一些旨在加强核心数据处理系统的新技术的引入。值得注意的是，我们围绕着分析生态系统中的指标层以及运营系统的湖仓一体化模式展开了积极的讨论，这两者都在向有益的定义和架构靠拢。

数据平台

上文提到，在过去的一年里，数据基础设施堆栈的核心系统有了很大的稳定性，而支持工具和应用程序数量激增。为了解释为什么会发生这种情况，我们在此介绍平台的概念。

什么是平台

在数据生态系统中，"平台 "这个词已经被过度使用了，经常被内部团队用来描述他们的整个技术堆栈，或者被供应商用来销售松散连接的产品套件。

在更广泛的软件领域，平台是其他开发者可以在上面“搭建”的东西。平台本身提供的价值通常是有限的。例如，大多数用户对访问 Windows 或 iOS 的内部结构没有兴趣。但它们提供了一系列好处，如通用的编程接口和庞大的安装基础，使开发者能够建立和发布用户最终关心的应用程序。

从行业的角度来看，平台的决定性特征是“相互依赖”，即有影响力的平台供应商和大量第三方开发者之间在技术上和经济上的相互依赖。

什么是数据平台

从历史上看，数据栈并不适合平台的定义。例如，ETL、数据仓库和报告供应商之间存在着相互依赖，但整合模式往往是一对一的，而不是一对多的，且由专业服务来大量补充。

根据我们采访的一些数据专家的说法来看，这种情况可能会开始改变。

数据平台假说认为，数据堆栈的 "后端"，大致定义为数据获取、存储、处理和转换。“后端”已经开始围绕一组相对较小的基于云的供应商进行整合。因此，客户数据被收集在一套标准的系统中，而且供应商正在大力投资，以使这些数据更易于被其他开发者访问。客户数据也是 Databricks 等系统的基本设计原则，并且是通过 SQL 标准，以及 Snowflake 等系统的定制计算 API 的。

反过来，"前端 "开发人员已经利用这种单一的集成点，建立了一系列新的应用程序。他们依靠数据仓库/湖仓的干净、连接的数据，无需担心它如何实现基本细节。一个客户可以在一个核心数据系统的基础上购买和建立许多应用程序。我们甚至开始看到传统的企业系统，如财务或产品分析，正在以 "仓库原生 "的架构进行重建。

这画面可能看起来像这样：

要清楚的是，这并不意味着 OLTP 数据库或其他重要的后端技术将在不久的将来消失。但是，与 OLAP 系统的原生集成可能会成为应用开发的一个重要组成部分。随着时间的推移，越来越多的业务逻辑和应用功能可能会过渡到这种模式。我们可能会看到一大类新产品建立在这个数据平台上。

数据应用

数据平台假说仍有待商榷。然而，我们看到复杂的垂直 SaaS 解决方案在数据平台上以水平层的形式实施。因此，虽然是早期，我们认为在数据堆栈中发生的变化至少与平台的想法是一致的。

这是由很多原因导致的。例如，像 Snowflake 和 Databricks 这样的公司已经成为数据栈的稳定部分，包括伟大的产品，有能力的销售团队和低摩擦的部署模式。但也有一种情况是，他们的粘性被平台的动力所加强—— 一旦客户用其中一个系统构建和/或集成了一系列数据应用程序，通常就没有必要再过渡了。

类似的观点也可以支持近年来新型数据基础设施产品激增这一事实，这一趋势与海量的数据、不断增加的企业预算和过剩的风投资金有关。我们现在看到这么多新产品的出现，原因可能与平台有关——也就是说，一个新的数据应用程序从未像现在这样容易被采用，而正确维护平台也从未像现在这样重要。

平台假说在竞争态势方面提供了一些预测能力。从规模上看，平台可能非常有价值。如今，核心数据系统供应商的竞争可能不仅仅是为了当前的预算，更是为了长期的平台地位。如果你相信数据获取和转换、指标层应用或反向 ETL 是新兴数据平台的核心部分，那么它们那令人瞠目结舌的估值以及各方的激烈辩论也将更有意义。

06.

未来

我们仍处于定义数据平台的早期阶段，平台的各个部分也在不断变化。因此，把它当作一个类比，可能比当作一个严格的定义更好。它可能是一个有用的工具，可以帮助人们过滤噪音中的信号，培养对市场发展方式的认知。数据团队现在拥有更多的工具、资源和组织动力，比数据库发明以来的任何时候（可能）都多。我们非常期待看到应用层在新兴平台之上的发展。

我们相信，未来 10 年将是数据的 10 年，包括企业基础设施、应用程序以及介于两者之间的一切。