![]() ![]() 作者:a16z 编译:kefei,穆奕,Ting 排版:海外独角兽团队 ![]() 数据赛道的美妙之处在于,它将软件开发、数据分析和人工智能结合起来,同时还享受了云计算浪潮的势头。如今,每一个人都是数据的生产者和消费者,需求的激增使数据成为企业基础设施服务领域中增长最快的赛道之一。 2022 年 3 月 23 日,a16z 发布 Data 50 榜单,介绍了全球 50 家代表下一代行业标准的数据初创企业,覆盖 7 个子领域:
从融资金额上看,数据查询和数据处理公司筹集了绝大部分资金。而从公司数量上看,AI/ML 领域的公司最多,AI/ML 的发展推动新兴数据公司数量的增长。尽管每个领域发展驱动力不尽相同,但每个领域都吸引了投资者的兴趣。 除了分享这份 Data 50 的榜单,在本文的后半部分,我们还将和大家分享a16z 在最近更新的一份数据基础设施架构报告:为了探讨数据赛道巨大趋势背后的架构演变和驱动力,a16z 于 年2020末发布了这套架构体系,并于2022年进行了更新,以帮助人们追踪数据基础设施行业变化。报告展示了跨越分析和运营系统的最佳技术以及每个架构自上一版本以来的变化,还试图解释了为什么会发生这些变化。 a16z 表示,核心数据处理系统在过去一年中保持相对稳定,而支持类工具和应用则迅速激增。文章探讨的假设是,数据平台开始在数据生态系统中出现,这一假设有助于解释数据栈演变中出现的特殊模式。 未来 10 年将是数据的 10 年,无论是基础层、应用层、还是介于两者之间的一切。 ![]() 如果你想要第一时间跟踪「海外独角兽」更多活动和内容动态,欢迎添加「小象」的微信~ 01. The Data 50 List 在 "大数据 "概念诞生的十多年后,数据仍然是大型企业和新兴初创企业快速成长最重要的创新动力之一。不管是对业务基础运营进行诊断,还是通过机器学习使日常业务智能化、自动化,数据已经成为各组织进行决策的中枢神经系统。此外,数据使用者的范围远远超出了数据科学家、数据分析师和数据工程师,如今每个人都是数据的生产者和消费者。 市场对数据关注度日益提升,带来的结果是:数据管理已经成为企业基础设施中增长最快的领域之一,价值预计超过 700 亿美元,21 年20数据管理支出占企业所有基础设施支出的五分之一以上。 过去几年,数据产业的发展也催生了一些很令人兴奋、很有影响力的软件公司。比如已经上市的 Snowflake(市值 734 亿美元)和 Confluent (市值 121 亿美元),已经改变了上千家企业的运作方式和上百万产品的构建形式。然而,大多数人仍不太了解其他有影响力的企业——下一代定义行业标准的企业。 21 年20,数据公司获得了数百亿美元风险投资,2022 年已经到来,我们制作了首个 Data 50 榜单。这些公司都是数据领域的细分赛道龙头。总体来看,这 50 家公司的估值超过千亿美元,总融资额约 145 亿美元,其中 20 家在 21 年20晋级独角兽行列。其中的 Databricks、Fivetran 和 Scale 海外独角兽曾经发布过深度分析内容。 以下是 2022 年 Data 50 榜单: ![]() ![]() ![]() ![]() ![]() 榜单制作标准 Data 50 的上榜公司都在2008年后成立,过去两年内都进行过新一轮融资,员工人数每年至少增长 30%。他们的产品具有普适性,能为各行业数据或数据应用团队提供技术服务。 排名是基于公司最新的估值、规模、过去两年员工增长情况、运营年限以及当前收入等因素综合考虑。员工数据基于 LinkedIn 的公开数据,融资数据基于 Pitchbook 和 Crunchbase 的公开数据,日期截至 2022 年 3 月 22 日。 请注意,这份榜单主要关注分析型数据库,因此不包括交易型数据库公司,如 CockroachDB、PlanetScale 和 Yugabyte。 02. Data 50 覆盖 7 个子领域 ![]() 1. 查询与处理(Query & Processing) 查询和处理技术是访问、汇总和计算数据的核心引擎。它涉及两个主要类别:批量处理(如Databricks 和 Starburst)和实时处理(如 ClickHouse 和 Imply)。过去几年,由于对实时应用的需求不断增加,后者得到了更多关注。 2. 人工智能与机器学习(AI / ML) AI/ML(人工智能和机器学习)包括应用算法建模和应用机器学习处理大数据的软件。从上榜公司的数量就能看出,这一领域正在逐渐成熟和蓬勃发展。其中一些公司专注于特定类型的数据(如 Rasa 和 Hugging Face 专注于自然语言),其他公司则专注于不同的领域,如人工智能的产品化(如 Scale 、Tecton 和 Weights and Biases)或运行人工智能工作负载的 "计算层"(如 Anyscale)。 3. ELT 与编排(ELT & Orchestration) ELT 与编排赋予了数据移动的能力。这一类别里,产品是一个运输层,保证数据准确和及时地到达目的地。这一类别是从传统的基于“拖拉拽”操作界面的 ETL 供应商基础上演变而来的。另一方面,这一领域的新厂商大多是云原生的(如 Fivetran 和 dbt)、开发者友好的(如 Astronomer 和 Prefect),并且能处理不同数据环境中更复杂的依赖关系。 注: ETL(Extract-Transform-Load),用来描述将数据从来源端经过提取、转换、加载至目的端的过程;ELT(Extract-Load-Transform)功能上与 ETL 无差异,仅顺序不同,ELT 是一个较新潮的概念,用于数据湖或数据中台。 编排,对单独组件和应用层的工作进行组织的流程。 4. 数据治理与安全(Data governance & Security) 随着数据栈变得越来越复杂,越来越多的利益相关者参与进来,数据治理和安全正成为关键问题。数据治理工具对于企业而言是必需的,尤其是强监管行业的企业,它可以确保企业的数据安全,确保企业在整个数据生命周期内保持合规性(如 OneTrust 和 Collibra)。这个赛道相对较新,通常服务于受监管的大型企业。 5. 客户数据分析(Customer data analytics) 客户数据分析传统上由营销团队所有。然而,由于其重要性增加,数据团队现在也更多地参与到将客户数据与中央数据平台整合的工作中。这个赛道主要捕捉客户数据(如 Rudderstack 和 ActionIQ)或将数据变得可操作,以服务一线业务案例(如 Census 和 Hightouch)。 6. 商业智能与演算本(BI & Notebooks) 商业智能与演算本(用于记录算法操作步骤)覆盖了数据的消费层。尽管这是一个成熟领域,但新参与者如 Preset 或 Metabase,正在采取一种开源优先的方式,吸引技术数据工程师以及 BI 团队。数据需求的快速变化也为迭代和交互式演算本(如 Hex)和自动生成的洞察(如 Sisu)创造了更多需求。 7. 数据可观测性(Data Observability) 数据可观测性从软件工程栈的最佳实践中获得灵感。随着数据栈与上下游工具的相互依赖性越来越强,数据的准确性也有了更广泛的影响,数据可观测性作为最新的赛道出现,为整个数据流提供监控和诊断能力。 数据查询和数据处理公司筹集了绝大部分资金 数据查询和数据处理领域公司数量只占 Data 50 的五分之一,但投资于该领域的资金几乎占所有资金的 50% —— 这是惊人的。即使这一数据受到 Databricks 最新的 16 亿美元融资的影响,但如果没有它,该领域仍占所有融资金额的 37%,是排名第二的领域两倍还多。 ![]() 若从公司数量看,各领域分布则相对平衡。AI/ML 是公司数量最多的领域,主要因为该领域仍在不断发展,需要一套新的独立工具来训练、测量和产出模型。 ![]() Data 50 聚集在湾区 在这 50 家公司中,47 家(94%)位于美国,3 家位于美国以外的地区。大多数公司(33 家)位于旧金山湾区,9 家位于华盛顿特区、费城、纽约和波士顿的 I-95 走廊沿线,2 家位于西雅图,1 家位于辛辛那提,1 家位于亚特兰大。 这样的分布在很大程度受历史上大规模数据生态系统所在地的影响(例如,Oracle 和 Teradata 都是在湾区成立的)。然而,我们看到更多的数据公司在全球范围内出现(如 Firebolt 和 Matillion),因为数据工程人才以及对数据工具的需求几乎遍布每个大陆。 ![]() AI/ML 推动 2019 年新兴数据公司的激增 在 AI/ML 工具爆发的推动下,大部分 Data 50 公司都是在 2014 年之后成立的,在 2019 年左右达到高峰。事实上,还有很多数据公司在 2019 年之后成立,但由于我们关注的是已经达到一定规模的公司,所以大多数新公司还没有出现在这个名单上。 ![]() 每个领域的投资金额都在增长 从每个领域的投资来看,最明显的趋势是,AI/ML 公司正在收获比以往更多的投资者兴趣,主要集中在早期阶段。ELT 和编排也是如此,主要由 Fivetran 和 dbt 的巨额融资推动。数据查询和数据处理公司继续吸引大笔资金,尽管这些公司往往处于后期阶段。 ![]() 数据赛道的美妙之处在于,它将软件开发、数据分析和人工智能结合起来,同时享受了云计算浪潮的势头。尽管市场采纳的主要推动力是数据量和使用量的增加,但每个细分领域的根本驱动力不同。例如,查询和处理领域主要由计算和存储的分离、向云计算的迁移以及更便宜的算力所驱动。数据治理和数据可观测性领域主要由不断增长的实操案例以及数据工作流程的复杂性所驱动。 为了说明这一巨大趋势背后的架构演变和驱动力,我们于 年2020底发布了一套结构体系。我们看到围绕数据构建的复杂系统的兴起,系统价值主要来自数据,而不是直接来自软件,这一趋势对行业产生巨大影响。 然而,我们发现,在这一趋势的前端,哪些技术是领先的,它们在实践中如何使用,大家仍然存在巨大困惑。因此,在过去几年中,我们与数百名创始人、企业数据领导者及其他专家进行交流,了解他们当前的数据堆栈与最佳实践,形成一个参考架构与体系。 自第一版架构体系发布以来,数据基础设施行业持续保持增长,几乎所有的关键行业指标都创下了历史新高,新产品类别的出现速度超过了大多数数据团队可以合理追踪的速度。为了帮助数据团队紧跟行业内发生的变化,我们最近又发布了一套最新的数据基础设施架构。它们展示了我们过去一年中从众多企业那里收集到的、跨越分析和运营系统的最佳技术。每个架构蓝图都包括自上一版本以来的变化摘要。 我们还试图解释为什么会发生这些变化。我们认为,核心数据处理系统在过去一年中保持相对稳定,而支持类的工具和应用则迅速激增。我们探讨的假设是,平台开始在数据生态系统中出现。这一假设有助于解释我们在数据栈的演变中看到的特殊模式。 为了更新参考架构,我们再次请教了几十位数据专家的意见。以下为更新后的架构,以及架构变化背后的原因。 03. 数据基础设施架构 在我们深入了解细节之前,先看看最新的架构图。这些是在领先的数据从业者的帮助下,根据他们内部运行的情况和他们对新部署的建议而编制的。 第一张架构图展示的是与所有数据基础设施用例相关的统一概述。 ![]() 注:不包括 OLTP(On-Line Transaction Processing,联机事务处理过程)、日志分析和 SaaS 分析应用。 ![]() 第二张架构图强调了机器学习,它是一个复杂的、越来越独立的工具链。 ![]() ![]() 04. 数据基础设施蓝图 在此背景下,我们将对每个主要的数据基础设施蓝图进行详细介绍。下面的每一节都显示了一个更新的图表(与第一版架构进行比较)和对关键变化的分析。这部分主要为实施堆栈的数据团队提供参考。 蓝图 1:现代商业智能 为各种规模的公司提供云原生商业智能。 ![]() 注:深黑色方框是新的或自 年2020架构的第 1 版以来显著的变化;浅黑色方框为基本保持不变;灰色方框被认为与此蓝图不太相关。 什么没变 有什么新变化
注: 反向 ETL,指将数据流程反转,传统流程为“业务系统-ETL-数据中心存储”,反向 ETL 流程则是“数据中心存储-ETL-业务系统”。通过反向 ETL,可以将处理后的用户或产品数据从中心存储(如数据仓库或数据库中)同步到业务所在的工具和平台上。
蓝图 2:多模态数据处理 进化的数据湖支持分析和运营案例,这也被称为 Hadoop 难民的现代基础设施。 注:Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。Hadoop 作为一项技术正在衰退。 ![]() 注:深黑色方框是新的或自 年2020架构的第 1 版以来显著的变化;浅黑色方框为基本保持不变;灰色方框被认为与本蓝图不太相关。 什么没变
有什么新变化
蓝图 3:人工智能和机器学习 用于机器学习模型的强大开发、测试和操作的堆栈。 ![]() 注:深黑色方框是新的或自 年2020架构的 V1 以来有意义的变化;浅黑色方框为基本保持不变;灰色方框被认为与本蓝图不太相关。 什么没变
有什么新变化
注:特征存储,是一个用于管理机器学习特征的数据管理系统,包括特征工程代码和特征数据,目标是使数据科学家能够缩短从数据摄取到ML模型训练和推理的时间。
05. 数据基础设施变化洞察 数据栈 数据栈内核稳定 尽管在过去的一年中,数据基础设施领域的活动非常狂热,但某些方面变化之小令人惊讶,例如数据栈内核的稳定。 在我们的第一版架构中,我们区分了支持数据驱动决策的分析系统,和支持数据驱动产品的运营系统。然后,我们将这些类别映射到三种模式或蓝图中,这些通常由领先的数据团队实施。 ![]() 其中一个关键问题是这些架构模式是否会融合。一年后,这似乎并没有发生。 尤其是分析和运营的生态系统都在持续蓬勃发展。像 Snowflake 这样的云数据仓库已经迅速增长,主要集中在 SQL 用户和商业智能用例。但其他技术的采用也在加速发展,例如,像 Databricks 这样的数据湖仓一体,客户量正在以比以往更快的速度增加。我们采访的许多数据团队证实,异质性很可能在数据栈中继续存在。 其他核心数据系统,即获取和转换,已被证明具有类似的持久性。这在现代商业智能模式中尤其明显,其中 Fivetran 和 dbt(或类似技术)的结合已经变得几乎无处不在。这在某种程度上也适用于运营系统,那里已经出现了Databricks /Spark、Confluent/Kafka 和 Astronomer/Airflow 等事实标准。 数据栈新变化 围绕着稳定的内核,数据栈在过去的一年里迅速发展,变化主要发生在以下两个领域:
我们还看到一些旨在加强核心数据处理系统的新技术的引入。值得注意的是,我们围绕着分析生态系统中的指标层以及运营系统的湖仓一体化模式展开了积极的讨论,这两者都在向有益的定义和架构靠拢。 数据平台 什么是平台 在数据生态系统中,"平台 "这个词已经被过度使用了,经常被内部团队用来描述他们的整个技术堆栈,或者被供应商用来销售松散连接的产品套件。 在更广泛的软件领域,平台是其他开发者可以在上面“搭建”的东西。平台本身提供的价值通常是有限的。例如,大多数用户对访问 Windows 或 iOS 的内部结构没有兴趣。但它们提供了一系列好处,如通用的编程接口和庞大的安装基础,使开发者能够建立和发布用户最终关心的应用程序。 从行业的角度来看,平台的决定性特征是“相互依赖”,即有影响力的平台供应商和大量第三方开发者之间在技术上和经济上的相互依赖。 ![]() 什么是数据平台 从历史上看,数据栈并不适合平台的定义。例如,ETL、数据仓库和报告供应商之间存在着相互依赖,但整合模式往往是一对一的,而不是一对多的,且由专业服务来大量补充。 根据我们采访的一些数据专家的说法来看,这种情况可能会开始改变。 数据平台假说认为,数据堆栈的 "后端",大致定义为数据获取、存储、处理和转换。“后端”已经开始围绕一组相对较小的基于云的供应商进行整合。因此,客户数据被收集在一套标准的系统中,而且供应商正在大力投资,以使这些数据更易于被其他开发者访问。客户数据也是 Databricks 等系统的基本设计原则,并且是通过 SQL 标准,以及 Snowflake 等系统的定制计算 API 的。 反过来,"前端 "开发人员已经利用这种单一的集成点,建立了一系列新的应用程序。他们依靠数据仓库/湖仓的干净、连接的数据,无需担心它如何实现基本细节。一个客户可以在一个核心数据系统的基础上购买和建立许多应用程序。我们甚至开始看到传统的企业系统,如财务或产品分析,正在以 "仓库原生 "的架构进行重建。 这画面可能看起来像这样: ![]() 要清楚的是,这并不意味着 OLTP 数据库或其他重要的后端技术将在不久的将来消失。但是,与 OLAP 系统的原生集成可能会成为应用开发的一个重要组成部分。随着时间的推移,越来越多的业务逻辑和应用功能可能会过渡到这种模式。我们可能会看到一大类新产品建立在这个数据平台上。 数据应用 数据平台假说仍有待商榷。然而,我们看到复杂的垂直 SaaS 解决方案在数据平台上以水平层的形式实施。因此,虽然是早期,我们认为在数据堆栈中发生的变化至少与平台的想法是一致的。 这是由很多原因导致的。例如,像 Snowflake 和 Databricks 这样的公司已经成为数据栈的稳定部分,包括伟大的产品,有能力的销售团队和低摩擦的部署模式。但也有一种情况是,他们的粘性被平台的动力所加强—— 一旦客户用其中一个系统构建和/或集成了一系列数据应用程序,通常就没有必要再过渡了。 类似的观点也可以支持近年来新型数据基础设施产品激增这一事实,这一趋势与海量的数据、不断增加的企业预算和过剩的风投资金有关。我们现在看到这么多新产品的出现,原因可能与平台有关——也就是说,一个新的数据应用程序从未像现在这样容易被采用,而正确维护平台也从未像现在这样重要。 平台假说在竞争态势方面提供了一些预测能力。从规模上看,平台可能非常有价值。如今,核心数据系统供应商的竞争可能不仅仅是为了当前的预算,更是为了长期的平台地位。如果你相信数据获取和转换、指标层应用或反向 ETL 是新兴数据平台的核心部分,那么它们那令人瞠目结舌的估值以及各方的激烈辩论也将更有意义。 06. 未来 我们仍处于定义数据平台的早期阶段,平台的各个部分也在不断变化。因此,把它当作一个类比,可能比当作一个严格的定义更好。它可能是一个有用的工具,可以帮助人们过滤噪音中的信号,培养对市场发展方式的认知。数据团队现在拥有更多的工具、资源和组织动力,比数据库发明以来的任何时候(可能)都多。我们非常期待看到应用层在新兴平台之上的发展。 我们相信,未来 10 年将是数据的 10 年,包括企业基础设施、应用程序以及介于两者之间的一切。 |
|