分享

数据仓库与数据湖的区别

 旅行者m1 2023-05-17 发布于辽宁

我们做数据行业会经常遇见两个数据存储的场景,一个是数据仓库,一个是数据湖,那么这两个数据存储的产品有什么区别了?

1)从使用对象来看,数据仓库主要是给BI分析的数据分析师使用的,而数据湖是给AI处理的数据科学家使用,数据仓库也可以给AI使用,但是侧重点是BI。

2)从数据处理的过程来看,数据仓库是ETL,抽取-清洗-加载,而数据湖是ELT,抽取-加载-清洗,即数据湖首先是直接讲数据存储,后续使用再进行清洗,而数据仓库在创建之初已经明确应用场景,所以先清洗再加载。

3)从使用用途来看,数据仓库有明确的使用场景,即明确的数据分析的主题场景,而数据湖是不确定数据有什么使用场景,先存储起来,后面再进行探索使用。

4)从存储的数据类型来看,数据仓库存储的主要是结构化数据,而数据湖存储的是结构化,半结构化和非结构化的数据,主要存储的是半结构化和非结构化的数据。

5)数据仓库的数据质量是通过数据治理实现数据价值,而数据湖的数据质量主要目的是具备高质量标准,确保数据可信、可靠、具有正确的含义和目的,主要是为了数据存储。

从以上几个方面可以看出数据湖和数据仓库是有明确的分别的,那么数据仓库和数据湖有什么相似点了?

1)数据湖和数据仓库都需要元数据管理,如果没有元数据管理,则数据湖会变成数据沼泽,不知道存储的数据是什么,无法再次使用,所以数据湖也是需要通过元数据管理将数据变成数据资源。另外元数据管理需要按照因归尽归,因收尽收的原则。

2)数据湖和数据仓库都有数据资源目录,通过数据资源目录了解存储的数据有什么?

3)数据湖和数据仓库的提取都是需要通过SQL的方式进行提取,数据模型的创建,但是区别主要在数据仓库的模型创建是依据数据标准进行创建,而数据湖的模型创建可以按照业务系统进行一比一的创建。

综上所述,数据仓库和数据湖是有那种不同的使用场景的,不同企业可以根据应用场景选取合适的产品进行数据存储。

目前数据仓库的类型主要有两种,一种是数据仓库的思想领袖Bill innon提出的关系型数据仓库,另外一种是另外一个思想领袖Ralph Kimball提出的多维数据仓库,目前关系型数据仓库不会存在因为数据量变大,查询变慢的问题,而多维数据仓库会存在由于数据量变大,而查询性能变慢的问题,而多维数据仓库解决由于数据量变大查询性能变慢的问题而产生的宽表,宽表的作用是适当使用部分数据冗余,通过空间换时间的方法解决查询性能问题。

而衡量数据仓库建设的成功与否的指标主要有3个指标:

1)使用率指标,有多少人在使用数据仓库

2)主题覆盖率。即有多少业务部门在使用数据仓库

3)响应时间和性能指标。由于数据仓库只要是BI分析应用场景,所以响应时间和性能指标是数据仓库建设的一个重要的指标。

数据湖建设成功与否的衡量指标可以包括以下几个方面: 

1)数据完整性:数据湖的数据应该完整地反映了业务过程中的各个环节,并且具备一致性和准确性。

2)数据质量:数据湖的数据应该具备高质量标准,确保数据可信、可靠、具有正确的含义和目的。

3)数据共享与协作:数据湖中的数据应该容易被团队和组织共享和访问,同时支持协作和合作。

4)数据安全与隐私:数据湖中存储的信息应该保持机密性、完整性、可用性,并遵循数据安全和隐私方针。

5)数据分析与应用:数据湖中的数据应该能够为企业和团队的业务决策提供有价值的洞察,同时支持业务应用和创新。

6)数据可持续性:数据湖与数据管理策略相结合,应该能够持续为组织和业务流程提供有益的价值。

7)数据湖管理平台的便捷性:数据湖中数据的管理流程应该简单便捷,从数据接入、数据管理到数据可视化、数据分析均应该较为便捷。

以上是对数据仓库和数据湖的不同点和相似点进行的分析,总结一下数据仓库主要是为了BI,数据湖是为了AI,数据仓库侧重点是为了数据应用,数据湖的侧重点是为了数据存储。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多