分享

数据仓库和数据集市

 麓山馆藏 2019-07-24

1.1 数据仓库的概念

数据仓库不是一个新兴事务,而是一种数据解决方案和解决问题的理念,主要用于支持决策和优化管理。数据仓库与传统的数据库有本质的区别,是数据库的扩展和升级,以传统数据库为基础,能够重新组织和分析数据。

在数据库技术的基础上,数据仓库技术逐渐发展起来。DW 即 DataWarehousing,数据仓库技术,能够支持决策分析,是一个面向分析、综合的、多元化、灵活性的操作平台。数据仓库支持多种运算平台,融合了多种信息技术,在一个系统中融合了所有运行数据,并用面向主题的方式将数据展现出来,为用户的查询、分析操作提供了便利条件和参考依据。随着技术水平的提高,数据仓库技术也得到了广泛应用,分析工具也逐渐兴起。DM 数据挖掘和 OLAP 联机分析处理都是以数据仓库为基础的分析工具。数据挖掘能够挖掘出海量数据的内在规律、隐含信息。联机分析处理能够全方位、立体化的分析和展现多维数据。

数据仓库是一个数据集合,具有各态历经性、稳定性、非易失性、集成性和面向主题性,能够支持分析决策。与面向应用的传统数据库不同,数据仓库是面向主题的,二者有本质的区别。主题是一个从全局角度综合、整理、归类和分析信息数据的抽象概念,是用户分析决策过程中重点关注的内容 。任一主题都与盈利性情况、风险情况、经营情况等宏观分析领域相对应。面向对象是指以主题区域为基础,数据仓库中的数据位分析决策提供参考。

数据仓库的集成性是指只有经过集成和加工的数据才能存储到数据仓库里,是搭建数据仓库的重要环节之一。因为不同操作事务数据库中的数据具有不同的编码,所以要统一处理这些数据,保证这些数据具有同样的编码规则以后,才能将这些数据存储到数据库之中。此外,为了尽量降低数据冗余,符合实际业务的需求,要改变面向应用的数据特性,将其变为面向主题。

数据仓库的稳定性是数据仓库不能体现日常事务处理的数据,只能对历史数据进行描述。集成和加工处理之后的数据,存储到数据仓库中,插入、查询等活动较为常见,很少执行删除、修改、更新等,通常会永久保存这些数据。数据仓库内存储了时间不一样的数据,随着时间的改变,数据仓库内的数据也会进行更新和修改。与操作型数据库中的数据相比,数据仓库中的数据具有更长的生存期限。数据仓库中的数据是随时更新的,对于时间久、无用的数据要及时删除,对于新增的、有用的数据要及时添加。数据库中的数据发生改变,统计性数据也会相应做出调整。

1.2 数据集市

1.2.1 数据集市的由来

不同单位的异构数据都可以存储在数据仓库中。要综合考虑企业的功能、性能和数据需求,合理搭建数据仓库。数据仓库是一项复杂、繁琐、成本高、周期长的工程。因此,数据仓库并不适用于中小型企业。数据集市有效解决了数据仓库的问题和弊端,是一种小型的数据仓库,能够支持决策分析和部门级应用,集成了大部分服务和业务。企业级的数据仓库能够对数据进行存储、采集和分析,满足用户的不同需求。然而,不同部门职责范围不同,需要采集和分析不同的数据。如果全部数据操作和处理都从数据仓库进行,会加重系统的负担,降低工作效率,造成资源浪费。数据集市就是在这个背景下发展起来的,一方面符合部门级数据分析的需要,另一方面减轻了中央数据仓库的负担,提高了工作效率。数据集市是在数据仓库的基础上发展起来的,通常由各部门安排数据集市中存储的数据,也通常采用不同的 OLAP 设计数据集市。相关数据表明,数据集市的投资占数据仓库投资的 50%。

数据集市是一种比数据仓库更集中、更小、更便捷、更简单的数据集合,适用于小型企业的数据分析。数据集市属于数据仓库的一种,支持特定应用和服务,以具体部门或应用为主。数据集市属于面向工作组、部门、小型的、集中的数据仓库。额定领域内的数据通常存储在数据集市里,继承了数据仓库的特征。可以在相同或不同的物理平台设置数据集市,具有更强的适用性、可移植性和兼容性。数据集市具有灵活、便捷、简单的优势,为决策人寻找信息提供方便。

所以,数据集市具有如下特征:面向部门、特定服务、规模小、成本低、使用简单、维护方便、由业务部门规划和实现、投资回收快、集成性、工具集完善等。数据集市是数据仓库的子集和一部分,继承了数据仓库的特征和优势。

1.2.2 数据集市的分类

按照不同的数据来源和建立方法,数据集市可以分为独立数据集市和从属数据集市两类。独立数据集市中存储不同的异构数据,数据来自多个应用环境,要通过 ETL 数据实现数据的一致性、完整性,不具有稳定的结构,难以统一化和一致化数据格式,仍无法实现“数据仓库内包括各种数据集市”的愿望。从属数据集市具有一样的数据格式,数据仓库确保数据的一致性、及时性、完整性,具有稳定的结构。图 1 - 1 和 1 - 2 从数据结构、数据源等角度描述了独立数据集市和从属数据集市的差异。

数据仓库和数据集市

1.3 数据仓库与数据集市比较

1.3.1 性能比较

数据集市是在数据仓库基础上发展起来的,仍属于数据仓库的一部分,是一种更集中、更密集、更小型、更便捷的数据仓库。数据集市和数据仓库具有一样的数据结构。尽管如此,二者还是有本质的区别和差异。如表 1 - 3 所示:

图 1-3 数据集市和数据仓库的对比图

数据仓库和数据集市

数据集市和数据仓库具有不同的数据粒度:

数据仓库中存储了不同粒度的数据。通常来讲,采用高粒度的方式存储新添加的数据,用低粒度的方式存储以前添加的数据。

数据集市中的数据具有较低的粒度化,通常是综合、紧凑、统一的统计数据。ETL 过程即筛选、清洗、转换、重组数据的过程。定期将数据从数据仓库或者源系统中提取出来,经过 ETL 过程,再存储到数据集市中,从而实现数据源的转移。

1.3.2 优缺点分析

数据仓库:

在全部单位数据的基础上,构建数据仓库,是针对企业范围的决策支持环境。数据仓库有机融合了不同站点的商业数据,是一种有效、合理、科学的管理技术,为决策支持提供可靠参考。成本高、周期长是数据仓库的劣势,不适用于中小企业 。

数据集市:

数据集市是一种集中化、小型化、简单化的数据仓库,体系结构更加简单,价格更加低廉,继承了数据仓库的优势和特点,满足了小型企业特定服务的需求。不同部门能够按照实际情况有选择的建立数据集市,周期短、操作简单、成本低、效率高。通常来讲,预处理数据、多维数据库、星型结构都能提高数据分析的效率。

异构的平台和不规范的数据是数据集市的最大劣势。不同部门按照各自需要,有选择性的建立数据集市,无法保证数据格式的统一。没有严格的标准规范数据集市的建立,无法保证数据的完整性、一致性 。平台异构是指不同部门的应用程序、数据、软硬件平台不相同,增加了共享数据的难度,不便于信息和数据的交换。

总结:一般在银行由计财部门主导立项 建立 监管报送系统,建立对应的数据集市,对接银行各个系统源数据,比如:核心系统、管理系统、资金系统、信贷系统等,通过ETL处理为统计报送所需的主题数据明细,按照业务提供的逻辑规则,通过SQL语句加工为对应的数据集,通过报表工具在监管报送系统中生成展现。

中间涉及到 抽取数据数仓的表还是抽取源系统的表的选择问题,这就是独立数据集市和从属数据集市,个人建议构建为独立数据集市,即抽取源系统的表(特殊处理的或者逻辑较复杂的数据仓库的表除外),虽然这样初期的开发成本高些,但是系统的可扩展性、独立性、时效性得以大大提高, 因为:

一 监管报表报送有时效性,必须在月初特定的时间段报送完成,而数据仓库面向全部门,不确定性、不稳定性因素较多,无法及时的提供源数据。

二 监管报表每年年末都会有升级,会涉及新的业务指标报送,假如直接对接源系统,这样升级的效率、准确性会大大提高,且开发成本较低,否则还需提需求给数据仓库,开发时间及准确性无法有效控制。

数据仓库和数据集市

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多