数据仓库与数据挖掘（第一章）

kaller_cui 2021-12-21

展开全文

“ 数据仓库知识点，一般来说，计算机数据处理主要有俩种方式：操作型处理和分析型处理。”

第一章·数据仓库概述

传统数据库与操作型处理

数据库（DataBase,DB）是长期存储在计算机内的，有组织的，可共享的数据集合。其理论产生于20世纪60年代。在20世纪70年代之前的数据库技术称之为第一代，支持层次数据模型和网状数据模型。20世纪70年代开始了关系数据库管理系统。由与严格的数学理论支持，关系数据库管理系统迅速取代了层次和网状数据库管理系统，并在商业领域取得普及应用，长盛不衰，至今枝繁叶茂。为了与数据仓库相区别，人们把现在普遍使用的关系数据库称之为传统数据库，或操作型数据库。

例如：OLTP系统（On-Line Transaction Processing）财务系统管理、超市管理系统，其数据存储在传统数据库中。它的核心任务是：对传统数据库（也称之为事物处理数据库或OLTP数据库）进行联机的日常操作，因此称之为操作型处理，他们通常是对一个或多组记录进行查询或修改操作，主要为企事业单位的特定数据管理和应用服务。用户希望在保证数据安全性和完整性的前提下，每次操作能够实时响应

传统分析处理问题

由于传统数据库的事务处理方式和决策支持的分析处理方式对数据管理的需求有明显的冲突，导致传统数据库无法很好的支持决策分析活动。人门已逐渐认识到事务处理和分析处理具有完全不同的特点，直接使用事务处理环境来支持分析处理是行不通的，其中主要原因如以下几个方面。

（1）分析处理的系统影响问题

在传统的事务处理系统中，用户对数据系统的响应要求是实时性，即数据存取频率高，处理时间短，用户的业务操作请求行往希望在很短的时间内完成，这就要求系统在多用户的情况下，也可以保持较知的系统响应时间，在决策分析的数据处理中，用户对系统的处理要求则发生了很大的变化。有些次策问题的分析处理请求，可能会导致系统长数小时的运行；有决策问题的解决，则需要询历数据库中人部分甚至全部数据，这些分析处理过程必然消耗大量的系统资源，严重影响享务处理的实时性要求，这是联机事务处理系统无法忍受的。

（2）分析处理的数据需求问题

(1) 外部微据需求问题，在进行决策问题的分析处理，需妥全面、正确地集成数据。这些集成的数据不仅包含企业内部的数据，而且还包含企业外部的，尘竞对手的关数据。但传统数据库中只存储了本部门的事务处理数据，却设有与快策问题相关的集成数据，更没有企业外部的数据，如果将数据的成运算也交给分析处理程序完成，将进一步说加分析处理的时间，影响事务处理的实时性要求，联机事务处理的用户更加难以接受.

(2） 系统平台差异问题，在决策问题分析处理的数据集成过程中，还必须解决不同数据处理系统的差异视向题，导致企业联机事务处理系统差异的原因是多种多样的，比如企业在发展中兼并了其他企业，而被并企业的数据库系统平台与兼并企业的数据库系统平台完全不同，数据尤法共享。还有，在企业发展的早期因为资金欲乏，开始时可能只开发了部分关键部门的数据库系统，企业发展后又补充开发了其他部门的数库系统，但其系统平台更为先进，导致前后系统的数据集成困难。

(3) 数据不一致性问题。数据的不一致性有很多种，下面萄单介绍儿种常见情况。·和同属径的类型不一致。同一个实体的属性在不同的应用系统中，可能有不同的数据类型。例如，一个人的性别在暂住人口系统中可能用字符1和0表示，而在旅馆登记系统中可能用逻辑值T和F表示。

相同属性的长度不一致，同一个实体的属性在不同的应用系统中，可能有的效据长度。例如，一个人的性别在常住入口系统中可能用字符“男”和“女”表示，长度

为2，但在暂住人口系统中可能用字符1和0表示，长度为1。

相同属性的命名不一致。同一个实体的属性在不同的应用系统中使用了不同的名称。比如一个人居住地的派出所，在常住人口系统中字段名称为PCS，而在暂住人口管理系统中使用ZZPCS来命名。

名称相同的属性含义不一致。同名的字段在不同的应用中表示了不同实体的不同属性，其含义完全不同。例如，名称为“GH”的字段名，在人事系统中表示为职工的“工号”，但是在销售管理系统中却表示为“购货号”。

因此，在使用这些数据进行决策问题的分析处理之前，必须对这些数据进行比较分析，确认其真实含义，才能正确地实现数据集成。

(4)非结构化数据问题。在决策问题分析处理的数据集成过程中，不仅涉及传统数据库系统中的数据，还涉及其他非结构化数据的集成问题。例如，行业的统计报告、咨询公司的市场调查分析数据，其格式可能是Excel、Word或者Web页面等。这些数据必须经过格式、类型的转换，才能被正确地集成并用于分析处理。

(5)历史数据需求问题。利用历史数据可以对未来的发展进行正确的预测，因此，对决策问题的分析处理而言，较长时期的历史数据具有重要的意义。而为保证事务处理的实时性需要，传统数据库中的数据一般只保留当前或近期的数据，没有长期保留大量的历史数据。

(6)数据动态更新问题。在决策问题的分析处理中，最近几个月或最近一年的数据显然更能体现企业的经营状况，但传统的分析处理系统在对数据进行一次集成以后，往往就与原来的数据源断绝了联系。导致在分析处理中使用的数据可能是几个月前，甚至是一年以前的，其分析结果必然导致决策的失误。

因此，分析处理系统要具有数据的动态集成更新能力，即数据能够进行定期的、及时的集成更新，其更新周期可以是一天，也可以是一周，而传统分析处理系统缺乏这种集成更新能力。

数据仓库的定义

数据仓库是一个面向主题的、集成的、不可修改的、随时间变化的，支持管理决策的数据集合。

我们将以上定义与本节开始介绍的数据库概念进行对比可以发现，数据仓库也是长期存储在计算机内的、有组织的、可共享的数据集合，因此，数据仓库也是数据库，只不过它是一种特殊的数据库。其特殊性体现在它的数据具有面向主题、集成、不可修改和随时间变化4个特征，其目的是支持企业的管理决策而不是支持事务管理。

数据仓库系统体系结构

数据仓库系统的基本体系结构如图所示。它不仅描述了数据仓库系统的所有组成部分，还描述了包括从数据源中抽取数据、转换并加载到数据仓库中进行存储管理，用各种工具对数据进行分析从而支持用户决策等组成部分之间的相互关系。它为数据仓库系统的开发和部署提供了一个整体的框架结构和实施路线图。

数据管理

数据管理就是对数据仓库数据，元数据和数据集市的存储管理，并为用户的数据查询检索提供支持，是整个数据仓库系统的环境支持部分。数据仓库管理系统(DWMS)对数据仓库数据的管理功能，相当于数据库管理系统(DBMS)对数据库数据的管理，通常包括数据存储、数据的安全性、一致性和并发控制管理以及数据的维护、备份和恢复等管理工作。

1 企业级数据仓库

企业级数据仓库包含从企业所有可能的数据源抽取得到的明细数据和汇总数据。

2 数据集市

数据集市(Data Mart，DMt)是企业级数据仓库的一个子集，通常称为部门级数据仓库，因为它主要面向部门级业务的决策分析，并且通常只面向某个特定的主题。

数据集市存储的是为特定部门预先计算好的数据，以满足部门用户对分析处理的性能需求，在一定程度上缓解了访问数据仓库的压力。

3 元数据的概念

元数据(Meta Data)是“关于数据的数据”，即描述其他数据的基础数据。传统数据库中的数据字典就是一种元数据，但在数据仓库中，元数据的内容比数据库中的数据字典内容更加丰富、关系更为复杂。元数据作为描述其他数据的基础数据，可对数据仓库中的各种数据进行详细的描述与说明，除了描述数据来源、类型、长度、是否主键和外键等基本信息外，还要描述数据结构、数据转换规则、加载方法和环境，使每个数据具有符合现实的真实含义，使最终用户了解这些数据及其相互之间的关系。

按照元数据的用途，可将其分为两种类型：技术元数据和商业元数据。

(1)技术元数据(Technical Metadata)是关于数据源、数据转换和数据仓库的描述，包括数据仓库中对象和数据结构的定义、数据清理和数据更新的规则、元数据到目的数据的映射、用户访问权限等。它主要供数据仓库设计和管理人员使用，因此也称为管理元数据(Administrative Metadata)。

(2)商业元数据(Business Metadata)是从商业应用的角度，使用业务术语描述数据仓库中的数据，包括对业务主题、数据来源和数据访问规则，各种分析方法及报表展示形式的描述，以便使数据仓库管理人员和用户更好地理解和使用数据仓库。因此，也被称为用户元数据(User Metadata)。

4 元数据的作用

(1)为决策支持系统分析员和高层决策人员提供便利。数据仓库元数据的广义索引(详见2.6.2节)中存有每次数据装载时产生的有关决策的汇总数据项，在做决策时，可以先查询该部分数据，再决定是否进行下一步的搜索。

(2)解决面向应用的操作型环境和数据仓库的复杂关系。从面向应用的操作型环境到数据仓库的转换是复杂的、多方面的，元数据包括对这种转换的描述，即包含了所有数据源的对象名、属性及其在数据仓库中的转换。

5 元数据的使用

(1)元数据在数据仓库开发期间的使用。数据仓库的开发过程是一个构造工程，必须提供清晰的文档。在此过程产生的元数据主要描述DW目录表及其运作模式，如数据的转化、净化、转移、概括和综合的规则与处理规则。

(2)元数据在数据源抽取中使用。元数据对多个来源的数据集成发挥着关键作用。利用元数据可以确定将数据源的哪些资源加载到DW中；跟踪历史数据结构变化过程；描述属性到属性的映射、属性转换等。

(3)元数据在数据清理与综合中的使用。数据清理与综合负责净化资源中的数据、增加资源戳和时间戳，将数据转换为符合数据仓库的数据格式，计算综合数据的值。元数据在这个过程中作为清理和综合数据的依据。

数据仓库数据的粒度与组织

1.数据的粒度

数据的粒度是指数据仓库的数据单元中所保存数据的综合程度。数据的综合程度越高其粒度也就越粗，反之，数据的综合程度超低，其粒度也就超细，比如，某个数据单元A一路的是某个旅第一天的人整是说，新合单是B存放的是该旅馆某一个月的人住人次，因此，我们说A的教度比合的和谈词的是得是人的综合程度比B的综合程度低。

数据的粒度设计问题是数据仓库设计的一个重要方面，数据仓库存储的数据粒度越智，则占用的存解空间越大，但可以提民丰苦的用书查询，反之，占用存储空间小，却只能提供相略的查询。因此，数据的表度选择是石节写，不仅对数据仓库中数据量的大小有直接影的，同时还影响数据仓库所能回答的查询是型和查询深度。因此，在数据仓库设计时，数据粒度的大小应根据数据量的大小与查询需要的详细程度做出权衡。

2.双重粒度

双重粒度是指数据仓库中仅存放真实细节数据(最低粒度)和轻度的综合数据。在很多情况下，数据仓库既希望占用尽可能少的存储空间，拥有较高的数据查询效率，又希望能提供非常详细的数据分析能力。为了使数据仓库在费用、效率、访问便利性，以及回答任何可能的查询方面得到较好的平衡。双重粒度成了许多机构在数据仓库粒度设计时的默认选择。当然，我们应该根据实际应用需要，在数据仓库的细节部分考虑选择单一粒度或多重粒度级别

3.数据仓库数据的粒度层级

在数据仓库设计时，通常可以将数据按照3重粒度级别4个层次的方式存储(见图1-5)，即将数据分为早期细节层、当前细节层、轻度综合层、高度综合层4个层级。数据源经过最低粒度级别的综合，首先进入当前细节层，并根据具体需要进行更高一层的综合，从而形成轻度综合层乃至高度综合层的数据。另外，按照迁移周期，将当前细节层的过期数据迁移到早期细节层存储，同时还要删除超过保存期的早期细节数据。

4.数据仓库的数据组织

数据仓库主要有简单堆积文件、轮转综合文件、简单直接文件和连续数据文件4种数据组织方式。

(1)简单堆积文件。它将每日从OLTP数据库中提取转换加工得到的数据逐天积累存储起来形成一个数据文件。

(2)轮转综合文件。数据存储单位被分为日、周、月、年等几个粒度级别(见图1-6(b))。在一个星期的七天中，数据被逐一记录在每日数据集中；然后，7天的数据被综合为周的数据，并记录在周数据集中；接下去的一个星期，日数据集被重新覆盖，以记录新的日数据。同理，当周数据集达到4或5个记录后，数据再一次被综合并记入月数据集，以此类推；轮转综合结构十分简洁，数据量比简单堆积结构大大减少。当然，它是以损失数据细节为代价的，越久远的数据，细节损失越多。

(3)简单直接文件、它把操作型环境的数据直接拖大数据仓库环境中存放较长的时间，且不做任何累积或综合计算，因此，它本质上是操作型数据在某个时间段的一个全真快照。

1连续数据文件。它是依据两个或更多的简单直接文件快照进行合并创建或追加形成的数据组织方法。