数据集市是20世纪90年代末期在商务智能(BI)和决策支持系统(DSS)领域提出的一种数据组织形式。 与数据库相比,数据集市的数据来源更广,可以整合不同的系统数据源;与数据仓库相比,数据集市规模更小、数据冗余度更低,更强调对具体业务职能或应用系统的数据支撑,强调快速部署与轻量级运算;与联机事务处理(OLTP)相比,数据集市的数据对象更加稳定,访问和存取更加迅速。数据集市的建设和部署主要有独立型数据集市和从属型数据集市两种类型。独立型数据集市是指直接从企业数据操作环境中获取数据,并加以集中、规范和利用的形式,一般是从信息系统的数据源中抽取、转化和装载(ETL)若干非易变信息而成的操作性数据集合;从属型数据集市则将数据集市视为企业数据仓库的物理子集或逻辑子集,是数据仓库的一个构成要素,其数据来源主要是数据仓库中所存储的数据存量,其数据存储、加工过程必须遵循统一的数据仓库框架。 关于数据集市与数据仓库的关系,存在两种主张:数据集市是数据仓库的应用与交付阶段,是从原子数据的集成仓库中抽取有用或关联信息所建构的具体应用,因此数据集市中的数据规范必须满足第三范式;数据集市的应用是调用数据仓库中的有用信息,通过维度表予以访问,因而数据仓库可以有一定的数据冗余,也可以是数据仓库中表单的子集。 在具体数据要素中,数据集市一般包括事实表(measures)、维度表(dimensions)、数据记录以及数据总表等类型。事实表是高度索引化的完整数据表单,包含数据的属性、记录项,以及确认后的具体活动事实记录,数据相对稳定,较少变更,主要描述密集型事实数据;维度表则是通过外键与事实表相连的数据表单,一般用以描述非密集型数据、目录型数据等。数据集市中的数据要素多通过星型或雪花型结构关联,数据相对灵活,便于动态扩增与迭代开放。 |
|
来自: 求是1025 > 《162大数据与人工智能》