共 2 篇文章 |
|
本文将模拟一个数据仓库系统,其中有用户数据,产品数据以及订单数据。增量处理多维数据集的关键是要将事实数据分为两部分处理,一个是增量事实表,一个是历史事实表,多维数据集第一次处理历史事实表中的数据,以后每次周期性的处理都是处理增量表中的数据。前两个多维数据集处理模块是用来处理多维数据集的,数据流负责把增量事实表的数据导... 阅42 转0 评0 公众公开 17-04-20 02:20 |
ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。这一部分需要在调研阶段做大量的工作,首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据,手工数据量有多大,是否存在非结构化的数据等等,当收集完这些信息之后才可以进行数据抽取的设计。(2)数据粒度的转换:业务系统一般存储非... 阅53 转0 评0 公众公开 17-04-20 00:38 |