分享

IBM利用Infosphere Datastage、Infosphere CDC、Infosphere Warehouse及Cognos构建数据分析(上)

 BI之路 2014-04-04

本文,主要为大家介绍 IBM 数据仓库、业务分析解决方案,特别是如何利用 Infosphere Datastage、Infosphere CDC、Infosphere Warehouse 及 Cognos 快速建立数据分析应用,以帮助大家快速掌握利用 Infosphere Datastage、Infosphere CDC、Infosphere Warehouse 及 Cognos 开发分析应用的基本方法。

针对数据仓库、业务分析应用,IBM 提供了全面的、业界领先的解决方案。软件方面,提供了集成的、端到端的解决方案,包括信息整合工具 Information Server;实时、增量数据复制工具 InfoSphere CDC;数据仓库解决方案 Infosphere Warehouse;业务分析工具 Cognos BI 以及一系列业务分析应用;针对 Big Data 数据分析,提供了 Infosphere BigInsights 及 Infosphere Streams;针对信息监管,提供了 Quality Stage 数据质量管理工具、Infosphere Optim 数据生命周期管理解决方案、Infosphere Guardium 数据安全解决方案,同时,IBM 还提出了 IBM Smart Analytics System 解决方案,它根据用户预计的数据仓库规模,为用户提供预先配置的、经过优化的、可以扩展的软、硬件整体套装配置方案,包括服务器的型号、配置,存储的配置,网络的配置,可以为用户提供合理的硬件选型,并提供一站式解决方案;IBM 还提供了 Netezza 数据仓库一体机,提供性能优异、配置简单的一站式解决方案;在数据仓库模型方面,IBM 提供了针对银行、电信、保险及零售业的数据仓库模型,可以为用户提供针对行业应用的模板,加速行业应用建模。

IBM 典型的数据仓库解决方案如下图所示,我们采用 Infosphere Warehouse 作为企业数据仓库 EDW 系统;采用 Infosphere Warehouse 作为关系型数据集市系统,Cognos 作为多维数据集市系统;通过 Infosphere CDC 将业务系统的数据实时复制到 ODS 系统中;使用 Infosphere Datastage 批量装载数据到数据仓库或数据集市中;使用 Infosphere CDC 实现增量、实时数据装载功能;使用 Cognos BI 及 Cognos 应用实现业务分析功能。

图 1. IBM 数据仓库解决方案架构
图 1. IBM 数据仓库解决方案架构

下边,我们通过一个简单的“Sales Performance Analysis”的例子来介绍一下如何利用 Infosphere Datastage、Infosphere CDC、Infosphere Warehouse 及 Cognos 快速建立数据分析应用。

本次试验,我们在 DB2 9.7 中创建了 db2olap 数据库作为 OLTP 数据源,使用 Infosphere Warehouse 提供的 DB2 9.7 创建了 olapdb 数据库作为 ODS/ 数据仓库系统,使用 Inforsphere Datastage 8.7 作为 ETL 工具负责将需要的数据从数据源 db2olap 中抽取、并做适当的转换后装入到 olapdb ODS/ 数据仓库中,同时,我们使用 Infosphere CDC 6.5.1 及 Infosphere Datastage 8.7 提供的 CDC Transaction Stage 实现实时、增量数据装载工作,最后使用 Cognos BI 10.1.1 实现最终的报表展现、OLAP 分析及仪表盘应用。

环境准备

本次实验环境,我们采用 Redhat Linux 操作系统,内核 2.6.1,并且在上面安装了如下的软件:

  • IBM Information Server 8.7

  • Inforsphere CDC 6.5.1

  • DB2 9.7.4

  • IBM Cognos BI Server 10.1.1

  • IBM HTTP Server 7.0

在 windows 7 客户机上安装了如下的软件:

  • Cognos BI Model 10.1.1

OLTP 数据源

本次试验,我们在 DB2 9.7 中创建了 db2olap 数据库作为 OLTP 数据源,包括如下表及表结构定义信息:

清单 1. 数据源定义

				
 create table locations_s--location dimension    
 (city_id char(8) not null primary key, 
 prov_id varchar(10), 
 area_id varchar(10), 
 country_id varchar(10) ); 

 create table city_s 
 (city_id char(8) not null primary key, 
 city varchar(10), 
 city_population int); 

 create table prov_s 
 (prov_id varchar(10), 
 prov varchar(10)); 

 create table area_s 
 (area_id varchar(10), 
 area varchar(10)); 
 
 create table products_s   --products dimension 
 (product_id varchar(10) not null primary key, 
  sub_class_id varchar(10), 
  class_id varchar(10)); 

 create table product_s 
 (product_id varchar(10) not null primary key, 
  product varchar(50)); 

 create table subclass_s 
 (sub_class_id varchar(10), 
  sub_class varchar(50)); 

 create table times_s      ---time dimension 
 (day_id int not null primary key, 
  day varchar(10), 
  month_id int, 
  month varchar(10), 
  year_id int, 
  year varchar(10)); 
  
 create table salesperf_s 
 (city_id char(8) not null, 
  product_id varchar(10) not null, 
  day_id int not null, 
  sales decimal(10,2), 
  costs decimal(10,2), 
  constraint fk_day 
  foreign key(day_id) 
  references times_s, 
  
  constraint fk_location 
  foreign key(city_id) 
  references locations_s, 
  
  constraint fk_product 
  foreign key(product_id) 
  references products_s 
  );

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多