分享

数据仓库白皮书-结构与应用篇_数据库技巧_数据仓库白皮书-结构与应用篇_IT专家网

 killYY 2008-06-25

数据仓库白皮书-结构与应用篇

作者: 张澜、康增培 ,  出处:赛迪网, 责任编辑: 丁一凡, 
2004-12-24 11:37
  IBM、Oracle等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。

IBM、Oracle等厂商都提出了自己的数据仓库结构,但严格说来,任何一个数据仓库结构都是从一个基本框架发展而来,实现时再根据分析处理的需要具体增加一些部件。其中斯坦福大学“WHPS”课题组提出的一个基本的数据仓库模型如图1所示。

  为了能够将已有的数据源提取出来,并组织成可用于决策分析所需的综合数据的形式,一个数据仓库的基本体系结构中应有以下几个基本组成部分:

  ◆数据源 指为数据仓库提供最底层数据的运作数据库系统及外部数据。

  ◆监视器 负责感知数据源发生的变化,并按数据仓库的需求提取数据。

 

图1 数据仓库基本体系结构

  ◆集成器 将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中。

  ◆数据仓库 存贮已经按企业级视图转换的数据,供分析处理用。根据不同的分析要求,数据按不同的综合程度存储。数据仓库中还应存储元数据,其中记录了数据的结构和数据仓库的任何变化,以支持数据仓库的开发和使用。

  ◆客户应用 供用户对数据仓库中的数据进行访问查询,并以直观的方表示分析结果的工具。

  应用行业
  新世纪客户关系在各种交易中所起到的作用越来越重要,在市场经济这个天平上的法码也是越来越沉重了。从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下,重要的信息往往可以决定企业的成败,甚至决定企业的生死存亡。因此,很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的民航订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等就是建立在大型数据库基础之上的数据仓库。由于篇幅有限,下面仅就以下行业来加以简单说明。

  证券
  证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理,并结合行情走势、上市公司资料、宏观微观经济数据等,在掌握大量数据的情况下,对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析,从而获得以往一直想获得但却无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后,就有能力为客户提供针对其个人习惯、投资组合的投资建议,从而真正作到对客户的贴心服务。

  银行
  随着社会主义市场经济改革的深化,传统的计划金融模式逐渐瓦解,市场金融模式逐渐形成。在这个变革过程中,由于体制、市场、企业、个体等经济要素变化、发展的不平衡性,带来了银行对各种金融变量控制的随机性和模糊性。如何防范银行的经营风险、实现科学管理以及进行决策,成为当今金融研究的一个重要课题。利用数据仓库的强大功能,银行可以建立企业客户群、个人客户群的数据库,并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织,形成一个一体化的存储结构,为决策分析奠定基础。通过先进的信息加工、分析、处理软件,加上银行的经营决策、信贷营销人员的个人经验,对每一个投资方向、每一笔贷款作出科学的判断,可以有效控制投资、信贷风险。

  税务
  增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰,是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的,要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术,对税收部门的内部和外部数据进行综合分析处理,可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者,并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述,找出普遍规律,谋求因势利导的税务策略;三是对不同行业、产品和市场应收税款进行预测,制定最有效的征收计划。数据仓库技术之所以能够查出漏税者,其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场的从业人员以及企业的纳税能力,并与其实际纳税金额进行对比,从而查出可能的偷漏税者。澳大利亚政府税务部门将数据仓库技术用于支持税收业务,系统经过3年的运行,投入回报率达到1∶15。

  保险
  随着商业保险公司业务系统日趋完善,数据交换和处理中心的建立,如何满足保险行业日益增长的各种查询、统计、报表以及分析的需求,如何提高防范和化解经营风险的能力,如何有效利用这些数据来实现经营目标,预测保险业的发展趋势,甚至如何利用这些数据来设计保险企业的发展宏图以在激烈的竞争中赢得先机,是保险决策支持系统需要解决的问题,也是目前保险企业在信息技术应用上的首要难题。

  数据仓库的实施
  数据仓库是一个解决方案,而不是一个可以买到的产品。不同企业会有不同的数据仓库,企业人员往往不懂如何利用数据仓库,不能发挥其决策支持的作用,而数据仓库公司人员又不懂业务,不知道建立哪些决策主题,从数据源中抽取哪些数据,因此需要双方互相沟通,共同协商开发数据仓库。

  开发数据仓库流程包括以下几步:

  ◆启动工程 建立开发数据仓库工程的目标及制定工程计划。计划包括数据范围、提供者、技术设备、资源、技能、组员培训、责任、方式方法、工程跟踪及详细工程调度。

  ◆建立技术环境 选择实现数据仓库的软硬件资源,包括开发平台、DBMS、网络通信、开发工具、终端访问工具及建立服务水平目标(可用性、装载、维护及查询性能)等。

  ◆确定主题进行仓库结构设计 因为数据仓库是面向决策支持的,它具有数据量大但更新不频繁等特点,所以必须对数据仓库进行精心设计,才能满足数据量快速增加而查询性能并不下降的要求。

  ◆数据仓库的物理库设计 基于用户的需求,着眼于某个主题,开发数据仓库中数据的物理存储结构。

  ◆数据抽取、精练、分布 根据数据仓库的设计,实现从源数据抽取数据、清理数据、综合数据和装载数据。

  ◆对数据仓库的OLAP访问 建立数据仓库的目的是要为决策支持服务,所以需要各种能对数据仓库进行访问分析的工具集,包括优化查询工具、统计分析工具、C/S工具及数据挖掘工具,通过分析工具实现决策支持需要。

  ◆数据仓库的管理 数据仓库必须象其他系统一样进行管理,使数据仓库正常运行。

  另外,在实施数据仓库时,还应注意以下问题:

  (1)与传统业务系统不同,数据仓库是面向管理决策层应用的,必须有系统自身的最终用户——企业决策层的参与。数据仓库应用本身并不是业务流程的再现,而是基于数据分析的管理模式的体现。在这个层次上,数据仓库对于企业决策层的意义首先不是信息技术和产品上的,而是企业经营管理模式上的。数据仓库的实施者需要在商业智能化如何能够帮助企业获得市场竞争力上下工夫,提供切实有效的系统实施目标和规划,使得企业决策层充分认识到数据仓库是他们自己所需要的系统,在投入和配合上给予充分的支持。

  (2)由于数据仓库的访问和查询往往能够通过工具来提供,因此数据仓库的功能取决于系统的规划和设计。在了解数据仓库应用需求的时候,主要的对象应该是企业的决策部门和管理部门,而不是信息系统部门。了解应用的需求必须从企业如何利用信息进行管理的角度出发,需要有丰富的行业经验。在这个阶段,对于国内数据仓库应用来说,可以将复杂的数据分析需求分解成若干专题,这些专题在行业内往往具有一定的普遍性,有现成的设计模式可以借鉴。数据仓库的设计实施也宜逐个击破,每个阶段都能满足一部分用户的需求,最后获得全面的成功。

  (3)在对待原始数据的问题上,我们需要坚持一个原则,就是不拘泥于业务系统的现状。由于数据仓库是独立于业务系统的,数据仓库的实施将以管理层需要的分析决策为主线,在设计中可以为不确定数据预留空间。对于数据的完整性和质量问题可通过如下方式处理:利用多种方式加载数据,可以设计专门的输入接口收集数据,如获取客户的个人资料;放宽数据的时效性,在分析中标明个别数据的有效时间;在系统中标识出低质量的数据,规范业务系统。

  (4)数据的抽取、转换和装载是一项技术含量不高但却非常烦琐的工作,在系统实施过程中建议由专门小组或人员负责数据抽取的工作,将其纳入统一的管理和设计,不仅考虑原始数据源的类型,还必须考虑抽取的时间和方式。一个数据仓库系统往往同时存在多种数据抽取方式以适应原始数据的多样性,因此讨论单一抽取工具的选型是没有意义的,原则只能有一个:简便、快捷、易维护。

  (5)用户对数据仓库的认识常常从报表起步,但数据仓库并不是为业务报表而设计。需要指出的是,数据仓库的分析工具在固定格式的报表再现上有时不如专门定制的程序。因此,以解决报表问题作为建立数据仓库的目的一般都会以用户的失望告终。数据仓库的强项在于提供联机的业务分析手段,正因为数据仓库的使用,才使管理人员逐步摆脱对固定报表的依赖,取而代之地以丰富、动态的联机查询和分析来了解企业和市场的动态。

  (6)系统的实施需要明确的计划和时间表,新的技术和产品可以分阶段加入,但要避免无休止的测试和选型。因为数据仓库的价值在于使用,如果让一些没有必要的信息去指导决策,那么数据仓库将永远停留在投资阶段。在定义实施计划时,需要明确系统的使用范围、用户的应用模式等与选择具体产品相关的重要问题。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多