通过 Infosphere CDC 实现实时、增量数据装载 InfoSphere Change Data Capture 是一个跨不同数据库的实时数据复制解决方案,它通过读取源数据库的日志获取变化的数据,并经过适当的转换将数据复制到数据目标中。 InfoSphere CDC 是通过读取数据库的日志来获取变化的数据,对源数据库造成的影响极低。同时,它可以跨不同的数据库实时地捕捉和交付变更的数据,包括主流的 DB2, Oracle, MS SQL Server, Sybase, Teradata 等数据库,目标还支持 Message Queue、InfoSphere Information Server、Web Services 等。我们可以通过管理控制台轻松配置、管理 InfoSphere CDC 数据复制任务。 InfoSphere CDC 数据复制主要支持以下几种方式:
如下图所示,InfoSphere CDC 关键组件主要包括: 图 11. InfoSphere CDC 体系结构
InfoSphere CDC 提供了图形化管理工具来配置、管理 InfoSphere CDC 数据复制任务,通常,设置 InfoSphere CDC 数据复制任务主要包括以下几个步骤:
CDC Transaction Stage 从 Infosphere Datastage 8.5 开始,提供了 CDC Transaction Stage, 可以在 Datastage 作业中利用 CDC 提供的复制能力来实现基于事务的、实时的数据复制功能,可以用来实现增量、实时数据 ETL 功能。CDC Transaction Stage,在 Infosphere Datastage 8.5 中以补丁的方式提供 :CDC Transaction Stage patch (APAR JR37451),在 Infosphere Datastage 8.7 的产品中本身已经包含。 图 12. CDC Transaction Stage 系统架构 如上图所示,CDC Transaction Stage 和 InfoSphere CDC 互相配合,在 datastage 作业中来实现实时、增量异构数据库 ETL 功能。在 InfoSphere CDC 产品中,我们通过定义复制目标为 Datastage Server 来同 Datastage 中的 CDC Transaction Stage 相关联,在 datastage 中,CDC Transaction Stage 用于同 InfoSphere CDC 相互通信获取实时、增量数据,并在 Datastage 中做相应的数据转换,通过 datastage 提供的 connector 将数据落实到目标数据库中。 CDC Transaction Stage 通过 CDC 预订及 bookmark 作为同步机制来保证在系统出现故障时数据不会丢失。CDC Transaction Stage 数据同步是基于 CDC 预订级别,Bookmark 信息在 CDC 数据源服务器上自动生成,并以字符串形式传输给 CDC Transaction Stage,Bookmark 信息保存在 DataStage 目标数据库中,它主要包含了事务打开的位置、事务落实的位置、目标数据落实的位置等信息,不同的预订,需要定义不同的表来保存 bookmark 信息。在 CDC Transaction Stage 中,需要定义 ODBC 数据源来访问目标数据库中的 bookmark 信息。当预定重新启动后,CDC transaction stage 从目标数据库中读取 bookmark 信息,并将其传输到 CDC 源来定义重新启动的位置。
|
|
来自: BI之路 > 《Data Warehouse》