目前来说是不行的,ETL任然是大数据时代下数据迁移不可缺少的 首先说一下什么是ETL,ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。也就是说几乎所有的数据的移动都需要ETL的参与! 目前用到的ETL工具常见的有Datastage,informatica,kettle三种,前两者是收费的,并且占据了大多数国内市场,而kettle是来源免费的!但是在大数据量下Informatica 与Datastage的处理速度是比较快的,比较稳定。Kettle的处理速度相比之下稍慢。所以很多公司尤其是金融机构选Informatica 与Datastage。但是kettle由于是开源的所以有很强的扩展性。 数据要想有价值,就必须把它进行分析,挖掘出来它潜藏的价值,人们日常活动产生的数据一般是放在业务系统中,而在业务系统中的数据是不能直接进行分析处理的,这个时候我就得把这些数据搬运到一个仓库里,再进行分析!也就是所说的数据仓库,在而这个数据的搬运工就是ETL,在搬运的过程中我们还要做一些初步的清洗,去掉一些无用的不全的数据,这也是ETL的功能!最后我们那这些处理过的数据进行商业分析!这就是一个ETL的过程。 在数据就是价值的今天我们更加离不开ETL,当然这个过程也在不断的改进,运用也越来越智能越来越方便 说到ETL,很多开发伙伴可能会有些陌生,我也是在近几年的工作过程中才接触到ETL的,现在的项目是比较依赖于ETL,可以说是项目中重要的一部分。 先看一看ETL是做什么用的:ETL是将各个业务系统的数据,通过抽取、清洗、转换之后,加载到数据仓库的过程;ETL可以将分散、零乱、标准不统一的数据整合到一起。完整的ETL功能有很多(ETL是三个三次的缩写...),我只从我实际使用的场景出发,说明我对ETL的理解和实际应用。 我接触过的项目,使用ETL工具的场景有这个几种: 报表、BI系统:
跨系统的数据加工或查询:我们现在所在公司,业务系统有几百个,由于业务流程比较复杂,前端系统在做业务操作的时候,在正式提交交易之前,有很多业务校验;比如要查询客户在A系统的交易历史,在B系统的交易历史,在C系统的交易历史;那么就需要分别调用A、B、C系统的接口,这个对前端系统很不友好,那么通常的解决方案是什么?
所以,至少在我们项目,ETL是很难被替换掉的。 |
|