共 16 篇文章
显示摘要每页显示  条
Pentaho 中国爱好者社区 在 kettle 里 把一行数据拆成多行数据的java script 脚本var str = row[8].toString();var tokens = str.split(" ");var i;var row = createRowCopy(getOutputRowMeta().size());row[index]=tokens[i];说明:row[8].toString(); 数据行里第八列里的数据是以空格分隔的一个字符串。createRowCopy(getOutputRow...
本文主要从两个方面阐述 ETL 和数据清洗的实现过程: ETL 的处理方式和数据清洗的实现方法。ETL 本质 4.1. ETL 特点 ETL的过程就是数据流动的过程,从不同异构数据源流向统一的目标数据。流程调度的最小单位是ETL单元实例,ETL单元是不能在细分的ETL过程,当然这由开发者来控制,例如可以将抽取、转换放在一个ETL单元中,那样这个抽取和转换只...
【转帖】数据迁移之Kettle的使用小结场景。Kettle的使用(基础)对于Kettle的配置需要有一个数据库,Kettle的数据库负责存储Kettle自身需要的元数据描述、任务、转换等,Kettle默认的登陆信息是admin/admin。Kettle的基础概念。Kettle的错误处理,有很多场景需要用到错误日志记录,如迁移过程中提示数据自身的问题、主/外键错误、违反约束等都...
可能有时候我们就是定时执行更新操作,比如每天或者一个星期一次,这个时候可以不需要在目标表中增加一个时间戳字段来判断ETL进行的最大时间,直接在取得原数据库的时间加上限定条件比如:无论是增量备份还是数据复制,如果原表中有触发器,在备份的数据库上都不要保留触发器,因为我们需要的不是一个备份库,只是需要里面的数据,最好所有不需...
Kettle的数据库连接是一个步骤里面控制一个单数据库连接,所以kettle的连接有数据库连接池,你可以在指定的数据库连接里面指定一开始连接池里面放多少个数据库连接,在创建数据库连接的时候就有Pooling 选项卡,里面可以指定最大连接数和初始连接数,这可以一定程度上提高速度.尽量不要用kettle 的calculate 计算步骤,能用数据库本身的sql 就...
Get data from XML=从xml文件中获取数据=使用XPath路径读取xml文件,这个步骤也允许你解析以前字段定义的xml文件。Add XML=添加xml文件内容=将几个字段编码写入xml文件。行扁平化=行扁平化=将输入流出现的结果字段进行扁平化处理(指定需处理的字段和扃平化后的新字段,将其它字段做为组合Key进行扃平化处理)XSD Validator=xml文件验证=根据XM...
Kettle对于日志的处理,存在一个BUG,看过上一篇的人或许已经看到了我的留言,Kettle对于日志处理有一个BUG, 当日志多于49M(不是50M,也不是49M),Kettle就会自动停止,这一点我在源码里面也没有找到对应的设置和约束, 原因还找不到,因为是日志没有写,所以原因也不好跟踪还不知道具体原因。总体来说,Kettle还是一个很不错的ETL工...
KETTLE 的使用表输入是从一个数据库表或数据库视图中获得数据。1 替换脚本脚本里的变量: 是否在SQL 语句里可以使用变量。2 从步骤插入数据:除变量外,用户输入的SQL 语句在运行时还可以接收其它步骤的运行结果,也就是将其它步骤的运行结果作为一个SQL 语句的参数。3 执行每一行:如果选择了 [从步骤插入数据],当选择的步骤有多行输出结果时...
在上面的过程中,我们都是在IDE工具中,直接点击按钮进行运行文件的,但在实际中,我们需要脱离IDE,进行单独的运行,这时就必须用到命令行来运行文件了。打开cmd命令行窗口,转到pan.bat所在的目录,如d:\data-integration,然后执行文件的命令为:pan /file d:\etltest\etltesttrans.ktr.打开cmd命令行窗口,转到pan.bat所在的目录,如d:\dat...
帮助 | 留言交流 | 联系我们 | 服务条款 | 下载网文摘手 | 下载手机客户端
北京六智信息技术股份有限公司 Copyright© 2005-2024 360doc.com , All Rights Reserved
京ICP证090625号 京ICP备05038915号 京网文[2016]6433-853号 京公网安备11010502030377号
返回
顶部