kettle基础教程-EnchanterBlue-ChinaUnix博客

EnchanterBlue的ChinaUnix博客

首页　| 　博文目录　| 　关于我

EnchanterBlue

博客访问： 1880888
博文数量： 323
博客积分： 5970
博客等级：大校
技术积分： 2764
用户组：普通用户
注册时间： 2011-04-03 23:13

文章分类

全部博文（323）

存储（0）
主机（1）

AS400（1）
中间件（1）

was（1）
excel数值处理（0）
数据结构（1）
dreamweaver（1）
mobile（1）
network（6）
攻击和防御（3）
系统架构（10）

nginx（2）

MQ（1）

tuxedo（1）

weblogic（3）

服务器架构（1）
系统启动管理（4）

grub管理（4）
数据库（108）

mysql（5）

db2安装（0）

DB2（4）

sql语句整理（11）

oracle数据挖掘（8）

oracle监控及调优（16）

oracle数据类型处（9）

oracle转码（5）

oracle导入导出（12）

oracle结构及原理（24）

oracle安装（8）

oracle RAC（3）

oracle（3）
开发（20）

ms平台（1）

c/c++编程（17）
系统优化（11）
监控工具（1）
性能测试（24）

java机制（2）

性能积累（10）

loadrunner（10）
操作系统（106）

ubantu（7）

windows（12）

资源指标（5）

操作系统知识（20）

shell（11）

工具安装（38）
杂谈（7）
基础知识（18）
未分配的博文（0）

文章存档

2018年（2）

2017年（11）

2016年（10）

2015年（27）

2014年（2）

2013年（30）

2012年（197）

2011年（44）

我的朋友

相关博文

kettle基础教程

分类： LINUX

2018-04-20 10:11:29

　　ETL是EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）的简称，实现数据从多个异构数据源加载到数据库或其他目标地址，是数据仓库建设和维护中的重要一环也是工作量较大的一块。当前知道的ETL工具有informatica, datastage,kettle,ETL Automation,sqoop,SSIS等等。这里我们聊聊kettle的学习吧（如果你有一定的kettle使用，推荐看看Pentaho Kettle解决方案，这里用kettle实践kimball的数据仓库理论。）。

　　内容有：认识kettle、安装kettle、简单入门实例、进阶实例、Linux中kettle部署、kettle发邮件、常见错误

　　认识kettle

　　kettle是纯java开发，开源的etl工具。可以在Linux、windows、unix中运行。有图形界面，也有命令脚本还可以二次开发。（官方社区：；官网wiki：；源码地址：）

　　安装kettle

　　1、kettle是基于java开发的，所以需要java环境（下载jdk：）

　　2、kettle使用时，需要访问相关的关系型数据库，则需要下载对应的链接驱动。比如我们访问MySQL，则下载相应的驱动解压后放入kettle文件的lib目录下

　　3、下载kettle并解压到自定义位置。kettle其实是以前的叫法，现在官方称为：PDI(Pentaho Data Integeration)。在windows中，双击目录中的Spoon.bat启动kettle.

　　简单的kettle实例

　　1、新建作业/转换（功能区：文件 --> 新建 --> 作业；新建-->转换）

　　　　一个作业（job，文件以kjb结尾）的主体是转换（transform，以ktr结尾），job主要来设置调度，可以有影子拷贝，任一拷贝信息修改所有拷贝的都被修改；transform做主体的内容，控件名称唯一。

　　2、三个控件（start、转换、成功）和流程线（hop）；

　　　　start：job开始的地方，可以设置开始的时间、频率、周期等（但要求kettle不能关闭，有点挫）

　　　　转换：后续详解

　　　　成功：job结束

　　　　流程线：关联两个控件（实体），指定数据流。同时还可以设置是否可用、分发模式、错误输出等；添加方式：按住shift进行鼠标拖动

　　3、转换的工作

　　　　新建的转换：job中需引用该转换文件

　　　　加入我们现在要同步MySQL中的一张表。在转换中要有输入和输出。

　　　　> 表输入：先配置链接（完成后测试一下是否OK），再输入查询sql（比如：select id from tab2 limit 10;）

　　　　>excel输出。，指定输出路径

　　　　> 完成转换的配置后保存，在job中引用保存的文件。我们来跑一下吧~

　　　　> 完成，结束！

　　　　进阶实例：

　　　　百度上看到了一篇关于kettle的作业，但是没有详细的过程。这里以此说明，全图过程如下。

　　　　作业说明：生成 100 个随机数，随机数取值于[0，100）之间，计算小于等于 50 的随机数个数和大于50 的随机数个数。并把这两个统计数字放在数据库表的一行的两列中，即输出的结果有一行，一行包括两列，每列是一个统计值。

　　　　第一步：生成随机数（输入-->生成随机数；需要生成100个随机数，右击控件，选择"改变开始开始...数量"为100）

　　　　第二步：增加常量（转换-->增加常量；给变量取个名称，类型和值。）

　　　　第三步：计算器（转换-->计算器；给出你的计算逻辑和计算出的字段；）

　　　　第四步：两个分支，一个输出；一个过滤；输出指定Excel，并执行数据发送模式（√：复制发送模式）

　　　　第五步：设置过滤（流程-->过滤记录）；并双击控件填写对应的条件；

　　　　第六步：分组（统计-->分组），双击控件后有两个需要关注，一个是分组（相当于group by）；一个是聚合（相当于count、sum等函数）

　　　　第七步：记录关联（连接-->记录关联（笛卡尔输出））；这是一个join操作，但是没有on条件；但是控件中提供了sql中where条件的刷选

　　　　第八步：输出

　　　　Linux上部署kettle任务

　　　　kettle的"开始"控件虽然可以进行调度，但要求程序一直运行。在实际工作中通常在windos中测试，放到Linux中以crontab的方式进行调度。在Linux中以kitchen.sh执行job任务，pan.sh执行transform任务；这里我们以上面为实例，如何在Linux中进行部署。

　　　　第一步：通过WinSCP将kettle拷贝到Linux中，在拷贝路径中执行. kitchen.sh ，如果有参考消息输出则没有问题

　　　　第二步：对于已在windos中执行成功的地址、文件名、用户等参数进行变量替换。执行export KETTLE_HOME=/home/shj，会生成/home/shj/.kettle目录，通过编辑目录下的kettle.properties文件来设置变量。实例中，我们仅仅需要替换两个输出文件的地址为变量即可。