Kettle相关笔记

1、kettle的介绍

kettle是一款开源的ETL工具,纯Java编写,可以在windows,linux,unix等平台上运行,绿色无需安装,高效的完成数据抽取

2、kettle相关知识

2.1、kettle工程存储方式

1、XML形式存储

2、以资源库方式存储(数据库资源库,文件资源库)

2.2、kettle设计

1、转换:transform :完全针对数据的基础进行转换

2、作业:job:整个工作流的控制

3、区别

1.作业时步骤流,转换是数据流。这就是job和transform最大的区别
2.作业的每个步骤,必须等到前面的步骤执行完毕,后面的步骤才会执行;而转换会一次性吧所有控件全部刖启动(一个控件对应的一个线程)

nixsC.png

2.3、Kettle的组成

Kettle是一个组件化的集成系统,包括如下几个主要部分:
1.Spoon:图形化界面工具(GUI方式),Spoon允许你通过图形界面来设计Job和Transformation,可以保存为文件或者保存在数据库中。也可以直接在Spoon图形化界面中运行Job和Transformation。

2.Pan: Transformation执行器(命令行方式), Pan用于在终端执行Transformation,没有图形界面。

3.Kitchen: Job执行器(命令行方式),Kitchen用于在终端执行Job,没有图形界面。

4.Carte:嵌入式Web服务,用于远程执行Job或Transformation,Kettle通过Carte建立集群。

5.Encr: Kettle用于字符串加密的命令行工具,如:对在Job或Transformation中定义的数据库连接参数进行加密。

3、kettle安装

kettle下载相关网站http://www.kettle.org.cn/download

nh9er.png

下载解压可以得到

nhjGM.png

kettle源码下载地址https://github.com/pentaho/pentaho-kettle

nihri.png

4、Kettle使用

3.1、windows下安装使用

1、我们在使用kettle的时候,实际都是在windows环境下进行job和transform的开发,可以在本地运行,也可
以链接到远程服务器运行
2、运行Kettle
mysql链接库准备,下载mysql-connector-java-8.0.25,并拷贝到lib目录中

在window环境运行spoon.bat

如果出现了闪退现象

在spoon.bat的配置文件中修改Java内存限制

if “%PENTAHO_DI_JAVA_OPTIONS%”==“” set PENTAHO_DI_JAVA_OPTIONS=“-xms512m” “-xmx512m” “-XX:MaxPermsize=256m”

3、准备步骤

1、文件——>新建转换

niNtj.png

2、数据库连接配置

菜单:工具\向导\创建数据库连接向导

ni7ix.png

3、核心对象

输入——>表输入

输出——>插入更新

nie2p.png

niAbU.png

niKgY.png

4、保存当前转换,基本流程图如下

niZVv.png

5、运行转换

点击启动

niyqq.png

nimQr.png

6、新建作业

新建——>作业

niGqP.png

按住Shift连接

niQAb.png

1、新建作业的流程图

2、双击start,可以设置这个job的周期性执行

ni0Cg.png

3、双击转换,选中之前保存的转换

niSQl.png

4、双击sql脚本,写下相关配置

nidnB.png

5、保存执行

nis4s.png

Q.E.D.