ETL

您所在的位置:网站首页 kettle两种脚本文件 ETL

ETL

2023-09-27 13:18| 来源: 网络整理| 查看: 265

ETL_Kettle简介

kettle 是纯 java 开发,开源的 ETL工具,用于数据库间的数据迁移 。 Kettle中有两种脚本文件,transformation和job。 transformation完成针对数据的基础转换,job则完成整个工作流的控制. 在这里插入图片描述在这里插入图片描述 Kettle下载地址: https://sourceforge.net/projects/pentaho/files/Data%20Integration/

Kettle启动 Kettle是绿色软件, 解压缩到任意本地路径, 双击Spoon.bat 就能启动 Kettle 。

Kettle使用要点: - Kettle组件类型基本说明transformation/job - Kettle大数据组件的应用说明 - 基于表对表的同步 - 基于表到hdfs的同步 - 基于文件到hdfs的同步 - 基于表到hive的同步 - 基于表到hbase的同步 - 基于文件到hbase的同步 - 基于表到phoenix的同步 - Kettle中sqoop的调用 - Kettle中JavaScript的基本应用 - 作业调用作业及转换**

Kettle组件类型基本说明transformation/job

Kettle设计好后可产出两种脚本文件,transformation(转换,后缀为.ktr)和job(作业,后缀为.kjb),这两类脚本都是xml格式。Transformation完成针对数据的基础转换,作用和地位类似于DataStage中的Job。Job则完成整个工作流的控制,作用和地位类似DataStage中的Sequence。 注:一般程序使用job开发即可,但针对大数据相关程序可以使用Transformation开发,然后使用job去封装。作业,可串行执行或并行执行。 串行执行,一条线,按步先后执行;两条线,则先执行完其中一条线再执行另一条线。并行执行,两条线同时执行,执行结果,true(成功)或false(失败),根据执行结果可控制流程走向: 在这里插入图片描述转换,一开始,所有步骤同时运行,记录从最前端的步骤向后传递,传递到相应步骤则记录被该步骤做相应处理,处理完成再往后传递。(如果不做连接,优先执行SQL)

参考文章: 【kettle 教程(一):简介及入门】https://blog.csdn.net/qqfo24/article/details/82190535



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3