ETL工具-Kettle Spoon教程

article/2025/10/14 5:44:31

转自:https://blog.csdn.net/liaomin416100569/article/details/82798879

一 。Kettle Spoon简介

     ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁移,了解并掌握一种etl工具的使用,必不可少,支持图形化的GUI设计界面,然后可以以工作流的形式流转,在做一些简单或复杂的数据抽取、质量检测、数据清洗、数据转换、数据过滤等方面有着比较稳定的表现,使用它减少了非常多的研发工作量,提高了我们的工作效率。

Kettle中有两种脚本文件,transformation(转换ktr结尾)和job(任务kjb结尾),transformation完成针对数据的基础转换,job则完成整个工作流的控制(工作流程首先由个开始节点【可以设置定时执行】 可以选择transformation)。

官网 :http://kettle.pentaho.org/  
下载的最新版本的kettle是:pdi-ce-7.1.0.0-12

官方入门文档 :https://wiki.pentaho.com/display/EAI/Getting+Started

二。kettle Spoon 安装入门

 1、安装kettle spoon

kettle是使用java编写 直接是绿色版 解压即可使用 解压后的目录结构


lib目录 可以存放第三方的jar  比如 数据库的驱动包 将来如果要连接某个数据库 将驱动包置入这个lib目录即可
spoon.bat是可执行文件 启动之前确保 jdk安装 环境变量(PATH和JAVA_HOME) 可以直接输入java和javaw 


主对象树就两种类型脚本 转换和作业

1)转换 

   转换菜单点击右键 新建 就创建了一个ktr结尾的转换脚本 
  
   新建好转换脚本后 主窗口的转换1 打开时 就可以拖拽控件到主窗口了 如果想重新再新建一个转换需要切换到欢迎页签
核心对象就是可以拖拽的控件 这里主要介绍几个核心对象 
比如 我想转换一个 csv文件到excel文件 

  输入 (CSV文件)
     核心对象中有各种不同的输入源 比如表(数据库) csv ldap access等
     比如 任意位置新建一个csv文件添加两列数据
    

 在转换脚本上拖拽一个csv输入的核心对象  选择该文件 并且指定两个列名和表格列名一致

  输出  (EXCEL文件)
     核心对象中 将数据转换后写入的目的地 比如插入和更新(目的表存在更新不存在插入) 删除(输入存在的记录就删除目标表对应记录)

    添加一个excel输出
  

数据excel输出 设置 选择输出的文件保存位置

  •   Hops节点连接 (输入和输出连一条线)

    数据从哪里流到哪里 可以再源对象上 shift键 鼠标拖动 也可以在主对象树中 Hops(节点连接) 上双击 手工选定
  

最后点击 三角运行按钮 运行 发现保存的excel中存在文件了


2)作业

作业可以理解为一套流程 流程从开始节点开始执行 直到最后
模拟一个简单作业 就是让上面那个转换每5s中执行一次 
定义一个开始节点


拖一个转换指定到开始那个aa的转换  shift 拉动线条

点击运行 发现每5s执行一次转换程序 如果需要停止 点击停止按钮即可

3)数据库转换案例

 比如要实现将数据库testkettle的userinfo表的数据导入到userinfo1 同时还要导出到excel文件中
 userinfo表结构如下


userinfo1的表结构如下(注意两张表的字段不一样哦)


 首先双击转换 新建一个转换  转换中配置数据库连接 先将驱动包 丢到kettle的lib目录下


输入完成后 点击测试按钮测试一下 
拖拽一个 输入 (表输入)到界面上  选择数据源的表 或者自己编写sql语句


添加一个excel输出 选择excel输出的位置 即可 拉上节点连接
添加一个 插入/更新 (选择插入的目标表【字段对应】 更新是用目标表的哪个字段和输入数据源的哪个字段比)
   如果userinfo1不在同一个数据库中 数据库连接选择其他数据库连接(自己新建) 即可

完成后 拖拽一根节点连接到  会有个确认框

点击运行发现excel和userinfo1都存在数据


http://chatgpt.dhexx.cn/article/tw35fq0j.shtml

相关文章

KETTLE 使用教程

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 Kettle的建立数据库连接、使用kettle进行简单的全量对比插入更新:kettle会自动对比用户设置的对比字段,若目标表…

spoon mysql教程_Kettle-Spoon入门示例

Spoon 是Kettle的设计调试工具 1.驱动: a) 驱动错误 b) 驱动添加 2.端口错误:连接数据库端口不对 3.正常连接 4.表输入 a) 新建一个表输入,获取数据库表的数据 b) 预览数据 c) 当前表数据输出到另外一个同样的表 d) 当前表数据输出到另外一个同样的表 e)…

数据库转换工具 spoon使用

由于项目需求 需要把oracle数据库转换为mysql数据库,所以使用spoon转换,简单快捷 ETL Kettle Spoon简介 ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业或行业应用来说&#…

spoon mysql教程_spoon新手入门教程

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工…

Kettle工具简单使用(spoon)

1、添加测试数据 在navicat中随便找个表当做被转化的数据进行测试,以下表为例: 在SQL server数据库中创建表 2、下载spoon软件 下载路径:https://download.csdn.net/download/qq_57404736/85013576 打开文件夹,双击spoon.ba…

Spoon工具的使用

Spoon工具的使用 第一步 建立中间表 create table table_name ( code varchar(100), name varchar(100) )第二步 新建转换 在核心对象 输入中找到表输入双击, 输出中找到表输出双击 第三步,双击表输入进入该界面 点新建进入如下界面 填写信息后点T…

spoon入门教程

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。Kettle这个ETL工…

Spoon工具使用(kettle进行实时同步数据)

文章目录 Spoon工具使用(kettle进行实时同步数据)安装相关概念转换DB连接步骤和节点连接 作业DB连接作业项目 Spoon工具使用(kettle进行实时同步数据) 安装 解压完Spoon安装包后,双击.bat文件打开 相关概念 转换…

Kettle Spoon入门教程

Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。其中,Spoon是Kettle中的一个组件,其他组件有PAN,CHEF,Encr和KITCHEN等。 Spoon通过图形化的页…

nethogs查看每个进程流量

sudo nethogs 找到每个进程消耗流量的pid 通过ps -ef | grep pid 来查看对应的任务。 再如: datanode带宽打满,会导致dn写数据非常慢 参考链接:每天学习一个命令:使用 nethogs 查看每个进程流量

NetHogs下载和监控

转自:http://blog.csdn.net/testcs_dn/article/details/40506225 CentOS6.5下使用NetHogs监控进程网络使用情况 分类: CentOS2014-10-27 13:54 5789人阅读 评论(3) 收藏 举报 目录(?)[] Nethogs 是一个终端下的网络流量监控工具,它的特别之处…

Centos7 部署 Nethogs

可用来按进程或程序实时统计网络带宽使用率 安装依赖包 yum install libpcap libpcap-devel epel-release -y 安装epel源 yum install epel-release -y 安装Nethogs yum install nethogs -y 运行测试 查看版本 nethogs -V version 0.8.5 直接执行nethogs界面如下 监控…

linux 查看使用网络的程序,linux下nethogs查看各程序的网络占用量

一、概述 inux下的流量查看工具很多,如:iptraf、nload、ifstat、sar等。当然每个工具都有各自的优势。不过以上所有工具有没一款都针对服务进程所占用的流量的具体情况给出结果。(我是不知道,如果有以上工具有这方面的功能,麻烦一…

nethogs-iftop等网络监控软件---Linux

一、Linux系统 1、nethogs 1)centos7.1下nethogs安装方法 (1)先安装epel,使用的命令是:rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm (2)yum install net…

CentOS下使用NetHogs监控进程网络使用情况

Nethogs 是一个终端下的网络流量监控工具,它的特别之处在于可以显示每个进程的带宽占用情况,这样可以更直观获取网络使用情况。它支持 IPv4 和 IPv6 协议、支持本地网卡及 PPP 链接。 下载: 从Github上下载nethogs-0.8.1.tar.gz 使用wget下…

nethogs命令

性能监测与优化 《Linux就该这么学》是一本基于最新Linux系统编写的入门必读书籍,内容面向零基础读者,由浅入深渐进式教学,销量保持国内第一,年销售量预期超过10万本。点此免费在线阅读。 有很多适用于Linux系统的开源网络监视工…

Linux学习准备,nethogs,htop,nmon,dstat用法

Nethogs用法: 在基于RedHat系统下键入如下命令启动NetHogs工具. # nethogs 要执行NetHogs你必须拥有root权限,即如图所示用sudo命令 $ sudo nethogs 以下就是NetHogs命令行的参数,用’-d’来添加刷新频率参数,device name 用来检测给定的某个或者某些设备的带宽(默认…

nethogs和nload流量监控工具

nethogs和nload流量监控工具 nethogs流量监控工具NetHogs安装NetHogs命令参数 nload流量监控工具nload安装内容解释:参数:实例: nethogs流量监控工具 工具存在部分局限性,如果网卡存在大量网络连接会导致nethogs卡死 NetHogs安装 …

redhad安装nethogs

工作需要监控linux下的进程宽带占有量,从网上找了资料,很多不能成功,现在整理一下 安装 Debian/Ubuntu下安装很简单,执行:apt-get install nethogs 就可以安装。 CentOS/RHEL下建议先安装EPEL,再执行&…

nethogs安装部署

Ubuntu安装部署 apt-get -y install ncurses* apt-get -y install libpcap-dev libncurses5-dev wget -c https://github.com/raboof/nethogs/archive/v0.8.1.tar.gz tar xvf v0.8.1.tar.gz cd nethogs-0.8.1 make && make install centos安装部署 wget https://gi…