将在线数据加载到阿里云Greenplum

article/2025/7/13 7:46:38

本文说明如何设计一个 ETL 作业以便将在线关系数据库里的数据,加载到阿里云的Greenplum 数据库中,如何调度和监控该ETL 作业的日常运行。

本文使用的软件是开源ETL 工具软件 Kettle 5.x,以及基于Kettle的傲飞数据整合平台,该平台可以用来Kettle作业的调度、监控等功能、并可以完成数据源管理等功能。

软件下载安装

1.Java 1.6 或 1.7

2.傲飞数据整合平台的下载地址(包含了 Kettle和服务端):http://pan.baidu.com/s/1cmSPEe

解压缩即可安装,平台的安装配置方法见下载文档内的《傲飞数据整合平台使用说明书》

3.安装 Mysql 数据库 5.1 或以上版本,并以 UTF-8 编码新建一个数据库 etl_platform,

 

上述软件都要事先安装部署到阿里 ECS 上。

ETL 作业配置

服务端配置

资源库配置

资源库是Kettle 里保存作业的数据库。首先登陆傲飞数据整合平台(默认用户名,密码 admin/admin),在傲飞数据整合平台的【资源库管理】里,新创建一个资源库,资源库的数据库名称使用事先创建的 etl_platform 数据库,注意数据库地址要用外网的ip地址,因为将来kettle 客户端会连接该ip 地址。

6b198613e5a5d764fab796eaf7cfdb749c7b3e1b 

数据库配置

选择主窗口左侧菜单的【数据源管理】里的【本地数据库管理】,或者直接在登陆首页中选择【本地数据库】快捷图标。如下图:

a06aa77968804a525de45ba60c130cff3d9783b3 

 

 

选择【新增】,在【新增数据源信息】窗口中设置两个数据源,一个是原数据源,另一个是要加载到的阿里云Greenplum 数据源,数据源配置参考如下图所示:

2b4c32394eca8db032eeb5b54b62a23d9c1d8151 

 

 

7e7af4d06e1f9fec658ae08ee8f46a01d4fbd3ff 

 

 

 

 

 

客户端设置

登陆

双击spoon.bat 文件,启动spoon,在登陆窗口中输入傲飞数据整合平台的URL ,用户名和密码,如下图:

ca796e749ad663720da68a5ba299d2f89ba85c40 

选择资源库

如果登陆成功,会出现【资源库连接】选择框,这里选择我们刚创建的资源库,如下图:

a7e55bf502ac61e9f1bb9facb24911c76b40cd37 

设计转换

进入资源库后,在设计窗口中选择【文件】->【新建】->【转换】,如下图:

87250a5aa067fd7650322effc15895930de408d0 

SQL 方式加载

如果要使用SQL 方式加载,要拖拽【表输入】步骤和【表输出】步骤到画布上,并连线(按住Shift键,同时移动鼠标),在表输入步骤中配置SQL 语句,在表输出步骤中配置输出表的名称即可,如下图:

90fd993f642a1ed7190552695219fbeab7aadab5 

fc7f66280aa5a7e82d21f3c1a8fcd7cf15045bc1 

如果需要在输入和输出之间做各种数据格式转换,数据清洗,拆分,组合等各种操作,要使用Spoon 设计器里提供的各种步骤(连数成金论坛有 Kettle 培训课程)

 

使用Copy 方式加载

当大量数据时,可以使用 【Greenplum 批量加载】步骤完成加载,Greenplum 批量加载使用了Copy 命令方式加载,加载速度比SQL 方式快。【Greenplum 批量加载】步骤的配置如下图所示:

bb793fd6feb89e158b5fe96344b3f7f59162bb31 

 

 

使用OSS 方式加载

OSS 是阿里云对象存储服务(Object Storage Service,简称OSS),是阿里云对外提供的海量,安全,低成本,高可靠的云存储服务。目前Kettle 对OSS的支持还在开发中。  不过目前用户也可以手动将文件上传到 OSS 服务中,使用类似下面的SQL 创建一个基于OSS的外部表。

1.create READABLE external table ossexample

2.(date text, time text, open float, high float,

3.low float, volume int) 

4.location('oss://oss-cn-hangzhou.aliyuncs.com

5.filepath=osstest/example.csv id=XXX

6.key=XXX bucket=testbucket') FORMAT 'csv'

7.LOG ERRORS SEGMENT REJECT LIMIT 5;

 

关于OSS 的加载,请参考:https://help.aliyun.com/document_detail/35457.html

 

 

保存转换:

选择【文件】->【另存为】 ,在【转换属性】窗口中,设置转换名称:从原系统到目标系统的转换,在【目录】输入框选择要保存的资源库目录,如下图

3d34a20b093f9696bf6ed9169082221b9bb88ad1 

点【确定】后,把作业保存到资源库中。

005c46d6b630a00067015a4e9512e1c3faa7a43f 

注意:

如果客户端长时间不操作,服务端会自动断开和客户端的连接。 此时从客户端保存到服务端时可能报告数据库连接错误。如果发生此类错误,只需先资源库连接,再重新连接资源库即可。

调度

在【周期调度】里选择【增加普通调度】选项,在【新增调度】窗口里选择作业“从原系统到目标系统的转换”,如下图:

a7e2a4f179166ff6a7fc4b7ec89f8213c7bd6e0d 

 

选择运行方式【本地运行】,并设置调度方式为每天的16:00 运行,如下图:

0fb1b36ef24915221baafae3665b04ee68f77c04 

运行

新增加的调度可以按照设置好的调度方式运行,也可以通过点击【运行】按钮,手动运行,如下图:

8bfa6242a68e55275976526beec69d487e72a21b 

 

 

监控

94ee218bc15e5053e68954c2ede48419c3995a45 

无论手工还是调度运行,在监控列表里都会有作业的运行状态,运行时间,错误日志等信息。

 

待续

关于如何将企业内网数据库里的数据,加载到阿里云的greenplum 中,下文继续。

 


http://chatgpt.dhexx.cn/article/l4IeVosy.shtml

相关文章

年末阿里百度等大厂技术面试题汇总,书籍+视频+学习笔记+技能提升资源库

前言 最近有不少人问我这样一个问题:「我刚接触编程,准备学习下Android开发,但是担心现在市场饱和了,Android开发的前景怎么样?」 想着可能有很多人都有这样的担心,于是就赶紧写篇文章,来跟你…

Axure RP 9基础教程(3)——添加图标元件

上一节我们学习了如何对一个矩形元件设置交互样式,我们完成了将元件设计为按钮,实现了鼠标悬停的交互样式和单击界面跳转的交互效果。 其实我们完全可以让我们设置的界面更加的美观。比如csdn的创作界面: 我们可以看到,在每个热区…

Android保活黑科技的技术实现,在阿里工作5年了

背景介绍 金三银四,又到了一年一度最火热的跳槽/招聘季节.相信很多小伙伴已经开始投简历,或者已经找到工作了 是的,我就是找到工作的那部分人 很多Android小伙伴最近找不到工作,特别急,其实我在找工作的时候也有过比较着急的情况,所以很能理解大家的心情.一直说要给大家分享一…

阿里iOS三面

转载地址 1.dSYM你是如何分析的? **2.**多线程有哪几种?你更倾向于哪一种? **3.**单例弊端? **4.**如何把异步线程转换成同步任务进行单元测试? **5.**介绍下App启动的完成过程? **6.**比如App启动过慢&am…

阿里程序员的2019Android年终盘点,必备技能知识点,程序员必须收藏

临近年末,回顾总结2019,很多从事Android开发的朋友仍然遇到了很多困难,无法实现突破。 本文旨在通过以下知识点总结 希望能帮助上述陷入移动开发困境的朋友。 所以接下来本篇文章主要介绍 Android 开发中的部分知识点,本文节选自阿里巴巴开发手册,下载地址。文末还有 高级…

BAT等大厂必问技术面试题,进阶学习资料!

前言 Android高级架构师需要学习哪些知识呢? 下面总结一下我认为作为一个资深开发者需要掌握的技能点。 一.字节跳动 讲讲面向过程、面向对象、面向切面。 指针和数组的关系和区别。 讲讲Android handler。 队列和栈的区别和用途。 两个栈实现队列。 输入Ur…

iOS技能 - 最新BAT 面试题目记录

关于面试题,可能没那么多时间来总结答案,有什么需要讨论的地方欢迎大家指教。主要记录一下准备过程,和面试的一些总结,希望能帮助到正在面试或者将要面试的同学吧。 美团 一面 1、简历上写的项目问了一遍,然后开始问…

【大厂】389- 解密国内BAT等大厂前端技术体系-阿里篇(长文建议收藏)

进入2019年,大前端技术生态似乎进入到了一个相对稳定的环境,React在2013年发布至今已经6年时间了,Vue 1.0在2015年发布,至今也有4年时间了。 整个业界在前端框架不断迭代中,也寻找到了许多突破方向,例如跨平…

BAT开源项目哪家强,这15个开源项目告诉你答案

github精选前文传送门: 国产BAT开源谁最牛,这些开源项目告诉你 还担心春节抢不到票,Github标星21K,这两款开源项目值得推荐 程序员接私活必备的10款开源前端后台框架 工欲善其事,必先利其器。平时在项目开发的工程中&…

【Android Studio Gradle】使用Artifactory构建本地仓库

文章目录 1. 说明1.1 本地安装Gradle1.2 构建本地仓库1.2.1 常见镜像地址1.2.2 使用Artifactory构建本地仓库 2. 最终配置 1. 说明 在运行gradlew assemble的时候,出现了gradle的官网:Gradle User Manual 下面就简单来学习一下。简介: Grad…

如何使用TF卡和阿里云盘给surface pro扩容

surface pro作为一款优秀的二合一平板电脑,其特点是轻盈小巧,能够满足日常办公需求,但是随着硬盘增大,价格飞涨,所以现在很多人处于硬盘不够用的窘境,本文介绍两种方法来给surface pro扩容。 话不多说&…

阿里云 SDK 动态IP域名解析

阿里云提供 aliyun sdk&#xff0c;可以通过申请获得的 <accessKeyId> 和 <accessSecret> 在 sdk 环境下&#xff0c;直接控制相应账号下阿里云的所有产品&#xff0c;例如设置域名解析、启动VPC、或者推送短信等等。 目录 获取阿里云key 代码测试 读取解析信息…

图标字体收藏

智能LOGO设计生成器 最值得收藏的Bootstrap免费字体和图标网站 一. PNG透明图片素材网站&#xff0c;谁懒谁用呗。 1. PngImg号称是全世界最大的PNG透明背景图库&#xff0c;目前网站上收集了45000张左右去背图素材&#xff0c;都可以免费下载&#xff0c;并且允许非商业性使…

解密国内 BAT 等大厂前端技术体系之阿里篇

前端框架的不断变化&#xff0c;对不同行业产生了诸多的影响。目前&#xff0c;前端的发展趋势究竟是什么样的&#xff1f;为了解更多的前端趋势相关内容&#xff0c;让我们跟随本文&#xff0c;看一下像阿里巴巴这样的互联网大厂&#xff0c;是怎样做的。 进入 2019 年&#x…

解密国内BAT等大厂前端技术体系-阿里篇(长文建议收藏)

进入2019年&#xff0c;大前端技术生态似乎进入到了一个相对稳定的环境&#xff0c;React在2013年发布至今已经6年时间了&#xff0c;Vue 1.0在2015年发布&#xff0c;至今也有4年时间了。 整个业界在前端框架不断迭代中&#xff0c;也寻找到了许多突破方向&#xff0c;例如跨…

vue调试工具devtoos 初探;vue阿里图标库的引用;解决子组件内容不刷新的问题;

记录几个比较有用的功能点&#xff1a; 一&#xff0c;关于前端调试 可能是我的意识还是在Visual C层面&#xff0c;在我的理解里面&#xff0c;如果没有单步跟踪&#xff0c;那就不是在编程。看到之前的前端同事开发程序的时候都是不停的用console.log&#xff0c;感觉效率很…

购物车--订单模块,练习完成

目标&#xff1a; 在购物车页面&#xff0c;增加一个创建订单的超链接。通过创建订单&#xff0c;在Order表里新增一条数据&#xff0c;同时把session中的订单条目都保存到数据库中。 1、创建两个表&#xff0c;orders用来具体存储每一个订单的细节&#xff0c;order_用来存储…

订单操作-查询所有订单代码实现

订单查询 订单查询页面 order-list.jsp Controller Controller RequestMapping("/orders") public class OrdersController {Autowiredprivate IOrdersService ordersService;//未分页RequestMapping("/findAll.do")public ModelAndView findAll(Request…

企业网上下单订货管理软件源码搭建功能介绍|移讯云订货通订单管理系统

网上下单订货管理软件源码搭建功能介绍|移讯云订货通订单管理系统 一&#xff1a;系统概述和用途 系统基于网络&#xff0c;实现厂家和代理商批发商通过网络下单订货功能。 什么是移讯云订货通。什么是企业订货管理系统。 是一款针对中小型企业通过网络实现&#xff0c;厂家…