DataX 简介及架构原理

概述

DataX是阿里巴巴使用 Java 和 Python 开发的一个异构数据源离线同步工具
- 异构数据源：不同存储结构的数据源
致力于实现包括关系型数据库 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS等各种异结构数据源之间稳定高效的数据同步功能

	- Sqoop 是用于在与 RDBMS 之间数据迁移工具- DataX 是阿里开源的一个异构数据源离线同步工具（任意两种数据源之间）
1
2

在这里插入图片描述

1、为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责链接各种数据源
2、当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，变能跟已有的数据源做到无缝数据同步

	- 扩展性强- 1、数据同步核心功能为主题- 2、不断的去新增某数据源的支持，对不同数据源的读取或写入功能，以插件的形式开发 - 3、如果需要新功能只需要开发插件即可，不需要动主体框架
1
2
3
4

在这里插入图片描述

缓冲
- 1、Reader 和 Writer 可能会有读写速度不一致的情况
- 2、所以中间需要一个组件作为缓冲，缓冲的功能就位于 Framework 中
流控
- 1、流控：控制数据传输的速度
- 2、Sqoop 不具备流控功能
- 3、DataX 可以随意根据需求调整数据传输速度
- 4、流控功能也位于 Framework 中
并发
- 1、并发的同步或写入数据
- 2、也可以控制速度，想要速度快点，设置并发高一点，反之亦然
数据转换
- 1、既然是异构，那么说明读 Reader 的数据源与写 Writer 的数据源 数据结构可能不同
- 2、数据结构不同的话，需要做数据转换操作，转换也在 Framework 中完成

![在这里插入图片描述](https://img-blog.csdnimg.cn/d5e7559ccd2d4b4fbf73c9f56256499f.png

Job
- 单个数据同步的作业，称为一个Job，一个Job启动一个进程
Task
- 1、根据不同数据源切分策略，一个Job会切分多个Task
  - 并行执行
- 2、Task 是DataX作业的最小单元，每个Task负责一个部分数据的同步工作
TaskGroup
- 1、Scheduler 调度模块会对Task 进行分组，每个Task 组称为一个Task Group
- 2、每个Task Group 负责以一定的并发度运行其所分得的Task ，单个TaskGroup的并发为5
Reader -> Channel -> Writer
- 每个Task启动后，都会固定启动 Reader -> Channel -> Writer 的线程来完成工作
  - Channel 类似于 Flume 中的 MemoryChannel 来做数据的缓冲

- 1、用户提交了一个DataX 作业，并且配置了总的并发度为 20，
- 2、目的是对一个 有100张分表的 mysql 数据源进行同步
1
2

DataX 的调度决策思路
- 1、DataX Job 根据分库分表切分策略，将同步工作分成 100个Task
- 2、根据配置的总的并发度20，以及每个Task Group 的并发度 5，
- 3、DataX 计算共需要分配 4的Task Group
- 4、4个 TaskGroup 平分 100 个Task ，每一个TaskGroup 负责运行 25个Task