奇点云数据中台技术汇(二)| DataSimba系列之数据采集平台

article/2025/9/20 8:04:09

继上期数据中台技术汇栏目发布DataSimba——企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台。

DataSimba采集平台属于DataSimba的数据计算及服务平台的一部分, 负责数据的导入, 从而支持上层的数据处理。  DataSimba的定位是面向企业私有化部署,决定了采集平台面临要解决的问题和传统的互联网公司不太一样:

1、企业使用的数据库类型多且杂, 包括很多非主流的数据库;

2、企业的数据管理水平参差不齐, 依赖数据规范(如:维护列modify_time判断记录是否修改)的导入方式推行困难;

3、需要支持的场景比较复杂, 包括:流处理、增量处理、批处理;

4、企业的数据平台规模一般较小,资源有限, 需要更好的平衡计算成本与效率。


采集平台总体架构

1558402830808687.jpg


整个采集平台核心为DataX与DataS两个采集组件:

DataX:

·阿里开源的数据集成组件,通过jdbc,以查询的方式支持通用的关系行数据库导入;

·DataSimba 同时支持向导模式和脚本模式。

·可扩展支持NoSQL、FTP等。


DataS:

奇点云针对复杂的企业数据环境开发的, 基于数据库日志(类似binlog)同步数据的工具, 主要特征如下:

·配置简单: 整库导入配置只需要一分钟, 支持实时抽取、增量落盘、全量合并;

·基于数据库Log采集, 以减少对企业现有系统的侵入。 目前支持Mysql, Sqlserver, Oracle, Postgres, MongoDB;

·支持多种业务场景, 包括:实时计算, 增量计算(10m~1h), 全量批处理(>1h);

·高效的数据合并性能, 节省计算资源;

·schema自动同步;


DataX vs DataS:

·DataX通过查询(即Select)方式, 而DataS通过解析数据库日志;

·DataX 支持数据源更广, DataS支持数据源较少(见下表);

·DataX 对数据源压力较大, 而DataS对数据源压力较小;

·DataX 需要数据源有较大的空闲时间窗口, 用于抽取数据。 而DataS不需要;

·DataX 需要维护类似modify_time字段做增量抽取, 而DataS不需要;

·DataX 无法跟踪记录变更过程, DataS可以跟踪;

·DataX 不支持实时数据采集, DataS支持秒级的数据采集;

DataSimba在采集数据时优先使用DataS的方式。


为什么要做DataS

早期的Simba使用DataX导入数据, 在企业部署过程中遇到很多问题, 如:

·某快消企业, 数据库本身的压力就比较大, 且没有大段的空闲窗口用于数据采集, 采用DataX抽取难度较大。

·某企业, 数据库每日增量较少(~10GB), 但全量数据较大(>20T), 导致增量与全量合并的效率较低, 消耗资源比较多。

·某金融企业, 需要在数仓中跟踪账户余额的每一次变动, 又要不侵入现有的业务, 采用DataX的方式无法做到。

·某企业大屏, 需按小时刷新, 统计数据量较大, 采用流式计算成本较高, 实现比较复杂。 采用DataX又无法做到小时以内的采集频率。

以上只是在simba部署过程中碰到的一部分内容。 为了解决碰到的种种问题, 我们最终决定开发一套新的采集工具: DataS。

DataS 技术方案

DataS 的目标是: 配置维护简单, 支持多种数据源, 支持多种应用场景, 尽可能高效。

与cannal/maxwell等binlog采集工具相比, DataS支持更多的数据库类型:

1558402830664796.jpg

实时采集数据流程

实时采集的主要流程如下:

1、 数据源端创建访问账号, 设置权限和日志配置项

2、 simba平台上配置数据源

3、 simba平台上创建导入任务, 选择导入的库和表, 确定是否合并

4、 发布导入任务

5、 DSExtracter从数据库源拉取全量快照, 作为初始化导入数据

6、 DSExtracter实时解析数据库日志, 以增量的方式解析新增数据到kafka

7、 DSLoader 按照设定的周期(通常是10分钟)将新增数据落盘到增量数据层(INC)

8、 DSMerger 定期(通常是30分钟)将新增数据与全量数据合并到ODS

9、 后续的计算以增量或者全量的方式从ODS层消费数据


技术亮点

一、高效的合并方案

DataS同时保留了增量的日志数据和全量的快照数据, 以支持复杂的企业业务场景。 同时DataS提供了高效的快照合并方案。 以下是DataS合并与基于HBase方案合并的性能比较测试。对于1T以上的数据表增量和全量merge时, DataS有12 ~24 倍的性能提升。

1558402830589503.jpg

与传统的利用HiveSQL 或者HBase 做merge的方式不同, DataS采用了二级映射的方式, 使最终的合并转化为一个RDD或者一个Map中就可完成的小文件合并, 并避免了不需要合并的文件读取, 如图所示:

1558402831508760.jpg


DataS合并逻辑如下:

1、 DataS会将新增数据划分到不同的hive分区中, 分区可以根据业务自定义;

2、 在一个分区内, DataS利用布隆过滤(Bloom Filter)将数据映射到不同的文件;

3、 新增数据和单一存储文件做局部合并;


将整个合并最终划分为小文件的合并, 从而大幅提高了合并的效率。

二. 近实时的数据时延

DataS提供两种合并方式: 写时拷贝(CopyOnWrite)和 读时合并(MergeOnRead)

写时拷贝 是指每次增量数据与文件合并时, 都是拷贝两边的数据生成新的全量数据文件。 此种方式合并时性能稍差, 但读数据(统计查询)时性能好一些, 过程如下:


1558402836329688.jpg


读时合并 是指合并时只将增量数据写入日志文件, 读时(查询统计)再合并重复数据。 同时会定期全量合并。 此种方式的合并效率很高, 数据时延可以达到秒级~分钟级, 但查询时性能稍差, 如图所示:


1558402836848891.jpg

两种方式使用与不同的业务场景: 注重读性能或者注重合并性能。

Datas支持丰富的场景应用

按照数据要求的时延和数据要求的完整性, 计算场景大致可分为三类:

1558402836769736.jpg


其中:

·实时计算: 很多数据时延要求在 毫秒级 ~ 10分钟的场景, 通常采用flink或者spark等计算引擎。 如:监控告警、实时特征等等。

·增量计算:时延要求在10分钟~小时级别, 数据要求增量处理的场景。 如企业大屏、活动效果分析、当日uv等统计数据展示。

·全量批处理: 主要针对各种T+1的报表统计, Simba目前采用Hive引擎。

目前市场上对于实时计算和全量批处理都有成熟的方案, 但对于夹缝中的增量计算支持的都不太好。增量计算无论是采用流式实时处理, 还是采用全量批处理, 都比较浪费资源, 且效果不理想。  DataS可以支持增量的采集、合并、计算, 以较低的计算成本支持了此类场景。  此外, DataS能很好的支持秒级以上的实时计算和批处理任务。

附-DataSimba数据采集支持的多种数据源

DataSimba的采集平台支持丰富的数据源, 包括:

1558402837627916.jpg


来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/69911376/viewspace-2645021/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/69911376/viewspace-2645021/


http://chatgpt.dhexx.cn/article/sMsEAess.shtml

相关文章

六大主流大数据采集平台架构分析

日志收集的场景 DT时代,数以亿万计的服务器、移动终端、网络设备每天产生海量的日志。 中心化的日志处理方案有效地解决了在完整生命周期内对日志的消费需求,而日志从设备采集上云是始于足下的第一步。 随着大数据越来越被重视,数据采集的挑战…

简单谈谈Redis中的几种java客户端以及优缺点!

一、摘要 相对于其他的分布式中间件,Redis 支持的客户端种类非常繁多,涵盖更加全面,除了支持比较流行的 c、c、java、C#、php、Python 等语言以外,还支持 Objective-C、Swift、Node.js 等等,以下是来自于 Redis 支持的…

Redis介绍、安装、客户端

1. Redis介绍 1.1 什么是NoSql 为了解决高并发、高可用、高可扩展,大数据存储等一系列问题而产生的数据库解决方案,就是NoSql。NoSql,叫非关系型数据库,它的全名Not only sql。它不能替代关系型数据库,只能作为关…

redis安装+客户端

redis安装客户端 1.安装redi2.安装redis客户端 1.安装redi 1)资源下载地址 Redis安装包:https://github.com/MicrosoftArchive/redis/releases 2) 下载,解压安装包到相应的文件夹,任一盘符都可以。 接下来对文件夹中的…

Redisson--最好用的Redis客户端--介绍

原文网址:Redisson--最好用的Redis客户端--介绍_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍Redisson这款最好用的Redis客户端。 官网 官网:Redisson: Redis Java client with features of In-Memory Data Grid git:https://github.co…

redis的客户端

关系型数据库存储在磁盘当中&#xff0c;非关系型数据库存储在内存中 Jedis 第一步&#xff1a;导入依赖包 <dependencies><dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>3.7.0</vers…

【Redis】客户端RedisClient

0. 目录 1. 下载2. 运行 RedisClient3.1. 链接服务器 1. 下载 官网下载&#xff1a;https://github.com/caoxinyu/RedisClient 因为我已经安装了jdk或者jre&#xff0c;所以我只用jar包版本。 我用迅雷下载&#xff0c;比较快。当然你可以用我下载好的。 百度云盘&#xff1a;…

redis:客户端管理

机制 redis提供了一些操作客户端的命令&#xff0c;比如查询所有已连接到服务端的客户端数量&#xff0c;控制客户端的连接状态&#xff08;关闭或者挂起&#xff09;等。通过客户命令我们可以轻松实现对客户端的管理、控制。 redis服务器通过监听TCP端口的方式来接收客户端连…

windows下redis可视化客户端

Redis是一个超精简的基于内存的键值对数据库(key-value)&#xff0c;一般对并发有一定要求的应用都用其储存session&#xff0c;乃至整个数据库。 redis的可视化客户端目前较流行的有三个&#xff1a;Redis Client ; Redis Desktop Manager ; Redis Studio. Redis Desktop Ma…

Redis(四) - Redis的Java客户端

文章目录 一、Redis的Java客户端二、Jedis客户端1. 快速入门&#xff08;1&#xff09;引入依赖&#xff08;2&#xff09;创建jedis对象&#xff0c;建立连接&#xff08;3&#xff09;测试&#xff0c;方法名与Redis命令一致&#xff08;4&#xff09;释放资源 2. Jedis连接池…

Redis可视化客户端汇总

因为 Redis 官方只提供了命令行版的 Redis 客户端 redis-cli&#xff0c;以至于我们在使用的时候会比较麻烦&#xff0c;通常要输入一堆命令&#xff0c;而且命令行版的客户端看起来也不够直观&#xff0c;基于以上两个原因我们需要找一个可视化的 Redis 客户端&#xff0c;下面…

redis客户端连接工具RedisDesktop安装

redis客户端连接工具RedisDesktop安装手册: RedisDesktop官方下载地址&#xff1a; https://redisdesktop.com/download 但是需要付费 这里提供一个可以免费下载的地址&#xff1a;https://pan.baidu.com/s/1ExBlD79pfypnqAeP1sXybg 下载后解压如下&#xff1a; 安装此文件&…

Redis客户端 - RedisSerializer

原文首更地址&#xff0c;阅读效果更佳&#xff01; Redis客户端 - RedisSerializer | CoderMast编程桅杆https://www.codermast.com/database/redis/redistemplate-redis-serializer.html 前景回顾 在上一篇中&#xff0c;我们实现了一个简单的案例&#xff0c;操作一个 St…

Redis(11)----Redis客户端

1&#xff0c;前言 Redis服务器是典型的一对多服务器&#xff1a;一个服务器可以与多个客户端建立网络连接&#xff0c;每个客户端可以向服务器发送命令请求&#xff0c;而服务器则接收并处理客户端发送的命令请求&#xff0c;并向客户端返回命令回复 通过使用由I/O多路复用技…

redis-客户端

redis-客户端 1、客户端属性 redis> CLIENT listaddr127.0.0.1:53428 fd6 name age1242 idle0 ... addr127.0.0.1:53469 fd7 name age4 idle4 ...typedef struct redisClient {// ...int fd;robj *name;int flags;sds querybuf;robj **argv;int argc;struct redisCommand …

Mac上好用的redis客户端推荐

推荐mac一个开源免费、好用的redis客户端&#xff1a;QuickRedis 它支持直连、哨兵、集群模式&#xff0c;并且UI是可以的&#xff0c;并且支持树形展示,同时支持json格式展示&#xff0c; 最基本的命令行模式也支持&#xff0c;总体来说界面简洁、功能完善&#xff0c;值得推…

Redis管理客户端,兼容Windows、Mac、Linux

真正的大师,永远都怀着一颗学徒的心&#xff01; 一、项目简介 Redis管理客户端&#xff0c;兼容Windows、Mac、Linux 二、实现功能 支持自定义文本视图 支持哨兵支持 Hash List Set Zset搜索支持 支持自动更新 支持SSH 通道支持 支持精确搜索 单链接支持 支持Redis&g…

用Redis客户端工具连接Redis

进入redis安装目录 vi redis.conf1.关闭默认的只允许本地登录 2.关掉保护模式 3.requirepass注释去掉&#xff0c;修改密码 4. 开启redis后台运行 5.安装redis客户端连接工具 6.确保 Linux 防火墙已经关闭&#xff0c;再连接redis systemctl stop firewalld.service syste…

【Redis入门篇】| Redis的Java客户端

目录 一&#xff1a; Redis的Java客户端 1. Jedis快速入门 2. Jedis连接池 3. SpringDataRedis快速入门 4. RedisSerializer配置 5. StringRedisTemplate 图书推荐 一&#xff1a; Redis的Java客户端 在Redis官网中提供了各种语言的客户端&#xff0c;地址&#xff1a;…

redis客户端

1、redis-cli redis自己给我们提供的一个命令行客户端 2、Java客户端-Jedis 是一个Redis的java客户端&#xff08;Java for Redis&#xff09;&#xff0c;老牌的、稳定、封装少的客户端 导包 <!-- https://mvnrepository.com/artifact/redis.clients/jedis --><d…