浅谈“HTAP”

article/2025/9/25 2:32:50

文章转载自: 浅谈“HTAP”,仅用于学习,如有侵权,请联系删除。

HTAP是近些年来比较火的一个概念,下面就聊聊其前世今生及技术特点。

1. 数据应用类别

根据数据的使用特征,可简单做如下划分。在选择技术平台之前,我们需要做好这样的定位。
在这里插入图片描述

1.1 OLTP

联机事务处理OLTP(On-Line Transaction Processing),OLTP是事件驱动、面向应用的,也称为面向交易的处理过程。其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理,并在很短的时间内给出处理结果,是对用户操作的快速响应。例如银行类、电子商务类的交易系统就是典型的OLTP系统。其具备以下特点:

  • 直接面向应用,数据在系统中产生。
  • 基于交易的处理系统。
  • 每次交易牵涉的数据量很小;对响应时间要求非常高。
  • 用户数量非常庞大,其用户是操作人员,并发度很高。
  • 数据库的各种操作主要基于索引进行。
  • 以SQL作为交互载体。
  • 总体数据量相对较小。

1.2 OLAP

联机实时分析OLAP(On-Line Analytical Processing),OLAP是面向数据分析的,也称为面向信息分析处理过程。它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。其特征是应对海量数据,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。例如数据仓库是其典型的OLAP系统。其具备以下特点:

  • 本身不产生数据,其基础数据来源于生产系统中的操作数据
  • 基于查询的分析系统;复杂查询经常使用多表联结、全表扫描等,牵涉的数量往往十分庞大
  • 每次查询设计的数据量很大,响应时间与具体查询有很大关系
  • 用户数量相对较小,其用户主要是业务人员与管理人员
  • 由于业务问题不固定,数据库的各种操作不能完全基于索引进行
  • 以SQL为主要载体,也支持语言类交互
  • 总体数据量相对较大

1.3 OTHER

除了传统的OLTP、OLAP类,近些年来针对数据的使用又有些新特点,我将其归入了“其他”类。

1) 多模

随着业务“互联网化”和“智能化”的发展以及架构 “微服务”和“云化”的发展,应用系统对数据的存储管理提出了新的标准和要求,数据的多样性成为突出的问题。早期数据库主要面对结构化数据的处理场景。后面随着业务的发展,逐渐产生了对非结构化数据的处理需求。包括结构化数据、半结构化(JSON、XML等)数据、文本数据、地理空间数据、图数据、音视频数据等。多模,正是指单一数据库支持多种类型数据的存储与处理。

2) 流式

流式处理(实时计算),是来源于对数据加工时效性的需求。数据的业务价值随着时间的流失而迅速降低,因此在数据发生后必须尽快对其进行计算和处理。传统基于周期类的处理方式,显然无法满足需求。随着移动互联网、物联网和传感器的发展导致大量的流式数据产生。相应地出现了专有的流式数据处理平台,如Storm、Kafka等。近些年来,很多数据库开始支持流式数据处理,例如MemSQL、PipelineDB。有些专有流式数据处理平台开始提供SQL接口,例如KSQL基于Kafka提供了流式SQL处理引擎。

3) 高阶

随着对数据使用的深入,数据的使用不再仅仅以简单的增删改查或分组聚合类操作,而对于其更为高阶的使用也逐步引起大家的重视。例如使用机器学习、统计分析和模式识别等算法,对数据进行分析等。

1.4 对比 — OLTP vs OLAP

在这里插入图片描述

2. 数据处理模式

面对上述复杂多变的应用场景,数据应用的多种类别,是由单一平台处理,还是由不同平台来处理呢?一般来说,专有系统的性能将比通用系统性能高一到两个数量级,因而不同的业务应采用不同的系统。但正如古人说“天下大势、分久必合、合久必分”,在数据处理领域也有一种趋势,由单一平台来处理。这里选择的核心在于如何来辩证看待需求和技术。它们是一对矛盾体,当这对矛盾缓和时,数据处理领域将更趋向于整合;而当这对矛盾尖锐时,数据处理领域将趋于分散。就软硬件技术发展现状和当前需求来看,未来整合的趋势更为明显。集成数据平台将能满足绝大多数用户的场景,只有极少数企业需要使用专有系统来实现其特殊的需求。

2.1 分散式(专有平台)

目前比较常规的方式,是采用多个专有平台,来针对不同场景进行数据处理。因此是跨平台的,因此是有个数据传输的过程。这之中会带来两个问题:数据同步、数据冗余。数据同步的核心是数据时效性问题,过期的数据往往会丧失价值。常见的做法如下:
在这里插入图片描述

OLTP系统中的数据变化,通过日志的形式暴露出来;通过消息队列解耦传输;后端的ETL消费拉取,将数据同步到OLAP中。整个链条较长,对于时效性要求较高的场景是个考验。此外,数据在链条中流动,是存在多份的数据冗余保存。在常规的高可用环境下,数据会进一步保存多份。因此这里面隐藏了比较大的技术、人力成本以及数据同步成本。而且横跨如此之多的技术栈、数据库产品,每个技术栈背后又需要单独的团队支持和维护,如DBA、大数据、基础架构等。这些都蕴含着巨大的人力、技术、时间、运维成本。正是出于在满足各种业务需求的同时,提高时效性,减低数据冗余、缩短链条等,收敛技术栈就变得很重要。这也是通用类平台解决方案,诞生的出发点。

2.2 集中式(通用平台)

用户厌倦了为不同的数据处理采用不同的数据处理系统,更倾向于采用集成数据处理平台来处理企业的各种数据类型。对于融合了联机事务处理和联机实时分析的场景,也就是下面所谈到的HTAP。

此类通用平台方案具备下面优点:

  • 通过数据整合避免信息孤岛,便于共享和统一数据管理。
  • 基于SQL的数据集成平台可提供良好的数据独立性,使应用能专注于业务逻辑,不用关心数据的底层操作细节。
  • 集成数据平台能提供更好的实时性和更全的数据,为业务提供更快更准的分析和决策。
  • 能够避免各种系统之间的胶合,企业总体技术架构简单,不需要复杂的数据导入/导出等,易于管理和维护。
  • 便于人才培养和知识共享,无须为各种专有系统培养开发、运维和管理人才。

3. HTAP

HTAP数据库(Hybrid Transaction and Analytical Process,混合事务和分析处理)。2014年Gartner的一份报告中使用混合事务分析处理(HTAP)一词描述新型的应用程序框架,以打破OLTP和OLAP之间的隔阂,既可以应用于事务型数据库场景,亦可以应用于分析型数据库场景。实现实时业务决策。这种架构具有显而易见的优势:不但避免了繁琐且昂贵的ETL操作,而且可以更快地对最新数据进行分析。这种快速分析数据的能力将成为未来企业的核心竞争力之一。
在这里插入图片描述

3.1 技术要点

  • 底层数据要么只有一份,要么可快速复制,并且同时满足高并发的实时更新。
  • 要满足海量数据的容量问题,在存储、计算都具有很好的线性扩展能力。
  • 具有很好的优化器,可满足事务类、分析类的语句需求。
  • 具备标准的SQL,并支持诸如二级索引、分区、列式存储、向量化计算等技术。

3.2 重点技术 – 行列存储

行存储(Row-based):对于传统的关系型数据库,比如甲骨文的OracleDB和MySQL,IBM的DB2、微软的SQL Server等,一般都是采用行存储(Row-based)行。在基于行式存储的数据库中,数据是按照行数据为基础逻辑存储单元进行存储的,一行中的数据在存储介质中以连续存储形式存在。
在这里插入图片描述

**列式存储(Column-based)**是相对于行式存储来说的,新兴的Hbase、HP Vertica、EMC Greenplum 等分布式数据库均采用列式存储。在基于列式存储的数据库中,数据是按照列为基础逻辑存储单元进行存储的,一列中的数据在存储介质中以连续存储形式存在。
在这里插入图片描述

传统的行式数据库,是按照行存储的,维护大量的索引和物化视图无论是在时间(处理)还是空间(存储)面成本都很高。而列式数据库恰恰相反,列式数据库的数据是按照列存储,每一列单独存放,数据即是索引。只访问查询涉及的列,大大降低了系统I/O,每一列由一个线来处理,而且由于数据类型一致,数据特征相似,极大方便压缩。

3.3 重点技术 – MPP

MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果。下面以典型的MPP产品Greenplum架构为例。
在这里插入图片描述

3.4 重点技术 – 资源隔离

OLTP、OLAP类两者对资源的使用特点不同,需要在资源层面做好隔离工作,避免相互影响。常见的通过定义资源队列的方式,指定用户分配队列,起到资源隔离的作用。

3.5 HTAP产品

下图是网站找到的数据库产品分类图,针对HTAP类的可参考对象线上的相关产品。当然这只是一家之言,仅供参考!
在这里插入图片描述


http://chatgpt.dhexx.cn/article/IDQtLJUu.shtml

相关文章

HTAP应该是一种需求 而不是一种产品

作者:石臻臻, CSDN博客之星Top5、Kafka Contributor 、nacos Contributor、华为云 MVP ,腾讯云TVP, 滴滴Kafka技术专家 、 LogiKM PMC(改名KnowStreaming)。 LogiKM(改名KnowStreaming) 是滴滴开源的Kafka运维管控平台, 有兴趣一起参与参与开发的同学,但是怕自己能力…

009、体系架构之HTAP

HTAP HTAP技术传统的HTAP解决方案HATP的要求TiDB的HTAP架构TiDB的HTAP特性使用场景 MPP HTAP技术 传统的HTAP解决方案 HATP的要求 可扩展性 分布式事务分布式存储 同时支持OLTP与OLAP 同时支持行存和列存OLTP与OLAP业务隔离 实时性 行存与列存数据实时同步 TiDB的HTAP架构 …

什么是HTAP 阿里云上实现

讲师介绍 梁成辉(城璧),阿里数据库事业部技术专家,阿里分布式数据层中间件TDDL、云产品分布式关系型数据库服务DRDS技术负责人。曾多次担任数据层稳定性负责人并保障双十一TDDL & DRDS的稳定性,目前主要聚焦在DRD…

浅谈 HTAP 混合技术和金融业应用场景

近年来,随着大数据应用场景的快速普及与多样化发展,传统的数据处理方案已愈发难以满足海量数据实时分析的数据处理需求。针对上述挑战,混合事务/分析处理(Hybrid Transaction and Analytical Process,HTAP)…

聊聊 HTAP 的前世今生

随着现代社会大型实时分析应用的逐渐流行,关系型数据库已经难以处理高并发的事务请求。商业层面上,当全球进入数字化时代,数字化技术渗透到各行各业,同时产生了海量数据,数据的存储和应用是企业决策的重要依据之一&…

深入浅出理解什么是HTAP

关于HTAP HTAP(Hybrid Transactional/Analytical Processing)混合事务 / 分析处理。这里的HTAP就是常见的比较经典的OLAP和OLTP的处理场景的结合体。即可解决OLTP在线事务处理场景,还可以解决OLAP在线分析场景。Gartner也认为HTAP数据库将成为数据库领域的一个重要的发展趋…

《穿越计算机的迷雾》第二版再版说明

《穿越计算机的迷雾》2018年已经再版(第2版)。 转载于:https://www.cnblogs.com/leec/p/8099391.html

《穿越计算机的迷雾》第一版说明

 这 本书已经出版,并在实体书店和网上书店铺货。需要的朋友可以上网搜索并购买。 如果你关心这本书,就请移步到 http://www.tianya.cn/publicforum/content/it/1/502390.shtml 。这是我最早发帖的地方,欢迎大家到这…

《穿越计算机的迷雾》读书笔记二

振荡器 电子二极管 电子三极管 触发器 跑马灯 寄存器

《穿越计算机的迷雾》读书笔记九

对于每个扇区来说,真正用于存储用户数据的地方是在扇区头之后,一般有512字节。 指令集: 1.算术运算指令和逻辑运算指令 2.数据传送指令 3.处理器状态控制指令

《穿越计算机的迷雾》读书笔记四

通常,一个能保存很多二进制数的东西叫做存储器。 所有的存储器都有一个共同特点,那就是它们通常都只有一个口。 取数译码器 一条完整的指令总是以操作码开始,后面跟着操作数。

《穿越计算机的迷雾》读书笔记八

中断的意思是在做一件事情的时候临时打了个岔,中途去做另外一件事情,然后再回来。 键盘上的所有按键都被当成字符看待 键盘是为正在运行的软件服务。 显卡 灰度图像 三枪三束显示器 液晶

《穿越计算机的迷雾》读书笔记三

计算机为什么会自动工作(计算)?这种"自动"本质上是怎么发生的? 用继电器制造逻辑门。 电子管 晶体管 脉冲,计数器 多个触发器可以构成一个寄存器 在逻辑电路里,大家共用的公共线路称为总线。

读书笔记-穿越计算机的迷雾

一本了解计算机的入门书,想学“计算机组成与原理”的时候看到的。还有一本书也值得看:《编码的奥秘》 收获 逻辑学 让我意识到逻辑学的重要性,有空可以了解他,当时学离散数据没有认真学,现在都忘了。 逻辑电路的由…

《穿越计算机的迷雾》读书笔记六

运算器 指令集 规律 计算机之所以有用,仅仅是因为我们只让它干有规律的事情。 ROM(只读存储器)

穿越计算机的迷雾--读书笔记三

第五章:从逻辑学到逻辑电路(计算机的基本电路) 逻辑学 : 生活逻辑学举例 两种推理方法:类比推理和归纳推理 逻辑学来由及定义 两种逻辑:演绎逻辑(联言全真则真和选言一真则真)和形式逻辑 思维分类&…

穿越计算机的迷雾--读书笔记五

第十三章:集成电路时代(计算机配件的进一步发展) 电子管和晶体管时代: 要造计算机的困难(资金和体积),和电子管比晶体管的优势:传输速度更快,介绍字节(换算和…

穿越计算机的迷雾--读书笔记二

读书笔记二 第三章:怎样才能更让机器做加法(计算机的基本计算法则) 我们是怎样用十进制做加法的:十进制法则(满十进一) 用二进制做加法其实更简单:二进制法则(满二进一) 使用全加器来构造加法…

穿越计算机的迷雾

电子的基本知识 1.的基本构成单位----原子是由电子、中子和质子三者共同组成,中子不带电,质子带正电,电子带负电,原子对外不显电性,相对于电子和中子组成的原子核,电子的质量极小,质子的质量大…