MYSQL 之 分库分表

article/2025/8/22 2:16:44

分库分表

关系型数据库本身⽐较容易成为系统瓶颈,单机存储容量、连接数、处理能⼒都有限。当单表的数据量 达到2000W或100G以后,由于查询维度较多,即使添加从库、优化索引,做很多操作时性能仍下降严 重。此时就要考虑对其进⾏切分了,切分的⽬的就在于减少数据库的负担,缩短查询时间。

数据库分布式核⼼内容⽆⾮就是数据切分(Sharding),以及切分后对数据的定位、整 合。数据切分 就是将数据分散存储到多个数据库中,使得单⼀数据库中的数据量变⼩,通过扩充主机的数量缓解单⼀ 数据库的性能问题,从⽽达到提升数据库操作性能的⽬的。

数据切分根据其切分类型,可以分为两种⽅式:垂直(纵向)切分和⽔平(横向)切分

  • 垂直(纵向)切分

    垂直切分常见有垂直分库和垂直分表两种。

    垂直分库

    垂直分库就是根据业务耦合性,将关联度低的不同表存储在不同的数据库。做法与⼤系统拆分为多 个⼩系统类似,按业务分类进⾏独⽴划分。与"微服务治理"的做法相似,每个微服务使⽤单独的⼀ 个数据库。如图:

在这里插入图片描述

垂直分表

垂直分表是基于数据库中的"列"进⾏,某个表字段较多,可以新建⼀张扩展表,将不经常⽤或字段 ⻓度较⼤的字段拆分出去到扩展表中。在字段很多的情况下(例如⼀个⼤表有100多个字段),通 过"⼤表拆⼩表",更便于开发与维护,也能避免跨⻚问题,MySQL底层是通过数据⻚存储的,⼀条 记录占⽤空间过⼤会导致跨⻚,造成额外的性能开销。另外数据库以⾏为单位将数据加载到内存 中,这样表中字段⻓度较短且访问频率较⾼,内存能加载更多的数据,命中率更⾼,减少了磁盘 IO,从⽽提升了数据库性能。

垂直切分的优点:

  • 解决业务系统层⾯的耦合,业务清晰, 与微服务的治理类似,也能对不同业务的数据进⾏分级 管理、维护、监控、扩展等

  • ⾼并发场景下,垂直切分⼀定程度的提升IO、数据库连接数、单机硬件资源的瓶颈

  • 缺点:

    • 部分表⽆法join,只能通过接⼝聚合⽅式解决,提升了开发的复杂度
    • 分布式事务处理复杂
    • 依然存在单表数据量过⼤的问题(需要⽔平切分)

在这里插入图片描述

  • ⽔平(横向)切分

    当⼀个应⽤难以再细粒度的垂直切分,或切分后数据量⾏数巨⼤,存在单库读写、存储性能瓶颈, 这时候就需要进⾏⽔平切分了。 ⽔平切分分为库内分表和分库分表,是根据表内数据内在的逻辑 关系,将同⼀个表按不同的条件分散到多个数据库或多个表中,每个表中只包含⼀部分数据,从⽽ 使得单个表的数据量变⼩,达到分布式的效果。如图所示:库内分表只解决了单⼀表数据量过⼤的 问题,但没有将表分布到不同机器的库上,因此对于减轻MySQL数据库的压⼒来说,帮助不是很 大,大家还是竞争同⼀个物理机的CPU、内 存、⽹络IO,最好通过分库分表来解决。

    ⽔平切分的优点:

    • ​ 不存在单库数据量过⼤、⾼并发的性能瓶颈,提升系统稳定性和负载能⼒
    • 不存在单库数据量过⼤、⾼并发的性能瓶颈,提升系统稳定性和负载能⼒

    缺点:

    • 跨分⽚的事务⼀致性难以保证跨库的join关联查询性能较差
    • 跨分⽚的事务⼀致性难以保证跨库的join关联查询性能较差

    ⽔平切分后同⼀张表会出现在多个数据库/表中,每个库/表的内容不同。⼏种典型的数据

  • 分片规则:

    根据数值范围

    按照时间区间或ID区间来切分。例如:按⽇期将不同⽉甚⾄是⽇的数据分散到不同的库中;将userId为 19999的记录分到第⼀个库,1000020000的分到第⼆个库,以此类推。某种意义上,某些系统中使 ⽤的"冷热数据分离",将⼀些使⽤较少的历史数据迁移到其他库 中,业务功能上只提供热点数据的查询,也是类似的实践。

    优点:

    1. 单表⼤⼩可控
    2. 然便于⽔平扩展,后期如果想对整个分⽚集群扩容时,只需要添加节点即可, ⽆需对其他分⽚ 的数据进⾏迁移 .
    3. 使⽤分⽚字段进⾏范围查找时,连续分⽚可快速定位分⽚进⾏快速查询,有效避免跨分⽚查询的问 题。

    缺点:

    1. 热点数据成为性能瓶颈。连续分⽚可能存在数据热点,例如按时间字段分⽚,有些分⽚存储最近时 间段内的数据,可能会被频繁的读写,⽽有些分⽚存储的历史数据,则很少被查询

在这里插入图片描述

根据数值取模

⼀般采⽤hash取模mod的切分⽅式,例如:将 Customer 表根据 cusno 字段切分到4个库中,余数为0 的放到第⼀个库,余数为1的放到第⼆个库,以此类推。这样同⼀个⽤户的数据会分散到同⼀个库中, 如果查询条件带有cusno字段,则可明确定位到相应库去查询。

简单思考?

⽔平切分后,对于按cusno查询的需求能很好的满⾜,可以直接路由到具体数据库。⽽按⾮cusno 的查询,例如name,就不知道具体该访问哪个库了??

优点:

  1. 数据分⽚相对⽐较均匀,不容易出现热点和并发访问的瓶颈

缺点:

  1. 后期分⽚集群扩容时,需要迁移旧的数据(使⽤⼀致性hash算法能较好的避免这个问题
  2. 容易⾯临跨分⽚查询的复杂问题。⽐如上例中,如果频繁⽤到的查询条件中不带cusno时,将会导 致⽆法定位数据库,从⽽需要同时向4个库发起查询,再在内存中合并数据,取最⼩集返回给应 ⽤,分库反⽽成为拖累。

在这里插入图片描述

  • 分库分表带来的问题

    1、事务⼀致性问题

    ​ 当更新内容同时分布在不同库中,不可避免会带来跨库事务问题。跨分⽚事务也是分布式事务,没 有简单的⽅案,⼀般可使⽤"XA协议"和"两阶段提交"处理。

    ​ 分布式事务能最⼤限度保证了数据库操作的原⼦性。但在提交事务时需要协调多个节点,推后了提 交事务的时间点,延⻓了事务的执⾏时间。导致事务在访问共享资源时发⽣冲突或死锁的概率增 ⾼。随着数据库节点的增多,这种趋势会越来越严重,从⽽成为系统在数据库层⾯上⽔平扩展的枷 锁。

    最终⼀致性对于那些性能要求很⾼,但对⼀致性要求不⾼的系统,往往不苛求系统的实时⼀致性, 只要在允许的时间段内达到最终⼀致性即可,可采⽤事务补偿的⽅式。与事务在执⾏中发⽣错误后 ⽴即回滚的⽅式不同,事务补偿是⼀种事后检查补救的措施,⼀些常⻅的实现⽅法有:对数据进⾏ 对账检查,基于⽇志进⾏对⽐,定期同标准数据来源进⾏同步等等。事务补偿还要结合业务系统来 考虑

    2、跨节点关联查询 join问题

    ​ 切分之前,系统中很多列表和详情⻚所需的数据可以通过sql join来完成。⽽切分之后,数据可能 分布在不同的节点上,此时join带来的问题就⽐较麻烦了,考虑到性能,尽量避免使⽤join查询。 解决这个问题的⼀些⽅法

    1)全局表

    全局表,也可看做是"数据字典表",就是系统中所有模块都可能依赖的⼀些表,为了避免跨库join 查询,可以将这类表在每个数据库中都保存⼀份。这些数据通常很少会进⾏修改,所以也不担⼼⼀ 致性的问题。

    2)字段冗余

    ⼀种典型的反范式设计,利⽤空间换时间,为了性能⽽避免join查询。例如:订单表保存userId时 候,也将userName冗余保存⼀份,这样查询订单详情时就不需要再去查询"买家user表"了。

    3)数据组装

    在系统层⾯,分两次查询,第⼀次查询的结果集中找出关联数据id,然后根据id发起第⼆次请求得 到关联数据。最后将获得到的数据进⾏字段拼装。

    3、跨节点分⻚、排序、函数问题

    ​ 跨节点多库进⾏查询时,会出现limit分⻚、order by排序等问题。分⻚需要按照指定字段进⾏排 序,当排序字段就是分⽚字段时,通过分⽚规则就⽐较容易定位到指定的分⽚;当排序字段⾮分⽚ 字段时,就变得⽐较复杂了。需要先在不同的分⽚节点中将数据进⾏排序并返回,然后将不同分⽚ 返回的结果集进⾏汇总和再次排序,最终返回给⽤户。如图所示:

在这里插入图片描述

4、全局主键避重问题

​ 在分库分表环境中,由于表中数据同时存在不同数据库中,主键值平时使⽤的⾃增⻓将⽆⽤武之 地,某个分区数据库⾃⽣成的ID⽆法保证全局唯⼀。因此需要单独设计全局主键,以避免跨库主键 重复问题。有⼀些常⻅的主键⽣成策略:

  • UUID

    UUID标准形式包含32个16进制数字,分为5段,形式为844412的36个字符,例如: 550e8400e29b41d4a716446655440000

    UUID是主键是最简单的⽅案,本地⽣成,性能⾼,没有⽹络耗时。但缺点也很明显,由于 UUID⾮常⻓,会占⽤⼤量的存储空间;另外,作为主键建⽴索引和基于索引进⾏查询时都会 存在性能问题,在InnoDB下,UUID的⽆序性会引起数据位置频繁变动,导致分⻚。

  • 结合数据库维护主键ID表

    ​ 这⼀⽅案的整体思想是:建⽴2个以上的全局ID⽣成的服务器,每个服务器上只部署⼀个数据 库,每个库有⼀张sequence表⽤于记录当前全局ID。表中ID增⻓的步⻓是库的数量, 起始值 依次错开,这样能将ID的⽣成散列到各个数据库上。如下图所示:由两个数据库服务器⽣成 ID,设置不同的auto_increment值。第⼀台sequence的起始值为1,每次步⻓增⻓2,另⼀ 台的sequence起始值为2,每次步⻓增⻓也是2。结果第⼀台⽣成的ID都是奇数(1, 3, 5, 7 …),第⼆台⽣成的ID都是偶数(2, 4, 6, 8 …)。 这种⽅案将⽣成ID的压⼒均匀分布在两台 机器上。同时提供了系统容错,第⼀台出现了错误,可以⾃动切换到第⼆台机器上获取ID。

    但有以下⼏个缺点:系统添加机器,⽔平扩展时较复杂;每次获取ID都要读写⼀次DB,DB 的压⼒还是很⼤,只能靠堆机器来提升性能。

  • Snowflake分布式⾃增ID算法

    Twitter的snowflake算法解决了分布式系统⽣成全局ID的需求,⽣成64位的Long型数字,组 成部分:

    • 第⼀位未使⽤
  • 接下来41位是毫秒级时间,41位的⻓度可以表示69年的时间

    • 5位datacenterId,5位workerId。10位的⻓度最多⽀持部署1024个节点、
  • 最后12位是毫秒内的计数,12位的计数顺序号⽀持每个节点每毫秒产⽣4096个ID序列

理论上QPS约为409.6w/s(1000*2^12),并且整个分布式系统内不会产⽣ID碰撞;可根据⾃身 业务灵活分配bit位。

不⾜就在于:强依赖机器时钟,如果时钟回拨,则可能导致⽣成ID重复。

在这里插入图片描述

  • Leaf——美团点评分布式ID⽣成系统 考虑到了⾼可⽤、容灾、分布式 推荐使⽤。 https://tech.meituan.com/2017/04/21/mt-leaf.html

5、数据迁移、扩容问题

​ 当业务⾼速发展,⾯临性能和存储的瓶颈时,才会考虑分⽚设计,此时就不可避免的需要考虑历史数据 迁移的问题。⼀般做法是先读出历史数据,然后按指定的分⽚规则再将数据写⼊到各个分⽚节点中。此 外还需要根据当前的数据量和QPS,以及业务发展的速度,进⾏容 量规划,推算出⼤概需要多少分⽚(⼀般建议单个分⽚上的单表数据量不超过1000W)

​ 如果采⽤数值范围分⽚,只需要添加节点就可以进⾏扩容了,不需要对分⽚数据迁移。如果采⽤的是数 值取模分⽚,则考虑后期的扩容问题就相对⽐较麻烦

  • 什么时候烤考虑切分

    1、能不切分尽量不要切分并不是所有表都需要进⾏切分,主要还是看数据的增⻓速度。切分后会 在某种程度上提升业务的复杂度,数据库除了承载数据的存储和查询外,协助业务更好的实现需求 也是其重要⼯作之⼀。不到万不得已不⽤轻易使⽤分库分表这个⼤招,避免"过度设计"和"过早优 化"。分库分表之前,不要为分⽽分,先尽⼒去做⼒所能及的事情,例如:升级硬件、升级⽹络、 读写分离、索引优化等等。当数据量达到单表的瓶颈时候,再考虑分库分表。

    2、数据量过⼤、增⻓过快,正常运维影响业务访问

    ​ 对数据库备份,如果单表太⼤,备份时需要⼤量的磁盘IO和⽹络IO。例如1T的数据,⽹络传输 占50MB时候,需要20000秒才 能传输完毕,整个过程的⻛险都是⽐较⾼的

    ​ 对⼀个很⼤的表进⾏DDL修改时,MySQL会锁住全表,这个时间会很⻓,这段时间业务不能访 问此表,影响很⼤。⼤表会经常 访问与更新,就更有可能出现锁等待。将数据切分,⽤空间换时 间,变相降低访问压⼒

    3、随着业务发展,需要对某些字段垂直拆分

    假如项⽬⼀开始设计的⽤户表如下:
    在这里插入图片描述

    4、安全性和可⽤性

这段时间业务不能访 问此表,影响很⼤。⼤表会经常 访问与更新,就更有可能出现锁等待。将数据切分,⽤空间换时 间,变相降低访问压⼒


http://chatgpt.dhexx.cn/article/iaY3xoT0.shtml

相关文章

MySQL-分库分表详解(一)

♥️作者:小刘在C站 ♥️个人主页: 小刘主页 ♥️努力不一定有回报,但一定会有收获加油!一起努力,共赴美好人生! ♥️学习两年总结出的运维经验,以及思科模拟器全套网络实验教程。专栏&#xf…

如何实现MYSQL分库分表

我们学习了在高并发下数据库的一种优化方案:读写分离,它就是依靠主从复制的技术使得数据库实现了数据复制为多份,增强了抵抗大量并发读请求的能力,提升了数据库的查询性能的同时,也提升了数据的安全性。当某一个数据库…

MySQL 分库分表,写得太好了!

https://www.toutiao.com/a6603492496779510276/?tt_frommobile_qq&utm_campaignclient_share&timestamp1549497188&appnews_article&utm_sourcemobile_qq&iid59568063679&utm_mediumtoutiao_android&group_id6603492496779510276 Mysql分库分表…

MySQL数据库怎么进行分库分表?

▲ 点击上方“分布式实验室”关注公众号 回复“1”抽取纸质技术书 提起分库分表,对于大部分服务器开发来说,其实并不是一个新鲜的名词。随着业务的发展,我们表中的数据量会变的越来越大,字段也可能随着业务复杂度的升高而逐渐增多…

超详细的mysql分库分表方案

我们都知道,随着业务量的增长,数据量也会随之增加,这个时候就需要关注业务大表,因为大表会影响查询性能,DDL变更时间很长,影响业务的可用性,同时导致从库延迟很大,如果业务做了读写分…

Mysql分库分表实战(一)——一文搞懂Mysql数据库分库分表

由于业务需要,需要对Mysql数据库进行分库分表,故而最近一直在整理分库分表的相关知识,现手上的工作也告一段落了,抽空将自己最近的学习结果转化为博文,分享给大家,本博文打算做成一个系列的,首先…

MySQL 常用分库分表方案,都在这里了!

点击上方关注 “终端研发部” 设为“星标”,和你一起掌握更多数据库知识 转自:尜尜人物 www.cnblogs.com/littlecharacter/p/9342129.htm 一、数据库瓶颈 不管是IO瓶颈,还是CPU瓶颈,最终都会导致数据库的活跃连接数增加&#xff0…

MySQL:互联网公司常用分库分表方案汇总

作者:尜尜人物 原文:cnblogs.com/littlecharacter/p/9342129.html 本文目录 一、数据库瓶颈 IO瓶颈CPU瓶颈 二、分库分表 水平分库水平分表垂直分库垂直分表 三、分库分表工具 四、分库分表步骤 五、分库分表问题 非partition key的查询问题非partition…

MySQL分库分表

1.分库分表产生的背景 采用单数据库存储存在以下的性能瓶颈: ①IO瓶颈:热点数据太多,数据库缓存不足,产生大量磁盘IO,效率较低。请求数据太多,带宽不够,网络IO瓶颈。 ②CPU瓶颈:排…

MySQL-如何分库分表?一看就懂

一、为什么要分库分表 如果一个网站业务快速发展,那这个网站流量也会增加,数据的压力也会随之而来,比如电商系统来说双十一大促对订单数据压力很大,Tps十几万并发量,如果传统的架构(一主多从)&…

黑盒测试是用什么软件,黑盒测试的主要方法和常用的工具有什么?

黑盒测试是测试人员比较常用的一种测试方法,它主要是通过测试来检测每个功能是否都能正常使用的。黑盒测试的方法是有许多的,但有一些方法是比较主要的,比如边界值测试、等价类划分、决策表以及场景法等等。除了方法外,黑盒测试工…

黑盒测试简介和常用方法

黑盒测试简介和常用方法 定义 黑盒测试俗称功能测试,它站在用户的角度上主要是对系统或软件的界面、功能上进行测试。它把程序当成不能打开的盒子,这样不用考虑系统内部的逻辑和内部特性,只需要在程序的外部接口上检查程序是否能按照软件设计…

黑盒测试的测试方法

一般我们在做软件测试的时候,会遇到黑盒测试,白盒测试,我们今天主要说的是黑盒测试的 主要测试方法有那些。接下来就是干货了。 最常见的是 边界值 等价类 错误推测法 场景法 因果图法 判定表组成法 正交实验设计 下面是详细的解释: 前言:在期末考到来的时候复习…

黑盒测试方法一

黑盒测试是一种基于证明功能需求和用户最终需求的测试方法,设计黑盒测试用例的方法有如下8种: 等价类划分法。 边界值分析法。 因果图法。 判定表驱动测试。 场景法。 功能图法。 错误推测法。 正交试验设计法。 在实际测试工作中,往往是综合…

软件测试方法——黑盒测试九大用例设计方法

笔者:风起怨江南 出处:https://blog.csdn.net/JackMengJin 笔者原创,文章转载需注明,如果喜欢请点赞关注,感谢支持! 导读:面试和工作必备的九大黑盒软件测试方法。 目录 黑盒测试九大用例设计…

黑盒测试简介与其测试方法

黑盒测试又叫功能测试、数据驱动测试或基于需求规格说明书的功能测试。该类测试注重于测试软件的功能性需求。把测试对象看作一个黑盒子,完全不考虑程序内部的逻辑结构和内部特性,只依据程序的《需求规格说明书》,检查程序的功能是否符合它的…

简述软件黑盒测试的方法,简述什么是黑盒测试方法

黑盒(又叫功能测试、数据驱动测试): 1.黑盒测试发现错误类型: 功能错误和遗漏 界面错误 数据库错误 性能错误 初始化和终止错误 2.黑盒测试:程序外部接口进行的 3.黑盒测试就是根据功能需求来设计测试用例,验证软件是否按照预期要…

黑盒(功能)测试基本方法

1、黑盒测试的概念 1、什么是黑盒测试 (1)黑盒测试又称功能测试、数据驱动测试或基于规格说明书的测试,是一种从用户观点出发的测试。 (2)测试人员把被测程序当作一个黑盒子。 2、黑盒测试主要测试的错误类型有 &…

黑盒测试方法详细介绍

一、等价类 1.关于等价类 2.等价类思想设计测试用例的步骤 二、边界值 1.关于边界点 2.使用边界值分析法设计测试用例步骤 三、因果图 1.关于因果图 2.关于判定表 3.使用因果图设计测试用例的步骤 1.分析所有可能的输入和可能的输出。 2.找出输入和输出之间的对应关系…

八大黑盒测试方法总结【超详细】

一、等价类划分法1.定义2. 划分等价类2.1 有效等价类2.2 无效等价类 3. 划分等价类的标准4.划分等价类的方法5.设计测试用例6. 三角形实例 二、边界值分析法1. 定义2. 与等价划分的区别3.边界值分析方法的考虑4. 常见的边界值5.边界值分析6.基于边界值分析方法选择测试用例的原…