从MYSQL 数据库归档 到 归档设计

article/2025/9/16 17:51:04

到数据归档,很多人的第一个概念就是,不就是无用的数据,换个地方放吗,直接拷贝,删除不就得了,有那么麻烦。

我见到过的,听到过的数据库归档的方法有以下几种

1  数据通过人工的手段来进行清理,直接将表换名字,然后在重建一个新的表,承接数据。

首先这样的做法一个字,快,这是这样做法的好处所在,但另一方面要考虑的问题就是,业务要不要停,涉及的人有多少,如果光是IT 的还好说,但恰恰这样做,绝对不会光光牵扯 IT, 业务的人一定是要牵扯进来,然后就是各种流程和通知,要在几点几点,某个业务,甚至整体业务暂时停止。

2  数据通过MYSQL dump 或者其他的备份方式,将数据备份出来,在将数据恢复到数据归档库中,然后将备份的数据直接手动清理掉,这样的做法速度也很快,对业务的影响也比较小,基本上可以算是透明的方式了,但还是避免不了人工的介入,并且也不可能是天天这样做。

3  数据通过工具的方式来进行处理,例如pt-archiver 的方式来进行数据的归档和清理,但这个工具貌似bug不少,pt-1126

4  自己设计数据归档

自己设计数据归档的面就广了,有使用程序来做的,例如JAVA ,Python等等,也有使用存储过程来进行的。

下面就是一个MYSQL 针对一个数据库表归档的案例(这个案例也是有缺陷的,但目前是秉承着够用就好,以及时间成本的原则)

首先设计一个归档要考虑的问题如下

 

1 归档表的大小,以及每日最大,或最小的归档数据量,或者数据过期时间

   同时归档表是否必须是全量的数据归档,还是可以抛弃一些数据,例如有一些日志的归档中可能存在一些无用的数据,是否还必须全量的归档等等都是要考虑的问题,归档数据并不一定是原封不动的归档,有的逻辑上,只归档一些数据关键点也是可以的。

2 归档的数据量,数据归档一般根据上面的东西,归档有一次性归档,和规律有固定日期的归档,一次性的归档一般归档的数据量比较大,而有规律的归档则归档的数据量并不大,对比两者的方式,其实定期归档(有规律)的要有优势一些,主要是数据是不断灌入的,而数据的归档如果也是不断输出的,这样整体这个表的数据量就会有一个平衡,不会一下子少了很多,要不就是在清理的前一天,数据量已经大到一定的水平,有可能影响性能。

3 归档的方法,自己定义数据的归档方面,可以每次归档将数据灌入一个表,也可以定期的将数据写入不同的归档表,例如已归档日期和后缀的方式来将每次写入的数据进行分割,或者建立分区表的方式来进行归档。

4  归档的方式是否灵活,有的归档的方法仅仅针对一个表来进行归档,有的方法是可以灵活配置,可以任意扩展。那就都任意扩展,灵活配置不就好了,其实随着能任意扩展或者灵活配置,则工作量就会变大,这也要考虑一个性价比,具体要考虑表的数量以及归档的方式。

下面就是一个简单的例子,需求是一张表每天数据量在40- 50 万,主要都是来自于客户的短信以及消息发送的内容。表中的数据要保留半年之内的,其余的数据可以移走。

以下以最简单的自动化的方案来讲

下图是基于案例来讲的

因为数据库是MYSQL 所以考虑了归档一次是多大的批量,避免归档数据量过大的时候将生产库hang 死,另外配置表主要的功能是有两个 1 限制一次拷贝和清理的数据量,2 控制拷贝过期数据的日期限制

下面是这段代码,如果看的不方便,下面有截图

DELIMITER $$

DROP PROCEDURE IF EXISTS  archive_data;

create PROCEDURE archive_data()

BEGIN

  declare row_s int;  #最大执行多少次每次1000条

  declare save_month tinyint;  #保留多少月之前的数据

  declare times int;  #执行次数记录

  declare min_row_s int;  # 当前数据库最小的tid

  declare archive_date datetime;

  select @times := 1;  #设置每天初始清理次数初始值 

  select @row_s := max_row_clean from db_archive.db_config order by id limit 1;  #获取当前配置库数据

  select @save_month := archive_save_date from db_archive.db_config order by id limit 1; 

  select @min_row_s := min(tid) from msgcdb.t_sms_message; #获取当前系统最小的TID号

  select @max_row_s := max(tid) from msgcdb.t_sms_message; #获取当前系统最大的TID号

  select @archive_date := DATE_SUB(CURDATE(), INTERVAL @save_month MONTH);

  select @row_s, @save_month,@archive_date,@min_row_s,@max_row_s;

  

    if @min_row_s = @max_row_s then 

    set @times = @row_s + 1;

    elseif @min_row_s is null then

    set @times = @row_s + 1;

    end if; 

    

   insert into db_archive.archive_log (save_month,times,min_row_s,max_row_s,archive_date,row_s,insert_time,delete_time,type_s) values (@save_month,@times,@min_row_s,@max_row_s,@archive_date,@row_s,sysdate(),sysdate(),'initial');

 

   select @times, @min_row_s;

     while @times < @row_s DO

        begin

insert into db_archive.t_sms_message (tid,summary_id,uid,code,channel,batch_id,done_time,phone,sms_content,create_time,send_time,storage_time,status,estimatedTime,operate_type,origin,creator_id ,dept_id,del_flag,priority,template_id,repetitions_num) 

        select tid,summary_id,uid,code,channel,batch_id,done_time,phone,sms_content,create_time,send_time,storage_time,status,estimatedTime,operate_type,origin,creator_id ,dept_id,del_flag,priority,template_id,repetitions_num 

        from msgcdb.t_sms_message 

        where tid >= @min_row_s and tid < @min_row_s + 1000 and status <> 0 and storage_time < @archive_date; 

set @times = @times + 1;

         insert into db_archive.archive_log (save_month,times,min_row_s,max_row_s,archive_date,row_s,insert_time,delete_time,type_s) values (@save_month,@times,@min_row_s,@max_row_s,@archive_date,@row_s,sysdate(),sysdate(),'inserted');

        

    delete from msgcdb.t_sms_message where tid >= @min_row_s and tid < @min_row_s + 1000 and status <> 0 and storage_time < @archive_date;

        insert into db_archive.archive_log (save_month,times,min_row_s,max_row_s,archive_date,row_s,insert_time,delete_time,type_s) values (@save_month,@times,@min_row_s,@max_row_s,@archive_date,@row_s,sysdate(),sysdate(),'deleted');

       

        select @min_row_s,@max_row_s;

        select @min_row_s := min(tid) from msgcdb.t_sms_message;

        select @max_row_s := max(tid) from msgcdb.t_sms_message;

        select @min_row_s,@max_row_s;

            if @min_row_s = @max_row_s then 

set @times = @row_s + 1;

            elseif @min_row_s is null then

            set @times = @row_s + 1;

            end if; 

           

        end;

     END WHILE;

END$$

DELIMITER ;

配置表

归档日志表

为什么要这么设计,其实寻根溯源有两点

1 简单有效,够用原则

2 设计配置表的主要原因是对于非IT 人员,例如project manager 或者其他的人员,也可以调整归档的时间,例如 archive_save_date 的数字就是保留多少月的数据,max_row_clean,就是当前的数字 *1000 就是每天最大的归档数据量。通过这两个参数双重限制每天的归档的数据量,避免归档的时间太长,影响了备份,或其他操作。而日志表本身就是一个查看归档成功失败的东西,其中的type_s  就是表现数据归档操作状态的东西,通过日志表可以反映归档多少数据,每次操作消耗的时间,以及当前操作获取的系统变量是什么,方便出现故障时,查看到底归档的数据少不少,或者大致可能出现问题。

下面是这两个表的结构

这样归档有没有缺点,当然有,缺点马上就可以说出几个

1 为什么还要在本地机归档数据,不应该是传送到其他机器上吗

2 为什么不设置每次归档的数量限制(每次限制操作的行数),这对MYSQL不是很用吗,为什么要写死。

3  为什么要用MYSQL 存储过程来做,使用python不是更灵活

其实一言难尽,都和需求有关,所以很多设计出来的东西,外人一看一堆毛病,如果你进入到他的内部,一段时间估计你就懂得为什么会设计出这样或那样的东西。

最近有一句话挺时髦,资本根本不care你技术不技术,除非你做到行业NO.1,才有可能翻个身。

群里有一些免费书,可自取


http://chatgpt.dhexx.cn/article/bygWC3ql.shtml

相关文章

数据存储领域的“归档Archive”

档案圈的朋友想必对档案领域的“归档”一词已经耳熟能详&#xff0c;按照DA/T 58-2014《电子档案管理基本术语》中的定义&#xff0c;归档&#xff08;Archiving&#xff09;是指“按照国家规定将具有保存价值的电子文件及其元数据的保管权交给档案部门的过程”。 今天我们要聊…

那些年跟领导聊过的数据归档【DB篇】:从梳理到落地-DB单表千万级归档详细流程讲解

文章目录 知人论世执笔蓝图V1 - 浅尝辄止V2 - 初窥门镜V3 - 木已成舟 躬行方案安内攘外 卓有成效沉淀之石道阻且长 知人论世 无论何种需求的出现都是因为某种迫切解决的问题契机&#xff0c;它是业务发展中定数也是劫数&#xff0c;近期DBA反馈磁盘存储空间超过80%不足以支撑未…

进来偷学一招,数据归档二三事儿

Hello&#xff0c;大家好&#xff0c;我是楼下小黑哥~ 随着业务的快速增长&#xff0c;业务体量变得越来越大&#xff0c;这个过程我们会碰到各种问题&#xff0c;倒逼着我们进行技术升级。 那今天我们来聊下&#xff0c;这个过程将会碰到关于数据的问题。 数据增长带来的烦…

MySQL 归档数据的方法你知道了吗

归档&#xff0c;在 MySQL 中&#xff0c;是一个相对高频的操作。 它通常涉及以下两个动作&#xff1a; 迁移。将数据从业务实例迁移到归档实例。删除。从业务实例中删除已迁移的数据。 在处理类似需求时&#xff0c;都是开发童鞋提单给 DBA&#xff0c;由 DBA 来处理。 于…

7.数据归档(Archiver)

1.归档的基本概念 归档: 是指将数据写入文件存储到程序的沙盒中,当再次重新打开程序时,可以还原这些数据. 称它为数据序列化, 数据持久化. 临时数据: 存储在内存中的数据, 程序关闭, 内存释放,数据丢失数据持久性的方式 1) NSKeyedArchiver—-对象归档 2) NSUserDefaults 3)…

如何用matlab求出矩阵简化阶梯形顺带算出主元所在的列

matlab用rref函数 函数格式 [R,j]rref(A) A是矩阵 R是简化后的阶梯形 j是主元例子&#xff1a;求矩阵A的简化阶梯形与主元所在的列 >> A [1 1 -2 1 4; 2 4 -6 4 8; 2 -3 1 -1 2; 3 6 -9 7 9]; >> [R,j]rref(A)R 1 0 -1 0 40 1 -1 0 …

(线性代数笔记)2.阶梯型矩阵

1.阶梯形矩阵的定义 矩阵的主元 2.任意矩阵经过有限次初等行变换化为阶梯形 这里C是由B通过初等行变化得到的&#xff0c;C也是A的阶梯形 3.矩阵的秩 例题&#xff08;矩阵通过初等行变换转化为阶梯形&#xff09;

行阶梯型矩阵,行最简形矩阵,标准形矩阵

行阶梯形矩阵&#xff1a; 行最简形矩阵&#xff1a; 标准形矩阵&#xff1a;

MATLAB--矩阵操作(1.4)

矩阵的逆 >> A*inv(A) ans 1.0000 0 -0.0000 -0.0000 1.0000 -0.0000 -0.0000 0 1.0000 >> norm((ans-eye(3))) ans 1.8620e-15 一个矩阵中行&#xff08;列&#xff09;的最大线性无关组的行&#xff08;列&#xff09;向量的个…

python 矩阵化为最简阶梯型

from sympy import Matrix import numpy as np原数据是矩阵matrix A_matrix np.array([[1, 0, 0, 0, 1, 0], [1, 0, 0, 0, 0, 1], [0, 1, 0, 1, 0, 0],[0, 1, 0, 0, 0, 1], [0, 0, 1, 1, 0, 0], [0,0,1,0,1,0],[1,1,1,-1,-1,-1]])#系数矩阵&#xff0c;类型matrix# 阶梯行 A…

Python3 矩阵求最简行阶梯矩阵

由于在Python numpy库中没有直接对Matrix求RREF的方法&#xff0c;度娘了好久发现在另一个科学计算包sympy中可以利用A.rref()的方法对Matrix直接求RREF&#xff0c;但是有另一个问题&#xff0c;大家一般常用的是numpy&#xff0c;而sympy和numpy使用的是不同的数据类型&#…

用c语言将一般矩阵化为简化阶梯型

&#xff08;完整的程序附在文末&#xff09; 1、问题描述&#xff1a; 用C/C设计一个算法&#xff0c;把矩阵M化为行最简形梯形矩阵A。矩阵A应该满足以下几个条件&#xff1a; 1)若有零行&#xff0c;则零行应在最下方; 2)非零首元&#xff08;即非零行的第一个不为零的元素&a…

矩阵的行简化阶梯型和标准型

矩阵的行简化阶梯型是一种很有用的与原矩阵等价的矩阵&#xff0c;包括有相同的秩,相同的零空间,以及可以用来求解线性方程组 1 阶梯型矩阵和行简化阶梯型矩阵 下面以上节的方程组开始做初等变换: 由方程组得到增广矩阵 &#xff1a; B 下边对B进行初等变换&#xff1a; B…

阶梯形矩阵(Echelon Matrix)

初等矩阵 定义&#xff1a;与单位矩阵只有微小差别的矩阵。具体来说&#xff0c;就是一个单位矩阵经过一次初等行变换或一次初等列变换后得到的矩阵。 初等变换有下面三种形式&#xff1a; 1&#xff0c;两行&#xff08;列&#xff09;互换 2&#xff0c;把某行&#xff08;…

如何将一个矩阵化为行阶梯形矩阵

2016-03-29 尾巴 线性代数 有同学反映上一课过于冷冰冰&#xff0c;都是一些不带证明的公式。如果线性代数所有公式都要证明的话&#xff0c;线性代数的难度会上好几个量级&#xff0c;有的公式的证明是特别特别难的。还有一个&#xff0c;虽然我们需要大家能对这门课有一些直观…

《线性代数》学习之———第一章 矩阵与方程组(1.2行阶梯形)

1.2行阶梯形矩阵 行阶梯形矩阵相关理论主要的应用还是针对矩阵的不同情况进行化简&#xff0c;因为有些矩阵在化简过程中会出现&#xff0c;系数矩阵的相关行等于0但是对应的增广矩阵相关行不等于0&#xff0c;使出现了违反常理的0实数的情况。 因此&#xff0c;就需要行阶梯形…

修改电脑网段

因为需要远程连接&#xff0c;把自己电脑网段修改一下。 控制面板-网络和Internet-网络连接“右键”-属性-IPv4-自行修改

OpenWrt修改IP网段

修改LAN的IP配置网段 修改此处即可

局域网同一个网段通信过程

局域网内同网段通信的过程 这个时候就需要用到ENSP模拟器了&#xff0c;之前已经安装好了&#xff0c;我们通过ENSP来搭建实验环境&#xff0c;这样可以看到实验的效果以及通过抓包来分享整个过程&#xff0c;先看同网段内的通信过程。 1、准备工作 2、开始测试 我们先用PC1访…

linux 跨网段ping,Linux中跨网段ping问题

问题是这样的&#xff0c;如图&#xff0c;pc的ip是192.168.1.2&#xff0c;设备是linux内核2.6.35&#xff0c;有两个网卡&#xff0c;一个是带外管理口192.168.1.1 一个是192.168.2.1。pc与设备的带外口也就是192.168.1.1相连 将pc的gateway设置为192.168.1.1 pc ping 192.16…