自动清理归档日志_从MYSQL 数据库归档 到 归档设计

1d5651e571c1e34d38d8df9471f67979.png

到数据归档,很多人的第一个概念就是,不就是无用的数据,换个地方放吗,直接拷贝,删除不就得了,有那么麻烦。

我见到过的,听到过的数据库归档的方法有以下几种

1  数据通过人工的手段来进行清理,直接将表换名字,然后在重建一个新的表,承接数据。

首先这样的做法一个字,快,这是这样做法的好处所在,但另一方面要考虑的问题就是,业务要不要停,涉及的人有多少,如果光是IT 的还好说,但恰恰这样做,绝对不会光光牵扯 IT, 业务的人一定是要牵扯进来,然后就是各种流程和通知,要在几点几点,某个业务,甚至整体业务暂时停止。

2  数据通过MYSQL dump 或者其他的备份方式,将数据备份出来,在将数据恢复到数据归档库中,然后将备份的数据直接手动清理掉,这样的做法速度也很快,对业务的影响也比较小,基本上可以算是透明的方式了,但还是避免不了人工的介入,并且也不可能是天天这样做。

3  数据通过工具的方式来进行处理,例如pt-archiver 的方式来进行数据的归档和清理,但这个工具貌似bug不少,pt-1126

a34ad7784145cea14fccd5c31b434afd.png

4  自己设计数据归档

自己设计数据归档的面就广了,有使用程序来做的,例如JAVA ,Python等等,也有使用存储过程来进行的。

下面就是一个MYSQL 针对一个数据库表归档的案例(这个案例也是有缺陷的,但目前是秉承着够用就好,以及时间成本的原则)

首先设计一个归档要考虑的问题如下

1 归档表的大小,以及每日最大,或最小的归档数据量,或者数据过期时间

   同时归档表是否必须是全量的数据归档,还是可以抛弃一些数据,例如有一些日志的归档中可能存在一些无用的数据,是否还必须全量的归档等等都是要考虑的问题,归档数据并不一定是原封不动的归档,有的逻辑上,只归档一些数据关键点也是可以的。

2 归档的数据量,数据归档一般根据上面的东西,归档有一次性归档,和规律有固定日期的归档,一次性的归档一般归档的数据量比较大,而有规律的归档则归档的数据量并不大,对比两者的方式,其实定期归档(有规律)的要有优势一些,主要是数据是不断灌入的,而数据的归档如果也是不断输出的,这样整体这个表的数据量就会有一个平衡,不会一下子少了很多,要不就是在清理的前一天,数据量已经大到一定的水平,有可能影响性能。

3 归档的方法,自己定义数据的归档方面,可以每次归档将数据灌入一个表,也可以定期的将数据写入不同的归档表,例如已归档日期和后缀的方式来将每次写入的数据进行分割,或者建立分区表的方式来进行归档。

4  归档的方式是否灵活,有的归档的方法仅仅针对一个表来进行归档,有的方法是可以灵活配置,可以任意扩展。那就都任意扩展,灵活配置不就好了,其实随着能任意扩展或者灵活配置,则工作量就会变大,这也要考虑一个性价比,具体要考虑表的数量以及归档的方式。

下面就是一个简单的例子,需求是一张表每天数据量在40- 50 万,主要都是来自于客户的短信以及消息发送的内容。表中的数据要保留半年之内的,其余的数据可以移走。

以下以最简单的自动化的方案来讲

下图是基于案例来讲的

因为数据库是MYSQL 所以考虑了归档一次是多大的批量,避免归档数据量过大的时候将生产库hang 死,另外配置表主要的功能是有两个 1 限制一次拷贝和清理的数据量,2 控制拷贝过期数据的日期限制

75eeddbd09a5cf917ad546f0d32fe98b.png

下面是这段代码,如果看的不方便,下面有截图

DELIMITER $$

DROP PROCEDURE IF EXISTS  archive_data;

create PROCEDURE archive_data()

BEGIN

  declare row_s int;  #最大执行多少次每次1000条

  declare save_month tinyint;  #保留多少月之前的数据

  declare times int;  #执行次数记录

  declare min_row_s int;  # 当前数据库最小的tid

  declare archive_date datetime;

  select @times := 1;  #设置每天初始清理次数初始值 

  select @row_s := max_row_clean from db_archive.db_config order by id limit 1;  #获取当前配置库数据

  select @save_month := archive_save_date from db_archive.db_config order by id limit 1; 

  select @min_row_s := min(tid) from msgcdb.t_sms_message; #获取当前系统最小的TID号

  select @max_row_s := max(tid) from msgcdb.t_sms_message; #获取当前系统最大的TID号

  select @archive_date := DATE_SUB(CURDATE(), INTERVAL @save_month MONTH);

  select @row_s, @save_month,@archive_date,@min_row_s,@max_row_s;

    if @min_row_s = @max_row_s then 

    set @times = @row_s + 1;

    elseif @min_row_s is null then

    set @times = @row_s + 1;

    end if; 

   insert into db_archive.archive_log (save_month,times,min_row_s,max_row_s,archive_date,row_s,insert_time,delete_time,type_s) values (@save_month,@times,@min_row_s,@max_row_s,@archive_date,@row_s,sysdate(),sysdate(),'initial');

   select @times, @min_row_s;

     while @times < @row_s DO

        begin

insert into db_archive.t_sms_message (tid,summary_id,uid,code,channel,batch_id,done_time,phone,sms_content,create_time,send_time,storage_time,status,estimatedTime,operate_type,origin,creator_id ,dept_id,del_flag,priority,template_id,repetitions_num) 

        select tid,summary_id,uid,code,channel,batch_id,done_time,phone,sms_content,create_time,send_time,storage_time,status,estimatedTime,operate_type,origin,creator_id ,dept_id,del_flag,priority,template_id,repetitions_num 

        from msgcdb.t_sms_message 

        where tid >= @min_row_s and tid < @min_row_s + 1000 and status <> 0 and storage_time < @archive_date; 

set @times = @times + 1;

         insert into db_archive.archive_log (save_month,times,min_row_s,max_row_s,archive_date,row_s,insert_time,delete_time,type_s) values (@save_month,@times,@min_row_s,@max_row_s,@archive_date,@row_s,sysdate(),sysdate(),'inserted');

    delete from msgcdb.t_sms_message where tid >= @min_row_s and tid < @min_row_s + 1000 and status <> 0 and storage_time < @archive_date;

        insert into db_archive.archive_log (save_month,times,min_row_s,max_row_s,archive_date,row_s,insert_time,delete_time,type_s) values (@save_month,@times,@min_row_s,@max_row_s,@archive_date,@row_s,sysdate(),sysdate(),'deleted');

        select @min_row_s,@max_row_s;

        select @min_row_s := min(tid) from msgcdb.t_sms_message;

        select @max_row_s := max(tid) from msgcdb.t_sms_message;

        select @min_row_s,@max_row_s;

            if @min_row_s = @max_row_s then 

set @times = @row_s + 1;

            elseif @min_row_s is null then

            set @times = @row_s + 1;

            end if; 

        end;

     END WHILE;

END$$

DELIMITER ;

7f917f0623b5c6740da869f8774f0003.png

b2dcb51a9dbd46ee379e3993a67a1636.png

465f262fb42be27147afb4513c22afdc.png

配置表

09b60161e3dcdf8b249e4126f80ad1ad.png

归档日志表

9763cdfaf57435a30659f70ed027cf8d.png

为什么要这么设计,其实寻根溯源有两点

1 简单有效,够用原则

2 设计配置表的主要原因是对于非IT 人员,例如project manager 或者其他的人员,也可以调整归档的时间,例如 archive_save_date 的数字就是保留多少月的数据,max_row_clean,就是当前的数字 *1000 就是每天最大的归档数据量。通过这两个参数双重限制每天的归档的数据量,避免归档的时间太长,影响了备份,或其他操作。而日志表本身就是一个查看归档成功失败的东西,其中的type_s  就是表现数据归档操作状态的东西,通过日志表可以反映归档多少数据,每次操作消耗的时间,以及当前操作获取的系统变量是什么,方便出现故障时,查看到底归档的数据少不少,或者大致可能出现问题。

下面是这两个表的结构

a3ec70681e5f47e8403b95bed423eea7.png

这样归档有没有缺点,当然有,缺点马上就可以说出几个

1 为什么还要在本地机归档数据,不应该是传送到其他机器上吗

2 为什么不设置每次归档的数量限制(每次限制操作的行数),这对MYSQL不是很用吗,为什么要写死。

3  为什么要用MYSQL 存储过程来做,使用python不是更灵活

其实一言难尽,都和需求有关,所以很多设计出来的东西,外人一看一堆毛病,如果你进入到他的内部,一段时间估计你就懂得为什么会设计出这样或那样的东西。

最近有一句话挺时髦,资本根本不care你技术不技术,除非你做到行业NO.1,才有可能翻个身。

76bc9d7131f859112b30547d02599123.png

群里有一些免费书,可自取

20a5fdc93670d444ec010936a3688d9f.png

e8fcfa9d3c8813e83c358c294f6c96f1.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/398216.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android支付宝SDK开发笔记

一、准备工作 〉1、下载开发包 https://b.alipay.com/order/productDetail.htm?productId2014110308141993&tabId4#ps-tabinfo-hash 压缩包下的“支付宝钱包支付接口开发包”中即有Andoid使用支付宝的JAR和Demo 〉2、创建支付宝应用 在支付宝开放平台申请创建应用 https:/…

一天一个类,一点也不累之HashSet

最近忙着一个小项目结题&#xff0c;故没能按时完成【一天一个类&#xff0c;一点也不累】&#xff0c;还好项目优秀&#xff0c;算是对自己一点点的安慰和鼓励。~~~ 今天要说的是HashSet 既然是继承自Set&#xff0c;那么就必须有Set的一些属性&#xff0c;比如不能容许有相同…

[BZOJ1502]月下柠檬树(自适应辛普森积分)

1502: [NOI2005]月下柠檬树 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 1387 Solved: 739[Submit][Status][Discuss]Description 李哲非常非常喜欢柠檬树&#xff0c;特别是在静静的夜晚&#xff0c;当天空中有一弯明月温柔地照亮地面上的景物时&#xff0c;他必会悠闲地…

擎天出口退税软件_新版申报系统退税申报注意事项

前言&#xff1a;随着税务信息化建设“后金三”时代的不断深入,2019年年底国家税务总局启动出口退税管理系统整合(进入金税三期)项目&#xff0c;经过广东、大连两个地区试点&#xff0c;即将于今年年底前在全国完成金税三期审核系统的上线工作&#xff0c;至此&#xff0c;出口…

pcie 的function_PCIe扫盲——BDF与配置空间

前面的文章中介绍过&#xff0c;每一个PCIe设备可以只有一个功能(Function)&#xff0c;即Fun0。也可以拥有最多8个功能&#xff0c;即多功能设备(Multi-Fun)。不管这个PCIe设备拥有多少个功能&#xff0c;其每一个功能都有一个唯一独立的配置空间(Configuration Space)与之对应…

dubbo接口快速测试技巧

在分布式系统的开发中&#xff0c;用到了dubbozookeeper技术&#xff0c;最近遇到一个问题&#xff0c;产品上线后&#xff0c;我负责的模块出了问题&#xff0c;某个bean中某个字段的值一直为null&#xff0c;而这个bean是我调用注册在zookeeper上的一个服务查询到的&#xff…

IISASP.NET 站点IP跳转到域名

前言&#xff1a;先到微软的 https://www.iis.net/downloads/microsoft/url-rewrite 下载URL Rewrite 目标&#xff1a;输入ip跳转到域名所在的网站 比如58的115.159.231.173 跳转到https://passport.58.com/login 先看下58的例子 我们在地址栏输入ip之后 箭头指向的地方是跳转…

mysql emoji表情_让MySQL支持Emoji表情 mysql 5.6

最近在做微信相关的项目&#xff0c;其中MySQL 要存储emoji表情&#xff0c;因此发现我们常用的utf8 字符集根本无法存储表情。网上有不少替代方案。本人还是采用了修改MySQL字符集的方案简单快捷。首先将我们数据库默认字符集由utf8 更改为utf8mb4&#xff0c;对应的表默认字符…

::selection

改变浏览器文字选中背景 ::selection CSS的伪类选择器 只有一小部分CSS属性可以用于::selection选择器&#xff1a; color, background-color, cursor, outline, text-decoration, text-emphasis-color和text-shadow。 要特别注意的是&#xff0c;background-image会如同其他属…

python3中的正则模块

本文引至: 正则模块 与正则最相关的应该算是字符串, 但是,在内置的py的str类型中, 并没有内置的正则方法. 我们可以看一下str的基本方法:我觉得最有用的,应该算find,len,split,join 这4个方法了. 但对于字符串操作来说, 这简直too too simple. 所以, py提供了我们一个Re 模块, …

wamserver怎么把mysql找回来_将php连接wampserver自带的MySQL数据库 所遇到各种问题解决办法...

将php连接到MySQL数据库的方法有很多&#xff0c;在这里我使用的是mysqli_connect方法&#xff0c;此博客所解答的问题汇总&#xff1a;1.wampserver服务器离线但图标为正常绿&#xff1b;2.wampserver 2/3服务正常运行&#xff0c;3个服务分别是哪些&#xff1f;3.wampserver …

问题总结2015/05/05

1、第三方提供的库不能使用。 调查方法&#xff1a;差分编译&#xff0c;对比连接后和编译后的差分情况&#xff1b;Debug单步调试&#xff0c;定位出错代码&#xff1b;由于是第三方库不能使用的原因&#xff0c;反编译辅助调查。 调查结果&#xff1a;本机编译后的R文件中的资…

js的下拉刷新和上拉加载,基于iScroll v4.2.5

html部分 <div id"wrapper" style"height: 100%"><div id"scroller"><div id"pullDown"></div><ul id"thelist"><li>我是三冰 1</li><li>我是三冰 2</li><li>…

java声明和初始化数组_Java 中初始化数组

数组是一种有用的数据类型&#xff0c;用于管理在连续内存位置中建模最好的集合元素。下面是如何有效地使用它们。-- Chris Hermansen&#xff08;作者&#xff09;有使用 C 或者 FORTRAN 语言编程经验的人会对数组的概念很熟悉。它们基本上是一个连续的内存块&#xff0c;其中…

Java第二次实验报告——Java面向对象程序设计

北京电子科技学院&#xff08;BESTI&#xff09;实 验 报 告课程名称&#xff1a;java程序设计实验 班级&#xff1a;1352 姓名&#xff1a;洪韶武 学号&#xff1a;20135219成绩&#xff1a; 指导教师&#xff1a;娄嘉鹏…

IOS 多线程04-GCD详解 底层并发 API

IOS 多线程04-GCD详解 底层并发 API 注&#xff1a;本人是翻译过来&#xff0c;并且加上本人的一点见解。 前言 想要揭示出表面之下深层次的一些可利用的方面。这些底层的 API 提供了大量的灵活性&#xff0c;随之而来的是大量的复杂度和更多的责任。在我们的文章常见的后台实践…

mac pandas文件路径_Mac进阶必看:如何利用Automator快速获取文件路径

在重装mac os系统后&#xff0c;有的小伙伴会选择手动恢复数据&#xff0c;但是却发现一些软件比如FTP、iterm2、foxmail等这些软件的配置信息没有了&#xff0c;其实数据并没有丢失哦&#xff01;一般情形下数据都会在/Users/dcm/Library下&#xff0c;但是Mac默认是不显示这些…

深入分析Spring 与 Spring MVC容器

spring官方文档中对web容器的说明spring配置文件默认名字——applicationContext.xml参考链接&#xff1a;https://www.cnblogs.com/hujunzheng/p/5673377.htmlSpring的启动过程&#xff1a;首先&#xff0c;对于一个web应用&#xff0c;其部署在web容器中&#xff0c;web容器提…

mysql jpa 批注 视图_通过JPA注解映射视图的实体类 jpa 视图 无主键 @Query注解的用法(Spring Data JPA) jpa 使用sql语句...

参考: https://blog.csdn.net/qq465235530/article/details/68064074https://www.cnblogs.com/zj0208/p/6008627.html这里主要说一下怎么用jpa映射一个视图的实体类&#xff0c;其实跟表映射一样&#xff0c;就是需要添加一个空的主键id标识package com.cf.bus.core.rs.templat…

javascript继承模式原理与示例深入剖析

原型链ECMAScript 中描述了原型链的概念&#xff0c;并将原型链作为实现继承的主要方法。 其基本思想是利用原型让一个引用类型继承另一个引用类型的属性和方法。简单回顾一下构造函数、原型和实例的关系&#xff1a;每个构造函数都有一个原型对象&#xff0c;原型对象都包含一…