1. 为什么做分区
数据库分区是将数据库中的数据划分成独立的部分,每个部分称为一个分区。分区可以根据特定的标准,如范围、列表或哈希值,将数据分隔到不同的物理存储位置中。数据库表分区可以在多种情况下提供显著的好处。以下是一些应该考虑对数据库表进行分区的情况:
-
大型数据量: 当数据库表包含大量数据时,性能可能会受到影响。通过将表分区,可以将数据分散到不同的物理位置,从而提高查询性能和管理效率。
-
历史数据管理: 对于需要长期保留历史数据的系统,可以根据时间范围对数据进行分区。这样可以轻松地管理和维护历史数据,执行归档、备份和清理操作。
-
提高查询性能: 当数据库表面临频繁的查询操作时,分区可以帮助提高查询性能。通过将数据分散到多个分区,可以减少单个查询对系统的压力,从而提高整体性能。
-
改善数据加载速度: 对于需要频繁加载数据的系统,分区可以帮助提高数据加载速度。例如,在分析型数据库中,可以根据时间范围对数据进行分区,以便更快地加载最新的数据。
-
数据安全性要求: 对于需要对数据进行严格隔离和访问控制的系统,可以通过分区来实现数据的安全存储和管理。例如,可以将敏感数据存储在单独的分区中,并为其应用更严格的访问控制。
-
提高可用性和容错性: 通过将数据分散到多个物理位置,可以提高系统的可用性和容错性。如果一个分区发生故障,其他分区仍然可以继续工作,从而降低了系统停机时间。
总的来说,数据库表分区可以在面对大量数据、频繁查询、历史数据管理或数据安全性要求等情况下提供多种好处。然而,需要在实际应用中仔细权衡利弊,以确定是否值得对数据库表进行分区。
2. 旧表分区步骤
2.1 备份原始表
rename table t_A to t_A_bak;
2.2 创建新表,定义分区规则,创建初始分区
create table t_A (ID int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',NAME varchar(255) NOT NULL COMMENT '姓名',IDCARD varchar(255) NOT NULL COMMENT '身份证号码',PHONE varchar(255) DEFAULT NULL COMMENT '手机号码',CREATE_TIME datetime NOT NULL COMMENT '创建时间',MOD_TIME datetime DEFAULT NULL COMMENT '修改时间',PRIMARY KEY (ID, CREATE_TIME)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4
partition by range columns (CREATE_TIME) (-- 按月分区partition `P_202401` values less than ('2024-02-01 00:00:00'),partition `P_202402` values less than ('2024-03-01 00:00:00'),partition `P_202403` values less than ('2024-04-01 00:00:00'),partition `P_202404` values less than ('2024-05-01 00:00:00'),partition `P_202405` values less than ('2024-06-01 00:00:00')
);
注意事项:
- 分区列不能为 NULL;
- 分区列必须是主键索引,一般与 ID 列构成主键复合索引;
- 如果表存在唯一索引,分区列还需添加到唯一索引中(这种情况,要考虑该唯一索引是否有必要,添加分区字段不可避免地破坏唯一逻辑,若没必要直接删除,若有必要,那得在Java代码里处理唯一逻辑);
2.3 新表插入原始数据
insert into t_A select t_A_bak where create_time >= #{startTime} and create_time < #{endTime};
注意事项:
-
select ...
后面最好加where
条件,where
跟的筛选列需创建索引,否则全表扫描,容易产生锁表,丢失数据等;这个问题的详细分析参考 [同事使用 insert into select 迁移数据,开开心心上线,上线后被公司开除!]; -
若是停机更新,不担心锁表问题,或是
where
跟的筛选列没有创建索引,则可以不加where
条件,直接insert into B select * from A
;- 针对这种方式,曾经担心过一个问题:【若表A超大,数据量达到千万级别,MySQL 是否一次性地把
表A
的所有数据查出来放到内存或是磁盘,再一次性地插入表B
?如果这样,不可避免地导致内存爆炸或是 IO 次数增加】:这个问题我抛给 ChatGPT 解答,它的解释如贴图。我觉得最好还是手动分批查询插入吧。
- 针对这种方式,曾经担心过一个问题:【若表A超大,数据量达到千万级别,MySQL 是否一次性地把
2.4 新表创建原始索引
注意:要最后创建原表索引;
-- 创建原表的身份证号码的唯一索引,在线不锁表方式创建索引
create index `IDX_IDCARD` on t_A (`IDCARD`) algorithm=inplace lock=none;
如果先建立索引,再插入数据,由于索引相当于一种排序,插入数据时会给数据进行排序,毫无疑问会影响插入数据的性能。
3. 分区相关SQL
-- 查询某张表每个分区的数据行数
select table_name, partition_name, table_rows from information_schema.partitions where table_name = 't_A';
-- 若上述语句没有显示行数为0,需刷新一下表
analyze table t_A;
-- 查询某个分区的数据
select * from t_A partition (P_202401);
-- 删除某个分区,分区数据也一并删除
alter table t_A drop partition P_202401;
-- 新增分区
alter table t_A add partition (partition `P_202406` values less than ('2024-07-01 00:00:00'));