mysql 如何提高批量导入的速度

mysql 如何提高批量导入的速度

最近一个项目测试,有几个mysql数据库的表数据记录达到了几十万条,在搭建测试环境 导入 测试数据时,十分慢。
在网上搜索了一下,有下面一些方法可以加快
mysql数据库导入数据的速度:
0. 最快的当然是直接 copy 数据库表的数据文件(版本和平台最好要相同或相似);
1. 设置 innodb_flush_log_at_trx_commit = 0 ,相对于 innodb_flush_log_at_trx_commit = 1 可以十分明显的提升导入速度;
2. 使用 load data local infile 提速明显;
3. 修改参数 bulk_insert_buffer_size, 调大批量插入的缓存;
4. 合并多条 insert 为一条: insert into t values(a,b,c),  (d,e,f) ,,,
5. 手动使用事物;


下面是UC的一篇相关博客文章:
http://tech.uc.cn/?p=634
MySQL批量SQL插入性能优化
对于一些数据量较大的系统,数据库面临的问题除了查询效率低下,还有就是数据入库时间长。特别像报表系统,每天花费在数据导入上的时间可能会长达几个小时或十几个小时之久。因此,优化数据库插入性能是很有意义的。

经过对MySQL innodb的一些性能测试,发现一些可以提高insert效率的方法,供大家参考参考。

1. 一条SQL语句插入多条数据。
常用的插入语句如:
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0); 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('1', 'userid_1', 'content_1', 1);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1);

修改成:
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0), ('1', 'userid_1', 'content_1', 1);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0), ('1', 'userid_1', 'content_1', 1);

修改后的插入操作能够提高程序的插入效率。这里第二种SQL执行效率高的主要原因是合并后日志量(MySQL的binlog和innodb的事务让日志) 减少了,降低日志刷盘的数据量和频率,从而提高效率。通过合并SQL语句,同时也能减少SQL语句解析的次数,减少网络传输的IO。
这里提供一些测试对比数据,分别是进行单条数据的导入与转化成一条SQL语句进行导入,分别测试1百、1千、1万条数据记录。

 

 

2. 在事务中进行插入处理。
把插入修改成:
START TRANSACTION; 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) 
VALUES ('0', 'userid_0', 'content_0', 0); 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) 
VALUES ('1', 'userid_1', 'content_1', 1); 
... 
COMMIT;

START TRANSACTION;
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)    
VALUES ('0', 'userid_0', 'content_0', 0);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)   
VALUES ('1', 'userid_1', 'content_1', 1);
...COMMIT;

使用事务可以提高数据的插入效率,这是因为进行一个INSERT操作时,MySQL内部会建立一个事务,在事务内才进行真正插入处理操作。通过使用事务可以减少创建事务的消耗,所有插入都在执行后才进行提交操作。
这里也提供了测试对比,分别是不使用事务与使用事务在记录数为1百、1千、1万的情况。

 

3. 数据有序插入。
数据有序的插入是指插入记录在主键上是有序排列,例如datetime是记录的主键:
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('1', 'userid_1', 'content_1', 1); 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0); 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('2', 'userid_2', 'content_2',2);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('2', 'userid_2', 'content_2',2);

修改成:
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('0', 'userid_0', 'content_0', 0); 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('1', 'userid_1', 'content_1', 1); 
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`) VALUES ('2', 'userid_2', 'content_2',2);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('0', 'userid_0', 'content_0', 0);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('1', 'userid_1', 'content_1', 1);
INSERT INTO `insert_table` (`datetime`, `uid`, `content`, `type`)  VALUES ('2', 'userid_2', 'content_2',2);

由于数据库插入时,需要维护索引数据,无序的记录会增大维护索引的成本。我们可以参照innodb使用的B+tree索引,如果每次插入记录都在索引的最 后面,索引的定位效率很高,并且对索引调整较小;如果插入的记录在索引中间,需要B+tree进行分裂合并等处理,会消耗比较多计算资源,并且插入记录的 索引定位效率会下降,数据量较大时会有频繁的磁盘操作。
下面提供随机数据与顺序数据的性能对比,分别是记录为1百、1千、1万、10万、100万。

从测试结果来看,该优化方法的性能有所提高,但是提高并不是很明显。

 

性能综合测试:
这里提供了同时使用上面三种方法进行INSERT效率优化的测试。

从测试结果可以看到,合并数据+事务的方法在较小数据量时,性能提高是很明显的,数据量较大时(1千万以上),性能会急剧下降,这是由于此时数据量超过了 innodb_buffer的容量,每次定位索引涉及较多的磁盘读写操作,性能下降较快。而使用合并数据+事务+有序数据的方式在数据量达到千万级以上表 现依旧是良好,在数据量较大时,有序数据索引定位较为方便,不需要频繁对磁盘进行读写操作,所以可以维持较高的性能。

 

注意事项:
1. SQL语句是有长度限制,在进行数据合并在同一SQL中务必不能超过SQL长度限制,通过max_allowed_packet配置可以修改,默认是1M,测试时修改为8M。
2. 事务需要控制大小,事务太大可能会影响执行的效率。MySQL有innodb_log_buffer_size配置项,超过这个值会把innodb的数据刷到磁盘中,这时,效率会有所下降。所以比较好的做法是,在数据达到这个这个值前进行事务提交。

 

30多条mysql数据库优化方法,千万级数据库记录查询轻松解决

1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。

2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,

Sql 代码 : select id from t where num is null;

可以在 num 上设置默认值 0,确保表中 num 列没有 null 值,然后这样查询:

Sql 代码 : select id from t where num=0;

3.应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。

4.应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,

Sql 代码 : select id from t where num=10 or num=20;

可以这样查询:

Sql 代码 : select id from t where num=10 union all select id from t where num=20;

5.in 和 not in 也要慎用,否则会导致全表扫描,如:

Sql 代码 : select id from t where num in(1,2,3);

对于连续的数值,能用 between 就不要用 in 了:

Sql 代码 : select id from t where num between 1 and 3;

6.下面的查询也将导致全表扫描:

Sql 代码 : select id from t where name like '%c%';

若要提高效率,可以考虑全文检索。

7.如果在 where 子句中使用参数,也会导致全表扫描。因为 SQL 只有在运行时才会解析局部变量,但优 化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然 而,如果在编译时建立访问计 划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:

Sql 代码 : select id from t where num=@num ;

可以改为强制查询使用索引:

Sql 代码 : select id from t with(index(索引名)) where num=@num ;

8.应尽量避免在 where 子句中对字段进行表达式操作, 这将导致引擎放弃使用索引而进行全表扫描。

Sql 代码 : select id from t where num/2=100;

可以这样查询:

Sql 代码 : select id from t where num=100*2;

9.应尽量避免在 where 子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如:

Sql 代码 : select id from t where substring(name,1,3)='abc';#name 以 abc 开头的 id

应改为:

Sql 代码 : select id from t where name like 'abc%';

10.不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算,否则系统将可能无法正确使用 索引。

11.在使用索引字段作为条件时,如果该索引是复合索引,那么必须使用到该索引中的第一个字段作为条件 时才能保证系统使用该索引, 否则该索引将不会 被使用, 并且应尽可能的让字段顺序与索引顺序相一致。

12.不要写一些没有意义的查询,如需要生成一个空表结构:

Sql 代码 : select col1,col2 into #t from t where 1=0;

这类代码不会返回任何结果集,但是会消耗系统资源的,应改成这样:

Sql 代码 : create table #t(…);

13.很多时候用 exists 代替 in 是一个好的选择:

Sql 代码 : select num from a where num in(select num from b);

用下面的语句替换:

Sql 代码 : select num from a where exists(select 1 from b where num=a.num);

14.并不是所有索引对查询都有效,SQL 是根据表中数据来进行查询优化的,当索引列有大量数据重复时, SQL 查询可能不会去利用索引,如一表中有字段 ***,male、female 几乎各一半,那么即使在 *** 上建 了索引也对查询效率起不了作用。

15.索引并不是越多越好,索引固然可以提高相应的 select 的效率,但同时也降低了 insert 及 update 的效率,因为 insert 或 update 时有可能会重建索引,所以怎样建索引需要慎重考虑,视具体情况而定。一个表的索引数最好不要超过 6 个,若太多则应考虑一些不常使用到的列上建的索引是否有必要。

16.应尽可能的避免更新 clustered 索引数据列, 因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列,那么需要考虑是否应将该索引建为 clustered 索引。

17.尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并 会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符,而对于数字型而言 只需要比较一次就够了。

18.尽可能的使用 varchar/nvarchar 代替 char/nchar , 因为首先变长字段存储空间小, 可以节省存储空间, 其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。

19.任何地方都不要使用 select * from t ,用具体的字段列表代替“*”,不要返回用不到的任何字段。

20.尽量使用表变量来代替临时表。如果表变量包含大量数据,请注意索引非常有限(只有主键索引)。

21.避免频繁创建和删除临时表,以减少系统表资源的消耗。

22.临时表并不是不可使用,适当地使用它们可以使某些例程更有效,例如,当需要重复引用大型表或常用 表中的某个数据集时。但是,对于一次性事件, 最好使用导出表。

23.在新建临时表时,如果一次性插入数据量很大,那么可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果数据量不大,为了缓和系统表的资源,应先 create table,然后 insert.

24.如果使用到了临时表, 在存储过程的最后务必将所有的临时表显式删除, 先 truncate table ,然后 drop table ,这样可以避免系统表的较长时间锁定。

25.尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过 1 万行,那么就应该考虑改写。

26.使用基于游标的方法或临时表方法之前,应先寻找基于集的解决方案来解决问题,基于集的方法通常更 有效。

27.与临时表一样,游标并不是不可使用。对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法,尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。如果开发时间允许,基于游标的方法和基于集的方法都可以尝试一下,看哪一种方法的效果更好。

28.在所有的存储过程和触发器的开始处设置 SET NOCOUNT ON ,在结束时设置 SET NOCOUNT OFF .无需在执行存储过程和触发器的每个语句后向客户端发送 DONE_IN_PROC 消息。

29.尽量避免大事务操作,提高系统并发能力。 sql 优化方法使用索引来更快地遍历表。 缺省情况下建立的索引是非群集索引,但有时它并不是最佳的。在非群集索引下,数据在物理上随机存放在数据页上。合理的索引设计要建立在对各种查询的分析和预测上。一般来说:

a.有大量重复值、且经常有范围查询( > ,< ,> =,< =)和 order by、group by 发生的列,可考虑建立集群索引;

b.经常同时存取多列,且每列都含有重复值可考虑建立组合索引;

c.组合索引要尽量使关键查询形成索引覆盖,其前导列一定是使用最频繁的列。索引虽有助于提高性能但 不是索引越多越好,恰好相反过多的索引会导致系统低效。用户在表中每加进一个索引,维护索引集合就 要做相应的更新工作。

30.定期分析表和检查表。

分析表的语法:ANALYZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tb1_name[, tbl_name]...

以上语句用于分析和存储表的关键字分布,分析的结果将可以使得系统得到准确的统计信息,使得SQL能够生成正确的执行计划。如果用户感觉实际执行计划并不是预期的执行计划,执行一次分析表可能会解决问题。在分析期间,使用一个读取锁定对表进行锁定。这对于MyISAM,DBD和InnoDB表有作用。

例如分析一个数据表:analyze table table_name
检查表的语法:CHECK TABLE tb1_name[,tbl_name]...[option]...option = {QUICK | FAST | MEDIUM | EXTENDED | CHANGED}

检查表的作用是检查一个或多个表是否有错误,CHECK TABLE 对MyISAM 和 InnoDB表有作用,对于MyISAM表,关键字统计数据被更新

CHECK TABLE 也可以检查视图是否有错误,比如在视图定义中被引用的表不存在。

31.定期优化表。

优化表的语法:OPTIMIZE [LOCAL | NO_WRITE_TO_BINLOG] TABLE tb1_name [,tbl_name]...

如果删除了表的一大部分,或者如果已经对含有可变长度行的表(含有 VARCHAR、BLOB或TEXT列的表)进行更多更改,则应使用OPTIMIZE TABLE命令来进行表优化。这个命令可以将表中的空间碎片进行合并,并且可以消除由于删除或者更新造成的空间浪费,但OPTIMIZE TABLE 命令只对MyISAM、 BDB 和InnoDB表起作用。

例如: optimize table table_name

注意: analyze、check、optimize执行期间将对表进行锁定,因此一定注意要在MySQL数据库不繁忙的时候执行相关的操作。

补充:

1、在海量查询时尽量少用格式转换。

2、ORDER BY 和 GROPU BY:使用 ORDER BY 和 GROUP BY 短语,任何一种索引都有助于 SELECT 的性能提高。

3、任何对列的操作都将导致表扫描,它包括数据库教程函数、计算表达式等等,查询时要尽可能将操作移 至等号右边。

4、IN、OR 子句常会使用工作表,使索引失效。如果不产生大量重复值,可以考虑把子句拆开。拆开的子 句中应该包含索引。

5、只要能满足你的需求,应尽可能使用更小的数据类型:例如使用 MEDIUMINT 代替 INT

6、尽量把所有的列设置为 NOT NULL,如果你要保存 NULL,手动去设置它,而不是把它设为默认值。

7、尽量少用 VARCHAR、TEXT、BLOB 类型

8、如果你的数据只有你所知的少量的几个。最好使用 ENUM 类型

9、正如 graymice 所讲的那样,建立索引。

10、合理用运分表与分区表提高数据存放和提取速度。

转载于:https://www.cnblogs.com/littlehb/p/6877148.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/269363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cad指定服务器名称,配置网络许可服务器 | AutoCAD 2022 | Autodesk Knowledge Network

涵盖的产品和版本3ds Max 2017, 3ds Max 2018, 3ds Max 2019, 3ds Max 2020, 3ds Max 2021, 3ds Max 2022, Advance Steel 2017, Advance Steel 2018, Advance Steel 2019, Advance Steel 2020, Advance Steel 2021, Advance Steel 2022, Alias Products 2017, Alias Products …

intel服务器最新主板芯片组,intel主板芯片组的介绍

intel主板芯片组的介绍intel主板芯片组是什么&#xff1f;芯片组是构成主板电路的核心&#xff0c;那么intel主板芯片组有哪些东西呢?下面是小编整理的intel主板芯片组的介绍&#xff0c;欢迎阅读&#xff0c;更多消息请关注应届毕业生网。芯片组是构成主板电路的核心。一定意…

ceph学习之pool

pool是ceph存储数据时的逻辑分区&#xff0c;它起到namespace的作用。其他分布式存储系统&#xff0c;比如Mogilefs、Couchbase、Swift都有pool的概念&#xff0c;只是叫法不同。每个pool包含一定数量的PG&#xff0c;PG里的对象被映射到不同的OSD上&#xff0c;因此pool是分布…

Jmeter作用域

第一种&#xff1a; http1、2、3无作用域的概念   循环控制器&#xff1a;http2,3,图形结果 图形结果&#xff1a;http2,3 聚合报告&#xff1a;http1,2,3 第二种&#xff1a; 固定定时器&#xff1a;http1 循环控制器&#xff1a;http2&#xff0c;3&#xff0c;图形结果&am…

Lucene Inverted index(倒排索引)原来快速入门

Lucene是一个高性能的JAVA全文检索工具包&#xff0c;它使用的是倒排文件索引结构。该结构及相应的生成算法如下&#xff1a; 设有两篇文章1和2&#xff1a;文章1的内容为&#xff1a;Tom lives in Guangzhou, I live in Guangzhou too.文章2的内容为&#xff1a;He once live…

计算机二级word奇偶页眉页脚,Word怎样设置奇偶页眉和页码图解

给文档设置奇偶页码是计算机二级中必考的一项&#xff0c;并且你以后的工作中也会用到&#xff0c;许多人都觉得这个很难&#xff0c;接下来学习啦小编就教大家在Word中设置奇偶页不同的页眉和页码的操作方法。Word中设置奇偶页不同的页眉和页码的方法教大家设置在正文页上添加…

网络服务器有保存文件,将收到的图片保存到网络服务器上的文件夹

对于类似的功能(从装载Android的照片与Servlet)&#xff0c;这里的Android客户端的代码&#xff0c;我使用(在这里发帖而稍加编辑)&#xff1a;URI uri URI.create(// path to file);MultipartEntity entity new MultipartEntity(HttpMultipartMode.STRICT);// several key-v…

docker官方文档中的dns,link,expose,publish

link是过时的了&#xff0c;尽量不要用。 dns内部集成&#xff0c;也可以用外部。 expose只是用于记录&#xff0c;并不真的。 publish是否起作用&#xff0c;也要看情况&#xff0c;是否被占用端口。 -------------------------------------- Embedded DNS server Docker daem…

针对“零时差”*** 赛门铁克推免费杀毒软件

针对“零时差”*** 赛门铁克推免费杀毒软件 【eNet硅谷动力消息】据外电报道&#xff0c;从下个月开始&#xff0c;赛门铁克Norton用户将得到一款新的杀毒工具&#xff0c;该工具可以使他们避免遭受“零时差&#xff08;zero-day&#xff09;”***。 据悉&#xff0c;这款被称为…

删除git库中untracked files(未监控)的文件

在编译git库拉下来的代码时&#xff0c;往往会产生一些中间文件&#xff0c;这些文件我们根本不需要&#xff0c;尤其是在成产环节做预编译&#xff0c;检查代码提交是否能编译通过这种case时&#xff0c;我们往往需要编译完成后不管正确与否&#xff0c;还原现场&#xff0c;以…

mysql服务器没有及时响应,win10系统Mysql5.7服务启动报:1053错误:服务没有及时响应启动或控制请求...

SharePoint 2013 create workflow by SharePoint Designer 2013这篇文章主要基于上一篇http://www.cnblogs.com/qindy/p/6242714.html的基础上,create a sample workflow by SharePoint De ...thinkphp设置session有效时间thinkphp的框架文件 ThinkPHP/Common/functions.php fu…

为什么牛在天上飞,因为奇虎在地上吹

恶意软件采用各种Hook技术保护自己的文件&#xff0c;过滤或者拦截其他文件的操作&#xff0c;并在关机时自动进行注册以保证恢复。奇虎360安全卫士“破冰&#xff08;Kill Defence&#xff09;”技术能将恶意软件的这些操作全部撤销&#xff0c;让系统变得很干净&#xff0c;再…

ajax 小木虫,NIST数据库中Acc. 是什么 小木虫

满意答案ljjqrxrn2017.01.09采纳率&#xff1a;47% 等级&#xff1a;8已帮助&#xff1a;163人在线的好像查起来不方便还有有没有这本书&#xff1a;NIST-JANAF Thermochemical Tables, 4th EditionM. Chase Monograph No. 9: 1998, 1952 pages, 2 volumes, hardcover, ISBN…

【PHP】文件写入和读取详解

文章提纲&#xff1a;一&#xff0e;实现文件读取和写入的基本思路二&#xff0e;使用fopen方法打开文件三&#xff0e;文件读取和文件写入操作四&#xff0e;使用fclose方法关闭文件五&#xff0e;文件指针的移动六&#xff0e;Windows和UNIX下的回车和换行一&#xff0e;实现…

从此博客改变自己

第一篇文章&#xff0c;是写给自己的。大学四年&#xff0c;虽然学的是计算机&#xff0c;但由于自己荒废了最好的学习时光&#xff0c;到现在也只是一只菜鸟而已。走入社会后&#xff0c;激烈的竞争一层层的将自己淘汰下去。父母的日益老去&#xff0c;同时也伴随着不可预知的…

铂金9200系列 服务器,Intel 56核心至强铂金9200终于开卖:单机架1.5万个框框

去年4月初&#xff0c;Intel发布了代号Cascade Lake的第二代至强可扩展处理器&#xff0c;工艺和架构仍然是14nm Skylake-SP&#xff0c;但为了应对核心数量越来越多的AMD霄龙&#xff0c;打造了双芯封装的顶级铂金9200系列&#xff0c;最多56核心112线程。Intel现有架构单芯片…

poi实现Excel导入导出依赖

<!--文件上传组件--><dependency><groupId>commons-fileupload</groupId><artifactId>commons-fileupload</artifactId><version>1.3.1</version></dependency><dependency><groupId>commons-io</groupI…