开源数据库中间件-MyCa初探与分片实践

  • 如今随着互联网的发展,数据的量级也是撑指数的增长,从GB到TB到PB。对数据的各种操作也是愈加的困难,传统的关系性数据库已经无法满足快速查询与插入数据的需求。这个时候NoSQL的出现暂时解决了这一危机。它通过降低数据的安全性,减少对事务的支持,减少对复杂查询的支持,来获取性能上的提升。

  • 但是,在有些场合NoSQL一些折衷是无法满足使用场景的,就比如有些使用场景是绝对要有事务与安全指标的。这个时候NoSQL肯定是无法满足的,所以还是需要使用关系性数据库。如果使用关系型数据库解决海量存储的问题呢?此时就需要做数据库集群,为了提高查询性能将一个数据库的数据分散到不同的数据库中存储。

MyCat简介

  • Mycat 背后是阿里曾经开源的知名产品——Cobar。Cobar 的核心功能和优势是 MySQL 数据库分片,此产品曾经广为流传,据说最早的发起者对 Mysql 很精通,后来从阿里跳槽了,阿里随后开源的 Cobar,并维持到 2013 年年初,然后,就没有然后了。

  • Cobar 的思路和实现路径的确不错。基于 Java 开发的,实现了 MySQL 公开的二进制传输协议,巧妙地将自己伪装成一个 MySQL Server,目前市面上绝大多数MySQL客户端工具和应用都能兼容。比自己实现一个新的数据库协议要明智的多,因为生态环境在哪里摆着。

  • Mycat 是基于 cobar 演变而来,对 cobar 的代码进行了彻底的重构,使用 NIO 重构了网络模块,并且优化了 Buffer 内核,增强了聚合,Join 等基本特性,同时兼容绝大多数数据库成为通用的数据库中间件。

  • 简单的说,MyCAT就是:一个新颖的数据库中间件产品支持mysql集群,或者mariadb cluster,提供高可用性数据分片集群。你可以像使用mysql一样使用mycat。对于开发人员来说根本感觉不到mycat的存在。

MyCat支持的数据库:

MyCat下载及安装

MySQL安装与启动

JDK:要求jdk必须是1.7及以上版本
MySQL:推荐mysql是5.5以上版本
MySQL安装与启动步骤如下:( 步骤1-5省略 )

  1. 将MySQL的服务端和客户端安装包(RPM)上传到服务器

2. 查询之前是否安装过MySQL
rpm -qa|grep -i mysql
3. 卸载旧版本MySQL
rpm -e --nodeps  软件名称
4. 安装服务端
rpm -ivh MySQL-server-5.5.49-1.linux2.6.i386.rpm
5. 安装客户端
rpm -ivh MySQL-client-5.5.49-1.linux2.6.i386.rpm
6. 启动MySQL服务
service mysql start
7. 登录MySQL
mysql -u root
8. 设置远程登录权限
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%'IDENTIFIED BY '123456' WITH GRANT OPTION;
在本地SQLyog 连接远程MySQL进行测试

MyCat安装及启动

MyCat的官方网站: www.mycat.org.cn
下载地址: github.com/MyCATApache…

  1. 将Mycat-server-1.4-release-20151019230038-linux.tar.gz上传至服务器
  2. 将压缩包解压缩。建议将mycat放到/usr/local/mycat目录下
tar -xzvf Mycat-server-1.4-release-20151019230038-linux.tar.gz
mv mycat /usr/local
复制代码
  1. 进入mycat目录的bin目录,启动: ./mycat start 停止:./mycat stop

mycat 支持的命令{ console | start | stop | restart | status | dump }
Mycat的默认端口号为:8066

MyCat分片

什么是分片

简单来说,就是指通过某种特定的条件,将我们存放在同一个数据库中的数据分散存放到多个数据库(主机)上面,以达到分散单台设备负载的效果。

数据的切分(Sharding)根据其切分规则的类型,可以分为两种切分模式。

  1. 一种是按照不同的表(或者Schema)来切分到不同的数据库(主机)之上,这种切分可以称之为数据的垂直(纵向)切分

2. 另外一种则是根据表中的数据的逻辑关系,将同一个表中的数据按照某种条件拆分到多台数据库(主机)上面,这种切分称之为数据的水平(横向)切分。

MyCat分片策略:

分片相关的概念

逻辑库(schema) :

  • 前面一节讲了数据库中间件,通常对实际应用来说,并不需要知道中间件的存在,业务开发人员只需要知道数据库的概念,所以数据库中间件可以被看做是一个或多个数据库集群构成的逻辑库。

逻辑表(table):

  • 既然有逻辑库,那么就会有逻辑表,分布式数据库中,对应用来说,读写数据的表就是逻辑表。逻辑表,可以是数据切分后,分布在一个或多个分片库中,也可以不做数据切分,不分片,只有一个表构成。

分片表:

  • 是指那些原有的很大数据的表,需要切分到多个数据库的表,这样,每个分片都有一部分数据,所有分片构成了完整的数据。 总而言之就是需要进行分片的表。

非分片表:

  • 一个数据库中并不是所有的表都很大,某些表是可以不用进行切分的,非分片是相对分片表来说的,就是那些不需要进行数据切分的表。

分片节点(dataNode)

  • 数据切分后,一个大表被分到不同的分片数据库上面,每个表分片所在的数据库就是分片节点(dataNode)。

节点主机(dataHost)

  • 数据切分后,每个分片节点(dataNode)不一定都会独占一台机器,同一机器上面可以有多个分片数据库,这样一个或多个分片节点(dataNode)所在的机器就是节点主机(dataHost),为了规避单节点主机并发数限制,尽量将读写压力高的分片节点(dataNode)均衡的放在不同的节点主机(dataHost)。

分片规则(rule)

  • 前面讲了数据切分,一个大表被分成若干个分片表,就需要一定的规则,这样按照某种业务规则把数据分到某个分片的规则就是分片规则,数据切分选择合适的分片规则非常重要,将极大的避免后续数据处理的难度。

MyCat分片配置

  1. 配置schema.xml
    • schema.xml作为MyCat中重要的配置文件之一,管理着MyCat的逻辑库、逻辑表以及对应的分片规则、DataNode以及DataSource。弄懂这些配置,是正确使用MyCat的前提。这里就一层层对该文件进行解析。
    • schema 标签用于定义MyCat实例中的逻辑库
    • Table 标签定义了MyCat中的逻辑表 rule用于指定分片规则,auto-sharding-long的分片规则是按ID值的范围进行分片 1-5000000 为第1片 5000001-10000000 为第2片.... 具体设置我们会在第5小节中讲解。
    • dataNode 标签定义了MyCat中的数据节点,也就是我们通常说所的数据分片。
    • dataHost标签在mycat逻辑库中也是作为最底层的标签存在,直接定义了具体的数据库实例、读写分离配置和心跳语句。
    • 在服务器上创建3个数据库,分别是db1 db2 db3
    • 修改schema.xml如下:
      <?xml version="1.0"?>
      <!DOCTYPE mycat:schema SYSTEM "schema.dtd">
      <mycat:schema xmlns:mycat="http://org.opencloudb/"><schema name="PINYOUGOUDB" checkSQLschema="false" sqlMaxLimit="100"><table name="tb_test" dataNode="dn1,dn2,dn3" rule="auto-sharding-long" /></schema><dataNode name="dn1" dataHost="localhost1" database="db1" /><dataNode name="dn2" dataHost="localhost1" database="db2" /><dataNode name="dn3" dataHost="localhost1" database="db3" /><dataHost name="localhost1" maxCon="1000" minCon="10" balance="0"writeType="0" dbType="mysql" dbDriver="native" switchType="1"  slaveThreshold="100"><heartbeat>select user()</heartbeat><writeHost host="hostM1" url="192.168.25.142:3306" user="root"password="123456"></writeHost></dataHost>	
      </mycat:schema>
      复制代码
  2. 配置 server.xml
    • server.xml几乎保存了所有mycat需要的系统配置信息。最常用的是在此配置用户名、密码及权限。在system中添加UTF-8字符集设置,否则存储中文会出现问号
      <property name="charset">utf8</property>
    • 修改user的设置 , 我们这里为 PINYOUGOUDB设置了两个用户
      <user name="test"><property name="password">test</property><property name="schemas">PINYOUGOUDB</property></user><user name="root"><property name="password">123456</property><property name="schemas">PINYOUGOUDB</property></user>
      复制代码

MyCat分片测试

进入mycat ,执行下列语句创建一个表:

CREATE TABLE tb_test (id BIGINT(20) NOT NULL,title VARCHAR(100) NOT NULL ,PRIMARY KEY (id)
) ENGINE=INNODB DEFAULT CHARSET=utf8 
复制代码

创建后你会发现,MyCat会自动将你的表转换为大写,这一点与Oracle有些类似。

我们再查看MySQL的3个库,发现表都自动创建好啦。好神奇。
接下来是插入表数据,注意,在写INSERT语句时一定要写把字段列表写出来,否则会出现下列错误提示:
错误代码: 1064 partition table, insert must provide ColumnList
我们试着插入一些数据:

INSERT INTO TB_TEST(ID,TITLE) VALUES(1,'goods1');
INSERT INTO TB_TEST(ID,TITLE) VALUES(2,'goods2');
INSERT INTO TB_TEST(ID,TITLE) VALUES(3,'goods3');
复制代码

我们会发现这些数据被写入到第一个节点中了,那什么时候数据会写到第二个节点中呢? 我们插入下面的数据就可以插入第二个节点了
INSERT INTO TB_TEST(ID,TITLE) VALUES(5000001,'goods5000001');

因为我们采用的分片规则是每节点存储500万条数据,所以当ID大于5000000则会存储到第二个节点上。 目前只设置了两个节点,如果数据大于1000万条,会怎么样呢?执行下列语句测试一下 INSERT INTO TB_TEST(ID,TITLE) VALUES(10000001,'goods10000001');

MyCat分片规则

rule.xml用于定义分片规则 ,我们这里讲解两种最常见的分片规则

  1. 按主键范围分片rang-long,在配置文件中我们找到
        <tableRule name="auto-sharding-long"><rule><columns>id</columns><algorithm>rang-long</algorithm></rule></tableRule>
    复制代码
    • tableRule 是定义具体某个表或某一类表的分片规则名称,columns用于定义分片的列,algorithm代表算法名称, 我们接着找rang-long的定义
    <function name="rang-long"class="org.opencloudb.route.function.AutoPartitionByLong"><property name="mapFile">autopartition-long.txt</property>
    </function>
    复制代码
    • Function用于定义算法 mapFile 用于定义算法需要的数据,我们打开autopartition-long.txt
    # range start-end ,data node index
    # K=1000,M=10000.
    0-500M=0
    500M-1000M=1
    1000M-1500M=2
    复制代码
  2. 一致性哈希murmur
    • 当我们需要将数据平均分在几个分区中,需要使用一致性hash规则, 我们找到function的name为murmur 的定义,将count属性改为3,因为我要将数据分成3片
    <function name="murmur"class="org.opencloudb.route.function.PartitionByMurmurHash"><property name="seed">0</property>      <!-- 默认是0 --><property name="count">3</property>     <!-- 要分片的数据库节点数量,必须指定,否则没法分片 --><!-- 一个实际的数据库节点被映射为这么多虚拟节点,默认是160倍,也就是虚拟节点数是物理节点数的160倍 --><property name="virtualBucketTimes">160</property><!-- <property name="weightMapFile">weightMapFile</property> 节点的权重,没有指定权重的节点默认是1。以properties文件的格式填写,以从0开始到count-1的整数值也就是节点索引为key,以节点权重值为值。所有权重值必须是正整数,否则以1代替    --><!-- <property name="bucketMapPath">/etc/mycat/bucketMapPath</property> 用于测试时观察各物理节点与虚拟节点的分布情况,如果指定了这个属性,会把虚拟节点的murmur hash值与物理节点的映射按行输出到这个文件,没有默认值,如果不指定,就不会输出任何东西-->
    </function>
    复制代码
    • 我们再配置文件中可以找到表规则定义
    <tableRule name="sharding-by-murmur"><rule><columns>id</columns><algorithm>murmur</algorithm></rule>
    </tableRule>
    复制代码
    • 但是这个规则指定的列是id ,如果我们的表主键不是id ,而是order_id ,那么我们应该重新定义一个tableRule:
    <tableRule name="sharding-by-murmur-order"><rule><columns>order_id</columns><algorithm>murmur</algorithm></rule>
    </tableRule>
    复制代码
    • 在schema.xml中配置逻辑表时,指定规则为sharding-by-murmur-order <table name="tb_order" dataNode="dn1,dn2,dn3" rule="sharding-by-murmur-order" />
      我们测试一下,创建订单表 ,并插入数据,测试分片效果。

    了解数据库读写分离

    数据库读写分离对于大型系统或者访问量很高的互联网应用来说,是必不可少的一个重要功能。对于MySQL来说,标准的读写分离是主从模式,一个写节点Master后面跟着多个读节点,读节点的数量取决于系统的压力,通常是1-3个读节点的配置

Mycat读写分离和自动切换机制,需要mysql的主从复制机制配合。

扩展思考

  1. 连表查询怎么做
  2. 分片策略是每个表需要配吗?如果不配置的话会怎么样?
  3. 分片策略有哪些,都应对什么场景比较多
  4. 支持事务吗?怎么支持的?
  5. 查询夸库时, 返回的结果集是怎么样的?效率怎么样呢?
  6. 不同的分片策略下,实例扩展怎么操作
  7. 缺点是怎么样的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/253838.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JAVA设计模式】外观模式(Facade Pattern)

一 定义 为子系统中的一组接口提供一个一致的界面。Facade模式定义了一个高层的接口&#xff0c;这个接口使得这一子系统更加easy使用。二 案例 一个子系统中拥有3个模块。每一个模块中都有3个方法。当中一个为client调用方法&#xff0c;其它两个则为各子模块间互相调用方法…

return的用处

#include "stdio.h" main() {int a,b1,c0;for(a1;a<5;a){ cca;}printf("%d",c);return ;printf("hello word"); } 输出结果是10并没有hello word&#xff1b;return将不会执行下面的语句。转载于:https://www.cnblogs.com/doublekai/p/6148…

静态时序分析——Clock Gating check

门控时钟是RTL级进行低功耗设计的最常用方法&#xff0c;能够有效降低动态功耗。在实际使用中&#xff0c;一般用ICG&#xff08;集成门控时钟单元&#xff09;来完成clock gating。ICG电路和时序如下&#xff1a; 通常来说&#xff0c;工艺库已经集成了ICG&#xff0c;在做门控…

U-boot中TFTP 解释

http://www.cnblogs.com/heaad/archive/2009/08/10/1542538.html

BlackHat Arsenal USA 2018 ToolsWatch黑客工具库

原文链接&#xff1a;https://medium.com/hack-with-github/black-hat-arsenal-usa-2018-the-w0w-lineup-7de9b6d32796 Black Hat Arsenal USA 2018 — The w0w lineup After the huge success of Black Hat Arsenal USA 2017, toolswatch has now announced the list of too…

SOA是什么

SOA是什么&#xff1f; SOA是面向服务的架构&#xff0c;是一个组件模型&#xff0c;它将应用程序的不同功能单元&#xff08;称为服务&#xff09;通过这些服务之间定义良好的接口和契约联系起来。接口是采用中立的方式进行定义的&#xff0c;它独立于实现服务的硬件平台、操作…

redis 优化

系统优化echo "vm.overcommit_memory1" > /etc/sysctl.conf 0&#xff0c; 表示内核将检查是否有足够的可用内存供应用进程使用&#xff1b;如果有足够的可用内存&#xff0c;内存申请允许&#xff1b;否则&#xff0c;内存申请失败&#xff0c;并把错误返回给应…

IC设计常见设计思想

速度与面积互换原则 所谓速度&#xff0c;是指整个工程稳定运行所能够达到的最高时钟频率&#xff0c;它不仅和电路内部各个寄存器的建立时间、保持时间以及外部器件接口的各种时序要求有关&#xff0c;而且还和两个紧邻的寄存器间的逻辑延时&#xff0c;走线延时有关。所谓面…

DM365 u-boot启动分析

http://www.61ic.com/Article/DaVinci/DM644X/201009/27429.html

(十三)Hibernate高级配置

配置数据库连接池 配置C3P0连接池。先导入c3p0包。然后在hibernate.cfg.xml文件中 &#xff0c;使用下面代码配置连接池<property name"hibernate.connection.provider_class">org.hibernate.connection.C3P0ConnectionProvider</property>可以通过下面的…

eclipse中如何配置tomcat

1.打开eclipse上面的Windows选项&#xff0c;选择Preferences>Server>Runtime Environments>Add 2.选择你电脑中安装的tomcat的版本我的是8所以我选的是Apache Tomcat v8.0 3,Next>Browse选择Tomcat的安装目录&#xff0c;选择jdk 4.Finish>OK tomcat配置完成。…

jsp调试小技巧

console.log($("#toolbar")); 打印对象可知道这个对象的参数信息转载于:https://www.cnblogs.com/chenweida/p/6149342.html

数字IC验证学习(一)

一、数据类型 1、logic logic类型只能有一个驱动。使用wire和reg的地方均可使用logic&#xff0c;但如双向总线等有多个驱动的地方&#xff0c;则不可使用logic。 2、二值逻辑 对于二值逻辑变量与DUT中的四值逻辑变量连接时&#xff0c;如果DUT中产生了X和Z&#xff0c;会被…

SecureCRT 配置文件中 找密码

打开本地电脑如下路径 C:\Users\XXX\AppData\Roaming\VanDyke\Config\Sessions 找到配置文件。 运行命令&#xff1a;python SecureCRTDecrypt.py [配置文件名称] 例如&#xff1a;python SecureCRTDecrypt.py 192.168.1.249.ini ssh root192.168.1.249 # 123456 即可得到密…

刷题比赛

题目描述 给你四个数组A,B,C,D. 给出每个数组的初始值A[1] 1, B[1] 1, C[1] 1, D[1] 1 , A[2] 3, B[2] 3, C[2] 3, D[2] 3; 有以下的递推公式: (1) a[k2]p* a[k1]qa[k]b[k1]c[k1]r k^2t * k1d[k]; (2)b[k2]u* b[k1]vb[k]a[k1]c[k1]w^kd[k]; (3)c[k2]x c[k1]yc[k]a[k1]b[…

自动化测试用例设计原则

自动化测试用例设计原则&#xff1a;每一个用例 都是一个闭合的业务操作。用例之间要保持独立 &#xff0c;不要有操作上的依赖关系&#xff0c;就算有也是测试数据上的依赖。第二个用例 依赖第一个用例产生的数据。转载于:https://www.cnblogs.com/yyjiangnan/p/6149430.html

MII/MDIO接口详解

MII/MDIO接口详解 http://dpinglee.blog.163.com/blog/static/144097753201041131115262/

T24412 Cup#182-3 洞穴之旅

弱连通模板题&#xff0c;不过还是不会。。。 这道题在POJ2762有&#xff0c;这个出题人直接翻译弄过来了。。。 弱连通的定义是&#xff1a;从u能到达v或从v能到达u&#xff0c;则u和v这两个点弱连通。 显然如果是强连通分量就一定是弱连通分量啦&#xff0c;所以可以直接缩点…