从mysql向HBase+Phoenix迁移数据的心得总结

* 转载请注明出处 - yosql473 - 格物致知,经世致用

mysql -> HBase + Phoenix

1.总体方案有哪些?

  1)通过Sqoop直接从服务器(JDBC方式)抽取数据到HBase中

  因为数据量非常大,因此优先考虑用Sqoop和MR抽取。

  使用Sqoop抽取数据有一个问题,就是Phoenix插入的数据和HBase插入的数据是不同的:

  例如,使用Phoenix插入这么一条数据:

  upsert into tb_collector_log_143 values ( '2018-07-02 18:34:52_c37b03789c5e43ddb800ff90c27e5a44','2182a29047f3435885fc3fb9f7212189','server','server','2018-07-02 18:34:52','2018-07-02 18:34:52','8a5381604b4443ecb1b73d362f756483','c37b03789c5e43ddb800ff90c27e5a44','0560337357604a258a19adb8cc8849c6','2018-07-02 18:34:52','1','02','117.61.15.14:45067','4da7408331794910aa3523b6a9741df5');

  在HBase中“2018-07-02 18:34:52”这个字段值(在phoenix中是date类型)就是字节码“\x80\x00\x01d\x5CF\xA8\xE0“:

  2018-07-02 18:34:52_c37b03789c5e43ddb800ff90c27e5a44 column=0:OPERATER_DATE, timestamp=1541250071138, value=\x80\x00\x01d\x5CF\xA8\xE0

  因此如果直接向HBase put数据,也会出现Phoenix无法识别的问题。经过反复的验证,发现只有Phoenix的字符串类型(varchar和char)才能保持HBase中直接存储这个值。

  * 因此,为了让在Phoenix中插入字符串“aaa"与在HBase中插入”aaa"等价,被插入的这个字段只能是char或者是varchar类型。 这也就意味着使用Sqoop直接从原服务器抽取数据,新的表结构只能是全字符串类型。这也就意味着原来的JDBC的查询可能会遭遇不顺,因为期望被迁移的表有int和date等字段,如果JDBC对字段类型不一致的查询不兼容的话,这事就不太好说。

  2)通过MapReduce进行批量插入。

  如果直接跑SQL文件效率会非常低,因为是一条一条插入的,先不说导入数据的过程,即使开高并发,服务器上的数据也难以导出成sql文件。因此PASS掉导出文件的方式,只能是直接抽取。

       

  其他:在之前的实验中,我曾用12W条记录的upsert插入sql文件进行插入,结果在插入5W+行的时候发生了堆溢出。这说明使用$SQOOP/bin/psql.py xxx.sql的命令时会在Jvm跑一个进程,每个运行脚本的插入数有限制。

  因此可以考虑通过MapReduce进行批量的插入过程,但其实只需要Map任务就可以了,相当于自己写了一个特殊的Sqoop的实例,满足这种特殊的数据抽取需求。

 

2.几个核心的点:

1)服务器上的数据怎么导出

刚才分析过了,只能通过Sqoop或者手码MR程序

2)数据如何导入HBase,并且使得Phoenix能够顺利识别?

一种方法是全部字段使用字符串,然后使用HBase的put

一种方法是走Phoenix进行插入,这么插入就必须写MR了

3)rowkey怎么设计?

rowkey是Phoenix表的主键,而且根据HBase的特性,Phoenix表按照主键自动排序,这样就存在一个问题,如何设计rowkey?

注意:一般将时间作为rowkey的排在最前面的指标,如果不这么做,数据就完全按照ID分散了。在ID为随机值的情况下,本来紧挨在一起的(按照时间)的数据完全分散,因此这个地方特别需要注意。

因此我将 `<CRETAE_TIME>_<DATA_ID>`做为rowkey,这对于范围查询是非常好的设计。

 

3.MySQL(未优化)和Phoenix(未优化)的性能查询测试

PS:其实HBase的查询性能,在数据量为百万时,与中型数据库Mysql是持平的,可能Mysql还会更优秀一些。但当数据到达千万的级别的时候,HBase的查询优势就非常明显了。

1)11W+条数据的测试:

1.1) 非rowkey查询

从50000行左右随机抽取一个ID:

不使用rowkey(相当于不使用一级索引)进行查询:

如果采用rowkey进行模糊匹配:

 

 

1.2)基于rowkey的查询(基于CRETAE_TIME和ID字段)

从70000行左右随机抽取一个ID和CREATE_TIME,因为我设计的rowkey是”<CREATE_TIME>_<ID>"的格式:

 2).百万级别数据量测试

通过Sqoop 从mysql向HBase迁移100W条数据(单Map Task)的时间为:

269.6587 seconds (0 bytes/sec) 不到5分钟 

机器配置: 3G 全伪分布式 , Hadoop HBase Zookeeper主从全在一台机器上

 

MySQL:

HBase(Phoneix):

2.1)非rowkey的查询

 

 

 2.2) rowkey查询

 

  

 

转载于:https://www.cnblogs.com/yosql473/p/9900596.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/366799.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转异步 JS :async/await 简明教程(附视频下载)

课程介绍 在软件开发领域&#xff0c;简洁的代码 > 容易阅读的代码 > 容易维护的代码&#xff0c;而 ES2017 中的 async/await 特性能让我们编写出相比回调地狱和 Promise 链式调用更直观、更容易理解的代码&#xff0c;await 关键字接收一个 Promise&#xff0c;等待代码…

linux 无法找到函数定义,找到定义Linux函数的位置

使用手册页对于基本的C函数&#xff0c;该手册页应该工作。man 2 readman 3 printf第2节为系统调用(直接到内核)&#xff0c;而第3是用于标准C库调用。您通常可以省略该部分&#xff0c;并且人将自己弄清楚您需要什么。请注意&#xff0c;您可能需要采取额外步骤在系统上获取与…

序列自动机—— [FJOI2016]所有公共子序列问题

序列自动机&#xff1a; 是一个处理子序列的自动机。就这样。 建造&#xff1a;&#xff08;By猫老师&#xff1a;immoralCO猫&#xff09; s[] next[][26] memset(next[n], -1, 26<<2); for(int i n; i; --i) {memcpy(next[i - 1], next[i], 26 << 2);next[i - 1…

1000种对Java的响应没有死

当一篇评论发表1000条评论时&#xff0c;值得考虑一下。 我上周的社论“ 如果Java即将死&#xff0c;它肯定看起来非常健康 ”在各个开发人员社区中都感到不安 。 在Reddit&#xff0c;Hacker News和Slashdot之间&#xff0c;它收到了1000多个评论。 奇怪的是&#xff0c;很少…

java导包

下载响应的zip文件&#xff0c;就可以导入了&#xff0c;导入src目录也是可以的。 转载于:https://www.cnblogs.com/liaoxiaolao/p/9902062.html

分享轮子-flutter下拉刷新上拉加载

flutter下拉上拉组件轮子 什么是flutter? 首先说下flutter,估计这个应该挺多人没听过flutter这个框架,它是一个google推出的跨平台的移动应用UI框架,和React Native是同样的目的,支持三大平台:Android,Ios,还有一个是google新出的系统,忘了叫什么...本人React Native也是用过…

linux块设备驱动中断程序,linux设备驱动归纳总结(六):1.中断的实现

linux设备驱动归纳总结(六)&#xff1a;1.中断的实现xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx一、什么是中断中断分两种&#xff1a;1)中断&#xff0c;又叫外部中断或异步中断&#xff0c;它的产生是由于外设向处理器发出中断…

(8)Python判断结构

转载于:https://www.cnblogs.com/hankleo/p/9170325.html

Java:本地最小语言

在1996年至2002年之间&#xff0c;我用Java编写了成千上万行代码。我用Java 1.0到Java 1.4编写了Web框架&#xff0c;电子表格以及更多内容。 与90年代中期&#xff08;预模板&#xff09;的C 相比&#xff0c;Java是一种完全令人惊奇的语言。 JVM是所有计算机语言的最佳运行时…

History of program(1950-2020)

1957年 约翰巴科斯&#xff08;John Backus&#xff09;创建了是全世界第一套高阶语言&#xff1a;FORTRAN。 John Backus1959年 葛丽丝霍普&#xff08;Grace Hopper&#xff09;创造了现代第一个编译器A-0 系统&#xff0c;以及商用电脑编程语言“COBOL”&#xff0c;被誉为C…

关于 Nuxt 集成ueditor的一些坑(包括图片上传)前端部分

最近公司接了一个项目&#xff0c;里面用到富文本编辑器&#xff0c;刚开始用的是vue-quill-editor&#xff0c;这个编辑器轻量、好用。最重要的是它有专门正对nuxt的版本&#xff0c;很容易配置&#xff0c;可以放心使用&#xff0c;不用担心bug之类的&#xff0c;遇到问题&am…

linux 线程带参数,Linux中多线程编程并传递多个参数的简单例子

今天上午实验了Linux下的多线程编程&#xff0c;并将多个参数传递给线程要执行的函数。以下是实验程序的源代码&#xff1a;/*********************** pthread.c ***************************/#include #include #include #include #include struct argument{int num;char stri…

*Codeforces989D. A Shade of Moonlight

数轴上$n \leq 100000$个不重叠的云&#xff0c;给坐标&#xff0c;长度都是$l$&#xff0c;有些云速度1&#xff0c;有些云速度-1&#xff0c;风速记为$w$&#xff0c;问在风速不大于$w_{max}$时&#xff0c;有几对云可能在0相遇。每一对云单独考虑。 多动一不动--相对运动。假…

undefined reference 问题各种情况分析

扒自网友文章 关于undefined reference这样的问题&#xff0c;大家其实经常会遇到&#xff0c;在此&#xff0c;我以详细地示例给出常见错误的各种原因以及解决方法&#xff0c;希望对初学者有所帮助。 1. 链接时缺失了相关目标文件&#xff08;.o&#xff09; 测试代码如下&a…

Spring交易可见性

在初始化应用程序上下文时&#xff0c;Spring遇到带有Transactional标记的类时会创建代理。 Transactional可以应用于类级别或方法级别。 在类级别应用它意味着该类中定义的所有公共方法都是事务性的。 Spring创建的代理类型&#xff0c;即Jdk代理或CGLIB代理&#xff0c;取决于…

Axios 作弊表(Cheat Sheet)

英文原文链接 GET 请求 // Make a request for a user with a given ID axios.get(/user?ID12345).then(function (response) {console.log(response);}).catch(function (error) {console.log(error);});// Optionally the request above could also be done as axios.get(…

loadrunner post请求

注意&#xff1a;loadrunner参数中的引号&#xff0c;需要自己加"\" post 请求&#xff0c;分为header 和body两个部分处理 header部分比较容易处理&#xff0c;使用函数实现&#xff0c;如web_add_header("pid","1")即可&#xff0c;具体参数可…

2018-2019-1 20165203 《信息安全系统设计基础》第六周学习总结

2018-2019-1 20165203 《信息安全系统设计基础》第六周学习总结 教材学习内容总结 重要知识点 I/O&#xff1a;在主存和外部设备&#xff08;例如磁盘存储器、终端和网络&#xff09;之间复制数据的过程。输入操作&#xff1a;从I/O设备复制数据到主存。输出操作&#xff1a;从…

linux 使用VI命令怎么删除输入内容,linux系统vi编辑器常用命令及使用方法。

在linux系统中编辑文档我们常用到vi编辑器。vi编辑器&#xff0c;通常称之为vi,是一种广泛存在于各种UNIX和Linux系统中的文本编辑程序。它的功能十分强大&#xff0c;但是命令繁多&#xff0c;不容易掌握&#xff0c;它可以执行输出、删除、查找、替换、块操作等众多文本操作&…

Spring安全–幕后

安全任务&#xff08;例如&#xff0c;用户身份验证和用户查看应用程序资源的授权&#xff09;通常由应用程序服务器处理。 可以将这些任务委托给Spring安全性流程&#xff0c;以减轻应用程序服务器处理这些任务的负担。 Spring安全性基本上通过实现标准javax.servlet.Filter来…