【HBase从入门到精通系列】误删数据如何抢救?

摘要: 前言 有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了。如果是HBase,你没有做备份误删了又如何恢复呢? 数据保护 当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下.

前言

有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了。如果是HBase,你没有做备份误删了又如何恢复呢?

数据保护

当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:

alter 't', { NAME => 'f', KEEP_DELETED_CELLS => TRUE }

如果误删一张表的有多个family里的数据,需要都执行一下:

alter 'tt', { NAME => 'f1', KEEP_DELETED_CELLS => TRUE }, { NAME => 'f2', KEEP_DELETED_CELLS => TRUE }

设置 KEEP_DELETED_CELLS 为 True 的目的在于防止数据被物理删除。这里有必要解释一下HBase清理数据的原理:

  • 首先HBase是一个LSM架构,不断发生着数据文件的写入和合并
  • 当删除操作发生时,不会去清理数据文件中的数据,而是写入一个删除标记到新文件中。
  • 当某一刻major compaction发生时,在合并文件的同时会根据删除标记清理数据,新合并出来的数据文件不会再有旧数据。

KEEP_DELETED_CELLS 的作用就是在major compaction发生的时候,决定要不要清理旧数据。这里需要注意一点,即便 KEEP_DELETED_CELLS 设置为True,数据仍然会因为过期而被清理(HBsae表中的TTL属性)。这个设定无可厚非,既然过期了,误删不误删也无所谓了。

数据恢复

数据恢复的前提数据没有被物理删除,也就是上文提及的。你只需要在查询(Scan)的时候,指定raw模式来搜索数据,就能看到被删除的数据,之后你要做就是把数据再写入一次。我们来看一个简单的例子,还是以hbase shell为例子:

1.首先我们准备几行数据

hbase(main):020:0> scan 't'
ROW                                COLUMN+CELLx.row1                            column=f:c1, timestamp=1528449361490, value=value1x.row2                            column=f:c2, timestamp=1528449372090, value=value2x.row3                            column=f:c3, timestamp=1528449378971, value=value3y.row1                            column=f:c1, timestamp=1528449387923, value=value1y.row2                            column=f:c2, timestamp=1528449394742, value=value2
5 row(s)
Took 0.0304 seconds

2.然后我们删掉y开头掉数据

hbase(main):024:0> delete 't', 'y.row1', 'f:c1'
Took 0.0212 seconds
hbase(main):025:0> delete 't', 'y.row2', 'f:c2'
Took 0.0043 seconds

3.查一下,现在只有3行了

hbase(main):026:0> scan 't'
ROW                                COLUMN+CELLx.row1                            column=f:c1, timestamp=1528449361490, value=value1x.row2                            column=f:c2, timestamp=1528449372090, value=value2x.row3                            column=f:c3, timestamp=1528449378971, value=value3
3 row(s)
Took 0.0079 seconds

4.现在我们带上raw再次查找数据,不仅能看到被删除数据,还能看到删除标记。

hbase(main):047:0> scan 't', { TIMERANGE => [0, 1528450107075], RAW => true}
ROW                                COLUMN+CELLx.row1                            column=f:c1, timestamp=1528449361490, value=value1x.row2                            column=f:c2, timestamp=1528449372090, value=value2x.row3                            column=f:c3, timestamp=1528449378971, value=value3y.row1                            column=f:c1, timestamp=1528449387923, type=Deletey.row1                            column=f:c1, timestamp=1528449387923, value=value1y.row2                            column=f:c2, timestamp=1528449394742, type=Deletey.row2                            column=f:c2, timestamp=1528449394742, value=value2
5 row(s)
Took 0.0091 seconds

这里我设置了TIMERANGE, 指定的是数据写入的时间。对于我这个case其实并没有什么用,我只是想说明几点:

  • 即便不设置RAW,也可以通过时间搜索到被删数据。比如数据写入时间是T,delete时间是T+2,那么查找[0, T+1]的话就能看见数据。前提是设置了 KEEP_DELETED_CELLS=TRUE
  • 如果你后续写入重复的Key,那你必须指定好TIMERANGE,不然你可能看到的不是原先删除的keyVlaue。
  • delete操作默认的时间不是当前server的时间,也不是构造Delete对象的时间,而是被删除的这个keyValue的写入时间。当然这个得看版本,测试时候发现1.x和2.x还是不一样的,有点坑,还以为高版本不能仅通过TIMERAGE搜素被删数据了。
  • 如果你的Delete mark的时间和数据的时间一样,那只能通过RAW看到。

数据恢复完,建议关闭KEEP_DELETED_CELLS,节省空间,提高查询效率。

其他

  • 上文使用的是hbase shell演示,你可以使用任何语言的API完成上面的操作。

  • 如果你使用的是云HBase,即便因为major compaction物理删除了数据,只要你开启了备份功能,依然可以恢复。

原文链接

本文为云栖社区原创内容,未经允许不得转载。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521664.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神龙X-Dragon,这技术“范儿”如何?

戳蓝字“CSDN云计算”关注我们哦!在CSDN总部会议室,阿晶首次见到了阿里云智能研究员、弹性计算技术负责人张献涛——这位不仅仅在阿里云智能内部,在业内也是响当当的虚拟化技术大牛。现在回想起来,当时聊了没两句,阿晶…

python 如何判断一个函数执行完成_三步搞定 Python 中的文件操作

当程序运行时,变量是保存数据的好方法,但变量、序列以及对象中存储的数据是暂时的,程序结束后就会丢失,如果希望程序结束后数据仍然保持,就需要将数据保存到文件中。Python 提供了内置的文件对象,以及对文件…

一位资深程序员大牛给予Java初学者的学习路线建议

摘要: java学习这一部分其实也算是今天的重点,这一部分用来回答很多群里的朋友所问过的问题,那就是我你是如何学习Java的,能不能给点建议?今天我是打算来点干货,因此咱们就不说一些学习方法和技巧了&#x…

Vue + Spring Boot 项目实战(七):前端路由与登录拦截器

文章目录前言一、前端路由二、使用 History 模式三、后端登录拦截器3.1. LoginController3.2. LoginInterceptor3.3. WebConfigurer3.4. 效果检验四、Vuex 与前端登录拦截器4.1. 引入 Vuex4.2. 修改路由配置4.3. 使用钩子函数判断是否拦截4.4. 修改 Login.vue4.5. 效果检验前言…

前端性能优化二十五:花裤衩模板vue打包优化

(1). 优化vue.js: ①. 修改vue.config.js:const isProd process.env.NODE_ENV productionconst getProdExternals () > {return {vue: Vue,// vue-router: VueRouter,// vuex: Vuex}}module.exports {...configureWebpack: {...externals: isProd ? getProdExternals(…

linux win10 时间同步服务器,windows和linux下服务器时间如何校正?

实现思路:使用NTP(简称network time protocol)协议可以让你的计算机自动与服务器上的时间同步。从而保持最准确的时间。中国国家授时中心的IP地址是:210.72.145.44。Windows XP/2000系统:控制面板,管理工具,服务中找到 Windows Time&#xff…

ppt护理文书流程图_护理文书书品管圈ppt

PPT内容这是护理文书书品管圈ppt下载,主要介绍了圈的组成;圈名意义;圈徽的意义;启动PDCA的循环;主题选定的理由;书写流程图;需改善的目标;对策拟定;目标达到率、进步率&a…

高手如何实践HBase?不容错过的滴滴内部技巧

摘要: HBase和Phoenix的优势大家众所周知,想要落地实践却问题一堆?replication的随机发送、Connection的管理是否让你头痛不已?本次分享中,滴滴以典型的应用场景带大家深入探究HBase和Phoenix,并分享内核改…

JS 打印 data数据_数据表格 Data Table - 复杂内容的15个设计点

表格是桌面应用中常见的内容型组件,它包含大量的信息和丰富的交互形式,表格具有极高的空间利用率,结构化的展示保证了数据可读性。高效、清晰且易用是进行表格设计的原则性要求。本文将从表格的内容组织到交互作一次汇总,作为数据…

神龙X-Dragon,这技术“范儿”如何?| 问底中国IT技术演进

在CSDN总部会议室,阿晶首次见到了阿里云智能研究员、弹性计算技术负责人张献涛——这位不仅仅在阿里云智能内部,在业内也是响当当的虚拟化技术大牛。现在回想起来,当时聊了没两句,阿晶就问了这样一个问题,“阿里云这款…

干货 | 蚂蚁金服是如何实现经典服务化架构往 Service Mesh 方向的演进的?

摘要: 小蚂蚁说: 蚂蚁金服在服务化上面已经经过多年的沉淀,支撑了每年双十一的高峰峰值。Service Mesh 作为微服务的一个新方向,在最近两年成为领域的一个大热点,但是如何从经典服务化架构往 Service Mesh 的方向上演进…

Vue + Spring Boot 项目实战(八):导航栏与图书页面设计

文章目录前言一、导航栏的实现1.路由配置2.使用 NavMenu 组件二、图书管理页面2.1. LibraryIndex.vue2.SideMenu.vue3.Books.vue前言 之前讲过使用 Element 辅助前端页面的开发,但是只用到了比较少的内容,这一篇我们来做一下系统的核心页面——图书管理…

cygwin 远程连接linux,Cygwin解决Windows远程登录linux服务器

《HelloGitHub月刊》第07期最近工作上的事比较多,月刊第07期拖到月底才发. 本期月刊对logo和月刊的排版进行了优化,不知道大家的反馈如何,还望大家多多反馈,让做一个会PS切图的前端开发系列链接 做一个会使用PS的前端开发 做一个会PS切图的前端开发 切图方法分类 PhotoShop从CS…

datagridview选中获取行号_DataGridView控件显示行号的正确代码及分析

前些天在写个小程序,用到DataGridView,想给它动态的显示行号。不是很费劲GOOGLE了一下,这GOOGLE不要紧,发现了不少问题。以下基本上都是GOOGLE搜索出来的网上的一些解决方法,千篇一律都是这样的:private vo…

pmsm simulink foc 仿真_仿真软件教程

很多朋友都建议我做个视频的整理,方便没看过之前内容的朋友方便查找,我觉得这个确实很有必要。下面内容是关于仿真软件方面:仿真环境:Simlpis 8.0类型简介VMC和CMC的LLC控制器仿真对比 第一节图文电压模式和电流模式LLC控制器的简…

日志采集中的关键技术分析

摘要: 从日志投递的方式来看,日志采集又可以分为推模式和拉模式,本文主要分析的是推模式的日志采集。概述日志从最初面向人类演变到现在的面向机器发生了巨大的变化。最初的日志主要的消费者是软件工程师,他们通过读取日志来排查问…

限时早鸟票 | 2019 中国大数据技术大会(BDTC)超豪华盛宴抢先看!

2019 年12月5-7 日,由中国计算机学会主办,CCF 大数据专家委员会承办,CSDN、中科天玑数据科技股份有限公司协办的 2019 中国大数据技术大会,将于北京长城饭店隆重举行。届时,超过百位技术专家及行业领袖将齐聚于此&…

机器学习和数据科学领域必读的10本免费书籍

摘要: 暑期来了,别出去溜达了,看书学习一波~在这个暑假,有兴趣的可以阅读一下这些免费的有关机器学习和数据科学的书籍,他们能给你打开一扇看清机器学习和数据科学的窗。如果在阅读完这一文章后想知晓更多免…

sw运行很卡怎么办_windows10系统SolidWorks运行速度很慢如何解决

在windos10系统电脑中使用SolidWorks时,发现软件运行速度很慢,感觉非常烦恼。这是怎么回事呢?SolidWorks是基于Windows平台来开发的,所以Windows的一些设置也会影响SW的运行速度!下面,就随小编一起看看让So…

microsoft账号登陆一直在加载_英雄联盟手游下载,附带拳头账号注册教程

欢迎关注【花卷来了】公众号。如果喜欢本期节目请点赞、再看、分享给朋友吧~软件资源请回复文章底部今日关键词获取/排版:萌萌哒花卷/来源:采集自网络今日主题:最新英雄联盟手游下载,附带拳头账号注册教程英雄联盟手游今天正式公测…