HBase常用的Filter过滤器操作

HBase过滤器种类很多,我们选择8种常用的过滤器进行介绍。为了获得更好的示例效果,先利用HBase Shell新建students表格,并往表格中进行写入多行数据。

一、数据准备工作

(1)在默认命名空间中新建表格students,设置列族info、score。

hbase:002:0> create 'students','info','score'
2024-03-26 00:22:15,810 INFO  [main] client.HBaseAdmin (HBaseAdmin.java:postOperationResult(3591)) - Operation: CREATE, Table Name: default:students, procId: 290 completed
Created table students
Took 3.1425 seconds                                                                                                                   
=> Hbase::Table - students

(2)往students表格中写入5行数据,并用scan 'students'命令查看写入结果。

hbase:005:0> put 'students','s001','info:name','Jack'
Took 30.6978 seconds
hbase:017:0> put 'students','s001','info:age','18'
Took 0.0419 seconds
hbase:019:0> put 'students','s001','score:English','95'
Took 0.0472 seconds 
hbase:021:0> put 'students','s002','info:name','Tom'
Took 0.0255 seconds                                                                                                                   
hbase:022:0> put 'students','s002','info:age','20'
Took 0.0160 seconds                                                                                                                   
hbase:023:0> put 'students','s002','score:Chinese','85'
Took 0.0296 seconds                                                                                                                   
hbase:024:0> put 'students','s002','score:Math','90'
Took 0.0155 seconds                                                                                                                   
hbase:025:0> put 'students','s003','info:name','Mike'
Took 0.0188 seconds                                                                                                                   
hbase:026:0> put 'students','s003','info:age','19'
Took 0.0183 seconds                                                                                                                   
hbase:027:0> put 'students','s003','score:Chinese','90'
Took 0.0178 seconds                                                                                                                   
hbase:028:0> put 'students','s003','score:Math','95'
Took 0.0445 seconds                                                                                                                   
hbase:029:0> put 'students','s004','info:name','Lucy'
Took 0.0104 seconds                                                                                                                   
hbase:030:0> put 'students','s004','score:English','100'
Took 0.0170 seconds                                                                                                                   
hbase:031:0> put 'students','s005','info:name','Lily'
Took 0.0249 seconds                                                                                                                   
hbase:032:0> put 'students','s005','score:Chinese','99'
Took 0.0228 seconds                                                                                                                   
hbase:033:0> scan 'students'
ROW                                COLUMN+CELL                                                                                        s001                              column=info:age, timestamp=2024-03-26T00:25:17.982, value=18                                       s001                              column=info:name, timestamp=2024-03-26T00:24:39.510, value=Jack                                    s001                              column=score:English, timestamp=2024-03-26T00:25:52.207, value=95                                  s002                              column=info:age, timestamp=2024-03-26T00:26:46.922, value=20                                       s002                              column=info:name, timestamp=2024-03-26T00:26:26.924, value=Tom                                     s002                              column=score:Chinese, timestamp=2024-03-26T00:27:13.181, value=85                                  s002                              column=score:Math, timestamp=2024-03-26T00:27:28.787, value=90                                     s003                              column=info:age, timestamp=2024-03-26T00:28:08.402, value=19                                       s003                              column=info:name, timestamp=2024-03-26T00:27:48.629, value=Mike                                    s003                              column=score:Chinese, timestamp=2024-03-26T00:28:46.714, value=90                                  s003                              column=score:Math, timestamp=2024-03-26T00:29:01.881, value=95                                     s004                              column=info:name, timestamp=2024-03-26T00:29:19.868, value=Lucy                                    s004                              column=score:English, timestamp=2024-03-26T00:29:44.831, value=100                                 s005                              column=info:name, timestamp=2024-03-26T00:30:04.231, value=Lily                                    s005                              column=score:Chinese, timestamp=2024-03-26T00:30:25.477, value=99                                  
5 row(s)
Took 0.3369 seconds 

二、过滤器的使用介绍

1.ValueFilter过滤器

根据数据列单元格的值进行过滤。值过滤器的比较方式有二进制位比较(binary)和子字符串匹配比较(substring)。

(1)按二进制位进行值比较

使用get命令,查询students表格中,行键为s001,单元格值为Jack的数据结果。

#ValueFilter(=,'binary:Jack')是值过滤器,比较方式是binary二进制
hbase:034:0> get 'students','s001',{FILTER=>"ValueFilter(=,'binary:Jack')"}
COLUMN                             CELL                                                                                               info:name                         timestamp=2024-03-26T00:24:39.510, value=Jack                                                      
1 row(s)
Took 0.6506 seconds

使用scan命令,扫描出students表格中,单元格值为90的数据结果。

#查询结果是多条,需要用scan命令全表扫描,不能使用get命令
hbase:036:0> scan 'students',{FILTER=>"ValueFilter(=,'binary:90')"}
ROW                                COLUMN+CELL                                                                                        s002                              column=score:Math, timestamp=2024-03-26T00:27:28.787, value=90                                     s003                              column=score:Chinese, timestamp=2024-03-26T00:28:46.714, value=90                                  
2 row(s)
Took 0.2162 seconds

(2)按子字符串匹配比较

使用get命令,查询students表格中,行键为s001,单元格值包含子字符串ac的数据结果。

hbase:037:0> get 'students','s001',{FILTER=>"ValueFilter(=,'substring:ac')"}
COLUMN                             CELL                                                                                               info:name                         timestamp=2024-03-26T00:24:39.510, value=Jack                                                      
1 row(s)
Took 0.1578 seconds 

使用scan命令,扫描出表格students中单元格值包含子字符串0的数据结果。

#查询结果是多条,需要用scan命令全表扫描,不能使用get命令
hbase:038:0> scan 'students',{FILTER=>"ValueFilter(=,'substring:0')"}
ROW                                COLUMN+CELL                                                                                        s002                              column=info:age, timestamp=2024-03-26T00:26:46.922, value=20                                       s002                              column=score:Math, timestamp=2024-03-26T00:27:28.787, value=90                                     s003                              column=score:Chinese, timestamp=2024-03-26T00:28:46.714, value=90                                  s004                              column=score:English, timestamp=2024-03-26T00:29:44.831, value=100                                 
3 row(s)
Took 0.0868 seconds

2.QualifierFilter过滤器

列限定符过滤器QualifierFilter是只根据数据列的列限定符进行过滤,并不关注列族名称。列限定符过滤器的常用比较方式为二进制位(binary)比较。

使用get命令,查询students表格中,行键为s001,列限定符为name的数据结果。

hbase:039:0> get 'students','s001',{FILTER=>"QualifierFilter(=,'binary:name')"}
COLUMN                             CELL                                                                                               info:name                         timestamp=2024-03-26T00:24:39.510, value=Jack                                                      
1 row(s)
Took 0.3310 seconds

使用scan命令,扫描students表格中,列限定符为name的数据结果。

hbase:041:0> scan 'students',{FILTER=>"QualifierFilter(=,'binary:name')"}
ROW                                COLUMN+CELL                                                                                        s001                              column=info:name, timestamp=2024-03-26T00:24:39.510, value=Jack                                    s002                              column=info:name, timestamp=2024-03-26T00:26:26.924, value=Tom                                     s003                              column=info:name, timestamp=2024-03-26T00:27:48.629, value=Mike                                    s004                              column=info:name, timestamp=2024-03-26T00:29:19.868, value=Lucy                                    s005                              column=info:name, timestamp=2024-03-26T00:30:04.231, value=Lily                                    
5 row(s)
Took 0.0845 seconds

3.ColumnPrefixFilter过滤器

列前缀符过滤器ColumnPrefixFilter是根据数据列的列限定符的前缀进行过滤。前缀过滤必须从第一个字符开始匹配,而子字符串过滤可以从任何位置开始进行子串匹配。前缀过滤器严格区分字母大小写

使用get命令,查询出students表格中,行键为s002,列限定符的前缀字符串为Chi的数据结果。

hbase:042:0> get 'students','s002',{FILTER=>"ColumnPrefixFilter('Chi')"}
COLUMN                             CELL                                                                                               score:Chinese                     timestamp=2024-03-26T00:27:13.181, value=85                                                        
1 row(s)
Took 0.1693 seconds 

使用scan命令,扫描students表格,列限定符的前缀字符串为Chi的数据结果。

hbase:044:0> scan 'students',{FILTER=>"ColumnPrefixFilter('Chi')"}
ROW                                COLUMN+CELL                                                                                        s002                              column=score:Chinese, timestamp=2024-03-26T00:27:13.181, value=85                                  s003                              column=score:Chinese, timestamp=2024-03-26T00:28:46.714, value=90                                  s005                              column=score:Chinese, timestamp=2024-03-26T00:30:25.477, value=99                                  
3 row(s)
Took 0.0397 seconds 

4.RowFilter过滤器

行键过滤器RowFilter是根据行键对数据列进行过滤。

注意:一般不在get命令中使用行键过滤器,get命令必须指定唯一确定完整的行键,没有必要再对行键进行过滤。

(1)按二进制位比较。

使用scan命令,扫描students表格,筛选出行键值为s001的所有数据结果。

hbase:045:0> scan 'students',{FILTER=>"RowFilter(=,'binary:s001')"}
ROW                                COLUMN+CELL                                                                                        s001                              column=info:age, timestamp=2024-03-26T00:25:17.982, value=18                                       s001                              column=info:name, timestamp=2024-03-26T00:24:39.510, value=Jack                                    s001                              column=score:English, timestamp=2024-03-26T00:25:52.207, value=95                                  
1 row(s)
Took 0.1297 seconds

 (2)按子字符串匹配比较。

使用scan命令,扫描students表格,筛选出行键值包含子字符串01的所有数据结果。

hbase:046:0> scan 'students',{FILTER=>"RowFilter(=,'substring:01')"}
ROW                                COLUMN+CELL                                                                                        s001                              column=info:age, timestamp=2024-03-26T00:25:17.982, value=18                                       s001                              column=info:name, timestamp=2024-03-26T00:24:39.510, value=Jack                                    s001                              column=score:English, timestamp=2024-03-26T00:25:52.207, value=95                                  
1 row(s)
Took 0.3426 seconds

5.PrefixFilter过滤器

行键前缀过滤器PrefixFilter是根据行键的前缀进行过滤。前缀过滤必须从行键的第一个字符开始匹配,严格区分字母大小写

使用scan命令,扫描students表格,筛选出行键值以s00为前缀开头的数据结果。

hbase:047:0> scan 'students',{FILTER=>"PrefixFilter('s00')"}
ROW                                COLUMN+CELL                                                                                        s001                              column=info:age, timestamp=2024-03-26T00:25:17.982, value=18                                       s001                              column=info:name, timestamp=2024-03-26T00:24:39.510, value=Jack                                    s001                              column=score:English, timestamp=2024-03-26T00:25:52.207, value=95                                  s002                              column=info:age, timestamp=2024-03-26T00:26:46.922, value=20                                       s002                              column=info:name, timestamp=2024-03-26T00:26:26.924, value=Tom                                     s002                              column=score:Chinese, timestamp=2024-03-26T00:27:13.181, value=85                                  s002                              column=score:Math, timestamp=2024-03-26T00:27:28.787, value=90                                     s003                              column=info:age, timestamp=2024-03-26T00:28:08.402, value=19                                       s003                              column=info:name, timestamp=2024-03-26T00:27:48.629, value=Mike                                    s003                              column=score:Chinese, timestamp=2024-03-26T00:28:46.714, value=90                                  s003                              column=score:Math, timestamp=2024-03-26T00:29:01.881, value=95                                     s004                              column=info:name, timestamp=2024-03-26T00:29:19.868, value=Lucy                                    s004                              column=score:English, timestamp=2024-03-26T00:29:44.831, value=100                                 s005                              column=info:name, timestamp=2024-03-26T00:30:04.231, value=Lily                                    s005                              column=score:Chinese, timestamp=2024-03-26T00:30:25.477, value=99                                  
5 row(s)
Took 0.4404 seconds

6.FamilyFilter过滤器

列族过滤器FamilyFilter是根据列族名称进行过滤。列族过滤器的比较方式有二进制位比较(binary)、子字符串匹配比较(substring)等。

(1)按二进制位比较。

使用scan命令,扫描表格students,筛选出列族名称值为info的数据结果。

hbase:005:0> scan 'students',FILTER=>"FamilyFilter(=,'binary:info')"
ROW                   COLUMN+CELL                                               s001                 column=info:age, timestamp=2024-03-26T00:25:17.982, value=18                                                                         s001                 column=info:name, timestamp=2024-03-26T00:24:39.510, value=Jack                                                                    s002                 column=info:age, timestamp=2024-03-26T00:26:46.922, value=20                                                                        s002                 column=info:name, timestamp=2024-03-26T00:26:26.924, value=Tom                                                     s003                 column=info:age, timestamp=2024-03-26T00:28:08.402, value=19                                                       s003                 column=info:name, timestamp=2024-03-26T00:27:48.629, value=Mike                                                  s004                 column=info:name, timestamp=2024-03-26T00:29:19.868, value=Lucy                                                    s005                 column=info:name, timestamp=2024-03-26T00:30:04.231, value=Lily                                                     
5 row(s)
Took 0.0399 seconds 

(2)按子字符串匹配比较。

使用scan命令,扫描表格students,筛选出列族名称包含子字符串s的数据结果。

hbase:008:0> scan 'students',FILTER=>"FamilyFilter(=,'substring:s')"
ROW                                COLUMN+CELL                                                                                        s001                              column=score:English, timestamp=2024-03-26T00:25:52.207, value=95                                  s002                              column=score:Chinese, timestamp=2024-03-26T00:27:13.181, value=85                                  s002                              column=score:Math, timestamp=2024-03-26T00:27:28.787, value=90                                     s003                              column=score:Chinese, timestamp=2024-03-26T00:28:46.714, value=90                                  s003                              column=score:Math, timestamp=2024-03-26T00:29:01.881, value=95                                     s004                              column=score:English, timestamp=2024-03-26T00:29:44.831, value=100                                 s005                              column=score:Chinese, timestamp=2024-03-26T00:30:25.477, value=99                                  
5 row(s)
Took 0.0915 seconds

7.SingleColumnValueFilter过滤器

单列值过滤器SingleColumnValueFilters是根据指定列族和列限定符的单个数据列的单元格值进行过滤,类似SQL中的”select列名from表名where列名=值”语句。
(1)按二进制位比较。

使用scan命令,扫描表格students,筛选出列族info,列限定符age的单元格值为19的数据列。

hbase:006:0> scan 'students',{COLUMN=>'info:age',FILTER=>"SingleColumnValueFilter('info','age',=,'binary:19')"}
ROW                                COLUMN+CELL                                                                                        s003                              column=info:age, timestamp=2024-03-26T00:28:08.402, value=19                                       
1 row(s)
Took 0.4166 seconds

(2)按子字符串匹配比较。

使用scan命令,扫描表格students,筛选出列族info,列限定符name的值包括子字符串y的数据。

hbase:008:0> scan 'students',{COLUMN=>'info:name',FILTER=>"SingleColumnValueFilter('info','name',=,'substring:y')"}
ROW                                COLUMN+CELL                                                                                        s004                              column=info:name, timestamp=2024-03-26T00:29:19.868, value=Lucy                                    s005                              column=info:name, timestamp=2024-03-26T00:30:04.231, value=Lily                                    
2 row(s)
Took 0.0658 seconds 


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/772378.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

flask_restful规范返回值

使用方法 导入 flask_restful.marshal_with 装饰器 定义一个字典变量来指定需要返回的标准化字段,以及该字段的数据类型 在请求方法中,返回自定义对象的时候, flask_restful 会自动的读 取对象模型上的所有属性。 组装成一个符合标准化参…

AAPT: error: resource android:attr/dialogCornerRadius not found.

ERROR:D:\android.gradle\caches\transforms-3\b3b98118f65da38d0ad9da84cfc70a72\transformed\appcompat-1.0.0\res\values-v28\values-v28.xml:5:5-8:13: AAPT: error: resource android:attr/dialogCornerRadius not found. 请帮我看看这个错误是什么意思。我改如何做。 这个…

Linux环境基础开发工具使用——yum and vim

本篇将会介绍平时在Linux中开发常用到的一些工具,其中包括:软件包管理器 — yum,Liunx中的开发工具。具体的介绍了 yum 的相关操作以及 yum 源,同时还介绍了 windows与虚拟机如何进行的关联。然后对Liunx中的开发工具进行了详细的…

前端学习-CSS基础-Day1

一、CSS简介 1.1HTML局限性 只关注内容的语义,可以做简单的样式但是很臃肿且繁琐 1.2CSS优势 CSS层叠样式表,标记语言 设置HTML页面中的文本内容,图片外形,可以美化HTML,让页面布局更美观 HTML做框架,CSS做…

2020-Structure Aware Negative Sampling in Knowledge Graphs

摘要 使用对比估计学习知识图中实体和关系的低维表示是一种可扩展且有效的推断连接模式的方法。对比学习方法的一个关键方面是选择产生硬负样本的腐败分布,这迫使嵌入模型学习判别表示并找到观察数据的关键特征。虽然早期的方法要么采用过于简单的腐败分布&#xf…

基于java+springboot+vue实现的超市管理系统(文末源码+Lw+ppt)23-354

摘 要 系统根据现有的管理模块进行开发和扩展,采用面向对象的开发的思想和结构化的开发方法对超市管理的现状进行系统调查。采用结构化的分析设计,该方法要求结合一定的图表,在模块化的基础上进行系统的开发工作。在设计中采用“自下而上”…

坑爹的eslint配置

标题eslint 版本不一致 导致很多问题 比如无法保存的时候校验,首行缩进无效等 babel-eslint这个依赖的版本不一致非常坑 vscode我这里保存下两个版本下的配置 插件eslint 自己下载 1.webpack创建的项目 eslint版本 “eslint”: “^4.19.1”, “eslint-friendly-fo…

蓝桥杯刷题8

1. 世纪末的星期 import java.util.Calendar; public class Main {public static void main(String[] args) {Calendar calendar Calendar.getInstance();for(int year 1999;year<100000;year100){calendar.set(Calendar.YEAR,year);calendar.set(Calendar.MONTH,11);cale…

小苯的回文询问(

题目 离散化存储 #include<bits/stdc.h> using namespace std; #define int long long const int N2e59; int n,q,ans[N],a[N]; map<int,int> mp; vector<pair<int,int>>qr[N]; signed main(){ios::sync_with_stdio(false),cin.tie(0),cout.tie(0);c…

前端面试拼图-数据结构与算法(二)

摘要&#xff1a;最近&#xff0c;看了下慕课2周刷完n道面试题&#xff0c;记录下... 1. 求一个二叉搜索树的第k小值 二叉树(Binary Tree) 是一棵树 每个节点最多两个子节点 树节点的数据结构{value, left?, right?} 二叉树的遍历 前序遍历&#xff1a;root→left→right 中…

C/C++ 语言中的 ​if...else if...else 语句

C/C 语言中的 ​if...else if...else 语句 1. if statement2. if...else statement3. if...else if...else statementReferences 1. if statement The syntax of the if statement is: if (condition) {// body of if statement }The code inside { } is the body of the if …

聚合支付评级较低的机构能否提升评级

聚合支付机构完成备案是合规展业的第一步&#xff0c;同时&#xff0c;一年一度评级结果对其业务开展和收单机构合作发展具有重要的作用&#xff0c;如若评级较低&#xff0c;将影响到其参与商业银行的外包业务投标&#xff0c;支付机构合作协议签署及合作事宜。 近期&#xf…

Chrome浏览器修改网页内容

方法一&#xff1a;使用开发者工具 在Chrome浏览器中打开要修改的网页。按下F12键打开开发者工具。在开发者工具窗口中&#xff0c;找到“Elements”标签页。在“Elements”标签页中&#xff0c;找到要修改的网页元素。双击要修改的网页元素&#xff0c;即可进行编辑。 方法二…

AIGC 训练场景下的存储特征研究

云布道师 引言&#xff1a;在传统块存储大行其道的时代&#xff0c;需要针对很多行业的工作负载&#xff08;Workload&#xff09;进行调研&#xff0c;包含块大小、随机读、读写比例等等。知道行业的 Workload 对于预估业务的 I/OPS、时延、吞吐等性能有很好的指导意义&#…

Cadence——生成Gerber制板文件

软件版本&#xff1a;Cadence SPB OrCAD Allegro 16.6 打开Allegro PCB Designer 选择如下选项&#x1f447; 点击 File–>Open&#xff0c;找到对应的.brd文件 电气错误的检查&#xff1a;点击 Display–>Status&#xff0c;全为绿色则没有错误 按照不同的项目来进…

自幂数之水仙花数(从0开始)

文章目录 概要整体架构流程代码实现小结 概要 水仙花数&#xff08;Narcissistic number&#xff09;也被称为超完全数字不变数&#xff08;pluperfect digital invariant, PPDI&#xff09;、自恋数、自幂数、阿姆斯壮数或阿姆斯特朗数&#xff08;Armstrong number&#xff…

基于stm32与TJC3224T124_011串口屏的PID调参器(附完整工程)

电赛在即&#xff0c;每次比赛调PID都是一件比较繁琐的事。每次都要在程序中改完再烧录到板子上&#xff0c;特别耗时。正好最近发现实验室的一块串口屏比较好玩。 于是就做了这个调PID的东西。它可以通过串口直接修改PID的值&#xff0c;从而达到快速调PID的目的。下面我将完整…

C++学习笔记(lambda函数)

C learning note 1、lambda函数的语法2、lambda函数的几种用法 1、lambda函数的语法 lambda函数的一般语法如下&#xff1a; [ capture_clause ] ( parameters ) -> return_type {function_body }capture_clause&#xff1a;需要捕获的变量&#xff0c;但要求该变量必须在…

【办公类-16-07-07】“2023下学期 中班户外游戏2(有场地和无场地版,每天不同场地)”(python 排班表系列)

作品展示 背景需求&#xff1a; 2024年2月教务组发放的是“每周五天内容相同&#xff0c;两周10天内容相同”的户外游戏安排 【办公类-16-07-05】合并版“2023下学期 大班户外游戏&#xff08;有场地和无场地版&#xff0c;两周一次&#xff09;”&#xff08;python 排班表系…

探索未来智能的奥秘

文章目录 前言 前言 随着科技的不断进步&#xff0c;人工智能(AI)已逐渐渗透到我们生活的方方面面。而在AI的众多分支中&#xff0c;大模型技术无疑是一个备受瞩目的领域。本文将带领大家走进AI大模型的世界&#xff0c;一同探索其奥秘。 AI大模型&#xff0c;顾名思义&#…