大数据之Hive:regexp_extract函数案例

目录

  • 一、正则的通配符简介
    • 1、正则表达式的符号及意义
    • 2、各种操作符的运算优先级:
  • 二、案例
    • 数据
    • 要求
    • 分析
    • 实现
    • 输出结果
    • 实现2
    • 实现3
  • 总结

一、正则的通配符简介

1、正则表达式的符号及意义

符号含义实列
/做为转意,即通常在"/"后面的字符不按原来意义解释如" * “匹配它前面元字符0次或多次,/a*/将匹配a,aa,aaa,加了”/"后,/a/* /将只匹配"a* "
.匹配任何一个字符
^匹配一个输入或一行的开头/^a/匹配"an A",而不匹配"An a"
$匹配一个输入或一行的结尾/a$/匹配"An a",而不匹配"an A"
*匹配前面元字符0次或多次/ba*/将匹配b,ba,baa,baaa
+匹配前面元字符1次或多次/ba+/将匹配ba,baa,baaa
?匹配前面元字符0次或1次/ba?/将匹配b,ba
(x)匹配x保存x在名为$1…$9的变量中
x竖y匹配x或y
{n}精确匹配n次
{n,}匹配n次以上
{n,m}匹配n-m次
[xyz]字符集(character set),匹配这个集合中的任一一个字符(或元字符)
[^xyz]不匹配这个集合中的任何一个字符
/d匹配一个字数字符//d/ = /[0-9]/
/D匹配一个非字数字符//D/ = /[^0-9]/
/s匹配一个空白字符,包括/n,/r,/f,/t,/v等
/S匹配一个非空白字符,等于/[^/n/f/r/t/v]/
/w匹配一个可以组成单词的字符(alphanumeric,这是我的意译,含数字),包括下划线,如[/w]匹配"$5.98"中的5,等于[a-zA-Z0-9]
/W匹配一个不可以组成单词的字符,如[/W]匹配"$5.98"中的 $,等于[^a-zA-Z0-9]

备注:
‘( )’ 标记一个子表达式的开始和结束位置。
‘[]’ 标记一个中括号表达式。
/num 匹配 num,其中 num 是一个正整数。对所获取的匹配的引用。

2、各种操作符的运算优先级:

转义符>圆括号和方括号>限定符>位置和顺序
具体如下:
/ 转义符
(), ( ?: ), (?=), [] 圆括号和方括号
*, +, ?, {n}, {n,}, {n,m} 限定符
^, $, anymetacharacter 位置和顺序
正则表达式的符号及意义

二、案例

数据

with temp as 
(select '[{favorite=["电影":杀死比尔,"电视剧":宰相刘罗锅],age=15,gender:男}]' as attributes ---第一行
union all 
select '[{favorite="像风一样的女人",age=未知,gender:男}]' as attributes ---第二行
union all 
select '[{favorite=28, gender:女,age=15}]' as attributes ---第三行
union all 
select '[{gender:女,favorite=["综艺","动漫"],age=15 }]' as  attributes ---第四行
)

要求

将favorite的值,age的值和gender的值取出来

分析

  1. 目前从temp表可知表中可知表里面只有一个attributes(特征)字段,这个字段其实包含三个字段,分别为favorite和age和gender
  2. 该字段类型不是标准的json格式,哪怕转换成标准的json格式也不太容易,假设转成json,你首先要处理最外层的中括号,其次json里面的key是有双引号的,你需要给key添加双引号,再次字段类型也不一致,age=15和age=未知;
  3. 综上分析需要使用regexp_extract函数
  4. 使用regexp_extract函数需要注意什么?注意字段顺序不一样,不是统一的,这是第一点;第二点有些逗号后面有空格,有些没有,花括号前有些有空格,有些没有;第三点favorite和age后面是等号,gender后面是冒号;

实现

select 
regexp_extract (attributes,'favorite\\=(.*?)(\\,\\s{0,1}age|\\,\\s{0,1}gender|\\s{0,1}\\})',1) as favorite
,regexp_extract (attributes,'age\\=(.*?)(\\s{0,1}\\}|\\,\\s{0,1}favorite|\\,\\s{0,1}gender)',1) as age
,regexp_extract (attributes,'gender\\:(.*?)(\\s{0,1}\\}|\\,\\s{0,1}favorite|\\,\\s{0,1}age)',1) as gender
from  temp
;

输出结果

favoriteagegender
[“电影”:杀死比尔,“电视剧”:宰相刘罗锅]15
“像风一样的女人”未知
2815
[“综艺”,“动漫”]15

实现2

虽然说转json比较麻烦,但还是可以实现的,需要一些技巧;主要的问题是加引号,其次是去最外层的中括号,其他是一些小细节;

----去除空格字符和里面的引号(会在加引号时有干扰)等,第一个replace去空格,第二个去除双引号
select  regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"','')
from temp
----处理最外层的中括号,并加最外层的引号
select  regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}')
from temp
----最终处理
select  regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp 

至此终于到最标准的json格式了,处理json可以使用get_json_object,也可以使用json_tuple

select 
get_json_object(attributes,'$.favorite')
,get_json_object(attributes,'$.age')
,get_json_object(attributes,'$.gender')
from  
(select  regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp 
) tt 
select 
json_tuple(attributes,'favorite','age','gender') 
from  
(select  regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp 
) tt select 
b.favorite
,b.age
,b.gender
from (
select  regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\[\\{','\\{\\"'),'\\}\\]','\\"\\}'),'gender\\:','gender\\='),'\\=','\\"\\:\\"'),'\\,','\\&'),'\\&age','\\"\\,\\"age'),'\\&gender','\\"\\,\\"gender'),'\\&favorite','\\"\\,\\"favorite') as attributes
from temp
) tt lateral view
json_tuple(attributes,'favorite','age','gender') b as favorite,age,gender

实现3

select 
attributes['favorite'] as favorite
,attributes['gender'] as gender
,attributes['age'] as age
from (
select 
str_to_map(attributes,',','=') as attributes
from  
(
select  
regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace(regexp_replace( regexp_replace(attributes,'\\n|\\r|\\t|\\s',''),'\\"',''),'\\:','\\='),'\\,','\\&'),'\\&age','\\,age'),'\\&favorite','\\,favorite'),'\\&gender','\\,gender'),'(\\[\\{)|(\\}\\])','') as attributes
from  temp
) tt 
) ttm

总结

首先需要明确的是,上面中的例子是人为制造的,非常不规则,所以导致处理起来非常麻烦,里面有好几个中括号,中括号里面是逗号分割,还有gender专门后面编成冒号,这些无疑加大了处理难度;上述使用三种方法进行处理,优先级:regexp_extract >str_to_map>get_json_object;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/147675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL Server去除字符串空格的ltrim() 和 rtrim()函数

SQL Server去除字符串空格的ltrim() 和 rtrim()函数 SQL Server并不提供trim()函数去除字符串两边空格,只提供了去除字符串左边空格ltrim()函数和去除右边字符串空格rtrim()函数,但是只要将这两个函数配合使用,就能达到去除字符串两端空格的…

小美的树上染色

美团2024届秋招笔试第一场编程真题 先提一个小知识:题目中凡是提到树结构都要使用图的存储方式,只有二叉树例外。 分析:在树结构中,孩子和父节点是相邻节点,而父节点可能有多个孩子节点。在染色的过程中,…

实用小算法

开头提醒: 打开自己本地任意一个SpringBoot项目,复制代码到test包下跟着敲。 后面几篇文章不再提醒,希望大家养成习惯。看10篇文章,不如自己动手做一次。 我们不执着于一天看多少篇,但求把每一篇都搞懂,…

如何使用websocket+node.js实现pc后台与小程序端实时通信

如何使用websocketnode.js实现pc后台与小程序端实时通信 一、使用node.js创建一个服务器二、pc后台连接ws三、小程序端连接ws四、实现效果 实现功能:实现pc后台与小程序端互发通信能够实时检测到 一、使用node.js创建一个服务器 1.安装ws依赖 npm i ws2.创建index.js const…

后端技术知识点内容-全部内容-面试宝典-后端面试知识点

文章目录 -2 flink-1 linux of viewlinux查看占用cup最高的10个进程的命令; 〇、分布式锁 & 分布式事务0-1分布式锁--包含CAP理论模型概述分布式锁:分布式锁应该具备哪些条件:分布式锁的业务场景: 分布式锁的实现方式有&#…

整理笔记——MOS管、三极管、IGBT

一、MOS管 在实际生活要控制点亮一个灯,例如家里的照明能,灯和电源之间就需要一个开关需要人为的打开和关闭。 再设计电路板时,如果要使用MCU来控制一个灯的开关,通常会用mos管或是三极管来做这个开关元件。这样就可以通过MCU的信…

Linux安装OpenCV并配置VSCode环境

Linux安装OpenCV并配置VSCode环境 安装OpenCV环境安装必需工具下载并解压OpenCV库(Opencv Core Modules和opencv_contrib)创建构建目录,进行构建验证构建结果安装验证安装结果 配置VSCode环境创建项目文件修改配置信息执行程序 安装环境 Ubun…

DRF纯净版项目搭建和配置

一、安装模块和项目 1.安装模块 pip install django pip install djangorestframework pip install django-redis # 按需安装 2.开启项目和api (venv) PS D:\pythonProject\env_api> django-admin startproject drf . (venv) PS D:\pythonProject\env_api> python ma…

pandas教程:Date and Time Data Types and Tools 日期和时间数据类型及其工具

文章目录 Chapter 11 Time Series(时间序列)11.1 Date and Time Data Types and Tools(日期和时间数据类型及其工具)1 Converting Between String and Datetime(字符串与时间的转换) Chapter 11 Time Serie…

Unity——URP相机详解

2021版本URP项目下的相机,一般新建一个相机有如下组件 1:Render Type(渲染类型) 有Base和Overlay两种选项,默认是Base选项 Base:主相机使用该种渲染方式,负责渲染场景中的主要图形元素 Overlay(叠加):使用了Oveylay的…

JavaEE——简单认识HTML

文章目录 一、简单解释 HTML二、认识 HTML 的结构三、了解HTML中的相关标签1.注释标签2.标题标签3.段落标签 p4. 换行标签 br5.格式化标签6.图片标签解释 src解释 alt解释其他有关 img 标签的属性 7.超链接标签 a8.表格标签9.列表标签10.input 标签11. select 下拉菜单以及 div…

网络协议 WebSocket

一、介绍 WebSocket 是基于 TCP 的一种新的网络协议。它实现了浏览器与服务器全双工通信——浏览器和服务器只需要完成一次握手,两者之间就可以创建持久性的连接, 并进行双向数据传输 1、HTTP协议和WebSocket协议对比 HTTP 是短连接WebSocket 是长连接H…

XSS靶场level1解题思路

001 分析题目 此时URL链接是: http://xss-ctf.xiejiahe.com/level1?nametest 第一关页面内容 欢迎来到level1 欢迎用户test 一张图片 IT’S easy (它是容易的) payload的长度:4 可以看到此时URL链接拼接了一个name参数,值为test…

Python (十二) 模块、包

模块 模块是以 .py后缀的文件,包含所有定义的函数和变量的文件。 模块可以被别的程序引入,以使用该模块中的函数等功能,如python 标准库、第三方模块等。 导入模块用关键词-import,from ...import 引入python标准库math模块 import math #调用…

【brpc学习案例实践一】rpc服务构造基本流程

前言 在crpc框架中,brpc简直越用越爽,平时工作中也常用到brpc,一直没来得及总结,抽空写点,也供自己查阅用。下附几个常用学习地址: brpc官网开源地址: https://github.com/luozesong/brpc/blob…

kubectl 本地远程链接k8s多个集群,远程管控多集群,查看日志 部署服务(windows版)

文章目录 一、前言二、windows上安装kubectl和mobaxterm2.1 准备安装包2.2 安装kubectl2.3 链接k8s集群2.4 查看某一个pod的容器日志2.5 切换context 上下文配置,实现在多个k8s集群间动态切换 一、前言 现如今是一个万物皆上云 的时代,各种云层出不穷&am…

hive sql多表练习

hive sql多表练习 准备原始数据集 学生表 student.csv 讲师表 teacher.csv 课程表 course.csv 分数表 score.csv 学生表 student.csv 001,彭于晏,1995-05-16,男 002,胡歌,1994-03-20,男 003,周杰伦,1995-04-30,男 004,刘德华,1998-08-28,男 005,唐国强,1993-09-10,男 006,陈道…

WMS重力式货架库位对应方法

鉴于重力式货架的特殊结构和功能,货物由高的一端存入,滑至低端,从低端取出。所以重力式货架的每个货位在物理上都会有一个进货口和一个出货口。因此,在空间上,对同一个货位执行出入库操作需要处于不同的位置。 比如对…

使用python将多个PDF文件合并成一个

使用python将多个PDF文件合并成一个 前面需求是,将很多PDF文章内容整合成一个PDF文件 首先你要 pip install PyPDF2 安装好这个组件库 然后使用下面的代码 from PyPDF2 import PdfReader, PdfMerger import oswk_in_file_path rD:/items_python/pdfdoc/input/ #里…

【2023年csp-j第二轮】第一题解析

我们先看题目 题目描述 小 Y 的桌子上放着 n 个苹果从左到右排成一列,编号为从 11到 n。 小苞是小 Y 的好朋友,每天她都会从中拿走一些苹果。 每天在拿的时候,小苞都是从左侧第 1 个苹果开始、每隔 2 个苹果拿走 1 个苹果。随后小苞会将剩下的…