shell 实现对Hive表字段脱敏写入新表

数据安全管理,本shell 实现对hive源表敏感字段进行md5加密,然后写入新表;

read -p 交互输入:要脱敏的hive表、分区,示例: test_db.table_name 20240331

生成更新hive分区表的hql: insert overwrite table xxx

备注:仅供参考,可对本shell代码,做进一步修改调整,满足自己的需求。

#!/bin/bash
# 2024.04.19
read -p "请按示例格式输入要脱敏的hive表、分区,示例: test_db.table_name 20240331 ### " table etl_date#获取库名、表名,存入变量
dbname=`echo $table |awk -F. '{print $1}'`
tbl=`echo $table |awk -F. '{print $2}'`target_db=import_db#首先判断目标表是否存在
hdfs dfs -test -e /user/hive/warehouse/${target_db}.db/$tbl
if [ $? -eq 0 ] ;thenecho "${target_db}.$tbl 目标库已经存在...,请确认表结构是否与源表一致"else# 1、 在 ${target_db} like 建表
echo "1、 create table ${target_db}.$tbl like $table;"
beeline -e "create table ${target_db}.$tbl like $table;"# 2、 把hive表,所有字段 切出来 备用
beeline --showHeader=false --outputformat=tsv2 -e "desc $table" |awk '{print $1}' >desc_field.out
echo "desc $table .... beeline ok"#############################################md5表字段加密开始#############################################
num=`cat desc_field.out |grep NULL |wc -l`
if [ $num == 1 ] ;then# tac desc_field.out |sed -n '6,$p' |tac >desc_field_final.outcat desc_field.out |sed '/NULL/,$d' >desc_field_final.out
elsecat desc_field.out >desc_field_final.out
fi# 需要脱敏的敏感字段,手动添加维护
sensitive_fields=('name' 'phone' 'iden' 'tel')fields=`cat desc_field_final.out`
m=`cat desc_field_final.out |wc -l`
flag=0md5_fields=""
echo $md5_fields
# 嵌套循环,拿 表字段 与 敏感字段 进行匹配,表字段如果是敏感字段,进行MD5 加密,拼接 sql 字符串
for j in $fields
dobiaoji=1# 1.匹配到,进行md5加密,拼接;标记置为0,跳出内循环;2.没有匹配到,继续下一轮内循环;length=${#sensitive_fields[*]}# length 控制内循环的次数for ((i=0;i<${length};i++))doecho "i=$i"if [ $j == ${sensitive_fields[i]} ]thenmd5_fields=${md5_fields}",md5($j) as $j"biaoji=0breakelsecontinuefidone# 内循环执行一轮结束,对 biaoji 的值进行判断,为1,说明 表字段 非敏感字段,进行拼接if [ $biaoji == 1 ]thenmd5_fields=${md5_fields}","$jfiecho $md5_fields((flag++))echo "flag=$flag"# 外循环次数 等于 表字段数,外循环完成,拼接 md5_fields 完成if [ $flag -eq $m ]then# 删除 md5_fields 串里第一个逗号,正确的 md5_fields 拼接完成md5_fields=`echo $md5_fields | sed 's/,//'`echo $md5_fieldsfidone
#############################################md5表字段加密结束##########################################################分区###############
in_values="'$etl_date'"
echo "in_values=$in_values"# in_values=""
# for i in 20240131,20240228,20240331
# do
#     in_values=$in_values",'$j'"
# done
# # ,'20240131','20240228','20240331'
# in_values=`echo $in_values |sed 's/,//'`
# # '20240131','20240228','20240331'
# echo "in_values=$in_values"
###############分区################ 3、对分区字段个数计数 如果是分区表,取出分区字段
partition_field_num= `sed -n '/#/,$p' desc_field.out |grep ^[^#] |wc -l`
echo "partition_field_num=$partition_field_num"sql="insert overwrite table $target_db.$tbl "
echo "初始:$sql"# 4、生成更新分区数据的语句;分区字段个数不同,生成不同的 insert overwrite table
if [ $partition_field_num -eq 2 ];thenpartition1=$(echo `sed -n '/#/,$p' desc_field.out |grep ^[^#]` |awk '{print $1}')partition2=$(echo `sed -n '/#/,$p' desc_field.out |grep ^[^#]` |awk '{print $2}')sql=$sql"partition($partition1,$partition2) select $md5_fields from $table where $partition1 in ($in_values);"echo "拼接2个分区后:$sql"elif [ $partition_field_num -eq 1 ];thenpartition1=$(echo `sed -n '/#/,$p' desc_field.out |grep ^[^#]` |awk '{print $1}')sql=$sql"partition($partition1) select $md5_fields from $table where $partition1 in ($in_values);"echo "拼接1个分区后:$sql"elsesql=$sql"select $md5_fields from $table;"echo "无分区:$sql"fi# 5、生成 update_partitions.sql
cat <<-'EOF' >update_partitions.sql
set hive.execution.engine=tez;
set tez.queue.name=root.default;
set hive.tez.java.opts=-Xmx6144m;
set hive.tez.container.size=8192;
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.exec.dynamic.partitions.pernode=1000;
EOF
echo "$sql" >>update_partitions.sqlfi

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/828616.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Postman之页面简介 V9.31.0

Postman之页面简介 V9.31.0 一、顶部栏二、左部栏三、中部栏四、下部栏 一、顶部栏 &#xff08;1&#xff09;new选项框&#xff0c;生成新建请求、集合、环境等 &#xff08;2&#xff09;import选项框&#xff0c;可以导入文件、文件夹、链接、文本信息等 &#xff08;3&…

ros2_control【B站WMGIII教学学习记录】1

资源 https://www.bilibili.com/video/BV1ku411G7UR? 学习过程中存在bug&#xff0c;记录一下 1 Q:"package ‘joint_state_publisher_gui’ not found, searching: [/home A: sudo apt install ros-humble-joint-state-publisher2 https://fishros.org.cn/forum/to…

go语言并发实战——日志收集系统(八) go语言操作etcd以及利用watch实现对键值的监控

有关包的安装 我们要实现go语言对第三方包的操作需要我们下载第三方包go.etcd.io&#xff0c;下载命令&#xff1a; go get go.etcd.io/etcd/client/v3 ectd的put与get操作 相关函数说明与示例 我们想实现对etcd进行简单的操作的步骤还是比较简单的&#xff0c;在我上一篇文…

代码随想录第二天

有序数组 977. 有序数组的平方 - 力扣&#xff08;LeetCode&#xff09; class Solution {public int[] sortedSquares(int[] nums) {for (int i 0; i < nums.length; i) {nums[i] * nums[i];}Arrays.sort(nums);return nums;} } 长度最小的子数组 class Solution {pub…

爬虫抓取网站数据

Fiddler 配置fiddler工具结合浏览器插件 配置fiddler Tools--Options 抓包技巧 谷歌浏览器开启无痕浏览,使用SwitchyOmega配置好代理端口 Ctrl x 清理所有请求记录,可以删除指定不需要日志方便观察 设置按请求顺序 观察cookie,观察请求hesder cookie和row返回结果 Swit…

华为OD机试真题-堆内存申请-2023年OD统一考试(C卷D卷)

题目描述: 有一个总空间为100字节的堆,现要从中新申请一块内存,内存分配原则为优先紧接着前一块已使用内存分配空间足够且最接近申请大小的空闲内存。 输入描述: 输入: 第1行是1个整数,表示期望申请的内存字节数; 第2到N行是用空格分割的两个整数,表示当前已分配的内存…

【C语言】深入理解KMP算法及C语言实现

一、KMP算法简介 KMP算法&#xff08;Knuth-Morris-Pratt算法&#xff09;是一种高效的字符串匹配算法&#xff0c;由Donald Knuth、James H. Morris和 Vaughan Pratt共同发明。KMP算法的核心思想是当一次字符比较失败时&#xff0c;利用已经得到的部分匹配信息&#xff0c;将模…

vue-project-tree vue3 树形结构展示组件

GitHub&#xff1a;vue-project-tree by one-ccs Gitee&#xff1a;vue-project-tree by one-ccs 遵循 MIT 开源协议 文章目录 vue-project-tree一、使用二、API1、属性2、事件3、方法4、插槽 vue-project-tree 使用 Vue3 TS 实现的树形结构展示组件&#xff0c;有拖拽、排序…

服务器数据恢复—StorNext文件系统下raid5阵列数据恢复案例

服务器数据恢复环境&#xff1a; 昆腾某型号存储&#xff0c;8个存放数据的存储柜1个存放元数据的存储柜。 元数据存储&#xff1a;8组RAID1阵列1组RAID10阵列4个全局热备硬盘。 数据存储&#xff1a;32组RAID5阵列&#xff0c;划分2个存储系统。 服务器故障&#xff1a; 数据…

【c++】weak_ptr和观察者模式

weak_ptr 的使用 #include <array> #include <memory>class A {// 类A的定义 };int main() {std

《QT实用小工具·四十一》无边框窗口

1、概述 源码放在文章末尾 该项目实现了无边框窗口效果&#xff0c;项目demo如下所示&#xff1a; 项目代码如下所示&#xff1a; #include "framelesswindow.h" #include <QGuiApplication> #include <QScreen>#ifdef Q_OS_WIN #include <window…

单例设计模式c++

什么是单例模式&#xff1f; 单例模式指在整个系统生命周期里&#xff0c;保证一个类只能产生一个实例&#xff0c;确保该类的唯一性。 单例模式分类 单例模式可以分为懒汉式和饿汉式&#xff0c;两者之间的区别在于创建实例的时间不同&#xff1a; 懒汉式&#xff1a;指系…

Mac 安装Nodejs

Nodejs介绍 简单的说 Node.js 就是运行在服务端的 JavaScript。 Node.js 是一个基于 Chrome JavaScript 运行时建立的一个平台。 Node.js 是一个事件驱动 I/O 服务端 JavaScript 环境&#xff0c;基于 Google 的 V8 引擎&#xff0c;V8 引擎执行 Javascript 的速度非常快&am…

带你走进不一样的策略模式

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 带你走进不一样的策略模式 前言策略模式简介概念解释 策略模式的结构策略模式优点项目实践之bean策略构思业务策略实现策略接口实现策略上下文业务实现 前言 在编程的世界里&#xff0c;每一次按键都…

刷代码随想录有感(46):平衡二叉树

这道题给我的教训&#xff1a;别轻视递归。 题干&#xff1a; 代码&#xff1a; int geiHeight(TreeNode* node){if(node NULL)return 0;int leftHeight getHeight(node -> left);if(leftHeight -1) return -1;int rightHeight getHeight(node -> right);if(rightH…

计算机网络基础认识

本篇文章是我在B站上看到关于计算机网络的介绍视频收到的启发。本篇文章的内容来自【网络】半小时看懂<计算机网络>_哔哩哔哩_bilibili 一、物理层 从常理来说&#xff0c;进行连个设备之间的通讯&#xff0c;首先最容易想到的就是使用一根线连接两个设备进行通讯。但是…

redolog、undolog和binlog日志文件详解

redolog、undolog和binlog日志文件详解 前言redolog设计目标记录内容写入策略 undolog设计目标记录内容写入策略 binlog设计目标记录内容写入策略 小结 前言 当谈论MySQL数据库的日志文件时&#xff0c;通常会涉及到三种主要类型&#xff1a;redo log&#xff08;重做日志&…

java8 LocalDateTime

LocalDateTime java8使用了LocalDateTime和DateTimeFormatter。比之前的Date和Carlendar有所改进。 DateTimeFormatter是线程安全的。DateTimeFormatter中很多属性使用了final修饰。 LocalDate: 只能设置仅含年月日的格式&#xff0c;表示没有时区的日期, LocalDate是不可变并…

ansible安装教程

一、启动系统前&#xff0c;加一块光驱&#xff0c;把安装镜像文件放到光驱中 二、配置Yum文件 [rootlocalhost ~]# cd /etc/yum.repos.d/ [rootlocalhost yum.repos.d]# rm -f * [rootlocalhost yum.repos.d]# vi cdrom.repo [BaseOS] nameBaseOS baseurlfile:///media/BaseO…

【MAC】删除自带的输入法

问题描述 平常使用mac办公&#xff0c;经常会非预期切换到自带的ABC输入法&#xff0c;令人很困惑。 解决方案&#xff1a; 1、下载PlistEdit Pro 链接&#xff1a;https://www.fatcatsoftware.com/plisteditpro/ 2、执行命令 sudo open ~/Library/Preferences/com.apple.…