java 通过 IMetaStoreClient 取 hive 元数据信息

1 pom.xml配置,要与服务器上的版本要一致,并将hive-site.xml 文件放入resources文件夹中

<dependencies><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.3.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>3.3.1</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-metastore</artifactId><version>3.1.3</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-common</artifactId><version>3.1.3</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-mapreduce-client-core</artifactId><version>3.1.3</version></dependency><dependency><groupId>org.apache.hive</groupId><artifactId>hive-exec</artifactId><version>3.1.3</version><exclusions><exclusion><artifactId>hadoop-annotations</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>hadoop-yarn-server-common</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>hadoop-yarn-server-resourcemanager</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>hadoop-yarn-server-applicationhistoryservice</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>hadoop-yarn-server-web-proxy</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>hadoop-yarn-common</artifactId><groupId>org.apache.hadoop</groupId></exclusion><exclusion><artifactId>jackson-core-asl</artifactId><groupId>org.codehaus.jackson</groupId></exclusion><exclusion><artifactId>jackson-mapper-asl</artifactId><groupId>org.codehaus.jackson</groupId></exclusion><exclusion><artifactId>jersey-core</artifactId><groupId>com.sun.jersey</groupId></exclusion><exclusion><artifactId>jersey-server</artifactId><groupId>com.sun.jersey</groupId></exclusion><exclusion><artifactId>zookeeper</artifactId><groupId>org.apache.zookeeper</groupId></exclusion></exclusions></dependency></dependencies>

2 pojo类封装

import lombok.Data;
import java.io.Serializable;
import java.util.Date;@Data
public class TableMetaInfo implements Serializable {private static final long serialVersionUID = 1L;/*** 表id*/private Long id;/*** 表名*/private String tableName;/*** 库名*/private String schemaName;/*** 字段名json ( 来源:hive)*/private String colNameJson;/*** 分区字段名json( 来源:hive)*/private String partitionColNameJson;/*** hdfs所属人 ( 来源:hive)*/private String tableFsOwner;/*** 参数信息 ( 来源:hive)*/private String tableParametersJson;/*** 表备注 ( 来源:hive)*/private String tableComment;/*** hdfs路径 ( 来源:hive)*/private String tableFsPath;/*** 输入格式( 来源:hive)*/private String tableInputFormat;/*** 输出格式 ( 来源:hive)*/private String tableOutputFormat;/*** 行格式 ( 来源:hive)*/private String tableRowFormatSerde;/*** 表创建时间 ( 来源:hive)*/private String tableCreateTime;/*** 表类型 ( 来源:hive)*/private String tableType;/*** 分桶列 ( 来源:hive)*/private String tableBucketColsJson;/*** 分桶个数 ( 来源:hive)*/private Long tableBucketNum;/*** 排序列 ( 来源:hive)*/private String tableSortColsJson;/*** 数据量大小 ( 来源:hdfs)*/private Long tableSize=0L;/*** 所有副本数据总量大小  ( 来源:hdfs)*/private Long tableTotalSize=0L;/*** 最后修改时间   ( 来源:hdfs)*/private Date tableLastModifyTime;/*** 最后访问时间   ( 来源:hdfs)*/private Date tableLastAccessTime;/*** 当前文件系统容量   ( 来源:hdfs)*/private Long fsCapcitySize;/*** 当前文件系统使用量   ( 来源:hdfs)*/private Long fsUsedSize;/*** 当前文件系统剩余量   ( 来源:hdfs)*/private Long fsRemainSize;}

3 核心类

import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.support.spring.PropertyPreFilters;
import org.apache.commons.lang3.time.DateFormatUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.conf.HiveConf;
import org.apache.hadoop.hive.metastore.IMetaStoreClient;
import org.apache.hadoop.hive.metastore.RetryingMetaStoreClient;
import org.apache.hadoop.hive.metastore.api.Table;
import org.apache.thrift.TException;
import java.io.IOException;
import java.net.URI;
import java.util.Date;/*** hive表元数据信息获取*/
public class HiveMetaTest {IMetaStoreClient hiveClient = getHiveClient();// 初始化 hive 客户端private IMetaStoreClient getHiveClient() {// 把本地的hive文件加载为hiveConf对象HiveConf hiveConf = new HiveConf();hiveConf.addResource(Thread.currentThread().getContextClassLoader().getResourceAsStream("hive-site.xml"));//        hiveConf.addResource("hive-site.xml");
//        hiveConf.addResource(new URL("file:///home/atguigu/dga/hive-site.xml"));IMetaStoreClient client = null;try {  //创建客户端client = RetryingMetaStoreClient.getProxy(hiveConf, true);} catch (Exception e) {throw new RuntimeException(e);}return client;}//根据库名 表名 获得某个表的元数据private TableMetaInfo getTableMeta(String schemaName, String tableName){TableMetaInfo tableMetaInfo = new TableMetaInfo();try {Table table = hiveClient.getTable(schemaName, tableName);// 把table中的元数据 提取到 tableMetaInfoSystem.out.println(table);System.out.println();//表名tableMetaInfo.setTableName(tableName);//库名tableMetaInfo.setSchemaName(schemaName);// 过滤掉不需要的PropertyPreFilters.MySimplePropertyPreFilter mySimplePropertyPreFilter = new PropertyPreFilters().addFilter("comment", "name", "type");//字段名json ( 来源:hive)tableMetaInfo.setColNameJson(JSON.toJSONString(table.getSd().getCols(),mySimplePropertyPreFilter) );  // 字段名 ,字段类型,备注//分区字段名json( 来源:hive)tableMetaInfo.setPartitionColNameJson(JSON.toJSONString(table.getPartitionKeys(),mySimplePropertyPreFilter));//hdfs所属人 ( 来源:hive)tableMetaInfo.setTableFsOwner(table.getOwner());//参数信息 ( 来源:hive)tableMetaInfo.setTableParametersJson(JSON.toJSONString(table.getParameters()));//表备注tableMetaInfo.setTableComment(table.getParameters().get("comment"));//hdfs路径tableMetaInfo.setTableFsPath(table.getSd().getLocation());//输入格式tableMetaInfo.setTableInputFormat(table.getSd().getInputFormat());//输出格式tableMetaInfo.setTableOutputFormat(table.getSd().getOutputFormat());//行格式tableMetaInfo.setTableRowFormatSerde(table.getSd().getSerdeInfo().getSerializationLib());String tableCreateDate = DateFormatUtils.format(new Date(table.getCreateTime() * 1000L), "yyyy-MM-dd HH:mm:ss");// Date date = DateUtils.parseDate(tableCreateDate, "yyyy-MM-dd HH:mm:ss");//表创建时间tableMetaInfo.setTableCreateTime(  tableCreateDate );//表类型tableMetaInfo.setTableType(table.getTableType());if(table.getSd().getBucketCols().size()>0){//分桶列tableMetaInfo.setTableBucketColsJson(JSON.toJSONString(table.getSd().getBucketCols()));//分桶个数tableMetaInfo.setTableBucketNum(table.getSd().getNumBuckets()+0L);//排序列tableMetaInfo.setTableSortColsJson(JSON.toJSONString(table.getSd().getSortCols()));}} catch (TException e) {throw new RuntimeException(e);}return tableMetaInfo;}public void addHdfsInfo(TableMetaInfo tableMetaInfo){try {FileSystem fileSystem = FileSystem.get(new URI(tableMetaInfo.getTableFsPath()), new Configuration(), tableMetaInfo.getTableFsOwner());FileStatus[] fileStatuses = fileSystem.listStatus(new Path(tableMetaInfo.getTableFsPath())); //listStatus获取某个目录下的文件或文件夹集合//进行递归 遍历,hdfs文件 总副本大小等等信息addFileInfo(fileStatuses,tableMetaInfo,fileSystem);//作用不大//当前文件系统容量//tableMetaInfo.setFsCapcitySize( fileSystem.getStatus().getCapacity() );//当前文件系统剩余量//tableMetaInfo.setFsRemainSize( fileSystem.getStatus().getRemaining() );//当前文件系统使用量//tableMetaInfo.setFsUsedSize( fileSystem.getStatus().getUsed() );} catch (Exception e) {throw new RuntimeException(e);}}// 作业  : tableMetaInfo 最近访问时间  , 最近修改时间, 总副本大小// 递归处理 , 每个递归方法 一定是一个 叶子节点的收敛处理  和  分支节点的继续下探 ( java  下探就增加方法栈的深度, 默认1w个左右 如果过深会造成栈溢出)public  void  addFileInfo(FileStatus[] fileStatuses , TableMetaInfo  tableMetaInfo,FileSystem fileSystem) throws IOException {//遍历所有 filestatusfor (FileStatus fileStatus : fileStatuses) {if(! fileStatus.isDirectory()){     // 文件 取大小  累加tableSizelong accessTime = fileStatus.getAccessTime();long modificationTime = fileStatus.getModificationTime();short replication = fileStatus.getReplication();long filesize = fileStatus.getLen();//文件字节数tableMetaInfo.setTableSize(tableMetaInfo.getTableSize()+filesize);  //累加到表的总大小tableMetaInfo.setTableTotalSize(tableMetaInfo.getTableTotalSize()+ filesize*replication); //总副本大小//取最近的修改时间if(tableMetaInfo.getTableLastModifyTime()==null){tableMetaInfo.setTableLastModifyTime( new Date(modificationTime));} else if (tableMetaInfo.getTableLastModifyTime().getTime()<modificationTime) {tableMetaInfo.setTableLastModifyTime(new Date(modificationTime));}//取最近的访问时间if(tableMetaInfo.getTableLastAccessTime()==null){tableMetaInfo.setTableLastAccessTime( new Date(accessTime));} else if (tableMetaInfo.getTableLastAccessTime().getTime()<accessTime) {tableMetaInfo.setTableLastAccessTime(new Date(accessTime));}} else{//  文件夹  获得文件夹下的Filestatus 进行递归FileStatus[] subFileStatus = fileSystem.listStatus(fileStatus.getPath());addFileInfo(subFileStatus,tableMetaInfo,fileSystem);}}}public static void main(String[] args) {HiveMetaTest hiveMetaTest = new HiveMetaTest();TableMetaInfo tableMeta = hiveMetaTest.getTableMeta("test_db_1", "orders");hiveMetaTest.addHdfsInfo(tableMeta);System.out.println("tableMeta = " + tableMeta);}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/759350.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

演讲嘉宾公布 | 3D音频专题论坛将于3月27日举办

一、3D音频专题论坛 3D音频技术不仅能够提供更加真实、沉浸的虚拟世界体验&#xff0c;跨越时空的限制&#xff0c;探索未知的世界。同时&#xff0c;提供更加丰富、立体的情感表达和交流方式&#xff0c;让人类能够更加深入地理解彼此&#xff0c;建立更加紧密的联系。3D音频未…

风速预测(八)VMD-CNN-Transformer预测模型

往期精彩内容&#xff1a; 时序预测&#xff1a;LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较-CSDN博客 风速预测&#xff08;一&#xff09;数据集介绍和预处理-CSDN博客 风速预测&#xff08;二&#xff09;基于Pytorch的EMD-LSTM模型-CSDN博客 风速预测&#xff…

图片编辑器中实现文件上传的三种方式和二进制流及文件头校验文件类型

背景 最近在 vue-design-editor 开源项目中实现 psd 等多种文件格式上传解析成模板过程中, 发现搞定设计文件上传没有使用 input 实现文件上传, 所以我研究了一下相关技术, 总结了以下三种文件上传方法 input 文件选择window.showOpenFilePicker 和 window.showDirectoryPicke…

Android Selinux详解[七]--如何给可执行程序bin加标签

经过前面几篇文章的介绍&#xff0c;你应该对Selinux有一定的了解了&#xff0c;现在我们就来实战一下。 你可能会在工作的过程遇到要给可执行程序bin加标签的需求&#xff0c;以下来讲解一下怎么给bin加标签 1. 一个bin通常是通过adb shell bin名字拉起来的&#xff0c;拉起…

WPF 中 样式触发器机制 Style.Triggers

在 WPF (Windows Presentation Foundation) 中&#xff0c;Style.Triggers 是一种样式触发器机制&#xff0c;它允许你在特定条件下改变控件的外观或行为。Style.Triggers 元素是 Style 元素的子元素&#xff0c;用于定义触发器集合。 每个触发器都关联到一个条件&#xff0c;…

何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏见

2011年,知名学者Antonio Torralba和Alyosha Efros提出了“数据集偏差之战”&#xff0c;他们发现机器学习模型很容易“过拟合”到特定的数据集上&#xff0c;导致在其他数据集上表现不佳。过去十年&#xff0c;随着深度学习革命的到来&#xff0c;建立多样化、大规模、全面且尽…

应急响应-Web2

应急响应-Web2 1.攻击者的IP地址&#xff08;两个&#xff09;&#xff1f; 192.168.126.135 192.168.126.129 通过phpstudy查看日志&#xff0c;发现192.168.126.135这个IP一直在404访问 &#xff0c; 并且在日志的最后几条一直在访问system.php &#xff0c;从这可以推断 …

机器学习_聚类(Clustering)

文章目录 简介K-均值算法(K_Means) 简介 你经常跟哪些人联系&#xff0c;而这些人又经常给哪些人发邮件&#xff0c;由此找到关系密切的人群。因此&#xff0c;这可能需要另一个聚类算法&#xff0c;你希望用它发现社交网络中关系密切的朋友。 K-均值算法(K_Means) K-均值是…

查看angular版本的问题The Angular CLI requires a minimum Node.js version of v18.13.

angular版本与node.js版本不匹配的问题 下载安装angular 查看版本&#xff0c;发现不匹配 安装指定版本即可 查看版本并运行

stm32f103c8t6学习笔记(学习B站up江科大自化协)-ADC

ADC简介 ADC&#xff0c;英文全称是Analog to Digital Convert&#xff0c;意为模拟数字转换器&#xff0c;简称模数转换器&#xff0c;或者叫AD转换器&#xff0c;STM32主要是数字电路&#xff0c;数字电路只有高低电平&#xff0c;没有几V电压的概念&#xff0c;如果想读取电…

Android 优化 - 数据结构

一、概念 数据结构&#xff1a;数据存储在内存中的顺序和位置关系&#xff0c;选择合适的数据结构能提高内存的利用率。 线性结构链表结构树形结构 二、线性结构 结构优点缺点数组数据呈线性排列&#xff0c;初始化时就要指定长度且无法更改&#xff0c;会开辟一块连续的内…

使用ansible批量修改操作系统管理员账号密码

一、ansible server端配置 1、对于Linux主机配置免密登录ssh-copy-id -i ~/.ssh/id_rsa.pub rootremote_ip 2、在/etc/ansible/hosts文件中添加相应主机IP 3、对于Windows主机需要在/etc/ansible/hosts文件中进行以下配置 192.168.83.132 ansible_ssh_useradministrator an…

神经网络(深度学习,计算机视觉,得分函数,损失函数,前向传播,反向传播,激活函数)

目录 一、神经网络简介 二、深度学习要解决的问题 三、深度学习的应用 四、计算机视觉 五、计算机视觉面临的挑战 六、得分函数 七、损失函数 八、前向传播 九、反向传播 十、神经元的个数对结果的影响 十一、正则化与激活函数 一、神经网络简介 神经网络是一种有监督…

在vue项目中封装并使用WebSocket(2)

创建一个websocket组件 <script> export default {name: "index",props: {wsUrl: {type: String,require: true,},},data() {return {socket: "",};},watch: {wsUrl: {immediate: true,handler() {this.init();},},},methods: {init() {console.log…

RocketMq 顺序消费、分区消息、延迟发送消息、Topic、tag分类 实战 (延迟发送消息) (四)

延迟发送消息生产者配置 如下所示&#xff1a;Bean注解向Spring容器注入一个名字叫delayOrderProducerBean、类型为OrderProducerBean 的对象&#xff08;下文需要用到&#xff09; Configuration public class DelayProducerClient {Autowiredprivate RocketMqDelayPropertie…

打开打包好的.APK文件,使用Android Studio

1. 没有android studio的 下载安装 Android 开发者 | Android Developers 2. 打开file下面的 “Profile or debug apk” 选择想要打开的.apk文件 3. 打开AndroidManifest.xml就可以看到想要看到版本号等基本信息

晶圆制造过程中常用载具的类型

晶圆载具用于硅片生产、晶圆制造以及工厂之间晶圆的储存、传送、运输以及防护。晶圆载具种类很多,如FOUP用于晶圆制造工厂中晶圆的传送;FOSB用于硅片生产与晶圆制造工厂之间的运输;CASSETTE载具可用于工序间运送以及配合工艺使用。 OPEN CASSETTE OPEN CASSETTE主要在晶圆…

VB.NET 中的属性(Properties)和字段(Fields)有什么区别?请举例说明。

VB.NET 中的属性&#xff08;Properties&#xff09;和字段&#xff08;Fields&#xff09;有什么区别&#xff1f;请举例说明。 在VB.NET中&#xff0c;属性&#xff08;Properties&#xff09;和字段&#xff08;Fields&#xff09;是用于封装数据的两种主要方式。它们之间的…

vue3 导航守卫

Vue 3 的导航守卫与 Vue 2 相比&#xff0c;在 API 和使用方式上并没有太大的变化&#xff0c;但 Vue 3 的响应式系统和 Composition API 为导航守卫提供了更多的灵活性。 以下是 Vue 3 中常见的几种导航守卫&#xff1a; 1. 全局前置守卫 全局前置守卫在路由跳转前执行。你可…

智慧公园:AI智能分析网关V4城市公园视频智能监管方案

一、背景分析 随着天气渐渐转暖&#xff0c;城市公园的花卉也逐渐盛开&#xff0c;春暖花开时节&#xff0c;前往公园赏花游玩的城市居民也渐渐多起来&#xff0c;因此安全问题也成为相关监管部门的重要管理任务之一。随着科技的不断进步&#xff0c;智能监控技术已经成为现代…