Hive分区表实战 - 单分区字段

Hive分区表实战 - 单分区字段

news/2025/4/11 18:52:46/文章来源:https://blog.csdn.net/howard2005/article/details/135495805

文章目录

一、实战概述
二、实战步骤
- （一）创建图书数据库
- （二）创建国别分区的图书表
- （三）在本地创建数据文件
- （四）按分区加载数据
- - 1、加载中文书籍数据到`country=cn`分区
  - 2、加载英文书籍数据到`country=en`分区
- （五）查看分区表book全部记录
- （六）通过HDFS查看分区对应的目录及文件
- （七）手动创建分区并上传数据
- - 1、在HDFS上手动创建`country=jp`分区目录
  - 2、创建日文书籍数据文件`jp_book.txt`
  - 3、上传文件到HDFS日本分区目录
  - 4、更新元数据以识别新分区
- （八）再次查看book表全部记录
- （九）删除指定分区
- （十）更改分区名
- （十一）在MySQL中查看Hive元数据（分区信息）
- - 1、登录MySQL Hive Metastore数据库
  - 2、查看book表分区元数据信息
三、实战总结

一、实战概述

在本Hive分区表管理实战中，我们通过一系列实际操作演示了如何有效地利用分区功能来组织和查询大规模数据。首先，创建了一个名为book的内部分区表，其结构包含id与name字段，并根据country字段进行分区。接下来，准备并加载了不同国家（中国和英国）书籍的数据文件到对应的分区目录中。
为了展示分区灵活性，我们还模拟了手动创建新分区（日本），上传数据文件并通过msck repair table命令将新分区纳入表的元数据管理中。此外，实战还涉及分区的删除、重命名等操作，直观展示了Hive如何同步更新分区状态至HDFS存储及元数据层面。
最后，通过查看MySQL中Hive Metastore数据库的相关表信息，揭示了Hive如何记录分区的具体元数据内容，包括分区位置等关键信息。整个实战过程充分展现了Hive分区表在提升查询效率、实现数据分类存储以及简化数据管理方面的强大能力。

二、实战步骤

（一）创建图书数据库

执行命令：create database bookdb;
执行命令：use bookdb;，切换到bookdb数据库

（二）创建国别分区的图书表

执行语句：create table book (id int, name string) partitioned by (country string) row format delimited fields terminated by ' ';，创建book表

（三）在本地创建数据文件

在master虚拟机上创建中文书籍数据文件cn_book.txt
在master虚拟机上创建英文书籍数据文件en_book.txt

（四）按分区加载数据

1、加载中文书籍数据到`country=cn`分区

执行语句：load data local inpath '/root/cn_book.txt' overwrite into table book partition(country='cn');

2、加载英文书籍数据到`country=en`分区

执行语句：load data local inpath '/root/en_book.txt' overwrite into table book partition(country='en');

（五）查看分区表book全部记录

执行语句：select * from book;，注意：第三列是分区字段

（六）通过HDFS查看分区对应的目录及文件

使用HDFS Shell命令检查/user/hive/warehouse/bookdb.db/book（假设这是hive表的默认存储位置）下的country=cn和country=en分区目录及其内部的数据文件。
执行命令：hdfs dfs -ls -r /user/hive/warehouse/bookdb.db/book

（七）手动创建分区并上传数据

1、在HDFS上手动创建`country=jp`分区目录

执行命令：hdfs dfs -mkdir /user/hive/warehouse/bookdb.db/book/country=jp

2、创建日文书籍数据文件`jp_book.txt`

在master虚拟机上创建jp_book.txt

3、上传文件到HDFS日本分区目录

执行命令：hdfs dfs -put jp_book.txt /user/hive/warehouse/bookdb.db/book/country=jp

4、更新元数据以识别新分区

执行语句：msck repair table book;

（八）再次查看book表全部记录

执行语句：select * from book;，注意：第三列是分区字段

（九）删除指定分区

执行语句：alter table book drop partition (country='jp');，删除country=jp分区
此时，查看分区表全部记录，就会发现没有日本书籍记录

（十）更改分区名

将原有country=cn分区重命名为country=zh，执行语句：alter table book partition (country='cn') rename to partition (country='zh');
此时，查看分区表全部记录

（十一）在MySQL中查看Hive元数据（分区信息）

1、登录MySQL Hive Metastore数据库

执行命令：mysql -uroot -p903213，登录MySQL，然后执行use hive;，打开hive元数据库

2、查看book表分区元数据信息

执行语句：SELECT * FROM COLUMNS_V2;，book分区表的CD_ID值是27
执行语句：select SD_ID, CD_ID, LOCATION from SDS where CD_ID = 27;

三、实战总结

本实战演练全面展示了如何在Hive中创建和管理分区表，通过实际操作演示了数据按国别分区存储、加载与查询的全过程。从创建book表开始，依次完成了数据文件准备、分区数据加载、分区查看及更新元数据等任务，并进一步演示了分区的增删改查操作，最后通过MySQL查看Hive Metastore中记录的分区元数据信息，充分体现了Hive分区表在提升查询效率与简化数据管理方面的优势。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/610284.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Vue如何根据某个时间值获取当月的最后一天

Vue如何根据某个时间值获取当月的最后一天

工作中会用到日期组件，有时候选择结束日期只需要用户选择年月，然后需要程序自动补全当月的最后一天，生成yyyy-MM-dd的字符串格式传到后端。 // 纯JS实现 let getEndDateFn (value) > { // 形参value值的格式为yyyy-MM-dd或yyyy-MM …

阅读更多...

安全技能讲座 - 便携式灭火器 (Portable Fire Extinguishers )

安全技能讲座 - 便携式灭火器 (Portable Fire Extinguishers )

【Transcript 】火灾随时随地都可能发生，而且毫无征兆。如果您在家中或工作中遇到火灾，便携式灭火器可以帮助您保护自己，并有可能将火灾扼杀在摇篮中。本课程将向您介绍便携式灭火器、其工作原理和使用方法。成功完成本课程后，您…

阅读更多...

字节跳动今年的校招薪资。。。

字节跳动今年的校招薪资。。。

字节跳动校招情况分析在写完了绝对顶流华为和近两年炙手可热的比亚迪的校招薪资之后，不少同学点名要看「字节跳动」。确实，玩归玩，闹归闹，别拿字节开玩笑。先来看看和公众号读者相关性较高的岗位校待遇： 研发算…

阅读更多...

从0到1：免费热门API集合让开发更高效

从0到1：免费热门API集合让开发更高效

各种开发常用的好用API接口，含免费次数~ 天气预报查询：查询全国以及全球多个城市的天气，包含15天天气预报查询。天气预警：可以获取指定城市当前生效中的各类天气预警，如寒潮蓝色预警信号，或一次性拉取全国…

阅读更多...

three.js实现电子围栏效果（纹理贴图）

three.js实现电子围栏效果（纹理贴图）

three.js实现电子围栏效果（纹理贴图） 实现步骤围栏的坐标坐标转换为几何体顶点，uv顶点坐标加载贴图，移动图例代码 <template><div class"app"><div ref"canvesRef" class"canvas-…

阅读更多...

Linux的网络配置命令和网络设置实操

Linux的网络配置命令和网络设置实操

目录一、网路命令 1.ifconfig 2.hostname 3.route 4.netstat 5.ss（socket statistics） 6.ping 7.nslookup 8.tcpdump 二、实操 1.单个网卡修改 2.双网卡配置 3.bond网卡绑定一、网路命令查看Linux基础的网络设置网关route -nIP地址ifc…

阅读更多...

算法与数据结构--最小生成树算法

算法与数据结构--最小生成树算法

一.应用的场景类似于这种最小成本问题，实际上就是计算加权图把所有点连起来权重之和最小值的时候是怎么连接的。类似的问题还有最短耗时之类的问题。二.最小生成树的定义生成树： 图的生成树是它的一颗含有其所有顶点的无环连通子图。【简单说就是所…

阅读更多...

Java中的IO流

Java中的IO流

在Java中，I/O（输入/输出）流用于处理与输入和输出相关的操作。Java的I/O流按照数据处理的不同方式分为两大类：字节流和字符流。每个类别又分为输入流和输出流。以下是Java中常用的I/O流及其继承关系： 字节流&#xff0…

阅读更多...

BERT Intro

BERT Intro

继续NLP的学习，看完理论之后再看看实践，然后就可以上手去kaggle做那个入门的project了orz。参考： 1810.04805.pdf (arxiv.org) BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili (强推!)2023李宏毅讲解大模型鼻祖BERT，一小时…

阅读更多...

竞赛保研基于深度学习的动物识别 - 卷积神经网络机器视觉图像识别

竞赛保研基于深度学习的动物识别 - 卷积神经网络机器视觉图像识别

文章目录 0 前言1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 0 前言 &#…

阅读更多...

C++学习-List学习

C++学习-List学习

#include <Qlist> #include <list> #include <functional> //仿函数要的头文件 #include <string>模板函数 template <class _Ty>void PrintfList(QList<_Ty> data) {qDebug() << "模板函数" << "\t";fo…

阅读更多...

探索芊芊简历：一个革新的简历创建工具

探索芊芊简历：一个革新的简历创建工具

在寻找理想工作的道路上，一份出色的简历是打开机遇之门的关键。今天，我想向大家介绍一款名为“芊芊简历”的免费简历编辑器，它以其独特的功能和先进的技术，为求职者提供了一个简单而高效的简历制作解决方案。丰富多样的模板&…

阅读更多...

医疗器械软件生命周期过程

医疗器械软件生命周期过程

IEC 62304是一项用于医疗器械软件的国际标准，名为《医疗设备软件的生命周期过程》（Medical device software - Software life cycle processes）。该标准关注医疗设备软件的开发、验证、维护等生命周期过程，以确保软件的质量、安全…

阅读更多...

虚拟局域网的基本概念与基本原理

虚拟局域网的基本概念与基本原理

虚拟局域网（Virtual Local Area Network，VLAN）是一种在物理局域网内部划分逻辑上独立的虚拟网络的方法。它通过在网络交换机上配置，将不同的设备分组到不同的虚拟网络中，实现了逻辑上分隔的网络通信。本文将介绍虚拟局…

阅读更多...

北京大学漏洞报送证书

北京大学漏洞报送证书

获取来源：edusrc（教育漏洞报告平台） url：教育漏洞报告平台(EDUSRC) 兑换价格：30金币获取条件：北京大学任意中危或以上级别漏洞

阅读更多...

【排序】快速排序

【排序】快速排序

思想快速排序是一种基于分治策略的排序算法，其核心思想通过选取一个基准元素，将数组分成两个子数组：一个包含小于基准元素的值，另一个包含大于基准元素的值。然后递归地对这两个子数组进行排序，最终将它们合并起来&a…

阅读更多...

UltraScale 和 UltraScale+ 生成已加密文件和已经过身份验证的文件

UltraScale 和 UltraScale+ 生成已加密文件和已经过身份验证的文件

注释 ：如需了解更多信息，请参阅《使用加密和身份验证确保 UltraScale/UltraScale FPGA 比特流的安全》 (XAPP1267)。要生成加密比特流，请在 Vivado IDE 中打开已实现的设计。在主工具栏中，依次选择“Flow” → “Bitstream Setti…

阅读更多...

解决在eclipse2021中，用mysql-connector-java-8.0.18.jar不兼容，导致无法访问数据库问题

解决在eclipse2021中，用mysql-connector-java-8.0.18.jar不兼容，导致无法访问数据库问题

1.环境场景组件版本mysql5.7.44mysql-connector-java80.18 2. 问题描述报mysql-connector-java 驱动连不上mysql数据库。 3. 可能的原因分析查看数据库连接句柄是否对如果数据库连接句柄中没有 useSSLfalse 的话可能会导致这样的问题。就像下面这样： jdb…

阅读更多...

c# 类的方法链接例子

c# 类的方法链接例子

在这个示例中，我们创建了一个名为 Calculator 的类，它具有一些简单的数学运算方法，如 Add()、Subtract()、Multiply() 和 Divide()。每个方法都会对内部的 result 成员变量进行相应的操作，并返回 Calculator 对象本身，…

阅读更多...

FRPS配置服务端（腾讯云）、客户端（PC电脑Windows、树莓派Debian）并设置虚拟域名

FRPS配置服务端（腾讯云）、客户端（PC电脑Windows、树莓派Debian）并设置虚拟域名

1.服务端（腾讯云）：frps.ini [common] bind_port 7000 vhost_http_port8080 vhost_https_port44344 dashboard_port 7500 privilege_token your_password subdomain_host example.com use_encryption true encryption_method tls dashb…

阅读更多...

最新文章