Hive分区表实战 - 单分区字段

文章目录

  • 一、实战概述
  • 二、实战步骤
    • (一)创建图书数据库
    • (二)创建国别分区的图书表
    • (三)在本地创建数据文件
    • (四)按分区加载数据
      • 1、加载中文书籍数据到`country=cn`分区
      • 2、加载英文书籍数据到`country=en`分区
    • (五)查看分区表book全部记录
    • (六) 通过HDFS查看分区对应的目录及文件
    • (七)手动创建分区并上传数据
      • 1、在HDFS上手动创建`country=jp`分区目录
      • 2、创建日文书籍数据文件`jp_book.txt`
      • 3、上传文件到HDFS日本分区目录
      • 4、更新元数据以识别新分区
    • (八)再次查看book表全部记录
    • (九)删除指定分区
    • (十)更改分区名
    • (十一)在MySQL中查看Hive元数据(分区信息)
      • 1、登录MySQL Hive Metastore数据库
      • 2、 查看book表分区元数据信息
  • 三、实战总结

一、实战概述

  • 在本Hive分区表管理实战中,我们通过一系列实际操作演示了如何有效地利用分区功能来组织和查询大规模数据。首先,创建了一个名为book的内部分区表,其结构包含idname字段,并根据country字段进行分区。接下来,准备并加载了不同国家(中国和英国)书籍的数据文件到对应的分区目录中。

  • 为了展示分区灵活性,我们还模拟了手动创建新分区(日本),上传数据文件并通过msck repair table命令将新分区纳入表的元数据管理中。此外,实战还涉及分区的删除、重命名等操作,直观展示了Hive如何同步更新分区状态至HDFS存储及元数据层面。

  • 最后,通过查看MySQL中Hive Metastore数据库的相关表信息,揭示了Hive如何记录分区的具体元数据内容,包括分区位置等关键信息。整个实战过程充分展现了Hive分区表在提升查询效率、实现数据分类存储以及简化数据管理方面的强大能力。

二、实战步骤

(一)创建图书数据库

  • 执行命令:create database bookdb;
    在这里插入图片描述
  • 执行命令:use bookdb;,切换到bookdb数据库
    在这里插入图片描述

(二)创建国别分区的图书表

  • 执行语句:create table book (id int, name string) partitioned by (country string) row format delimited fields terminated by ' ';,创建book
    在这里插入图片描述

(三)在本地创建数据文件

  • 在master虚拟机上创建中文书籍数据文件cn_book.txt
    在这里插入图片描述
  • 在master虚拟机上创建英文书籍数据文件en_book.txt
    在这里插入图片描述

(四)按分区加载数据

1、加载中文书籍数据到country=cn分区

  • 执行语句:load data local inpath '/root/cn_book.txt' overwrite into table book partition(country='cn');
    在这里插入图片描述

2、加载英文书籍数据到country=en分区

  • 执行语句:load data local inpath '/root/en_book.txt' overwrite into table book partition(country='en');
    在这里插入图片描述

(五)查看分区表book全部记录

  • 执行语句:select * from book;,注意:第三列是分区字段
    在这里插入图片描述

(六) 通过HDFS查看分区对应的目录及文件

  • 使用HDFS Shell命令检查/user/hive/warehouse/bookdb.db/book(假设这是hive表的默认存储位置)下的country=cncountry=en分区目录及其内部的数据文件。
  • 执行命令:hdfs dfs -ls -r /user/hive/warehouse/bookdb.db/book
    在这里插入图片描述

(七)手动创建分区并上传数据

1、在HDFS上手动创建country=jp分区目录

  • 执行命令:hdfs dfs -mkdir /user/hive/warehouse/bookdb.db/book/country=jp
    在这里插入图片描述

2、创建日文书籍数据文件jp_book.txt

  • 在master虚拟机上创建jp_book.txt
    在这里插入图片描述

3、上传文件到HDFS日本分区目录

  • 执行命令:hdfs dfs -put jp_book.txt /user/hive/warehouse/bookdb.db/book/country=jp
    在这里插入图片描述

4、更新元数据以识别新分区

  • 执行语句:msck repair table book;
    在这里插入图片描述

(八)再次查看book表全部记录

  • 执行语句:select * from book;,注意:第三列是分区字段
    在这里插入图片描述

(九)删除指定分区

  • 执行语句:alter table book drop partition (country='jp');,删除country=jp分区
    在这里插入图片描述
  • 此时,查看分区表全部记录,就会发现没有日本书籍记录
    在这里插入图片描述

(十)更改分区名

  • 将原有country=cn分区重命名为country=zh,执行语句:alter table book partition (country='cn') rename to partition (country='zh');
    在这里插入图片描述
  • 此时,查看分区表全部记录
    在这里插入图片描述

(十一)在MySQL中查看Hive元数据(分区信息)

1、登录MySQL Hive Metastore数据库

  • 执行命令:mysql -uroot -p903213,登录MySQL,然后执行use hive;,打开hive元数据库
    在这里插入图片描述

2、 查看book表分区元数据信息

  • 执行语句:SELECT * FROM COLUMNS_V2;,book分区表的CD_ID值是27
    在这里插入图片描述

  • 执行语句:select SD_ID, CD_ID, LOCATION from SDS where CD_ID = 27;
    在这里插入图片描述

三、实战总结

  • 本实战演练全面展示了如何在Hive中创建和管理分区表,通过实际操作演示了数据按国别分区存储、加载与查询的全过程。从创建book表开始,依次完成了数据文件准备、分区数据加载、分区查看及更新元数据等任务,并进一步演示了分区的增删改查操作,最后通过MySQL查看Hive Metastore中记录的分区元数据信息,充分体现了Hive分区表在提升查询效率与简化数据管理方面的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/610284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全技能讲座 - 便携式灭火器 (Portable Fire Extinguishers )

【Transcript 】 火灾随时随地都可能发生,而且毫无征兆。如果您在家中或工作中遇到火灾,便携式灭火器可以帮助您保护自己,并有可能将火灾扼杀在摇篮中。本课程将向您介绍便携式灭火器、其工作原理和使用方法。成功完成本课程后,您…

字节跳动今年的校招薪资。。。

字节跳动校招情况分析 在写完了绝对顶流 华为 和近两年炙手可热的 比亚迪 的校招薪资之后,不少同学点名要看「字节跳动」。 确实,玩归玩,闹归闹,别拿字节开玩笑。 先来看看和公众号读者相关性较高的岗位校待遇: 研发算…

three.js实现电子围栏效果(纹理贴图)

three.js实现电子围栏效果&#xff08;纹理贴图&#xff09; 实现步骤 围栏的坐标坐标转换为几何体顶点&#xff0c;uv顶点坐标加载贴图&#xff0c;移动 图例 代码 <template><div class"app"><div ref"canvesRef" class"canvas-…

Linux的网络配置命令和网络设置实操

目录 一、网路命令 1.ifconfig 2.hostname 3.route 4.netstat 5.ss&#xff08;socket statistics&#xff09; 6.ping 7.nslookup 8.tcpdump 二、实操 1.单个网卡修改 2.双网卡配置 3.bond网卡绑定 一、网路命令 查看Linux基础的网络设置 网关route -nIP地址ifc…

算法与数据结构--最小生成树算法

一.应用的场景 类似于这种最小成本问题&#xff0c;实际上就是计算加权图把所有点连起来权重之和最小值的时候是怎么连接的。类似的问题还有最短耗时之类的问题。 二.最小生成树的定义 生成树&#xff1a; 图的生成树是它的一颗含有其所有顶点的无环连通子图。 【简单说就是所…

Java中的IO流

在Java中&#xff0c;I/O&#xff08;输入/输出&#xff09;流用于处理与输入和输出相关的操作。Java的I/O流按照数据处理的不同方式分为两大类&#xff1a;字节流和字符流。每个类别又分为输入流和输出流。以下是Java中常用的I/O流及其继承关系&#xff1a; 字节流&#xff0…

BERT Intro

继续NLP的学习&#xff0c;看完理论之后再看看实践&#xff0c;然后就可以上手去kaggle做那个入门的project了orz。 参考&#xff1a; 1810.04805.pdf (arxiv.org) BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili (强推!)2023李宏毅讲解大模型鼻祖BERT&#xff0c;一小时…

竞赛保研 基于深度学习的动物识别 - 卷积神经网络 机器视觉 图像识别

文章目录 0 前言1 背景2 算法原理2.1 动物识别方法概况2.2 常用的网络模型2.2.1 B-CNN2.2.2 SSD 3 SSD动物目标检测流程4 实现效果5 部分相关代码5.1 数据预处理5.2 构建卷积神经网络5.3 tensorflow计算图可视化5.4 网络模型训练5.5 对猫狗图像进行2分类 6 最后 0 前言 &#…

探索芊芊简历:一个革新的简历创建工具

在寻找理想工作的道路上&#xff0c;一份出色的简历是打开机遇之门的关键。今天&#xff0c;我想向大家介绍一款名为“芊芊简历”的免费简历编辑器&#xff0c;它以其独特的功能和先进的技术&#xff0c;为求职者提供了一个简单而高效的简历制作解决方案。 丰富多样的模板&…

虚拟局域网的基本概念与基本原理

虚拟局域网&#xff08;Virtual Local Area Network&#xff0c;VLAN&#xff09;是一种在物理局域网内部划分逻辑上独立的虚拟网络的方法。它通过在网络交换机上配置&#xff0c;将不同的设备分组到不同的虚拟网络中&#xff0c;实现了逻辑上分隔的网络通信。本文将介绍虚拟局…

北京大学漏洞报送证书

获取来源&#xff1a;edusrc&#xff08;教育漏洞报告平台&#xff09; url&#xff1a;教育漏洞报告平台(EDUSRC) 兑换价格&#xff1a;30金币 获取条件&#xff1a;北京大学任意中危或以上级别漏洞

【排序】快速排序

思想 快速排序是一种基于分治策略的排序算法&#xff0c;其核心思想通过选取一个基准元素&#xff0c;将数组分成两个子数组&#xff1a;一个包含小于基准元素的值&#xff0c;另一个包含大于基准元素的值。然后递归地对这两个子数组进行排序&#xff0c;最终将它们合并起来&a…

UltraScale 和 UltraScale+ 生成已加密文件和已经过身份验证的文件

注释 &#xff1a;如需了解更多信息&#xff0c;请参阅《使用加密和身份验证确保 UltraScale/UltraScale FPGA 比特流的安全》 (XAPP1267)。 要生成加密比特流&#xff0c;请在 Vivado IDE 中打开已实现的设计。在主工具栏中&#xff0c;依次选择“Flow” → “Bitstream Setti…

解决在eclipse2021中,用mysql-connector-java-8.0.18.jar不兼容,导致无法访问数据库问题

1.环境场景 组件版本mysql5.7.44mysql-connector-java80.18 2. 问题描述 报mysql-connector-java 驱动连不上mysql数据库。 3. 可能的原因分析 查看数据库连接句柄是否对 如果数据库连接句柄中没有 useSSLfalse 的话可能会导致这样的问题。 就像下面这样&#xff1a; jdb…

FRPS配置服务端(腾讯云)、客户端(PC电脑Windows、树莓派Debian)并设置虚拟域名

1.服务端&#xff08;腾讯云&#xff09;&#xff1a;frps.ini [common] bind_port 7000 vhost_http_port8080 vhost_https_port44344 dashboard_port 7500 privilege_token your_password subdomain_host example.com use_encryption true encryption_method tls dashb…

搭建zuul网关

1. 路由知识 有关网关的很多知识我们都在04.gateway讲解了&#xff0c;有关网关的详细知识可以到上节详细了解。本节我们主要来讲解下另一个网关zuul。本节结合之前的章节网关搭建的项目案例上实现zuul的搭建&#xff0c;侧重于实战。 2. Zuul现状 zuul官方文档 zuul截止clo…

【ZooKeeper高手实战】ZooKeeper 工业级的场景(配置中心、日志系统、数据同步系统)

&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308;&#x1f308; 欢迎关注公众号&#xff08;通过文章导读关注&#xff1a;【11来了】&#xff09;&#xff0c;及时收到 AI 前沿项目工具及新技术 的推送 发送 资料 可领取 深入理…

深入理解 Hadoop (五)YARN核心工作机制浅析

概述 YARN 的核心设计理念是 服务化&#xff08;Service&#xff09; 和 事件驱动&#xff08;Event EventHandler&#xff09;。服务化 和 事件驱动 软件设计思想的引入&#xff0c;使得 YARN 具有低耦合、高内聚的特点&#xff0c;各个模块只需完成各自功能&#xff0c;而模…

熟悉HDFS常用操作

1. 利用Hadoop提供的Shell命令完成下列任务 (1)向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件。 #检查文件是否存在./bin/hdfs dfs -test -e text.txt echo $? #结果是1 代表已存在 #根据结果判断出文件已存…

dubbo与seata集成

1.seata是什么? Seata 是一款开源的分布式事务解决方案&#xff0c;致力于在微服务架构下提供高性能和简单易用的分布式事务服务。 2.seata的注解 GlobalTransactional&#xff1a;全局事务注解&#xff0c;添加了以后可实现分布式事务的回滚和提交&#xff0c;用法与spring…