Hive数据库与表操作全指南

目录

Hive数据库操作详解

 创建数据库

1)语法

2)案例

 查询数据库

1)展示所有数据库

(1)语法

(2)案例

2)查看数据库信息

(1)语法

(2)案例

 修改数据库

1)语法

2)案例

 删除数据库

1)语法

2)案例

 切换当前数据库

1)语法

 Hive表操作详解

 创建表

 语法

1)普通建表

(1)完整语法

(2)关键字说明:

2)Create Table As Select(CTAS)建表

3)Create Table Like语法

 案例

1)内部表与外部表

(1)内部表

(2)外部表

2)SERDE和复杂数据类型

3)create table as select 和 create table like

(1)create table as select

(2)create table like

 查看表

1)展示所有表

(1)语法

(2)案例

2)查看表信息

(1)语法

(2)案例

 修改表

1)重命名表

(1)语法

(2)案例

2)修改列信息

(1)语法

(2)案例

 删除表

1)语法

2)案例

 清空表

1)语法

2)案例


Hive数据库操作详解

 创建数据库

1)语法
CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];
2)案例
  • 创建一个数据库,不指定路径

    hive (default)> create database db_hive1;

    注:若不指定路径,其默认路径为 ${hive.metastore.warehouse.dir}/database_name.db

  • 创建一个数据库,指定路径

    hive (default)> create database db_hive2 location '/db_hive2';
  • 创建一个数据库,带有 dbproperties

    hive (default)> create database db_hive3 with dbproperties('create_date'='2022-11-18');

 查询数据库

1)展示所有数据库
(1)语法
SHOW DATABASES [LIKE 'identifier_with_wildcards'];

注:LIKE 通配表达式说明:* 表示任意个任意字符,| 表示或的关系。

(2)案例
hive> show databases like 'db_hive*';
OK
db_hive_1
db_hive_2
2)查看数据库信息
(1)语法
DESCRIBE DATABASE [EXTENDED] db_name;
(2)案例
  1. 查看基本信息

    hive> desc database db_hive3;
    OK
    db_hive    hdfs://hadoop12:8020/user/hive/warehouse/db_hive.db   lzl   USER
  2. 查看更多信息

    hive> desc database extended db_hive3;
    OK
    db_name    comment    location    owner_name    owner_type    parameters
    db_hive3    hdfs://hadoop12:8020/user/hive/warehouse/db_hive3.db    lzl    USER    {create_date=2022-11-18}

 修改数据库

用户可以使用 ALTER DATABASE 命令修改数据库某些信息,其中能够修改的信息包括 dbpropertieslocationowner user。需要注意的是:修改数据库 location,不会改变当前已有表的路径信息,而只是改变后续创建的新表的默认的父目录。

1)语法
  • 修改 dbproperties

    ALTER DATABASE database_name SET DBPROPERTIES (property_name=property_value, ...);
  • 修改 location

    ALTER DATABASE database_name SET LOCATION hdfs_path;
  • 修改 owner user

    ALTER DATABASE database_name SET OWNER USER user_name;
2)案例
  • 修改 dbproperties

    hive> ALTER DATABASE db_hive3 SET DBPROPERTIES ('create_date'='2022-11-20');

 删除数据库

1)语法
DROP DATABASE [IF EXISTS] database_name [RESTRICT|CASCADE];

注:RESTRICT:严格模式,若数据库不为空,则会删除失败,默认为该模式。
CASCADE:级联模式,若数据库不为空,则会将库中的表一并删除。

2)案例
  • 删除空数据库

    hive> drop database db_hive2;
  • 删除非空数据库

    hive> drop database db_hive3 cascade;

 切换当前数据库

1)语法
USE database_name;

 Hive表操作详解

 创建表

 语法
1)普通建表
(1)完整语法
CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
((col_name data_type [COMMENT col_comment], ...)
)
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format] 
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)];
(2)关键字说明:
  1. TEMPORARY

     

    临时表,该表只在当前会话可见,会话结束,表会被删除。

  2. EXTERNAL(重点)

     

    外部表,与之相对应的是内部表(管理表)。管理表意味着Hive会完全接管该表,包括元数据和HDFS中的数据。而外部表则意味着Hive只接管元数据,而不完全接管HDFS中的数据。

  3. data_type(重点)

     

    Hive中的字段类型可分为基本数据类型和复杂数据类型。

     

    基本数据类型如下:

    Hive说明定义
    tinyint1byte有符号整数
    smallint2byte有符号整数
    int4byte有符号整数
    bigint8byte有符号整数
    boolean布尔类型,true或者false
    float单精度浮点数
    double双精度浮点数
    decimal十进制精准数字类型decimal(16,2)
    varchar字符序列,需指定最大长度,最大长度的范围是[1,65535]varchar(32)
    string字符串,无需指定最大长度
    timestamp时间类型
    binary二进制数据

    复杂数据类型如下:

    类型说明定义取值
    array数组是一组相同类型的值的集合array<string>arr[0]
    mapmap是一组相同类型的键-值对集合map<string, int>map['key']
    struct结构体由多个属性组成,每个属性都有自己的属性名和数据类型struct<id:int, name:string>struct.id

    注:类型转换

     

    Hive的基本数据类型可以做类型转换,转换的方式包括隐式转换以及显示转换。

     

    方式一:隐式转换

     

    具体规则如下:

     

    a. 任何整数类型都可以隐式地转换为一个范围更广的类型,如tinyint可以转换成int,int可以转换成bigint。

     

    b. 所有整数类型、float和string类型都可以隐式地转换成double。

     

    c. tinyint、smallint、int都可以转换为float。

     

    d. boolean类型不可以转换为任何其它的类型。

     

    详情可参考Hive官方说明:Allowed Implicit Conversionsicon-default.png?t=N7T8https://tongyi.aliyun.com/qianwen/?sessionId=05dafa94c8504e1faa491422eb8defe2#LanguageManualTypes-AllowedImplicitConversions

     

    方式二:显示转换

     

    可以借助cast函数完成显示的类型转换

     

    a. 语法

    cast(expr as <type>)

    b. 案例

    hive (default)> select '1' + 2, cast('1' as int) + 2;
    _c0  _c1
    3.0  3
  4. PARTITIONED BY(重点)

     

    创建分区表

  5. CLUSTERED BY ... SORTED BY .. INTO ... BUCKETS(重点)

     

    创建分桶表

  6. ROW FORMAT(重点)

     

    指定SERDE,SERDE是Serializer and Deserializer的简写。Hive使用SERDE序列化和反序列化每行数据。详情可参考 Hive-Serde。语法说明如下:

     

    语法一: DELIMITED关键字表示对文件中的每个字段按照特定分割符进行分割,其会使用默认的SERDE对每行数据进行序列化和反序列化。

    ROW FORMAT DELIMITED
    [FIELDS TERMINATED BY char]
    [COLLECTION ITEMS TERMINATED BY char]
    [MAP KEYS TERMINATED BY char]
    [LINES TERMINATED BY char]
    [NULL DEFINED AS char]

    注:

    • FIELDS TERMINATED BY:列分隔符
    • COLLECTION ITEMS TERMINATED BY:map、struct和array中每个元素之间的分隔符
    • MAP KEYS TERMINATED BY:map中的key与value的分隔符
    • LINES TERMINATED BY:行分隔符

    语法二: SERDE关键字可用于指定其他内置的SERDE或者用户自定义的SERDE。例如JSON SERDE,可用于处理JSON字符串。

    ROW FORMAT SERDE serde_name
    [WITH SERDEPROPERTIES (property_name=property_value, property_name=property_value, ...)]
  7. STORED AS(重点)

     

    指定文件格式,常用的文件格式有textfile(默认值),sequence file,orc file、parquet file等等。

  8. LOCATION

     

    指定表所对应的HDFS路径,若不指定路径,其默认值为 ${hive.metastore.warehouse.dir}/db_name.db/table_name

  9. TBLPROPERTIES

     

    用于配置表的一些KV键值对参数

2)Create Table As Select(CTAS)建表

该语法允许用户利用select查询语句返回的结果,直接建表,表的结构和查询语句的结构保持一致,且保证包含select查询语句返回的内容。

CREATE [TEMPORARY] TABLE [IF NOT EXISTS] table_name
[COMMENT table_comment]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]
3)Create Table Like语法

该语法允许用户复刻一张已经存在的表结构,与上述的CTAS语法不同,该语法创建出来的表中不包含数据。

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name
[LIKE exist_table_name]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
 案例
1)内部表与外部表
(1)内部表

Hive中默认创建的表都是内部表,有时也被称为管理表。对于内部表,Hive会完全管理表的元数据和数据文件。

创建内部表如下:

create table if not exists student(id int, name string
)
row format delimited fields terminated by '\t'
location '/user/hive/warehouse/student';

准备其需要的文件如下,注意字段之间的分隔符。

[lzl@hadoop12 datas]$ vim /opt/module/datas/student.txt
1001	student1
1002	student2
1003	student3
1004	student4
1005	student5
1006	student6
1007	student7
1008	student8
1009	student9
1010	student10
1011	student11
1012	student12
1013	student13
1014	student14
1015	student15
1016	student16

上传文件到Hive表指定的路径

[lzl@hadoop12 datas]$ hadoop fs -put student.txt /user/hive/warehouse/student

删除表,观察数据HDFS中的数据文件是否还在

hive (default)> drop table student;
(2)外部表

外部表通常可用于处理其他工具上传的数据文件,对于外部表,Hive只负责管理元数据,不负责管理HDFS中的数据文件。

创建外部表如下:

create external table if not exists student(id int, name string
)
row format delimited fields terminated by '\t'
location '/user/hive/warehouse/student';

上传文件到Hive表指定的路径

[lzl@hadoop12 datas]$ hadoop fs -put student.txt /user/hive/warehouse/student

删除表,观察数据HDFS中的数据文件是否还在

hive (default)> drop table student;
2)SERDE和复杂数据类型

本案例重点练习SERDE和复杂数据类型的使用。

若现有如下格式的JSON文件需要由Hive进行分析处理,请考虑如何设计表?

注:以下内容为格式化之后的结果,文件中每行数据为一个完整的JSON字符串。

{"name": "dasongsong","friends": ["bingbing","lili"],"students": {"xiaohaihai": 18,"xiaoyangyang": 16},"address": {"street": "hui long guan","city": "beijing","postal_code": 10010}
}

我们可以考虑使用专门负责JSON文件的JSON Serde,设计表字段时,表的字段与JSON字符串中的一级字段保持一致,对于具有嵌套结构的JSON字符串,考虑使用合适复杂数据类型保存其内容。最终设计出的表结构如下:

hive>
create table teacher
(name   string,friends array<string>,students map<string,int>,address struct<city:string,street:string,postal_code:int>
)
row format serde 'org.apache.hadoop.hive.serde2.JsonSerDe'
location '/user/hive/warehouse/teacher';

创建该表,并准备以下文件。注意,需要确保文件中每行数据都是一个完整的JSON字符串,JSON SERDE才能正确地处理。

[lzl@hadoop12 datas]$ vim /opt/module/datas/teacher.txt
{"name":"dasongsong","friends":["bingbing","lili"],"students":{"xiaohaihai":18,"xiaoyangyang":16},"address":{"street":"hui long guan","city":"beijing","postal_code":10010}}

上传文件到Hive表指定的路径

[lzl@hadoop12 datas]$ hadoop fs -put teacher.txt /user/hive/warehouse/teacher

尝试从复杂数据类型的字段中取值

3)create table as select 和 create table like
(1)create table as select
hive>
create table teacher1 as select * from teacher;
(2)create table like
hive>
create table teacher2 like teacher;

 

 查看表

1)展示所有表
(1)语法
SHOW TABLES [IN database_name] LIKE ['identifier_with_wildcards'];

注:LIKE 通配表达式说明:* 表示任意个任意字符,| 表示或的关系。

(2)案例
hive> show tables like 'stu*';
2)查看表信息
(1)语法
DESCRIBE [EXTENDED | FORMATTED] [db_name.]table_name

注:EXTENDED:展示详细信息
FORMATTED:对详细信息进行格式化的展示

(2)案例
  1. 查看基本信息

    hive> desc stu;
  2. 查看更多信息

    hive> desc formatted stu;

 修改表

1)重命名表
(1)语法
ALTER TABLE table_name RENAME TO new_table_name
(2)案例
hive (default)> alter table stu rename to stu1;
2)修改列信息
(1)语法
  1. 增加列

     

    该语句允许用户增加新的列,新增列的位置位于末尾。

    ALTER TABLE table_name ADD COLUMNS (col_name data_type [COMMENT col_comment], ...)
  2. 更新列

     

    该语句允许用户修改指定列的列名、数据类型、注释信息以及在表中的位置。

    ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]
  3. 替换列

     

    该语句允许用户用新的列集替换表中原有的全部列。

    ALTER TABLE table_name REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)
(2)案例
  1. 查询表结构

    hive (default)> desc stu;
  2. 添加列

    hive (default)> alter table stu add columns(age int);
  3. 查询表结构

    hive (default)> desc stu;
  4. 更新列

    hive (default)> alter table stu change column age ages double;
  5. 替换列

    hive (default)> alter table stu replace columns(id int, name string);

 删除表

1)语法
DROP TABLE [IF EXISTS] table_name;
2)案例
hive (default)> drop table stu;

 清空表

1)语法
TRUNCATE [TABLE] table_name

注意:TRUNCATE 只能清空管理表,不能删除外部表中数据。

2)案例
hive (default)> truncate table student;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/53220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Simulink:循环计数器 Counter Free-Running

原文&#xff1a;Matlab生成stm32代码_matlab stm32-CSDN博客 使用“Counter Free-Running”模块进行计数&#xff0c;参数配置如下 此配置的意思为每0.5秒计数一次&#xff0c;计数的最大值为2^Nbits – 1&#xff0c;其中Nbits为所填的2&#xff0c;所以这里最大值为3。 示波…

【多线程】死锁

&#x1f970;&#x1f970;&#x1f970;来都来了&#xff0c;不妨点个关注叭&#xff01; &#x1f449;博客主页&#xff1a;欢迎各位大佬!&#x1f448; 文章目录 1. 死锁的三种情况1.1 一个线程一把锁&#xff08;同一个线程给同一个对象加两次锁的情况&#xff09;1.2 两…

彻底解决 node/npm, Electron下载失败相关问题, 从底层源码详解node electron 加速配置

最近玩了一下electron项目, 总是会遇到electron的下载失败问题, 于是看了一下node源码, 做一个记录. node/npm 加速配置 这个配置通过设置node配置里面的registry 这个配置项来完成加速. 配置方法 npm config set registry https://registry.npmmirror.com上面的命令就是将当…

【全网最全】2024年数学建模国赛C题超详细保奖思路+可视化图表+成品论文+matlab/python代码等(后续会更新

您的点赞收藏是我继续更新的最大动力&#xff01; 一定要点击如下的卡片&#xff0c;那是获取资料的入口&#xff01; 基于优化模型的农作物的种植策略 摘要 随着农业生产向集约化和智能化方向发展&#xff0c;优化种植策略以最大化经济收益成为当前农业研究中的重要问题。本…

车载测试协议:ISO-14229、ISO-15765、ISO-11898、ISO-26262【车企项目实操学习】②

FOTA模块中OTA的知识点&#xff1a;1.测试过程中发现哪几类问题&#xff1f; 可能就是一个单键的ecu&#xff0c;比如升了一个门的ecu&#xff0c;他的升了之后就关不上&#xff0c;还有就是升级组合ecu的时候&#xff0c;c屏上不显示进度条。 2.在做ota测试的过程中&#xff…

已入职华为!!关于我成功拿下华为大模型算法岗经验总结

方向:大模型算法工程师 整个面试持续了1小时10分钟&#xff0c;能够看出面试官是典型搞技术的&#xff0c;问的很专业又很细&#xff0c;全程感觉压力好大&#xff0c;面完后感觉丝丝凉意&#xff0c;不过幸好还是成功拿下了Offer 一面: 自我介绍 简历项目深度交流 1.项目的背…

Java笔试面试题AI答之JDBC(2)

文章目录 7. 列出Java应该遵循的JDBC最佳实践&#xff1f;8. Statement与PreparedStatement的区别,什么是SQL注入&#xff0c;如何防止SQL注入Statement与PreparedStatement的区别什么是SQL注入如何防止SQL注入 9. JDBC如何连接数据库&#xff1f;1. 加载JDBC驱动程序2. 建立数…

[网络原理]关于网络的基本概念 及 协议

文章目录 一. 关于网络的概念介绍1. 局域⽹LAN2. ⼴域⽹WAN3. 主机4. 路由器5. 交换机IP地址端口号 二. 协议协议分层TCP/IP五层模型(或四层)OSI七层模型封装分用 一. 关于网络的概念介绍 1. 局域⽹LAN 局域⽹&#xff0c;即 Local Area Network&#xff0c;简称LAN。 Local …

二叉树的层次遍历(10道)

&#xff08;写给未来遗忘的自己&#xff09; 102.二叉数的层序遍历&#xff08;从上到下&#xff09; 题目&#xff1a; 代码&#xff1a; class Solution { public: vector<vector<int>> levelOrder(TreeNode* root) { vector<vector<int>> r…

JVM系列(十) -垃圾收集器介绍

一、摘要 在之前的几篇文章中,我们介绍了 JVM 内部布局、对象的创建过程、运行期的相关优化手段以及垃圾对象的回收算法等相关知识。 今天通过这篇文章,结合之前的知识,我们一起来了解一下 JVM 中的垃圾收集器。 二、垃圾收集器 如果说收集算法是内存回收的方法论,那么…

稀土废水回收硫酸铵树脂技术

稀土废水回收硫酸铵的过程主要涉及到化学沉淀法、离子交换法和蒸发结晶法等技术。这些方法可以有效地从稀土废水中回收硫酸铵&#xff0c;同时降低废水中的氨氮含量&#xff0c;实现资源的循环利用。以下是具体的技术介绍&#xff1a; 稀土废水回收硫酸铵的技术 ● 化学沉淀…

【MATLAB】矩阵的合并

矩阵的合并是指将两个或者多个矩阵合并到一起构成一个新的矩阵。矩阵标识符方括号 [ ]&#xff0c;不仅可以用来创建新的矩阵&#xff0c;还可以用来将若干个矩阵合并到一起。表达式 C [A B] 将矩阵A和B在水平方向上合并到一起&#xff0c;而表达式C[A;B]则将矩阵A和B在竖直方…

java项目docker部署时进行热部署

本文需要pontwiner进行配合操作 1.上传文件到对应服务器&#xff0c;可以通过xftp等文件上传工具进行文件上传 2.获取docker imagId XX为项目部署名称 例如&#xff1a;test-server docker ps -a |grep XX 3.复制文件到docker容器的/tmp目录下 docker cp XXXX.class im…

WEB服务与虚拟主机/IIS中间件部署

WWW&#xff08;庞大的信息系统&#xff09;是基于客户机/服务器⽅式的信息发现技术和超⽂本技术的综合。网页浏览器//网页服务器 WWW的构建基于三项核⼼技术&#xff1a; HTTP&#xff1a;超文本传输协议&#xff0c;⽤于在Web服务器和客户端之间传输数据。HTML&#xff1a;⽤…

工业制造企业如何与供应商间 进行高效安全的企业间文件传输?

工业制造企业的供应商数量通常较多&#xff0c;这主要是由于工业制造行业的复杂性和多元化特点所决定的。工业制造企业的产品结构往往较为复杂&#xff0c;涉及到多种原材料、零部件和设备。这些物资的需求不仅数量大&#xff0c;而且种类繁多&#xff0c;因此需要与多个供应商…

HR招聘新员工,如何考察企业文化适配度

要解决文化适配性问题&#xff0c;那在招聘过程中一定要明确企业核心价值观。比如通过制定明确文化价值观手册的方式&#xff0c;向求职者展示企业的使命愿景和价值观。 目前最为理想的考察方式就是线上的人才测评&#xff0c;比如&#xff1a;采用职业价值观测评法&#xff0…

【HarmonyOS】头像圆形裁剪功能之手势放大缩小,平移,双击缩放控制(三)

【HarmonyOS】头像裁剪之手势放大缩小&#xff0c;平移&#xff0c;双击缩放控制&#xff08;三&#xff09; 一、DEMO效果图&#xff1a; 二、开发思路&#xff1a; 使用矩阵变换控制图片的放大缩小和平移形态。 通过监听点击手势TapGesture&#xff0c;缩放手势PinchGes…

餐厅食品留样管理系统小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;窗口负责人管理&#xff0c;窗口员工管理&#xff0c;冰柜管理&#xff0c;排班信息管理&#xff0c;留样食品管理&#xff0c;教育宣传管理&#xff0c;系统管理 微信端账号功能包括&#xff1a;系统…

HTML/CSS/JS学习笔记 Day2(HTML)

跟着该视频学习&#xff0c;记录笔记&#xff1a;【黑马程序员pink老师前端入门教程&#xff0c;零基础必看的h5(html5)css3移动端前端视频教程】https://www.bilibili.com/video/BV14J4114768?p12&vd_source04ee94ad3f2168d7d5252c857a2bf358 Day2 内容梳理&#xff1a;…

Python爬虫:通过js逆向获取某瓜视频的下载链接

爬虫:通过js逆向获取某瓜视频的下载链接 1. 前言2. 获取script标签下的视频加密数据3. 第一步:获取解密后的视频下载链接4. 第二步:模拟生成加密的webid值 1. 前言 就小编了解&#xff0c;某瓜视频这个网站对应视频下载链接加密处理至少经过三个版本。之前在CSDN发布了一篇关于…