-Hive-

Hive定义

Hive 是一种数据仓库技术,用于查询和管理存储在分布式环境下的大数据集。构建于Hadoop的HDFS和MapReduce上,用于管理和查询分析结构化/非结构化数据的数据仓库;

  • 使用HQL(类SQL语句)作为查询接口;
  • 使用HDFS作为底层存储;
  • 使用MapReduce作为执行层,即将HQL语句转译成M/R Job然后在Hadoop执行
    Hive的表其实就是HDFS的目录/文件夹,按表名把文件夹分开。如果是分区表,则分区值是子文件夹;

Hive概述—元数据、数据、目录

  • 元数据保存在DB(Derby/MySQL)中,包括表的名字、表的列和分区及其属性,表的属性包括是否为外部表等,表的数据所在目录等;
  • 数据位于集群目录下:
  1. 内部表:/user/hive/warehouse/表名;
  2. 外部表:用户自定的目录;
  • 表的数据即文件(表对应文件夹下);上传文件即相当于上传数据到数据表中;文件可以有多个;表的分区对应子目录;

Hive概述—Hive Shell

Hive Shell 把 HiveQL 查询转换为一系列 MapReduce 作业对任务进行并行处理, 然后返回处理结果。

Hive 采用 RDBMS 表 (table) 形式组织数据
, 并为存储在 Hadoop上的数据提供附属的对数据
进行展示的结构描述信息,该描述信息称为元数据
(metadata)或表模式,以 metastore 形式存储在
RDBMS 数据库中。

Hive使用—内、外部表的区别

两者的相同点:需要指定元数据;都支持分区

不同点:实际数据的存储地点不同

  1. 内部表。实际数据存储在数据仓库目录(默认集群/user/hive/warehouse 下)。删除表时,表中的数据和元数据将会被同时删除。
  2. 外部表。实际数据存储在创建语句location指定的HDFS路径中,不会移动到数据库目录中。如果删除一个外部表,仅会删除元数据,表中的数据不会被删除。

Hive使用—分区Partition

在实际项目中,经常“按天分表 的模式设计数据库!Hive分区类似数据库中相应分区列的一个索引;Hive表中的一个分区对应表下的一个目录,所有分区的数据都存储在各自对应的子目录中

例如:htable包含ds、city两个分区,则相同日期、不同
城市的hdfs目录分别为:

  • /datawarehouse/htable/ds=20100301/city=GZ
  • /datawarehouse/htable/ds=20100301/city=BJ

Hive使用—桶Bucket

桶对指定列进行哈希(hash)计算时,根据哈希值切分数据,每个桶对应一个文件。
例如:将属性列user分散到32个桶中,哈希值为0、10的分别对应的文件为:

  • /datawarehouse/htable/ds=20100301/city=GZ/part-00000
  • /datawarehouse/htable/ds=20100301/city=GZ/part-00010

Hive使用—分区、分桶、索引

  • 索引和分区最大的区别就是索引不分割数据表,分区分割数据表。
  • 分区和分桶最大的区别就是分桶随机分割数据表,分区是非随机分割数据表。

Hive使用—Hive 表 DDL 操作

  1. Create/Drop/Alter 数据库
  2. Create/Drop/Truncate 表
  3. Alter 表/分区/列
  4. Create/Drop/Alter 视图
  5. Create/Drop/Alter 索引
  6. Create/Drop 函数
  7. Create/Drop/Grant/Revoke 角色和权限

Hive使用—Hive 表 DML 操作

  1. 将文件中的数据Load到 Hive 表中
  2. select 操作
  3. 将 select 查询结果插入 hive 表中
  4. 将 select 查询结果写入文件
  5. Hive 表 ACID 事务特性

Hive使用—Hive数据类型

基本数据类型:

  • tinyint/smallint/int/bigint 整数类型
  • float/double 浮点类型
  • boolean 布尔类型
  • string/varchar/char 字符串类型
    复杂数据类型:
  • array:数组类型,由一系列相同的数据类型的元素组成
  • map:集合类型,包含key->value键值对,可通过key访问元素。
  • struct:结构类型,可以包含不同数据类型的元素,这些元素可以通过“点语法”的方式来得到所需要的元素。
    时间类型:
  • Date: 日期(年月日)
  • Timestamp: 是unix的一个时间偏移量
  • select unix_timestamp(); 查看系统的时间偏移

Hive使用—Hive表操作语法

创建表

image.png

  • external 外部表,类似于mysql的csv引擎
  • partitioned by 指定分区字段
  • clustered by sorted by 可以对表和分区对某个列进行分桶操作,也可以利用sorted by对某个字段进行排序
  • row format delimited fields terminated by ‘\t’ 指定数据行中字段间的分隔符和数据行分隔符
  • stored as 指定数据文件格式:textfile sequence rcfile inputformat (自定义的inputformat 类)
  • location 指定数据文件存放的hdfs目录

内部表建表指令(示例)
CREATE TABLE pokes (foo INT, bar STRING) row format delimited fields terminated by ‘\t’;

外部表建表指令(示例)
CREATE external TABLE ext_pokes (foo INT, bar STRING) row format delimited fields terminated by ‘\t’ location ‘/data/extpokes’

删除表

  • drop table [IF EXISTS] table_name
  • 删除内部表时会删除元数据和表数据文件
  • 删除外部表(external)时只删除元数据

修改表

image.png

image.png

Hive使用—HiveQL加载数据

加载文件数据:(local 本地、hdfs)文件数据到指定的表分区
LOAD DATA LOCAL INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');

从指定表中选取数据插入到其他表中

FROM src 
INSERT OVERWRITE TABLE dest1 SELECT src.* 
WHERE src.key < 100 
INSERT OVERWRITE TABLE dest2 SELECT src.key, 
src.value WHERE src.key >= 100 and src.key < 200 

Hive使用—HiveQL Select语句

image.png

Hive使用—分区表

image.png

Hive使用—桶的使用

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/390756.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS 7 安装 JDK

2019独角兽企业重金招聘Python工程师标准>>> 1、下载oracle jdk 下载地址&#xff1a; http://www.oracle.com/technetwork/java/javase/downloads/index.html 选择同一协议&#xff0c;下载rpm格式版本jdk&#xff0c;或tar.gz格式jdk。 2、卸载本机openjdk 2.1、查…

如何进行数据分析统计_对您不了解的数据集进行统计分析

如何进行数据分析统计Recently, I took the opportunity to work on a competition held by Wells Fargo (Mindsumo). The dataset provided was just a bunch of numbers in various columns with no indication of what the data might be. I always thought that the analys…

020-Spring Boot 监控和度量

一、概述 通过配置使用actuator查看监控和度量信息 二、使用 2.1、建立web项目&#xff0c;增加pom <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency> 启动项目&a…

matplotlib布局_Matplotlib多列,行跨度布局

matplotlib布局For Visualization in Python, Matplotlib library has been the workhorse for quite some time now. It has held its own even after more nimble rivals with easier code interface and capabilities like seaborn, plotly, bokeh etc. have arrived on the…

Hadoop生态系统

大数据架构-Lambda Lambda架构由Storm的作者Nathan Marz提出。旨在设计出一个能满足实时大数据系统关键特性的架构&#xff0c;具有高容错、低延时和可扩展等特性。Lambda架构整合离线计算和实时计算&#xff0c;融合不可变性&#xff08;Immutability&#xff09;&#xff0c…

使用Hadoop所需要的一些Linux基础

Linux 概念 Linux 是一个类Unix操作系统&#xff0c;是 Unix 的一种&#xff0c;它 控制整个系统基本服务的核心程序 (kernel) 是由 Linus 带头开发出来的&#xff0c;「Linux」这个名称便是以 「Linus’s unix」来命名的。 Linux泛指一类操作系统&#xff0c;具体的版本有&a…

python多项式回归_Python从头开始的多项式回归

python多项式回归Polynomial regression in an improved version of linear regression. If you know linear regression, it will be simple for you. If not, I will explain the formulas here in this article. There are other advanced and more efficient machine learn…

回归分析_回归

回归分析Machine learning algorithms are not your regular algorithms that we may be used to because they are often described by a combination of some complex statistics and mathematics. Since it is very important to understand the background of any algorith…

数据科学还是计算机科学_何时不使用数据科学

数据科学还是计算机科学意见 (Opinion) 目录 (Table of Contents) Introduction 介绍 Examples 例子 When You Should Use Data Science 什么时候应该使用数据科学 Summary 摘要 介绍 (Introduction) Both Data Science and Machine Learning are useful fields that apply sev…

leetcode 523. 连续的子数组和

给你一个整数数组 nums 和一个整数 k &#xff0c;编写一个函数来判断该数组是否含有同时满足下述条件的连续子数组&#xff1a; 子数组大小 至少为 2 &#xff0c;且 子数组元素总和为 k 的倍数。 如果存在&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 …

Docker学习笔记 - Docker Compose

一、概念 Docker Compose 用于定义运行使用多个容器的应用&#xff0c;可以一条命令启动应用&#xff08;多个容器&#xff09;。 使用Docker Compose 的步骤&#xff1a; 定义容器 Dockerfile定义应用的各个服务 docker-compose.yml启动应用 docker-compose up二、安装 Note t…

线性回归算法数学原理_线性回归算法-非数学家的高级数学

线性回归算法数学原理内部AI (Inside AI) Linear regression is one of the most popular algorithms used in different fields well before the advent of computers. Today with the powerful computers, we can solve multi-dimensional linear regression which was not p…

Linux 概述

UNIX发展历程 第一个版本是1969年由Ken Thompson&#xff08;UNIX之父&#xff09;在AT& T贝尔实验室实现Ken Thompson和Dennis Ritchie&#xff08;C语言之父&#xff09;使用C语言对整个系统进行了再加工和编写UNIX的源代码属于SCO公司&#xff08;AT&T ->Novell …

泰坦尼克:机器从灾难中学习_用于灾难响应的机器学习研究:什么才是好的论文?...

泰坦尼克:机器从灾难中学习For the first time in 2021, a major Machine Learning conference will have a track devoted to disaster response. The 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021) has a track on…

github持续集成的设置_如何使用GitHub Actions和Puppeteer建立持续集成管道

github持续集成的设置Lately Ive added continuous integration to my blog using Puppeteer for end to end testing. My main goal was to allow automatic dependency updates using Dependabot. In this guide Ill show you how to create such a pipeline yourself. 最近&…

shell与常用命令

虚拟控制台 一台计算机的输入输出设备就是一个物理的控制台 &#xff1b; 如果在一台计算机上用软件的方法实现了多个互不干扰独立工作的控制台界面&#xff0c;就是实现了多个虚拟控制台&#xff1b; Linux终端的工作方式是字符命令行方式&#xff0c;用户通过键盘输入命令进…

Linux文本编辑器

Linux文本编辑器 Linux系统下有很多文本编辑器。 按编辑区域&#xff1a; 行编辑器 ed 全屏编辑器 vi 按运行环境&#xff1a; 命令行控制台编辑器 vi X Window图形界面编辑器 gedit ed 它是一个很古老的行编辑器&#xff0c;vi这些编辑器都是ed演化而来。 每次只能对一…

Alpha第十天

Alpha第十天 听说 031502543 周龙荣&#xff08;队长&#xff09; 031502615 李家鹏 031502632 伍晨薇 031502637 张柽 031502639 郑秦 1.前言 任务分配是VV、ZQ、ZC负责前端开发&#xff0c;由JP和LL负责建库和服务器。界面开发的教辅材料是《第一行代码》&#xff0c;利用And…

Streamlit —使用数据应用程序更好地测试模型

介绍 (Introduction) We use all kinds of techniques from creating a very reliable validation set to using k-fold cross-validation or coming up with all sorts of fancy metrics to determine how good our model performs. However, nothing beats looking at the ra…

X Window系统

X Window系统 一种以位图方式显示的软件窗口系统。诞生于1984&#xff0c;比Microsoft Windows要早。是一套独立于内核的软件 Linux上的X Window系统 X Window系统由三个基本元素组成&#xff1a;X Server、X Client和二者通信的通道。 X Server&#xff1a;是控制输出及输入…