HIVE入门

Hive概述

什么是 Hive?
* Hive 是建立在 Hadoop HDFS 上的数据库仓库基础建构
* Hive 可以用来进行数据库提取转化加载(ETL)
* Hive 定义了简单的类似 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据
* Hive 允许熟悉 MapReduce 的开发者自定义 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂工作
* Hive 是 SQL 解析引擎,它将 SQL 语句转化成 M/R Job,然后在 Hadoop 执行
* Hive 的表其实就是 HDFS 的目录/文件

Q:数据仓库与数据库的区别?
A:数据仓库是一个面向主题(用户关注的重点)的集成的(来自于分散的数据,可以来自于Oracle、Mysql、文本等)不可更新的(方便决策,所以一般只有查询功能)、随时间不变化的数据集合,它用于支持企业或组织的决策分析处理。

数据仓库的结构和建立过程
首先要有数据源,数据源可以不限;接着对不同的数据进行存储和管理,即ETL(抽取、转换(转换成符合格式要求的数据)、装载);最后要有数据仓库引擎,需要有不同的服务器提供不同的服务,例如,前端展示(数据查询、数据报表、数据分析、各类应用)。

OLTP应用与OLAP应用
OLTP应用:面向事物,频率非常高,例如,银行转账。转账和扣钱要同步
OLAP应用:面向分析查询,不会更新、删除、和更新操作,例如,推荐系统

Hive安装的三种方式

Hive的数据模型

  1. 星型模型:例如,推荐系统,以商品为中心,有很多订单信息、客户信息、厂家信息、促销信息、物流信息等边沿,构成了星星一样的模型。
  2. 雪花模型:基于星型模型发展起来的。例如,上述还可以客户信息模型为中心继续反战家庭信息、银行信息等,还可以以别的主题为中心继续发展,模型越发展越大,成为一个雪花模型。

Hive的体系结构

一、元数据
- Hive将元数据存储在数据库中(metastore),支持mysql、derby等数据库。默认存储在derby数据库中。
- Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),标的数据所在目录等
元数据例子

二、HQL的执行过程
解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中,并在随后有MapReduce调用执行。
执行过程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java线程面试题博客园,超详细

简介 HikariCP 是用于创建和管理连接,利用“池”的方式复用连接减少资源开销,和其他数据源一样,也具有连接数控制、连接可靠性测试、连接泄露控制、缓存语句等功能,另外,和 druid 一样,HikariCP 也支持监控…

java编写斐波那契数列,实战案例

前言 提到插件,相信大家都知道,插件的存在主要是用来改变或者增强原有的功能,MyBatis中也一样。然而如果我们对MyBatis的工作原理不是很清楚的话,最好不要轻易使用插件,否则的话如果因为使用插件导致了底层工作逻辑被…

用户画像

用户画像:标签化、 用标签描述用户行为 用户画像:动态信息数据 用户行为产生的数据:注册、浏览、点击、购买、签收、评价 比较重要的行为:购买商品、浏览商品、放入购物车、关注商品 用户画像的用途:分类统计&…

java编程代写有哪些平台,学习路线+知识点梳理

前言 今天刚好有空,跟大家聊聊如何学好算法进大厂。 前两天一个读者和我说,他坚持刷算法题2个月,薪资翻番去了他梦寐以求的大厂,期间面字节跳动还遇到了原题…其实据我所知目前国内的大厂和一些独角兽,已经越来越效仿…

大话数据结构—栈与队列

栈 一、栈的定义 栈是(stack)是限定尽在表尾进行插入和删除操作的线性表。 栈又称为后进先出(Last In First Out)的线性表,简称LIFO结构。 二、进栈出栈变化形式 注意: 并不是最新进栈的元素只能最后处栈。如,我们…

【工作感悟】java编程规范pdf下载

前言 要相信,你现在所有的努力和付出都会在将来的某一天回报给你! 首先阿里巴巴作为国内互联网行业的领头羊,培养了一代又一代的IT技术人才,很多想进阿里这些互联网大厂的程序员看中的不仅仅是高薪丰厚的福利待遇,同样…

大话数据结构——串

串(string)是由零个或多个字符组成的有限序列,又名字符串。 字符串有很多函数,replace、ToUpper、ToLower(转小写)、Trim(去掉两边空格)、IndexOf(从左到右查找子串的位…

【工作感悟】全网最经典26道Spring面试题总结

开头 学习如逆水行舟,尤其是IT行业有着日新月异的节奏。 而且现在这个浮躁而又拜金的社会,我相信很多人做技术并非出于热爱,只是被互联网的高薪吸引,毕竟技术岗位非常枯燥,不仅要面对奇奇怪怪的需求,还要…

大话数据结构——树

一、树的定义 树(Tree)是n(n>0)个结点的有限集。 n0又称为空树。在任意一课非空的树中:(1)有且仅有一个特定的称为跟(Root)的结点;(2&#xf…

大话数据结构——图

图(Graph)是由定点的又穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。 一、各种图的定义 …

【工作感悟】达内java大数据课程

前言 其实前几篇文章已经写了好多有关于Spring源码的文章,事实上,很多同学虽然一直在跟着阅读、学习这些Spring的源码教程,但是一直都很迷茫,这些Spring的源码学习,似乎只是为了面试吹逼用,我大概问过一些…

大话数据结构——查找

查找(Searching)是根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素(或记录)。 一、顺序表查找 顺序查找又叫线性查找,是最基本的查找技术,它的查找过程是:从表中…

【工作经验分享】java图片转文字

前言 又到一年金九银十之际。 Java作为目前用户最多,使用范围最广的软件开发技术之一。 Java的技术体系主要由支撑Java程序运行的虚拟机,提供各开发领域接口支持的Java,Java编程语言及许多第三方Jvav框架构成。 其中,以Java的虚拟器为今天的着…

数据挖掘工程师的面试问题与答题思路

一个Java程序可以认为是一系列对象的集合,而这些对象通过调用彼此的方法来协同工作。下面简要介绍下类、对象、方法和实例变量的概念。 对象:对象是类的一个实例,有状态和行为。例如,一条狗是一个对象,它的状态有&…

【干货】java课程实战培训

开头 消息队列 RocketMQ 是阿里巴巴集团基于高可用分布式集群技术,自主研发的云正式商用的专业消息中间件,既可为分布式应用系统提供异步解耦和削峰填谷的能力,同时也具备互联网应用所需的海量消息堆积、高吞吐、可靠重试等特性,…

Java的几个特点

Java语言是简单的: Java语言的语法与C语言和C语言很接近,使得大多数程序员很容易学习和使用。另一方面,Java丢弃了C中很少使用的、很难理解的、令人迷惑的那些特性,如操作符重载、多继承、自动的强制类型转换。特别地&#xff0c…

【干货】mysql建表语句注释

前言 难道程序员的职业生命线是青春饭?答案是的。 35岁考虑转行,然后35岁又成了一个新人,而外国可以做到60岁,啥也不说了,可能是觉得中年大叔油腻,不及小鲜肉便宜,唉,可叹市场更新…

软件测试知识整理

在一个测试计划汇总能包含哪些内容? 答:在一个测试计划中可以包含需要测试的产品的特点和主要功能模块,列出需要测试的功能点,并标明侧重点;测试的策略和记录(测试工具的确认,测试用例等文档模…

【干货】mysql查询重复数据sql

前言 本系列的目的是明明白白、彻彻底底的搞定日期/时间处理的几乎所有case。上篇文章铺设所有涉及到的概念解释,例如GMT、UTC、夏令时、时间戳等等,若你还没看过,不仅强烈建议而是强制建议你前往用花5分钟看一下,因为日期时间处…

【微信小程序】java最简单观察者模式

开头 对于一个Java程序员而言,能否熟练掌握并发编程是判断他优秀与否的重要标准之一。因为并发编程是Java语言中最为晦涩的知识点,它涉及操作系统、内存、CPU、编程语言等多方面的基础能力,更为考验一个程序员的内功。 那到底应该怎么学习并…