hive 基础知识

一 hive 是什么

在本节前我们需要明确 hive 是什么

上面两个代码块,左边的是 mapreduce 的代码块,右边的是hive 的代码块

很容易看出来,右边的 hive 写起来要更容易更快些,而执行效率,右边的 hive 只比左边多一个翻译的过程,就是将写的 HQL语句 翻译成 mapreduce 去执行

简单来说 hive 就是一个中间件,可以让我们写的 HQL 语句可以被翻译成 mapreduce去执行,让我们不必再去写 mapreduce 的代码,提升我们的开发效率

二 Hive的优势和特点

  • 提供了一个简单的优化模型
  • HQL类SQL语法,简化MR开发
  • 支持在不同的计算框架上运行
  • 支持在HDFS和HBase上临时查询数据
  • 支持用户自定义函数、格式
  • 常用于ETL操作和BI 稳定可靠(真实生产环境)的批处理
  • 有庞大活跃的社区

三 Hive的发展里程碑和主流版本

Hive发展历史及版本

  • 07年8月 – 始于Facebook
  • 13年5月 – 0.11 Stinger Phase 1 ORC HiveServer2
  • 13年10月 – 0.12.0 Stinger Phase 2 - ORC improvement
  • 14年4月 – Hive 0.13.0 as Stinger Phase 3
  • 14年11月 – Hive 0.14.0
  • 15年2月 – Hive 1.0.0
  • 15年5月 – Hive 1.2.0 (1.2.1 本系列课实验重点版本 )
  • 16年2月 – Hive 2.0.0 (添加 HPLSQL, LLAP)
  • 16年6月 – Hive 2.1.0

四  Hive元数据管理

  • 记录数据仓库中模型的定义、各层级间的映射关系
  • 存储在关系数据库中
    • 默认Derby, 轻量级内嵌SQL数据库
      • Derby非常适合测试和演示
      • 存储在.metastore_db目录中
    • 实际生产一般存储在MySQL中
      • 修改配置文件hive-site.xml
  • HCatalog
    • 将Hive元数据共享给其他应用程序

五 Hive环境搭建

  • 环境准备
    • 安装jdk、hadoop、mysql(元数据管理使用)
  • 主要步骤
    • 下载并解压
    • 配置环境变量
    • 修改配置文件
    • 配置hive元数据管理
    • 启动验证

安装 hive 查看

在 linux 虚拟机上安装配置 hive_超爱慢的博客-CSDN博客

六 hive 架构

七 Hive操作-命令行模式 

  • 有两种客户端工具:Beeline和Hive命令行(CLI)
  • 有两种模式:命令行模式和交互模式
  • 命令行模式

八 Hive操作-窗口交互模式 

九 Hive操作-客户端交互模式 

  • 检查Hive服务是否已经正常启动
  • 使用Hive交互方式(输入hive即可)
  • 使用beeline
    • 需启动hiveserver2服务
      • nohup hive --service metastore &(非必须)
      • nohup hive --service hiveserver2 &
    • 输入beeline进入beeline交互模式
      • !connect jdbc:hive2://hadoop101:10000

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/69067.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis 7 第六讲 主从模式(replica)架构篇

🌹🌹🌹 此篇开始进入架构篇范围(❤艸`❤) 理论 即主从复制,master以写为主,Slave以读为主。当master数据变化的时候,自动将新的数据异步同步到其它slave数据库。 使用场景 读写分离 容灾备份数据备份水平扩容主从架构 演示案例 注:masterauth、replicaof主…

直线导轨的替换方法

目前,直线导轨的使用率持续上升,已广泛应用在各种各样的行业中,可替换性高是其广泛使用的重要原因之一!直线导轨的替换指的就是导轨和滑块可以单出,不用整套替换。 市面上使用率最高的直线导轨品牌应该就是台湾*银了&a…

优先级队列priority_queue以及仿函数的使用

目录 优先级队列priority_queuepriority_queue的模拟实现仿函数 优先级队列priority_queue 优先级队列priority_queue是一种容器适配器,根据严格的弱排序标准,它默认第一个元素总是它所包含的元素中最大的 优先级队列默认使用vector作为底层存储数据的…

Apollo在Java中的使用

本节主要讲解在普通的 Java 项目和 Spring Boot 中如何使用 Apollo。 普通 Java 项目中使用 加入 Apollo Client 的 Maven 依赖&#xff0c;代码如下所示。 <dependency><groupId>com.ctrip.framework.apollo</groupId><artifactId>apollo-client<…

kali 安装cpolar内网穿透实现 ssh 远程连接

文章目录 1. 启动kali ssh 服务2. kali 安装cpolar 内网穿透3. 配置kali ssh公网地址4. 远程连接5. 固定连接SSH公网地址6. SSH固定地址连接测试 简单几步通过cpolar 内网穿透软件实现ssh 远程连接kali! 1. 启动kali ssh 服务 默认新安装的kali系统会关闭ssh 连接服务,我们通…

【3】单着色器文件读取

Basic.shader文件&#xff0c;可以发现顶点着色器和片段着色器是写在一个文件里的&#xff0c;这里我们将他们读取出来&#xff0c;而不是上一篇使用string的方式。 #shader vertex #version 330 corelayout(location 0) in vec4 position;void main() {gl_Position positio…

TTransportException SASL authentication not complete

今天遇见了一个异常&#xff0c;但是发现是自己智障了 但还是记录一下 在close的时候先close了conn再close的statement导致报的这个错

概念解析 | 无线智能空口:打造下一代无线通讯网络的关键技术

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:无线智能空口。 无线智能空口:打造下一代无线通讯网络的关键技术 前序 “空口"是无线通信中的一个专业术语,它主要用于描述无线通信设备与设备之间的通信接口。我们可…

Level-based Foraging 多智能体游戏仿真环境

游戏场景测试 参考链接&#xff1a; https://kgithub.com/semitable/lb-foraging

CNN详细讲解

CNN(Convolutional Neural Network) 本文主要来讲解卷积神经网络。所讲解的思路借鉴的是李宏毅老师的课程。 CNN&#xff0c;它是专门被用在影像上的。 Image Classification 我们从影像分类开始说起。 我们举例来说&#xff0c;它固定的输入大小是100*100的解析度&#x…

FastAPI 参数的作用

FastAPI是一个现代化的Python web框架&#xff0c;其参数具有重要的作用。在FastAPI中&#xff0c;参数被用于接收HTTP请求中的数据及其它相关信息。 FastAPI支持的参数类型包括&#xff1a; 查询参数&#xff08;query parameters&#xff09; 查询参数是指将参数附加到URL末…

《Python魔法大冒险》007 被困的精灵:数据类型的解救

小鱼和魔法师深入魔法森林&#xff0c;树木之间流淌着神秘的光芒&#xff0c;每一片叶子都似乎在低语着古老的咒语。不久&#xff0c;他们来到了一个小湖旁&#xff0c;湖中央有一个小岛&#xff0c;岛上困着一个透明的泡泡&#xff0c;里面有一个悲伤的精灵。 小鱼看着那个精…

软件行业25年技术发展史

语言时代 -> 框架时代 -> 分布式架构时代 -> 微服务架构时代 25年开发、管理&#xff0c;11年教培&#xff08;教研总监&#xff09;技术总结&#xff1a; 1997年 VB 1999年 ASPCOM 2004年 C# / JAVA、j2ee、ejb、struts1hibernate 2008年 旧三大框架 Struts2Spr…

MySQL 是如何实现事务的四大特性的?

分析&回答 如果你不知道事务更不知道四大特性请先看看&#xff1a;说说什么是事务 原子性 语句要么都执行&#xff0c;要么都不执行&#xff0c;是事务最核心的特性&#xff0c;事务本身来说就是以原子性来定义的&#xff0c;实现主要是基于undo log undo log&#xff…

探索ClickHouse——安装和测试

我们在Ubuntu 20 Server版虚拟机上对ClickHouse进行探索。 安装 检测环境 grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 supported" || echo "SSE 4.2 not supported"SSE 4.2 supported 可以看到我们的环境支持编译版本的。如果不支持的环境…

MyBatisPlus之DQL编程控制

&#x1f40c;个人主页&#xff1a; &#x1f40c; 叶落闲庭 &#x1f4a8;我的专栏&#xff1a;&#x1f4a8; c语言 数据结构 javaEE 操作系统 石可破也&#xff0c;而不可夺坚&#xff1b;丹可磨也&#xff0c;而不可夺赤。 MyBatisPlus之DQL编程控制 一、 条件查询方式&…

zabbix安装部署

前期准备&#xff1a;安装mysql数据库和nginx 一、下载zabbix rpm -Uvh https://repo.zabbix.com/zabbix/4.4/rhel/7/x86_64/zabbix-release-4.4-1.el7.noarch.rpm yum-config-manager --enable rhel-7-server-optional-rpms yum install epel-release numactl yum install…

【LeetCode-面试经典150题-day21】

目录 120.三角形最小路径和 64.最小路径和 63.不同路径Ⅱ 5.最长回文子串 120.三角形最小路径和 题意&#xff1a; 给定一个三角形 triangle &#xff0c;找出自顶向下的最小路径和。 每一步只能移动到下一行中相邻的结点上。相邻的结点 在这里指的是 下标 与 上一层结点下标…

JS 实现同时往数组多个位置插入值和删除值

1 start下标实现往固定地方插入数据 const aa [1, 2, 3, 4, 5, 6]; let bb [{ start: 5, list: [b1, b2, b3] },{ start: 0, list: [a1, a2] },{ start: 1, list: [c1, c2] },{ start: 1, list: [c11, c22] },{ start: 2, list: [d1, d2] },{ start: 3, deleteCount: 1 }, …

Python项目打包与部署(一):模块与包的概念与关系

当前各类Python教程鲜有涉及Python打包与部署技术&#xff0c;或者讲述过于表面化、片面化。 本人尝试从原理开始&#xff0c;结合实例&#xff0c;并给出标准操作步骤建议&#xff0c;为python编程爱好者提供一份较为详实的Python项目打包与部署参考教程。 本教程其它章节 Pyt…