Hive用户中文使用手册系列(一)

Apache Hive

在标题为“Information Platforms and the Rise of the Data Scientist”的文章一文中,Jeff Hammerbacher把“信息平台”描述为“企业摄取(ingest)、处理(process)、生成(generate)信息的行为”与“帮助加速从经验数据中学习”的“中心”。
在Facebook,Jeff团队所构建的信息平台中,最庞大的组成部分是Apache Hive(https://hive.apache.org/)。Hive是一个构建在Hadoop上的数据仓库框架,是应Facebook每天产生的海量新兴社会网络数据进行管理和(机器)学习的需求而产生和发展的。在尝试了不同系统之后,Jeff团队选择Hadoop来存储和处理数据,因为Hadoop的性价比高,同时还能够满足他们的可伸缩性要求。
Hive的设计目的是让精通SQL技能但Java编程技能相对较弱的分析师能够对Facebook存放在HDFS中的大规模数据集执行查询。今天,Hive已经是一个成功的Apache项目,很多组织把它用作一个通用的、可伸缩的数据处理平台。
当然,SQL并不是所有大数据问题的理想工具。例如,它并不适合用来开发复杂的机器学习算法。但它对很多分析任务非常有用,而且它的另一个优势是业内人士都非常熟悉它。此外,SQL是商业智能工具的“通用语言”(可以通过ODBC这一桥梁来用),Hive有条件和这些产品进行集成。
最早提出“数据科学家”这个头衔的人,也是Facebook数据科学团队的负责人,Cloudera的联合创始人。这位出生于1983年的数学天才有一句名言:“我们这一代最杰出的头脑都在拼命思考如何吸引人们点击更多的广告,这个感觉糟透了。”他后来加入纽约著名的西奈山医院,成为一位医学研究者,运用自己的数据分析才能去攻克癌症、老年痴呆症、糖尿病及其他慢性疾病。
本章介绍如何使用Hive。我们假设你用过SQL和常见的数据库体系结构。在介绍Hive特性的同时,我们会经常将这些特性与其传统RDBMS对应部分进行比较。
Apache Hive™数据仓库软件有助于读取,编写和管理驻留在分布式存储中的大型数据集,并使用 SQL 语法进行查询。
构建于Apache Hadoop™之上,Hive 提供以下特性:

  • 通过 SQL 轻松访问数据的工具,从而实现数据仓库任务,如 extract/transform/load(ETL),报告和数据分析。
  • 一种在各种数据格式上强加结构的机制
  • 访问 files 直接存储在Apache HDFS™或其他数据存储系统中,例如Apache HBase™
  • 通过Apache Tez ™,Apache Spark™或MapReduce执行查询
  • 程序语言 HPL-SQL
  • Sub-second 通过Hive LLAP,Apache YARN和Apache Slider进行查询检索。

Hive 提供标准的 SQL 功能,包括许多后来的SQL:2003,SQL:2011和SQL:2016 features 用于分析。
Hive 的 SQL 也可以通过用户定义函数(UDF),用户定义聚合(UDAF)和用户定义的 table 函数(UDTF)与用户 code 一起扩展。
没有一个“Hive 格式”必须存储数据。 Hive 附带内置连接器,用于逗号和 tab-separated 值(CSV/TSV)文本文件,Apache 实木复合地板 ™,Apache ORC™和其他格式。用户可以使用其他格式的连接器扩展 Hive。有关详细信息,请参阅开发者指南中的文件格式和Hive SerDe。
Hive 不是为在线 transaction 处理(OLTP)工作负载而设计的。它最适用于传统的数据仓库任务。
Hive 旨在通过其输入格式最大化可扩展性(使用动态添加到 Hadoop cluster 的更多机器扩展),performance,extensibility,fault-tolerance 和 loose-coupling。
Hive 的组件包括 HCatalog 和 WebHCat。

  • HCatalog是 Hadoop 的 table 和存储管理层,使用户可以使用不同的数据处理工具(包括 Pig 和 MapReduce)更轻松地在网格上读写数据。
  • WebHCat提供的服务可用于运行 Hadoop MapReduce(或 YARN),Pig,Hive 作业。您还可以使用 HTTP(REST 样式)接口执行 Hive 元数据操作。

Hive 文档

以下链接提供对 Apache Hive wiki 文档的访问。此列表不完整,但您可以浏览这些 Wiki 页面以查找其他文档。有关更多信息,请参阅官方Hive 网站。

关于 Hive 的一般信息

  • 入门
  • 关于 Hive 的书籍
  • 关于 Hive 的演讲和论文
  • 网站和 Applications 由 Hive 提供支持
  • 相关项目
  • 常问问题
  • Hive 用户邮件列表
  • Hive IRC Channel:#hive on irc.freenode.net
  • 关于本维基

用户文档

  • Hive 教程
  • Hive SQL 语言手册:命令,CLI,数据 Types,
    DDL(create/drop/alter/truncate/show/describe),统计(分析),索引,存档,
    DML(load/insert/update/delete/merge,import/export,解释计划),
    查询(select),Operators 和 UDF,锁,授权
  • 文件格式和压缩: RCFile, Avro 公司, ORC, 实木复合地板; 压缩, LZO
  • 程序语言:Hive HPL/SQL
  • Hive Configuration Properties
  • Hive Clients
  • Hive Client (JDBC, ODBC, 节约)
  • HiveServer2:概观,HiveServer2 Client 和 Beeline,Hive Metrics
  • Hive Web 界面
  • Hive SerDes: Avro SerDe, 镶木地板 SerDe, CSV SerDe, JSON SerDe
  • Hive Accumulo Integration
  • Hive HBase Integration
  • 德鲁伊 Integration
  • Hive Transactions,流数据摄取和流式变异 API
  • Hive Counters

管理员文档

  • 安装 Hive
  • 配置 Hive
  • 设置 Metastore
  • Hive Schema 工具
  • 设置 Hive Web 界面
  • 设置 Hive 服务器 (JDBC, ODBC, 节约, HiveServer2)
  • Hive 复制
  • Hive 在亚马逊 Web Services 上
  • Hive on Amazon Elastic MapReduce
  • Hive on Spark:入门

HCatalog 和 WebHCat 文档

  • HCatalog
  • WebHCat(坦普尔顿)

贡献者资源

  • 如何贡献
  • Hive 贡献者会议
  • Hive Developer Docs
  • Hive 开发人员指南 (code 组织, 编译和 run Hive, 单元测试, 调试, 可插拔接口)
  • Hive Developer FAQ (移动 files, build Hive, 测试 Hive, MiniDriver 和 Beeline 测试)
  • 插件开发人员套件
  • 编写 UDTF
  • Hive API 概述
  • Hive 测试 Docs
  • FAQ:测试
  • 开发人员指南:单元测试
  • 单元测试 Hive SQL
  • 单元测试并行执行
  • 添加新测试的提示
  • Hive PTest2 基础设施
  • Hive PreCommit 补丁测试
  • MiniDriver 测试
  • Running Yetus
  • MetaStore API 测试
  • Hive Performance
  • Hive Architecture 概述
  • Hive Design Docs: 已完成; 进行中; 建议; 不完整,被遗弃,其他
  • Roadmap/Call 添加更多 Features
  • Full-Text 搜索所有 Hive 资源
  • 如何编辑网站
  • 成为一名承诺者
  • 如何提交
  • 如何发布
  • 项目章程

Hive 版本和分支

最新版本的 Hive 可在 Hive 网站的下载页面上找到。对于每个 version,页面提供 release date 和指向 change log 的链接。如果要为早期的 version(或开发分支)更改 log,请使用配置发行说明页面。
Apache Hive JIRA跟踪 Hive code,文档,基础结构等的更改。每个已解决的 JIRA 问题的 version number 或分支显示在问题页面顶部的“详细信息”部分的“修复 Version/s”字段中。对于 example,HIVE-5107具有 0.13.0 的修复 version。
有时 version number 会在发布之前发生变化。当发生这种情况时,可能仍会在 JIRA,wiki 和邮件列表讨论中找到原始数字。例如:

发行号原始号码
1.0.00.14.1
1.1.00.15.0
2.3.02.2.0

有关 Hive 分支的更多信息,请参见如何提供:了解 Hive 分支。
Apache Hive,Apache Hadoop,Apache HBase,Apache HDFS,Apache,Apache feather 徽标和 Apache Hive 项目徽标是 Apache Software Foundation 的商标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/112787.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux之I2C应用编程

I2C-Tools的交叉编译 tar xvf i2c-tools-4.2.tar.xz 首先解压下压缩包 cd i2c-tools-4.2 进入 i2c-tools-4.2目录 make USE_STATIC_LIB1 执行 make 将i2cset ,i2cget ,i2cdump,i2cdetect,i2ctransfer放到板子上 命令直接操作IIC设备 命令行直接操作iic向AP3216C传感器获取数据…

即时通讯或者推送消息的守护进程?开启几个进程?

进程根据状态可以分为三种进程,守护进程,僵尸进程,孤儿进程。今天我们着重来分析下守护进程。 1.daemon? (1)概念 守护进程 (daemon) 是一类在后台运行的特殊进程,用于执行特定的系统任务。很多守护进程…

初出茅庐的小李博客之Windows11运行Linux记录

安装教程 超简单,不安装虚拟机,Windows11运行Linuxhttps://zhuanlan.zhihu.com/p/393484912 注意事项 出现错误有可能是少了驱动 驱动下载地址 https://link.zhihu.com/?targethttps%3A//wslstorestorage.blob.core.windows.net/wslblob/wsl_updat…

Django和jQuery,实现Ajax表格数据分页展示

1.需求描述 当存在重新请求接口才能返回数据的功能时,若页面的内容很长,每次点击一个功能,页面又回到了顶部,对于用户的体验感不太友好,我们希望当用户点击这类的功能时,能直接加载到数据,请求…

牛客网---活动运营刷题笔记

## 第一次 1.以下哪个活动玩法,不是为了给APP带来新增用户? A打折促销 B用户认证 C裂变活动 D有奖下载 正确答案:B 官方解析:本题主要考查活动拉新的方式 打折促销,即通过降低商品价格,促进商品销售&#…

安防视频监控系统EasyCVR视频汇聚存储平台定制化开发:新增kafka配置

安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台可拓展性强、…

【算法训练-回溯算法 零】回溯算法解题框架

抽象地说,解决一个回溯问题,实际上就是遍历一棵决策树的过程,树的每个叶子节点存放着一个合法答案。你把整棵树遍历一遍,把叶子节点上的答案都收集起来,就能得到所有的合法答案。站在回溯树的一个节点上,你…

QT学习笔记-QT访问各种关系数据库笔记汇总

QT学习笔记-QT访问各种关系数据库笔记汇总 1、QT访问Oracle数据库2、QT访问SQLServer数据库3、QT访问MySQL数据库4、QT访问PostgreSQL数据库5、QT访问Access数据库6、QT多线程中访问数据库的要点 在使用QT进行应用开发过程中,不可避免的会涉及到访问关系数据库&…

协同过滤推荐算法UserCF、ItemCF

目录 相似度计算基于用户的协同过滤(UserCF)算法评估基于物品的协同过滤(ItemCF)协同过滤算法的权重改进协同过滤算法的问题分析思考学习参考 相似度计算 杰卡德(Jaccard)相似系数 Jaccard 系数是衡量两个…

js库——Day.js、Big.js

Day.js 方便操作对时间解析 验证 对时间进行计算等操作。 官方文档:https://dayjs.fenxianglu.cn npm i -S dayjs 1. 给定时间戳或者时间格式,获取格式化后的日期 dayjs(new Date()).format(YYYY-MM-DD HH:mm:ss) 2. 获取固定开始和固定结束的时间da…

在win10上安装配置Hadoop的环境变量

一、背景 在windows10系统中运行seatunnel 二、安装部署 2.1. 下载 Hadoop包 从 Apache Hadoop 官网下载最新版本的 Hadoop,版本号保持与服务端的Hadoop版本一致。 https://hadoop.apache.org/releases.htmlIndex of /apache/hadoop/core/hadoop-3.2.3/ 2.2. 解…

Qt文件对话框的使用

本文介绍Qt文件对话框的使用。 Qt编程中通常会遇到对文件的操作,比如打开,保存等,这些操作通常是通过文件对话框来进行操作的,文件对话框通常具有固定的样式,通过它可以获取到文件名,进而通过文件名打开文…

IntelliJ IDEA 2020.2.1白票安装使用方法

先安装好idear Plugins 内手动添加第三方插件仓库地址:https://plugins.zhile.io 搜索:IDE Eval Reset插件进行安装 输入https://plugins.zhile.io 手动安装离线插件方法 安装包可以去笔者的CSDN资源库下载 安装mybaties插件

【leetcode报错】 leetcode格式问题解决:error: stray ‘\302’ in program [solution.c]

leetcode格式问题解决 一、情景再现二、报错原因三、解决方法四、修正结果 一、情景再现 二、报错原因 该错误是指 源程序中有非法字符,需要将非法字符去掉。 一般是由于coder 1.使用中文输入法 或者 2.从别的地方直接复制粘贴代码 造成的。 代码中出现了 中文空格&…

How to add a jar to a project in eclipse?

Project -> Properties -> Java Build Path -> Libraries -> Add External JARs

AI绘画使用Stable Diffusion(SDXL)绘制玉雕风格的龙

一、引言 灵感来源于在逛 LibLib 时,看到的 Lib 原创者「熊叁gaikan」发布的「翠玉白菜 sdxl|玉雕风格」 的 Lora 模型。简直太好看了,一下子就被吸引了! 科普下「翠玉白菜」: 翠玉白菜是由翠玉所琢碾出白菜形状的清…

R语言:主成分分析PCA

文章目录 主成分分析处理步骤数据集code 主成分分析 主成分分析(或称主分量分析,principal component analysis)由皮尔逊(Pearson,1901)首先引入,后来被霍特林(Hotelling,1933)发展…

HTML 常用标签及练习

常用标签 <head>中的标签 概述 head中的内容不显示到页面上 标签说明<title>定义网页的标题<meta>定义网页的基本信息&#xff08;供搜索引擎&#xff09;<style>定义CSS样式<link>链接外部CSS文件或脚本文件<script>定义脚本语言<…

麒麟V10SP01部署docker报错:http:invalid Host header

问题描述 在麒麟v10sp01系统中使用yumdownloader下载的docker版本是docker-engine-18.09.0-101.p06.ky10.x86_64&#xff0c;部署docker后运行容器&#xff0c;进入容器查看时报错http:invalid Host header。在网上查了半天也没有找到解决方法。 后来请教公司高人后&#xff0c…

带返回值的递归转为非递归

带返回值的递归转为非递归与不带返回值的递归转为非递归相似。不同的地方是有个如何保存和使用返回值的问题。 以组合数计算为例。计算公式是&#xff0c;C(n, k) C(n-1, k) C(n-1, k-1)。写成递归的代码是&#xff0c; func cbn(n, k) {if(nk||k0) return 1;else if(k1) r…