hadoop、hive、DBeaver的环境搭建及使用

本文主要介绍hadoop、hive的结构及使用,具体的操作步骤见最后的附件;

hadoop提供大数据的存储、资源调度、计算,分为三个模块:HDFS、YRAN、MapReduce
    HDFS提供数据的分布式存储,分为三个节点NameNode,DataNode,SecondaryNameNode

          1、当客户端发起读写数据请求时首先到 NameNode,NameNode审核权限、判断剩余空间,然后告知客户端读写的DataNode地址,客户端向指定的DataNode发送数据包,被写入数据的DataNode同时完成数据副本的复制工作,将其接收的数据分发给其它DataNode

         2、hdfs以biock(块)为单位存储文件,每个块默认256M,可调整块的大小,每个块可创建多个(可设置)备份来保证存储文件的安全性
         3、edits文件:是一个流水账文件,记录hdfs中的每一次操作,也记录了文件和block的对应关系,一个文件如果经过多次操作,在edits中存在多条记录、检索文件时效率比较低,所以就有了edits文件的合并

         4、edits文件合并后的文件叫做fsimage,只保留文件的最终结果,合并文件的操作是SecondaryNameNode来完成

         NameNode基于edits和FSImage的配合,完成整个文件系统文件的管理。

         启动和停止:start-dfs.sh  、stop-dfs.sh

   YARN是hadoop里面的资源调度组件,分为:ResourceManager,NodeManager,ProxyServer,JobHistoryServer

        1、ResourceManager:整个集群的资源调度者, 负责协调调度各个程序所需的资源。
        2、NodeManager:单个服务器的资源调度者,负责调度单个服务器上的资源提供给应用程序使用。
        3、ProxyServer:应用程序代理,yarn在运行时对外提供了一个web ui站点,代理服务器的功能就是最大限度保障对WEB UI的访问是安全的
        4、JobHistoryServer:历史服务器,应用程序历史信息记录服务,日志是在容器中产生的,分布在不同的服务器中难以查询,JobHistoryServer抓取所有的日志在web ui中展示

        单个任务在单个服务器上需要的资源称之为容器(container),NodeManager预先占有这些资源供任务使用;

        启动和停止yarn:start-yarn.sh、stop-yarn.sh

   mapReduce是hadoop的分布式计算组件,运行在yarn中的,不需要单独启动;

        MapReduce提供了两个接口:
            Map功能接口提供了“分散”的功能, 由服务器分布式对数据进行处理
            Reduce功能接口提供了“汇总(聚合)”的功能,将分布式的处理结果汇总统计

       MapReduce 代码比较老,难以学习使用,在MapReduce基础上推出了一些新的工具,底层都是MapReduce在执行
 

Hive主要包含两个模块

     元数据管理:metastore服务,用于存储元数据,如通过load等命令将文本文件存储在mysql等数据库中
     sql解析器:将SQL语句 翻译成 MapReduce 程序运行

    hive是单机部署,但是可以使用 分布式的mapReduce进行计算   

使用hive需要启动metastore和客户端服务(用于客户端连接):

    启动元数据管理服务
        前台启动:bin/hive --service metastore 
        后台启动:nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &
    启动客户端,二选一,启动后就可以通过DBeaver或DataGrid等工具连接hive进行操作了
        Hive Shell方式(可以直接写SQL): bin/hive
        Hive ThriftServer方式(不可直接写SQL,需要外部客户端链接使用): bin/hive --service hiveserver2

   数据库中的列和文本文件中的列是一一对应的,所以要指定列和列之间的分隔符,hive默认是以”\001”作为分隔符,也可以手动指定


hive和mysql数据库的不同:

  hive内部表和外部表:
     内部表类似数据库中的表,表和数据是一体的,删除表后数据也删除了
     外部表是表和数据是独立的,创建表时指定了目录,那这个目录中的文本文件就默认成为了表数据,删除表后只是表删除了,数据还在    
  hive中有集合列:array,map,struct 使用这些列时需要指定集合中不同元素之间的分隔符

具体操作步骤及hive的类sql操作见下面附件:

链接:https://pan.baidu.com/s/1i_CefoRjWnO5fZ54AOhxhQ?pwd=g33j 

相关视频课程推荐:      2023新版黑马程序员大数据入门到实战教程,大数据开发必会的Hadoop、Hive,云平台实战项目全套一网打尽_哔哩哔哩_bilibili


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/154876.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日一题(LeetCode)----数组--螺旋矩阵(一)

每日一题(LeetCode)----数组–螺旋矩阵(一) 1.题目(54. 螺旋矩阵) 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 示例 1: 输入:matrix [[1…

No appropriate protocol -- Mysql

DataGrip连接mysql报以下异常信息: javax.net.ssl.SSLHandshakeException: No appropriate protocol (protocol is disabled or cipher suites are inappropriate) The following required algorithms might be disabled: SSLv3, TLSv1, TLSv1.1, RC4, DES, MD5wi…

VsCode连接远程Linux编译环境的便捷处理

1.免输登录密码 免输命令的正确方法是使用公钥和私鈅在研发设备,和linux服务器上校验身份。公钥和私钥可在windows系统上生成。公钥要发送到linux服务器。私钥需要通知给本地的ssh客户端程序,相关的操作如下: 生成 SSH Key: 打开…

oracle 手动收集统计信息(简单)

oracle 手动收集统计信息 1、手动收集Oracle schema下表列信息 begindbms_stats.gather_schema_stats(ownname > 用户名,method_opt > for all columns size repeat,degree > 8,options > GATHER AUTO,estimate_percent > …

安卓中轻量级数据存储方案分析探讨

轻量级数据存储功能通常用于保存应用的一些常用配置信息,并不适合需要存储大量数据和频繁改变数据的场景。应用的数据保存在文件中,这些文件可以持久化地存储在设备上。需要注意的是,应用访问的实例包含文件所有数据,这些数据会一…

2023年国赛试题------(四)Linux云服务配置 3.ansible 服务

3.ansible 服务 任务描述:请采用 ansible,实现自动化运维。 在

⑩⑦【MySQL】锁:全局锁、表级锁、行级锁

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ MySQL锁 ⑩⑦【MySQL】锁:全局锁、…

Ajax进阶

前后端传输数据的编码格式(contentType) # 提示: 主要研究post请求数据的编码格式.get请求数据就是直接放在url?号后面的每个参数之间用&符连接, 如下:url?usernamejason&password123 # 可以朝后端发送post请求的方式1 .form表单2. ajax请求# 基于post请求. 前后端传…

【MetaLearning】有关Pytorch的元学习库higher的基本用法

【MetaLearning】有关Pytorch的元学习库higher的基本用法 文章目录 【MetaLearning】有关Pytorch的元学习库higher的基本用法1. 基本介绍2. Toy ExampleReference 1. 基本介绍 higher.innerloop_ctx是higher库的上下文管理器,用于创建内部循环(inner lo…

2023亚太杯数学建模思路 - 案例:感知机原理剖析及实现

文章目录 1 感知机的直观理解2 感知机的数学角度3 代码实现 4 建模资料 # 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 感知机的直观理解 感知机应该属于机器学习算法中最简单的一种算法,其…

Prometheus+Grafana环境搭建(window)

PrometheusGrafana环境搭建 1:配置Prometheus 1.1: 下载Prometheus安装包 官方下载地址 找到对应的win版本进行下载并解压 1.2 下载Window数据采集 官方下载地址 下载以管理员运行,安装成功后在服务里会出现一个"windows_exporter"采集…

光伏、储能双层优化配置接入配电网研究(附带Matlab代码)

由于能源的日益匮乏,电力需求的不断增长等,配电网中分布式能源渗透率不断提高,且逐渐向主动配电网方向发展。此外,需求响应(demand response,DR)的加入对配电网的规划运行也带来了新的因素。因此,如何综合考…

【LittleXi】CCPC2023 深圳站 总结

【LittleXi】CCPC2023 深圳站 总结 赛前 1、赛前vp了香港,rank13,还行 2、玩了一把div2,上了75分,感觉不如南京之前CF献祭的100分 3、比赛前一晚打了一把abc,只能说消耗了脑力,下次比赛前不玩了 热身赛…

小趴菜教你如何用Python开发手机App..

Python语言虽然很万能,但用它来开发app还是显得有点不对路,因此用Python开发的app应当是作为编码练习、或者自娱自乐所用,加上目前这方面的模块还不是特别成熟,bug比较多,总而言之,劝君莫轻入。 准备工作 …

白银投资的升值空间及未来趋势

在投资多样化的今天,人们可选择的投资产品也越来越多。白银作为具有较高价值的贵金属,一直以来便是仅次于黄金的贵金属投资品种,今年来也受到更多投资者的关注。那么白银的升值空间及未来趋势如何?是否值得投资?这边将…

做医疗影像心脏方面的看过来:医学图像重建的心脏 MRI 数据集

本文发布了CMRxRecon数据集,包括来自 300 名受试者的多对比度、多视图、多切片和多通道 CMR 成像数据,还由经验丰富的放射科医生提供了所有受试者的心肌和心室的手动分割。单位:复旦, 香港理工大学, 厦大等 心脏磁共振成像(CMR&a…

神经网络中BN层简介及位置分析

1. 简介 Batch Normalization是深度学习中常用的技巧,Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (Ioffe and Szegedy, 2015) 第一次介绍了这个方法。 这个方法的命名,明明是Standardization, 非…

PostgreSQL 入门

文章目录 PostgreSQL介绍PostgreSQL和MySQL的区别PostgreSQL的安装PostgreSQL的配置远程连接配置配置数据库的日志 PostgreSQL基本操作用户操作权限操作 图形化界面安装总结 PostgreSQL介绍 PostgreSQL是一个功能强大的 开源 的关系型数据库,底层基于C实现。其开源…

面向对象程序设计1-类的定义和使用

第1关:数字时钟走字 任务描述 本关任务:本题中已给出一个时钟类的定义,请模拟数字时钟走字过程。 相关知识 为了完成本关任务,你需要掌握:1.类和对象。 编程要求 根据提示,在右侧编辑器补充代码&…

模板初阶学习

✨前言✨ 📘 博客主页:to Keep博客主页 🙆欢迎关注,👍点赞,📝留言评论 ⏳首发时间:2023年11月21日 📨 博主码云地址:博主码云地址 📕参考书籍&…