大数据Hadoop入门2

目录

第三部分(Hadoop MapReduce和Hadoop YARN)

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

4.Hadoop MapReduce介绍、阶级划分和进程组成

5.Hadoop MapReduce官方示例-圆周率PI评估

6.Hadoop MapReduce官方示例-wordCount单词统计

7.Hadoop MapReduce--map阶段执行过程

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分(数据仓库基础和Hadoop Hive入门)

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能​编辑

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

10.Hadoop Hive安装部署--配置文件修改编辑

11.Hadoop Hive安装部署--metastore服务启动方式

12.Apache hive--新老客户端使用hiveserver2服务

13.Apache hive--Datagrip连接HiveServer2

14.Apache hive--数据库与建库、切换库操作

15.Apache hive--表与建表SQL语句--数据类型、分隔符制定语法

16.Apache hive--表与建表SQL语句--默认分隔符使用

17.Apache hive--常见的show语法

18.Apache hive--注释comment中文乱码解决


第三部分(Hadoop MapReduce和Hadoop YARN)

1.课程内容-大纲-学习目标

2.理解先分再合、分而治之的思想

3.hadoop团队针对MapReduce的设计构思

map这里不能翻译成地图,翻译为mapping比较好一点

4.Hadoop MapReduce介绍、阶级划分和进程组成

 

5.Hadoop MapReduce官方示例-圆周率PI评估

首先验证一下我们的hadoop集群有没有启动

发现没有启动,下面我们启动一下

启动时,我们看一下示例

先进入hadoop安装包

安装包中有一个share目录

然后再cd到hadoop中

然后再cd到MapReduce中

我们就要使用其中的example jar包来评估圆周率PI值

我们的yarn页面也正有一个程序在运行

6.Hadoop MapReduce官方示例-wordCount单词统计

这里上传可以使用web页面上传

新建一个input

然后点击上传

我们可以浏览一下这个文件

在当前路径下使用这个示例

看一下输出的output中的结果

结果有两个

第一个没东西,表示执行成功

第二个是结果

7.Hadoop MapReduce--map阶段执行过程

红线左边就是map阶段

8.Hadoop MapReduce--reduce阶段执行过程

9.Hadoop MapReduce--shuffle机制

10.Hadoop YARN--功能介绍--资源管理、任务调度

但yarn不仅支持MapReduce,还支持spark、flink等

11.Hadoop YARN--架构图、3大组件介绍

12.Hadoop YARN--程序提交YARN集群交互流程

下面以MR(MapReduce)程序为例

13.Hadoop YARN--资源调度器schedule和调度策略

第四部分(数据仓库基础和Hadoop Hive入门)

1.课程内容大纲和学习目标

2.数据仓库概念和起源发展由来

比如CRM就是客户关系管理

3.数据仓库主要特征

4.数据仓库主流开发语言--SQL

5.Hadoop Hive入门

6.场景设计--Hive功能模拟实现底层猜想

7.Hadoop Hive--架构图、各组件功能

8.Hadoop Hive安装部署--metadata与metastore、远程模式介绍

9.Hadoop Hive安装部署--与hadoop整合、MySQL安装

下面我们看一下配置

拖拽过去

下面做一个解压

然后安装

继续安装

没有报错,上面就是安装成功了

下面进行初始化设置

因为是初次启动,不知道密码

下面我们查看一下临时密码

登录成功

下面修改密码

授权

授权结束点击ctrl+d退出MySQL

如果MySQL安装错误

下面是卸载

10.Hadoop Hive安装部署--配置文件修改编辑

hive不需要每台机器都安装,只要安装一台机器即可

还有另外一个配置文件

红框中的是MySQL的用户名和密码

红框就是元数据服务的地址

将上面的内容复制粘贴

首先打开红框中的lib地址

将资料中的驱动拖拽到lib文件夹中

这里就成功了

没有就去创建

11.Hadoop Hive安装部署--metastore服务启动方式

因为我们使用的是远程模式

所以要单独启动

点击ctrl+c服务就关闭了

后台启动就是将服务当做一个进程,挂在后台去运行

使用jsp查看一下

多了runjar进程,就是我们上面的hive进程

后台启动的日记在nohup.out中

后台启动想要关闭

使用kill杀死进程

12.Apache hive--新老客户端使用hiveserver2服务

图中可以发现

老客户端可以直接访问metastore

新客户端是先访问另外一个服务hiveserver2,然后访问metastore

所以使用新客户端需要启动两个服务

上面我们已经启动了metastore

我们在启动hiveserver2,两个启动命令十分相似

多了新的runjar,启动成功

==================================================================================================================================================

上面的情况是

服务在node1机器上,客户端也在node1机器上

没有远程访问的感觉

我们使用scp将hive安装包拷贝给其它机器node3

启动hive

启动成功

这样我们的第一代客户端就成功连接到hive服务上

我们可以查看一下当前有哪些数据库和表

第一代客户端官方不推荐

还是使用第二代客户端

但第二代客户端想要我们手动输入地址,连接到我们的hive服务的地址(我们的hive服务在node1机器上)

这里需要我们记住

我们在企业中干活,别人让我们去访问hive,就需要怎么一个hive地址

这个地址就告诉我们。我们的hiveserver2服务运行在哪个机器上,端口是多少

继续输入用户,没有密码

下面就已经成功连接到hiveserver2服务上

我们同样可以查看数据库和表

上面就是使用beeline客户端连接到hive上

13.Apache hive--Datagrip连接HiveServer2

建好后选择关联本地目录到工程中

下面就要配置连接

连接到hive上

首先要解决驱动问题

系统自带的驱动并不友好,我们将其删除

使用课程提供的驱动

这里变白就解析成功了

返回进行其它配置

主要是URL地址

就是beeline连接的地址

测试连接

14.Apache hive--数据库与建库、切换库操作

默认使用我们的default数据库

如果使用其它数据库

15.Apache hive--表与建表SQL语句--数据类型、分隔符制定语法

下面我们看一个练习,如何将我们应该结构化文件映射成表

我们可以使用beeline客户端进行操作

但操作不方便

还是使用datagrip进行操作

首先查看集群是否启动成功

在datagrip中选中,然后点击F4打开我们的控制台

在控制台中输入一句查询,成功

下面我们开始写SQL文件

选中运行

建完表

我们就可以上传数据了

我们可以在hdfs中上传

16.Apache hive--表与建表SQL语句--默认分隔符使用

我们发现不写分隔符语法并没有报错,它有默认分隔符

17.Apache hive--常见的show语法

我们直接写show table是当前库下的所有表

如果换一个数据库

也可以指定数据库

18.Apache hive--注释comment中文乱码解决

我们之前建了一个表

但在查看表的原信息时

这里的原因的hive底层的元数据是将我们的元数据保存在MySQL中的

MySQL的编码不支持中文,主要支持latin1的编码

上面的修改都是在MySQL中进行的

其中的hive3就是hive保存元数据的地方

其中有很多张表,就是保存的hive元数据

我们直接执行SQL语句修改hive的元数据信息

执行完,ctrl+d结束

但乱码还是存在

因为我们的修改完后

要将表删除,重新创建才行

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/67284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于ESP8266的多功能环境监测与反馈系统开发指南

项目概述 本系统集成了物联网开发板、高精度时钟模块、环境传感器和可视化显示模块,构建了一个智能环境监测与反馈装置。通过ESP8266 NodeMCU作为核心控制器,结合DS3231实时时钟、DHT11温湿度传感器、光敏电阻和OLED显示屏,实现了环境参数的…

开发环境搭建-3:配置 JavaScript 开发环境 (fnm+ nodejs + pnpm + nrm)

在 WSL 环境中配置:WSL2 (2.3.26.0) Oracle Linux 8.7 官方镜像 node 官网:https://nodejs.org/zh-cn/download 点击【下载】,选择想要的 node 版本、操作系统、node 版本管理器、npm包管理器 根据下面代码提示依次执行对应代码即可 基本概…

npm:升级自身时报错:EBADENGINE

具体报错信息如下: 1.原因分析 npm和当前的node版本不兼容。 // 当前实际版本: Actual: {"npm":"10.2.4","node":"v20.11.0"}可以通过官网文档查看与自己 node 版本 兼容的是哪一版本的npm,相对应进行更新即可…

WPS数据分析000005

目录 一、数据录入技巧 二、一维表 三、填充柄 向下自动填充 自动填充选项 日期填充 星期自定义 自定义序列 1-10000序列 四、智能填充 五、数据有效性 出错警告 输入信息 下拉列表 六、记录单 七、导入数据 ​编辑 八、查找录入 会员功能 Xlookup函数 VL…

翼星求生服务器搭建【Icarus Dedicated Server For Linux】

一、前言 本次搭建的服务器为Steam平台一款名为Icarus的沙盒、生存、建造游戏,由于官方只提供了Windows版本服务器导致很多热爱Linux的小伙伴无法释怀,众所周知Linux才是专业服务器的唯一准则。虽然Github上已经有大佬制作了容器版本但是容终究不够完美,毕竟容器无法与原生L…

机器学习-线性回归(参数估计之经验风险最小化)

给定一组包含 𝑁 个训练样本的训练集 我们希望能够 学习一个最优的线性回归的模型参数 𝒘 现在我们来介绍线性回归的一种模型参数估计方法:经验风险最小化。 我们前面说过,对于标签 𝑦 和模型输出都为连续的实数值&…

前部分知识复习02

一、物体的屏幕UV坐标 float2 ScreenUV i.pos.xy / _ScreenParams.xy; 二、抓取屏幕图像 GrabPass{" _A "} //_A为贴图图像名称 之后需在Pass中声明该贴图才能在Pass中引用此贴图 三、屏幕抓取并制作热效应代码 Shader"unity/HeatDistort 07" {Pr…

【MQ】探索 Kafka

高性能 消息的顺序性、顺序写磁盘 零拷贝 RocketMQ内部主要是使用基于mmap实现的零拷贝,用来读写文件 减少cpu的拷贝次数和上下文切换次数,实现文件的高效读写操作 Kafka 零拷贝 Kafka 使用到了 mmap 和 sendfile 的方式来实现零拷贝。分别对应 Jav…

VMware 和本机(Win10)安装共享文件

1. 安装VM-tools, sudo apt-get install open-vm-tools-desktop -y 2. VMware->设置-> 选项中启动共享文件夹. 3. 本机设置共享文件夹(文件目录为data),右键属性设置: VMware, Other Locations->Computer->mnt->data 即可。 ps: 还有个…

2025美赛MCM数学建模A题:《石头台阶的“记忆”:如何用数学揭开历史的足迹》(全网最全思路+模型)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ 《石头台阶的“记忆”:如何用数学揭开历史的足迹》 目录 《石头台阶的“记忆”:如何用数学揭开历史的足迹》 ✨摘要✨ ✨引言✨ 1. 引言的结构 2. 撰写步骤 (1)研究背景 &#…

SpringBoot-Vue整合百度地图

文章目录 一、Spring Boot整合百度地图的步骤1. 申请百度地图的AK值2. 创建实体类3. 创建Controller层4. 前端集成百度地图4.1 在Vue项目中安装百度地图Vue组件库4.2 在Vue项目中引入百度地图API4.3 创建地图组件 二、实现功能说明1. 前端部分:2. 后端部分&#xff…

Baklib如何优化企业知识管理实现全面数字化升级与协同创新

内容概要 Baklib 作为企业知识管理的重要工具,提供了一个集成化的知识中台,帮助企业在数字化转型过程中更高效地管理和利用其知识资产。在现代企业中,知识的管理和应用显得尤为重要,因为优秀的知识管理能够直接影响到组织的决策效…

机器学习day4

自定义数据集 使用pytorch框架实现逻辑回归并保存模型,然后保存模型后再加载模型进行预测 import numpy as np import torch import torch.nn as nn import torch.optim as optimizer import matplotlib.pyplot as pltclass1_points np.array([[2.1, 1.8],[1.9, 2…

天道无极:论文明兴衰中的规律自觉与文化觉醒

宇宙洪荒,星河轮转,人类文明在浩渺时空中不过沧海一粟。当我们剖开青铜器上的饕餮纹,凝视量子计算机的硅基瞳孔,会发现所有文明兴衰的背后都跃动着同一组密码——对规律的认知与驾驭程度,构成了文明存续的底层逻辑。从两河流域的楔形文字到华尔街的电子屏幕,从雅典学院的…

WPF基础 | WPF 常用控件实战:Button、TextBox 等的基础应用

WPF基础 | WPF 常用控件实战:Button、TextBox 等的基础应用 一、前言二、Button 控件基础2.1 Button 的基本定义与显示2.2 按钮样式设置2.3 按钮大小与布局 三、Button 的交互功能3.1 点击事件处理3.2 鼠标悬停与离开效果3.3 按钮禁用与启用 四、TextBox 控件基础4.…

解除阿里云盘压缩包分享限制的最新工具(2025年更新)

前言 前段时间,为了在阿里云盘分享一些资料,尝试了好多种方法:改文件名后缀,打包自解压,使用将压缩文件追加在图片文件后,还有的一些工具,虽然能伪装文件但并不太好用,最后自己写了…

HarmonyOS:创建应用静态快捷方式

一、前言 静态快捷方式是一种在系统中创建的可以快速访问应用程序或特定功能的链接。它通常可以在长按应用图标,以图标和相应的文字出现在应用图标的上方,用户可以迅速启动对应应用程序的组件。使用快捷方式,可以提高效率,节省了查…

21.0.2-为什么选FreeRTOS 第21章-FreeRTOS项目实战--基础知识之新建任务、启动流程、编码风格、系统配置

这个是全网最详细的STM32项目教学视频。 第一篇在这里: 视频在这里 STM32智能小车V3-STM32入门教程-openmv与STM32循迹小车-stm32f103c8t6-电赛 嵌入式学习 PID控制算法 编码器电机 跟随 **V3:HAL库开发、手把手教学下面功能:PID速度控制、PID循迹、PID跟随、遥控、…

12 款开源OCR发 PDF 识别框架

2024 年 12 款开源文档解析框架的选型对比评测:PDF解析、OCR识别功能解读、应用场景分析及优缺点比较 这是该系列的第二篇文章,聚焦于智能文档处理(特别是 PDF 解析)。无论是在模型预训练的数据收集阶段,还是基于 RAG…

深度剖析C++17中的std::optional:处理可能缺失值的利器

文章目录 一、基本概念与设计理念二、构建与初始化(一)默认构造(二)值初始化(三)使用std::make_optional(四)使用std::nullopt 三、访问值(一)value()&#x…