大数据Hadoop入门1

目录

相关资料

第一部分

1.课程内容大纲和学习目标

2.数据分析和企业数据分析方向

3.数据分析基本流程步骤

4.大数据时代

5.分布式和集群

6.Linux操作系统概述

7.VMware虚拟机概念与安装

8.centos操作系统的虚拟机导入

9.VMware虚拟机常规使用、快照

第二部分

1.课程内容大纲-学习目标

2.Apache Hadoop介绍、发展简介、现状

3.Apache Hadoop特性优点、国内外应用

4.Apache Hadoop发行版本、架构变迁

5.Apache Hadoop安装部署--集群组成介绍

6.Apache Hadoop安装部署--服务器基础环境设置

7.Apache Hadoop安装部署--安装包结构

8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量

9.Apache Hadoop安装部署--format初始化操作

10.Apache Hadoop安装部署--集群启停命令、web UI页面

11.Apache Hadoop安装部署--初体验

12.传统文件系统在大数据时代面临的挑战

13.场景互动:分布式存储系统的核心属性及功能作用

14.HDFS简介、设计目标和应用场景

15.HDFS重要特性解读

16.HDFS shell命令行解释说明

17.HDFS shell命令行常用操作

18.HDFS工作流程与机制--各角色职责介绍与梳理

19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略

20.HDFS工作流程与机制--写数据流畅--梳理


相关资料

  • 教程资源: https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g 提取码: 6666
  • 本套视频笔记:https://upward.blog.csdn.net/article/details/129232552

第一部分

1.课程内容大纲和学习目标

2.数据分析和企业数据分析方向

3.数据分析基本流程步骤

4.大数据时代

5.分布式和集群

6.Linux操作系统概述

7.VMware虚拟机概念与安装

8.centos操作系统的虚拟机导入

课程配置了三台虚拟和大数据相关软件

安装虚拟机的时候会随机生成一个网段

但课程资料提供的都是88网段

第二步修改Windows本地的网卡

后面需要通过Windows笔记本去访问各个虚拟机

如果网站不在一个网段,则无法访问

这样我们的虚拟机和本地都处于88网段

双击后就会自动被我们的虚拟机打开

ifconfig

ping

9.VMware虚拟机常规使用、快照

本课程使用的node1是4G,node2和3都是2G

挂起就是关机再开机的时候,会恢复到我们挂起的状态

本课程提供了三种快照,如果不想安装,可直接点击使用

第二部分

1.课程内容大纲-学习目标

2.Apache Hadoop介绍、发展简介、现状

3.Apache Hadoop特性优点、国内外应用

4.Apache Hadoop发行版本、架构变迁

5.Apache Hadoop安装部署--集群组成介绍

灰色大框是一个个计算机,彩色小框是一个个进程

6.Apache Hadoop安装部署--服务器基础环境设置

快照1就包含基础环境

快照1已经使用vim编辑好了,下面用cat命令查看一下

用cat查看主机名

但一个个查看很麻烦

在任一机器下点击底栏

这里就可以给所有机器发送这个命令

正常情况下一台机器访问另外一台机器是需要密码的

后面涉及到一些的集群启动,我们可以直接免密操作

这里已经配置好了,下面做一个验证

ssh到我们的node1上,没有问题,然后退出

ssh到我们的node2上,没有问题,然后退出

ssh到我们的node3上,没有问题,然后退出

下面这个是阿里云的授时同步

这个命令要保持网络的通畅

这里我们也已经设置好

hadoop是Java写的,Java需要jdk提供相关的支撑

将jdk拖拽到server下

安装好以后就可以删除这个安装包

下面去配置环境变量

我们在配置文件的最后加上下面三行

这里主要配置Java home ,Java安装包的路径等信息

保存好后就重新加载一下环境变量

验证Java是否安装成功

上面只是在node1机器上安装成功

下面是scp远程拷贝到其它机器

我们的环境变量同样需要拷贝

之后对三台机器同时做一个source命令

7.Apache Hadoop安装部署--安装包结构

我们在第一天机器上进行配置然后拷贝到其它机器上

将hadoop安装包拷贝到server下

解压

删除安装包

下面cd进去看一下hadoop安装包的内容

8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量

这里的配置主要说明Java的地址和各个进程运行的一个用户名

我们先到hadoop目录下

在文件的最后复制粘贴一下

我们将上面的core-site.xml放到configuration之间

上面的两个对内存限制在企业中可以去掉

删除原先的localhost

上面只完成了一台机器的配置

下面我们在三台机器输入hadoop

看能否正确识别

三台机器都显示了hadoop命令,成功

9.Apache Hadoop安装部署--format初始化操作

出现下面这个就是

成功了

10.Apache Hadoop安装部署--集群启停命令、web UI页面

下面继续打开第二和三台机器

上面我们HDFS集群就启动成功了

下面继续启动YARN集群

点击这里就会来到HDFS文件系统

11.Apache Hadoop安装部署--初体验

这个命令跟Linux命令比较相似

可以发现HDFS文件系统和Linux文件系统蛮像的

我们可以上传一个文件

我们再生成一个小文件,然后上传

除了使用命令

也可以在web页面进行操作

下面计算圆周率

下面这个就是计算结果

我们新建一个目录,然后将文件传过去

下面使用MapReduce去统计单词个数

12.传统文件系统在大数据时代面临的挑战

13.场景互动:分布式存储系统的核心属性及功能作用

14.HDFS简介、设计目标和应用场景

15.HDFS重要特性解读

这个 rack 代表机架。机柜在机房中,是一排排的机架机柜。机架 1 上有三个 DataNode,机架 2 上有两个,整体架构为一个主角色带领五个从角色的主从架构。数据底层是分块存储的,块为 Block,第三个块与块之间有副本备份(Replication),属于冗余存储。NameNode 记录元数据(matadata),如名字、备份副本数等。底层的 DataNode 专门存储数据块。

这里的size是文件本身大小,block_size就是数据块的大小

16.HDFS shell命令行解释说明

上面就是查看本地文件系统

其中文件并不在hdfs文件系统在

可以发现本地系统的根目录下就是我们的文件

==================================================================================================================================================

下面我们查看的就是HDFS系统的根目录

==================================================================================================================================================

如果我们什么都不加,默认就是HDFS的根目录

这个默认访问

取决fs_defaultFS参数

我们之前就配置好了

17.HDFS shell命令行常用操作

这里我们上传一个文件

人性化体现在红框中

本地就是执行命令的那台机器

如果在node1机器执行put,本地机器就是node1

如果在node2机器执行put,本地机器就是node2

但很多时候我们都是第一种写法

其它的查看命令比如tail

 

下面是简化写法

新创建三个文件

将其上传到hadoop

下面就是追加合并

将我们的文件内容追加到已经存在文件末尾

我们在企业中的小文件合并会用到上面的命令

18.HDFS工作流程与机制--各角色职责介绍与梳理

namenode放在内存中,因为内存交互速度快,但断电就消失了

所以使用磁盘进行持久化存储

19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略

上面就是我们的线性传输,管道式方法传输

下面的红线就是拓扑式传输

20.HDFS工作流程与机制--写数据流畅--梳理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/68278.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目概述与规划 (I)

项目概述与规划 (I) JavaScript的学习已经接近尾声了,最后我们将通过一个项目来讲我们在JavaScript中学习到的所有都在这个项目中展现出来,这个项目的DEMO来自于Udemy中的课程,作者是Jonas Schmedtmann; 项目规划 项目步骤 用户…

项目集成RabbitMQ

文章目录 1.common-rabbitmq-starter1.创建common-rabbitmq-starter2.pom.xml3.自动配置1.RabbitMQAutoConfiguration.java2.spring.factories 2.测试使用1.创建common-rabbitmq-starter-demo2.目录结构3.pom.xml4.application.yml5.TestConfig.java 配置交换机和队列6.TestCon…

RK3568 adb使用

文章目录 一、adb介绍**ADB 主要功能****常用 ADB 命令****如何使用 ADB****总结** 二、Linux下载adb**方法 1:使用包管理器(适用于 Ubuntu/Debian 系统)****方法 2:通过 Snap 安装(适用于支持 Snap 的系统&#xff09…

STM32项目分享:智能宠物喂食系统(升级版)

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 PCB图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片: 哔哩哔哩视频链接: STM32智能宠物喂食系统(升级版) (资…

软件测试 —— 性能测试(jmeter)

软件测试 —— 性能测试(jmeter) 什么是jmeter安装jmeterjmeter常用组件线程组取样器结果树 我们之前学习了接口测试工具Postman,我们今天要学习的是性能测试工具——jmeter 什么是jmeter Apache JMeter 是一个开源的性能测试工具&#xff…

电阻补偿OTA的噪声分析

上文(补偿电阻对ota零极点的影响-CSDN博客)分析了补偿电阻对五管OTA零极点的影响,该篇借分析电阻补偿OTA的噪声来串联复习下噪声章节的一些基础概念。 1.噪声分析 辅助定理 开始分析OTA噪声之前,先引入一个辅助定理(R…

从CRUD到高级功能:EF Core在.NET Core中全面应用(四)

初识表达式树 表达式树:是一种可以描述代码结构的数据结构,它由一个节点组成,节点表示代码中的操作、方法调用或条件表达式等,它将代码中的表达式转换成一个树形结构,每个节点代表了代码中的操作例如,如果…

C语言初阶力扣刷题——349. 两个数组的交集【难度:简单】

1. 题目描述 力扣在线OJ题目 给定两个数组,编写一个函数来计算它们的交集。 示例: 输入:nums1 [1,2,2,1], nums2 [2,2] 输出:[2] 输入:nums1 [4,9,5], nums2 [9,4,9,8,4] 输出:[9,4] 2. 思路 直接暴力…

在Qt中实现点击一个界面上的按钮弹窗到另一个界面

文章目录 步骤 1:创建新窗口类步骤 2:设计窗口的 UI步骤 3:设计响应函数 以下是一个完整的示例,展示在Qt中如何实现在一个窗口中通过点击按钮弹出一个新窗口。 步骤 1:创建新窗口类 假设你要创建一个名为 WelcomeWidg…

dm8在Linux环境安装精简步骤说明(2024年12月更新版dm8)

dm8在Linux环境安装详细步骤 - - 2025年1月之后dm8 环境介绍1 修改操作系统资源限制2 操作系统创建用户3 操作系统配置4 数据库安装5 初始化数据库6 实例参数优化7 登录数据库配置归档与备份8 配置审计9 创建用户10 屏蔽关键字与数据库兼容模式11 jdbc连接串配置12 更多达梦数据…

Spring MVC 综合案例

目录 一. 加法计算器 1. 准备工作 2. 约定前后端交互接口 需求分析 接口定义 3. 服务器端代码 4. 运行测试 二. 用户登录 1. 准备工作 2. 约定前后端交互接口 需求分析 接口定义 (1) 登录界面接口 (2) 首页接口 3. 服务器端代码 4. 运行测试 三. 留言板 1. 准备…

神经网络|(一)加权平均法,感知机和神经元

【1】引言 从这篇文章开始,将记述对神经网络知识的探索。相关文章都是学习过程中的感悟和理解,如有雷同或者南辕北辙的表述,请大家多多包涵。 【2】加权平均法 在数学课本和数理统计课本中,我们总会遇到求一组数据平均值的做法…

PostGIS笔记:PostgreSQL 数据库与用户 基础操作

数据库基础操作包括数据模型的实现、添加数据、查询数据、视图应用、创建日志规则等。我这里是在Ubuntu系统学习的数据库管理。Windows平台与Linux平台在命令上几乎无差异,只是说在 Windows 上虽然也能运行良好,但在性能、稳定性、功能扩展等方面&#x…

【精选】基于数据挖掘的招聘信息分析与市场需求预测系统 职位分析、求职者趋势分析 职位匹配、人才趋势、市场需求分析数据挖掘技术 职位需求分析、人才市场趋势预测

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

【Redis】常见面试题

什么是Redis? Redis 和 Memcached 有什么区别? 为什么用 Redis 作为 MySQL 的缓存? 主要是因为Redis具备高性能和高并发两种特性。 高性能:MySQL中数据是从磁盘读取的,而Redis是直接操作内存,速度相当快…

python学opencv|读取图像(四十二)使用cv2.add()函数实现多图像叠加

【1】引言 前序学习过程中,掌握了灰度图像和彩色图像的掩模操作: python学opencv|读取图像(九)用numpy创建黑白相间灰度图_numpy生成全黑图片-CSDN博客 python学opencv|读取图像(四十)掩模:三…

将 OneLake 数据索引到 Elasticsearch - 第 1 部分

作者:来自 Elastic Gustavo Llermaly 学习配置 OneLake,使用 Python 消费数据并在 Elasticsearch 中索引文档,然后运行语义搜索。 OneLake 是一款工具,可让你连接到不同的 Microsoft 数据源,例如 Power BI、Data Activ…

开源项目Umami网站统计MySQL8.0版本Docker+Linux安装部署教程

Umami是什么? Umami是一个开源项目,简单、快速、专注用户隐私的网站统计项目。 下面来介绍如何本地安装部署Umami项目,进行你的网站统计接入。特别对于首次使用docker的萌新有非常好的指导、参考和帮助作用。 Umami的github和docker镜像地…

Java程序基础⑪Java的异常体系和使用

目录 1. 异常的概念和分类 1.1 异常的概念 1.2 异常的分类 2. 异常的体系结构 3. 异常的处理 3.1 异常的抛出 3.2 异常的捕获与处理 3.3 异常的处理流程 4. 自定义异常类 4.1 自定义异常类的规则 4.2 自定义异常案例 1. 异常的概念和分类 1.1 异常的概念 在Java中&…

大话特征工程:1.维数灾难与特征轮回

一、维度深渊 公元 2147 年,人类文明进入了数据驱动的超级智能时代。从金融到医疗,从教育到娱乐,所有决策都仰赖“全维计算网络”(高维特征空间)。这套系统将全球所有信息抽象成数以亿计的多维特征&#xff08…