Hadoop伪分布式环境搭建

什么是Hadoop伪分布式集群?

Hadoop 伪分布式集群是一种在单个节点上模拟分布式环境的配置,用于学习、开发和测试 Hadoop 的功能和特性。它提供了一个简化的方式来体验和熟悉 Hadoop 的各个组件,而无需配置和管理一个真正的多节点集群。

在 Hadoop 伪分布式集群中,各个 Hadoop 组件(如 NameNode、DataNode、ResourceManager、NodeManager 等)在同一台机器上运行,并通过配置文件进行连接和通信。通过使用 Hadoop 伪分布式集群,你可以在单个节点上进行开发和测试,而无需配置和管理一个真正的多节点集群。这对于学习和熟悉 Hadoop 的基本概念、调试代码、运行作业和验证配置非常有用。

然而,需要注意的是,伪分布式集群并不能提供真正的分布式计算和数据处理能力,因为所有的组件都在同一台机器上运行。因此,在进行性能测试、负载均衡和规模扩展方面,它与真实的分布式集群可能存在一些差异。

也就是说,Hadoop可以在单节点上以伪分布的方式运行,Hadoop进程以分离的Java进程来运行,节点既是NameNode又是DataNode,并且读取的是HDFS中的文件。

一、基本环境配置

基本环境配置的 所有步骤与博主上一篇博客一致

传送门:Hadoop 分布式集群搭建教程(2023在校生踩坑版)-CSDN博客

1.修改主机名和设置固定IP

2.关闭防火墙和新建安装目录

3.安装配置JDK

4.配置主机映射(修改hosts文件)

5.配置SSH免密登录本地节点(hadoop0)

二、安装配置Hadoop

1.安装和解压

步骤与博主上一篇博客一致

传送门:Hadoop 分布式集群搭建教程(2023在校生踩坑版)-CSDN博客

接着进入“/opt/programs/hadoop-3.3.6/etc/hadoop”目录,依次修改配置文件 core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves(又一个坑,Hadoop3.x版本之后,slaves文件更名为workers,所以很多同学会找不到这个文件)、hadoop-env.sh。

修改配置文件core-site.xml

# vim core-site.xml

将 <configuration> 和 </configuration> 标签的内容修改如下:

<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop0:9000</value></property><property><name>hadoop.tmp.dir</name><value>/opt/programs/hadoop-3.3.6/tmp</value></property>
</configuration>
②修改配置文件hdfs-site.xml

# vim hdfs-site.xml

将 <configuration> 和 </configuration> 标签的内容修改如下:

<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>
③修改配置文件mapred-site.xml

# vim mapred-site.xml

将 <configuration> 和 </configuration> 标签的内容修改如下:

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>dfs.permissions</name><value>false</value></property>
</configuration>
④修改配置文件yarn-site.xml

# vim yarn-site.xml

将 <configuration> 和 </configuration> 标签的内容修改如下:

<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop0</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property>
</configuration>
⑤修改配置文件slaves(Hadoop3.x改名为workers)

将“localhost”修改为以下内容:

hadoop0

⑥修改配置文件hadoop-env.sh

将’expHADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/etc/hadoop"}”一行改为:

export HADOOP_CONF_DIR=/opt/programs/hadoop-3.3.6/etc/hadoop

并在文件末尾加入JAVA_HOME环境变量:

export JAVA_HOME=/opt/programs/jdk1.8.0_371

然后执行以下命令,刷新hadoop-env.sh文件,使修改生效:

# source hadoop-env.sh

2.配置Hadoop环境变量

接修改“ /etc/profile ”,配置Hadoop环境变量

# vim /etc/profile

在文件末尾加入以下内容:

export HADOOP_HOME=/opt/programs/hadoop-3.3.6
export PATH=$PATH:$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后刷新profile文件,是修改生效:

# source /etc/profile

三、格式化HDFS

执行以下命令,格式化HDFS:

# hdfs namenode -format

出现以下信息则说明格式化成功:

四、启动HDFS和YARN

依次执行以下命令,启动HDFS和YARN:

# start-dfs.sh

# start-yarn.sh

若出现以下报错:

则需要在“ /etc/profile/ "文件中加入以下内容:

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

更改完成后一定要刷新profile文件!

然后重启HDFS和YARN:

即可发现正常启动。

启动后可执行“ jps ”命令,查看启动的Hadoop相关进程:

除去jps外,共有五个进程:NameNode、SecondaryNameNode、DataNode、ResourceManager和NodeManager。如果发现有进程没有启动,可以先停止Hadoop集群(依次执行” stop-dfs.sh ”、“stop-yarn.sh”),然后重新格式化HDFS。

启动后在宿主机访问“ http://hadoop0的ip地址:9870/ ”,页面会显示“hadoo0:9000(active)”

(有小伙伴可能访问50070访问不了,那么不妨改为9870试试!)

对于Hadoop高可用集群和伪分布式集群,它们在配置上有一些差异,这可能导致了不同的端口配置。

在Hadoop高可用集群中,通常会使用Hadoop的HA(High Availability)功能来确保集群的可用性。HA集群中有多个NameNode实例,其中一个是Active状态的主NameNode,负责处理客户端请求。默认情况下,Active主NameNode的HTTP端口是50070,用于访问Web界面。

而在Hadoop伪分布式集群中,只有一个节点模拟了整个分布式环境,包括NameNode、DataNode、ResourceManager等。为了避免与默认的单节点模式端口冲突,Hadoop在伪分布式模式下将NameNode的HTTP端口更改为9870。

因此,当你搭建正常的Hadoop高可用集群时,可以通过50070端口访问NameNode的Web界面。而在伪分布式集群中,由于端口冲突的考虑,NameNode的HTTP端口被更改为9870。

这是Hadoop在不同配置下为了避免端口冲突而进行的默认设置。我们也可以通过相应的配置文件修改端口号,来满足需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/95937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

定量活性关系(QSAR)是什么?定量结构-性质关系(QSPR)是什么?

定量活性关系&#xff08;QSAR&#xff09;是什么&#xff1f; 定量活性关系&#xff08;QSAR&#xff0c;Quantitative Structure-Activity Relationship&#xff09;分析是指利用理论计算和统计分析工具来研究系列化合物结构&#xff08;包括二维分子结构、三维分子结构和电…

C++ 学习系列 -- std::list

一 std::list 介绍 list 是 c 中的序列式容器&#xff0c;其实现是双向链表&#xff0c;每个元素都有两个指针&#xff0c;分别指向前一个节点与后一个节点 链表与数组都是计算机常用的内存数据结构&#xff0c;与数组连续内存空间不一样的地方在于&#xff0c;链表的空间是不…

使用libmodbus库开发modbusTcp从站(支持多个主站连接)

使用libmodbus库开发modbusTcp从站&#xff08;支持多个主站连接&#xff09; Chapter1 使用libmodbus库开发modbusTcp从站(支持多个主站连接)rdsmodbusslave.hrdsmodbusslave.cppmain.cpp Chapter1 使用libmodbus库开发modbusTcp从站(支持多个主站连接) 参考链接&#xff1a…

合并不同年度收入数据-外连接

案例需求&#xff1a;统计2019年和2020年的客户销售收入并求和 思路&#xff1a;使用pandas读取excel数据横向连接&#xff0c;使用sum()含函数求和 代码如下&#xff1a; 1、使用pandas读取excel数据 2、由于两个表一个是"客户名称"&#xff0c;一个是客户描述,使…

基于ChatGPT快速入门体验NLP词云

基于ChatGPT快速入门体验NLP词云 一、什么是自然语言处理二、自然语言处理和词云的关系三、Python环境准备四、基于ChatGpt制作词云4.1 ChatGPT生成初级词云代码4.2 ChatGPT生成进阶词云代码4.3 基于ChatGPT解决代码问题4.4 基于ChatGPT建议修改问题代码 一、什么是自然语言处理…

最强中间件!Kafka快速入门(Kafka理论+SpringBoot集成Kafka实践)

自媒体文章上下架 需求分析 媒体端下架文章同时app端也下架文章的实现可以通过feign去调用&#xff0c;但这种实现耦合度太高&#xff0c;这里使用MQ进行解耦 自媒体端一旦上下架文章就发送消息给MQ&#xff0c;文章微服务在去读取消息根据消息内容上下架文章 MQ还可以流量削…

24 Python的sqlite3模块

概述 在上一节&#xff0c;我们介绍了Python的shutil模块&#xff0c;包括&#xff1a;shutil模块中一些常用的函数。在这一节&#xff0c;我们将介绍Python的sqlite3模块。sqlite3模块是Python中的内置模块&#xff0c;用于与SQLite数据库交互。SQLite是一个轻量级的磁盘数据库…

windows server 2012 服务器打开系统远程功能

服务器上开启远程功能 进入服务器&#xff0c;选择“添加角色和功能” 需要选择安装的服务器类型&#xff0c;如图所示 然后在服务器池中选择你需要使用的服务器。 选择完成后&#xff0c;在图示列表下勾选“远程桌面服务” 再选择需要安装的功能和角色服务。 选择完成确认内容…

CTFHUB - SSRF

目录 SSRF漏洞 攻击对象 攻击形式 产生漏洞的函数 file_get_contents() fsockopen() curl_exec() 提高危害 利用的伪协议 file dict gopher 内网访问 伪协议读取文件 端口扫描 POST请求 总结 上传文件 总结 FastCGI协议 CGI和FastCGI的区别 FastCGI协议 …

MyBatis-plus使用

1 基础介绍 MyBatis-Plus (opens new window)&#xff08;简称 MP&#xff09;是一个 MyBatis (opens new window)的增强工具&#xff0c;在 MyBatis 的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 它已经封装好了一些crud方法&#xff0c;我们不需要再写…

Leetcode hot 100之双指针(快慢指针、滑动窗口)

目录 数组 有序的平方仍有序 删除/覆盖元素 移动零&#xff1a;交换slow和fast 滑动窗口&#xff1a;最短的连续子串&#xff08;r可行解->l--最短解&#xff09; 最小长度的子数组 求和&#xff1a;sort、l i 1, r len - 1 三数之和abctarget 四数之和abcdtarg…

Linux中Too many open files

Linux中Too many open files 问题分析和解决_e929: too many viminfo temp files-CSDN博客 too many open files 出现这句提示的原因是程序打开的文件/socket连接数量超过系统设定值。 查看每个用户最大允许打开文件数量 ulimit -a fdipzoneubuntu:~$ ulimit -a core file …

修改 ModelScope 默认缓存路径

修改 ModelScope 默认缓存路径 设置 MODELSCOPE_CACHE 和 MODELSCOPE_MODULES_CACHE 两个环境变量。 export MODELSCOPE_CACHE<your_favourite_path>/hub export MODELSCOPE_MODULES_CACHE<your_favourite_path>/modelscope_modules完结&#xff01;

VUE3照本宣科——package.json与vite.config.js

VUE3照本宣科——package.json与vite.config.js VUE3照本宣科系列导航 前言一、package.json1.name2.version3.private4.scripts5.dependencies6.devDependencies 二、vite.config.js1.plugins2.resolve.alias3.base4.mode 三、VUE3照本宣科系列总结 VUE3照本宣科系列导航 1.VU…

大数据Doris(五):开始编译 Doris

文章目录 开始编译 Doris 一、下载Doris的安装包 二、解压缩 三、上传配置文件

commons-collections4工具常用方法

commons-collections4是Apache Commons项目中的一个模块&#xff0c;提供了一系列处理集合和映射的工具类、接口和算法。它是在commons-collections的基础上进行了改进和增强&#xff0c;为Java开发者提供了更多集合操作的功能和便利性。 引入依赖 <dependency><group…

嵌入式操作系统服务机制

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和技术。搜…

三一充填泵:煤矿矸石无害化充填,煤炭绿色高效开采的破局利器

富煤贫油少气是我国的能源禀赋特征&#xff0c;决定了我国以煤炭为主的能源结构&#xff0c;煤炭为国民经济发展提供了重要的基础。煤炭开采过程会对土地、地下水、空气等环境造成较大的污染&#xff0c;但大宗固废煤矸石无害化充填的技术手段可以有效改善这样的情况&#xff0…

【Linux】线程详解完结篇——信号量 + 线程池 + 单例模式 + 读写锁

线程详解第四篇 前言正式开始信号量引例信号量的本质信号量相关的四个核心接口生产消费者模型用环形队列实现生产者消费者模型基于环形队列的生产消费模型的原理代码演示单生产者单消费者多生产者多消费者 计数器的意义 线程池基本概念代码 单例模式STL,智能指针和线程安全STL中…

移动D频段频点的计算

移动D频段的频率范围是2515MHz ~ 2675MHz&#xff0c;用于TDD-LTE制式的通信。在D频段中&#xff0c;D1频点的中心频率为37900 MHz。这个中心频点的计算方式如下&#xff1a; 首先需要知道&#xff0c;在TDD-LTE的通信中&#xff0c;频段是被分成多个子带进行使用的。在移动D频…