mac上搭建 hadoop 伪集群

1. hadoop介绍

Hadoop是Apache基金会开发的一个开源的分布式计算平台,主要用于处理和分析大数据。Hadoop的核心设计理念是将计算任务分布到多个节点上,以实现高度可扩展性和容错性。它主要由以下几个部分组成:

HDFS (Hadoop Distributed File System):HDFS是Hadoop的分布式文件系统,具有较高的读写速度,很好的容错性和可伸缩性,为海量的数据提供了分布式存储。其冗余数据存储的方式很好地保证了数据的安全性。

MapReduce:MapReduce是一种用于并行处理大数据集的软件框架(编程模型)。用户可在无需了解底层细节的情况下,编写MapReduce程序进行分析和处理分布式文件系统上的数据,MapReduce保证了分析和处理数据的高效性。

YARN (Yet Another Resource Negotiator):YARN是Hadoop2.0以后引入的另一个核心技术,它是一个任务调度和集群资源管理系统。

2. 部署

2.1 下载

官方下载日志如下
https://dlcdn.apache.org/hadoop/common/

在这里插入图片描述

这里选择 最新的3.3.6

2.2 解压

检查版本

bin/hadoop version

在这里插入图片描述

2.3 配置
  • 配置 java home etc/hadoop/hadoop-env.sh
    #注意修改为自己的
    export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
  • 修改 etc/hadoop/core-site.xml:
<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>
  • 修改 etc/hadoop/hdfs-site.xml:
<configuration><property><name>dfs.replication</name><value>2</value></property>
</configuration>
  • 检查ssh
    Setup passphraseless ssh
    Now check that you can ssh to the localhost without a passphrase:
    ssh localhost
    
    If you cannot ssh to localhost without a passphrase, execute the following commands:
    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    chmod 0600 ~/.ssh/authorized_keys
    
    注意已经存在ssh key的话 就不要重写了 不然会影响到 你之前配置的ssh key
    mac上系统配置了 也不行的话 参考 https://blog.csdn.net/a15835774652/article/details/135572420

2.4 开始启动

  • 首先启动 hdfs 首次需要format文件系统 Format the filesystem:
bin/hdfs namenode -format
  • Start NameNode daemon and DataNode daemon:
sbin/start-dfs.sh
  • Browse the web interface for the NameNode; by default it is available at:
    默认的地址
    NameNode - http://localhost:9870/ http://localhost:9868/

示例图
在这里插入图片描述

  • 开启YARN
    You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceManager daemon and NodeManager daemon in addition.

    The following instructions assume that 1. ~ 4. steps of the above instructions are already executed.

  • Configure parameters as follows:
    etc/hadoop/mapred-site.xml:

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.application.classpath</name><value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value></property><!-- 设置历史任务的主机和端口 --><property><name>mapreduce.jobhistory.address</name><value>localhost:10020</value></property><!-- 设置网页端的历史任务的主机和端口 --><property><name>mapreduce.jobhistory.webapp.address</name><value>localhost:19888</value></property>
</configuration>

etc/hadoop/yarn-env.sh (注意这个jdk8之后 必须要加 不然yarn启动会报错)

export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
export YARN_RESOURCEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"
export YARN_NODEMANAGER_OPTS="--add-opens java.base/java.lang=ALL-UNNAMED"

etc/hadoop/yarn-site.xml:

<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.nodemanager.env-whitelist</name><value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_HOME,PATH,LANG,TZ,HADOOP_MAPRED_HOME</value></property><!-- 开启日志聚集功能 --> <property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 设置日志聚集服务器地址 --> <property><name>yarn.log.server.url</name><value>localhost:19888/jobhistory/logs</value></property><!-- 设置日志保留时间为 7 天 --> <property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property>
</configuration>
  • Start ResourceManager daemon and NodeManager daemon:
sbin/start-yarn.sh
  • Browse the web interface for the ResourceManager 浏览器查看
    ResourceManager - http://localhost:8088/
    在这里插入图片描述
  • 启动/关闭 历史服务器
# 启动
mapred --daemon start historyserver
# 关闭
mapred --daemon stop historyserver  
  • 使用jps查看启动的应用
    在这里插入图片描述
    查看HistoryServer控制台 : http://localhost:19888

  • 另外 在初始化之后 也可以直接启动 sbin/start-all.sh 这个命令会启动 hdfs 和 yarn (生产环境慎用)

  • 关闭 同理 sbin/stop-dfs.sh 停止 hdfs sbin/./stop-yarn.sh 停止yarn 也可以直接 sbin/stop-all.sh 来关闭hdfs和yarn (生产环境慎用)

以上就完成了 hadoop的伪集群搭建

可能会遇到的问题

  • 启动yarn后 在jps中无法看到 resourcemanager

在日志文件中 发现 yarn 启动失败了 Caused by: java.lang.reflect.InaccessibleObjectException: Unable to make protected final java.lang.Class java.lang.ClassLoader.defineClass(java.lang.String,byte[],int,int,java.security.ProtectionDomain) throws java.lang.ClassFormatError accessible: module java.base does not “opens java.lang” to unnamed module @4d7c417d

在yarn-env.sh 添加配置即可

export JAVA_HOME=/usr/local/develop/java/zulu-jdk17.0.7
export YARN_RESOURCEMANAGER_OPTS=“–add-opens java.base/java.lang=ALL-UNNAMED”
export YARN_NODEMANAGER_OPTS=“–add-opens java.base/java.lang=ALL-UNNAMED”

  • 烦人的警告信息
WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

hadoop的bin都是在特定的机器上进行编译的,不一定能支持所有的机器,

解决办法:
首先在 hadoop-env,sh 文件添加参数

export HADOOP_HOME=/usr/local/develop/hadoop-3.3.6
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="$HADOOP_OPTS -Djava.library.path=$HADOOP_HOME/lib/native"

然后可以关闭或者启动集群 进行测试下 如果告警日志没有 那就说明 hadoop的native包适用你的机器,如果还是提示 那就要编译源码了 但是网络上有 已经编译好的,如果有自己对应的版本的话 可以直接使用 GitHub 地址 https://github.com/silent-night-no-trace/mac-native-hadoop-library

good day !!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/632929.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何理解计算机中playload这个词?

playload的翻译是载荷&#xff0c;负载。放在计算机场景中总感觉有点抽象。 我最经常接触的playload是发送post请求时所携带的json参数&#xff0c;就是playload。 联系到playload更精确的翻译是&#xff1a;n. (飞机、船只的)有效载荷&#xff0c;有酬负载&#xff1b;(车辆等…

PyTorch各种损失函数解析:深度学习模型优化的关键(1)

目录 详解pytorch中各种Loss functions binary_cross_entropy 用途 用法 参数 数学理论 示例代码 binary_cross_entropy_with_logits 用途 用法 参数 数学理论 示例代码 poisson_nll_loss 用途 用法 参数 数学理论 示例代码 cosine_embedding_loss 用途 …

揭秘程序栈:你的代码在幕后是怎么运行的?

计算机科学中&#xff0c;许多概念和原理可能会让开发者感到头疼&#xff0c;比如程序栈。这个看似晦涩的概念&#xff0c;实对我们理解程序运行至关重要。本文将以通俗易懂的方式&#xff0c;带你深入理解程序栈的工作原理和优化策略。 一、为什么需要栈&#xff1f; 栈是一…

Diffusion Models

DDPM x 0 ∼ q ( x 0 ) x_0 \sim q(x_0) x0​∼q(x0​)是真实数据分布&#xff0c;扩散模型学习一个分布 p θ ( x 0 ) p_\theta(x_0) pθ​(x0​)去逼近真实数据分布。 p θ ( x 0 ) : ∫ p θ ( x 0 : T ) d x 1 : T (1) p_\theta(x_0) : \int p_\theta(x_{0:T})dx_{1:T} \…

chatgpt的实用技巧四temperature 格式

四、temperature 格式 GPT3.5 temperature 的范围为&#xff1a;0-0.7&#xff1b; GPT4.0 temperature 的范围为&#xff1a;0-1&#xff1b; 当 temperature 为 0 时候&#xff0c;结果可稳定。 当 temperature 为 0.7/1 时候&#xff0c;结果发散具备创力。 数值越大&a…

Flink的两阶段提交是什么

两阶段提交 Two-Phase-Commit&#xff0c;简称 2PC&#xff0c;是很常用的解决分布式事务问题的方式&#xff0c;它可以保证在分布式事务中&#xff0c;要么所有参与进程都提交事务&#xff0c;要么都取消&#xff0c;即实现 ACID 中的 A &#xff08;原子性&#xff09;。在数…

设计模式的学习笔记

设计模式的学习笔记 一. 设计模式相关内容介绍 1 设计模式概述 1.1 软件设计模式的产生背景 设计模式最初并不是出现在软件设计中&#xff0c;而是被用于建筑领域的设计中。 1977 年美国著名建筑大师、加利福尼亚大学伯克利分校环境结构中心主任 Christopher Alexander 在…

【Redis数据类型】String实现及应用场景

文章目录 String1、介绍2、内部实现整数值embstr 编码字符串raw编码字符串 3、常用命令4、应用场景缓存对象常规计数分布式锁共享session信息 参考&#xff1a;小林Coding Redis九种数据类型 Redis 提供了丰富的数据类型&#xff0c;常见的有五种&#xff1a;String&#xff08…

Debian 10.13.0 安装图解

引导和开始安装 这里直接回车确认即可&#xff0c;选择图形化安装方式。 选择语言 这里要区分一下&#xff0c;当前选中的语言作为安装过程中安装器所使用的语言&#xff0c;这里我们选择中文简体。不过细心的同学可能发现&#xff0c;当你选择安装器语言之后&#xff0c;后续安…

C#: BitConverter 字节数组byte[ ] 转各种数据类型用法列举

说明&#xff1a;C# BitConverter 字节数组byte[ ] 转各种数据类型用法示例 1.ToBoolean(byte[] value, int startIndex)&#xff1a;将指定字节数组中从指定索引开始的两个字节转换为布尔值。 byte[] bytes { 1, 0 }; bool result BitConverter.ToBoolean(bytes, 0); // 输…

MySQL 8.0中删除的选项和变量

以下系统变量、状态变量和选项已在 MySQL 8.0 中删除&#xff1a; • Com_alter_db_upgrade: ALTER DATABASE ... UPGRADE DATA DIRECTORY NAME 语句的计数。在 MySQL 8.0.0 版中删除。 • Innodb_available_undo_logs: InnoDB 回滚段的总数&#xff1b;与 innodb_rollback_se…

电力能源三维可视化合集 | 图扑数字孪生

电力能源是现代社会发展和运行的基石&#xff0c;渗透于工业、商业、农业、家庭生活等方方面面&#xff0c;它为经济、生活质量、环境保护和社会发展提供了巨大的机会和潜力。图扑软件应用自研 HT for Web 强大的渲染引擎&#xff0c;助力现代化的电力能源数字孪生场景&#xf…

运筹说 第95期 | 非线性规划奠基人——库恩与塔克

经过之前的学习&#xff0c;相信大家已经对运筹学的网络计划的内容有了一定的了解&#xff0c;接下来小编将带你学习新一章——非线性规划的内容&#xff0c;让我们先来了解一下非线性规划的诞生和发展历程&#xff0c;然后共同走近非线性规划领域的代表人物——库恩和塔克&…

2.控制语句

1.分支语句/判断语句 if 语句 if(boolean_expression) { /* 如果布尔表达式为真将执行的语句 */ } if…else 语句 if(boolean_expression) { /* 如果布尔表达式为真将执行的语句 / } else { / 如果布尔表达式为假将执行的语句 */ } if…else if…else语句 if(boolean_expressi…

【BERT】详解

BERT 简介 BERT 是谷歌在 2018 年时提出的一种基于 Transformer 的双向编码器的表示学习模型&#xff0c;它在多个 NLP 任务上刷新了记录。它利用了大量的无标注文本进行预训练&#xff0c;预训练任务有掩码语言模型和下一句预测&#xff0c;掩码语言模型指的是随机地替换文本中…

linux下boost编译arm版本

1.下载 https://www.boost.org/users/history/version_1_74_0.html 2.解压 tar -zxvf boost_1_74_0.tar.gz 2.编译 ./bootstrap.sh --with-librariesfilesystem,thread --with-toolsetgcc3 替换gcc 修改配置文件project-config.jam,将下列的arm gcc编译器替换为你本机的编译器…

Java 进阶之旅的第四天

Java 进阶之旅的第四天 文章目录 Java 进阶之旅的第四天Collections集合工具类Collections集合工具类作用/特点Collections常用的API Collections集合工具类 Collections集合工具类作用/特点 可以对创建的集合进行操作,比如批量添加等查看源码可得,该工具类的构造函数用priva…

Python基础学习:同步异步阻塞与非阻塞

嗨喽~大家好呀&#xff0c;这里是魔王呐 ❤ ~! python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取 一、状态介绍 在了解其他概念之前&#xff0c;我们首先要了解进程的几个状态。 在程序运行的过程中&#xff0c;由于被操作系统的调度算法控制&#xff0c;程序…

k8s---pod控制器

pod控制器发的概念&#xff1a; 工作负载&#xff0c;workload用于管理pod的中间层&#xff0c;确保pod资源符合预期的状态。 预期状态&#xff1a; 1、副本数 2、容器重启策略 3、镜像拉取策略 pod出故障的出去等等 pod控制器的类型&#xff1a; 1、replicaset&#xf…

可达性分析

可达性分析 这个算法的基本思路就是通过 一系列称为“GC Roots”的根对象作为起始节点集&#xff0c;从这些节点开始&#xff0c;根据引用关系向下搜索&#xff0c;搜索过 程所走过的路径称为“引用链”&#xff08;Reference Chain&#xff09;&#xff0c;如果某个对象到GC …