hadoop2.x linux集群部署

hadoop2.x 集群部署

  • 下载hadoop
  • 需要提前准备好jdk1.8 和rsync 和ssl
  • 集群信息
  • 解压安装
    • 配置环境变量
    • 配置site配置文件(/hadoop/etc/hadoop目录下)
      • core-site.xml
      • hdfs-site.xml
      • yarn-site.xml
      • mapred-site.xml
      • hadoop-env.sh要追加java_home!
      • 配置节点slaves
    • 配置免密ssh访问
      • 没有ssh-copy-id脚本的情况下,免密登录
    • 编写xsync脚本
    • 分发到其他集群
  • 启动集群
  • 查看集群启动情况

接收到一个项目 需要进行hadoop的数据迁移.旧版本使用的是hadoop2.x的,所以这里记录一下hadoop2.x的集群部署. 以便于后续数据通过distcp来迁移

linux版本是centos7

下载hadoop

我这里下的是这个版本hadoop-2.10.2.tar.gz. 去清华镜像 或者阿里华为都可以

需要提前准备好jdk1.8 和rsync 和ssl

  • jdk hadoop环境的需要
  • rsync 同步集群分发的时候需要
  • ssl 免密登陆访问集群,便于分发

集群信息

我这里有12台机,其中2台要部署hive.这里一定要使用hostname来进行配置,只通过ip来配置的话,总有一些奇奇怪怪的问题.

涉及的hadoop服务集群如下

hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
------以上服务器 都是hadoop节点涉及hive服务器 
hive97  主要用这个 ,这台配置了mysql
hive101

解压安装

需要提前安装好jdk 并配置好java_home
然后把hadoop的压缩包扔到服务器 tar -zxvf 解压就行.解压后,我是放置在/usr/local目录下面

配置环境变量

接下来配置一下hadoop的环境变量
/etc/profile

export HADOOP_HOME=/usr/local/hadoop-2.10.2
export PATH=$PATH:$REDIS_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

记得 source /etc/profile

配置site配置文件(/hadoop/etc/hadoop目录下)

core-site.xml

<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop98:9000</value></property><property><name>hadoop.tmp.dir</name><value>/usr/local/hadoop-2.10.2/tmp</value></property><property><name>fs.trash.interval</name><value>1440</value></property>
</configuration>

hdfs-site.xml

<configuration> <property><name>dfs.namenode.http-address</name><value>hadoop98:50070</value></property><property><name>dfs.namenode.secondary.http-address</name><value>hadoop98:50090</value></property><property><name>dfs.namenode.name.dir</name><value>file:/opt/hadoop/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/opt/hadoop/dfs/data</value></property><property><name>dfs.webhdfs.enabled</name><value>true</value></property>  <property><name>dfs.replication</name><value>1</value></property><property><name>dfs.permissions</name><value>false</value></property>
</configuration>

yarn-site.xml


<configuration><property><name>yarn.resourcemanager.hostname</name><value>hadoop98</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><property><name>yarn.log-aggregation-enable</name><value>true</value></property><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><property><name>yarn.nodemanager.resource.memory-mb</name><value>20480</value></property><property><name>yarn.scheduler.minimum-allocation-mb</name><value>2048</value></property><property><name>yarn.nodemanager.vmem-pmem-ratio</name><value>2.1</value></property>
</configuration>

mapred-site.xml

<configuration><property><name>mapreduce.framework.name</name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>hadoop98:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop98:19888</value></property>
</configuration>

hadoop-env.sh要追加java_home!

export HADOOP_IDENT_STRING=$USER
export JAVA_HOME=/usr/local/jdk1.8.0_281

配置节点slaves

[root@hadoop98 hadoop]# cat slaves
hadoop98
hadoop99
hadoop100
hadoop102
hadoop103
hadoop104
hadoop105
hadoop106
hadoop107
hadoop108
hive97
hive101
[root@hadoop98 hadoop]# 

配置免密ssh访问

先到 ~/.ssh目录下 生产密钥对
ssh-keygen -t rsa
然后路径会生成公钥(id_rsa.pub)和私钥(id_rsa)

然后通过ssh-copy-id 服务器名(ip),将公钥分发给其他集群中的服务器.然后就可以ssh 免密登录了

没有ssh-copy-id脚本的情况下,免密登录

通过指令

cat ~/.ssh/id_*.pub|ssh root@待访问的主机IP 'cat>>.ssh/authorized_keys' 

解释

  1. 当前主机位 ,需要免密登录 待访问的主机.则执行上面那一条命令
  2. 执行后会提示输入一此,待访问的主机的密码,随后成功后即可

但是,在执行上述之前,要确保待访问的主机的~目录下有.ssh文件夹,如果报错要提前执行以下

ssh 待访问的主机 'mkdir .ssh'

编写xsync脚本

xsync这里就是一个名称, 你想改成什么都可以.
他的原理就是通过 使用 rsync同步增量覆盖分发而已
这里测试 hadoop98-100 3台机器,要全部分发的话自行修改 for的循环即可

  • 这里除了 for 的循环设备,其他都不用改,直接抄就行.你有时间的话 可以自行理解一下
  • 为了方便使用xsync,建议在/usr/bin目录下新建这个文件,并授权chmod 777.这样无论到哪个位置 都可以直接使用了
  • 使用方法: xsync 需要同步的目录或者文件即可
#!/bin/bash#1. 判断参数个数
if [ $# -lt 1 ]
thenecho Not Enough Arguement!exit;
fi#2. 遍历集群所有机器
for host in hadoop98 hadoop99 hadoop100
doecho ====================  $host  ====================#3. 遍历所有目录,挨个发送for file in $@do#4. 判断文件是否存在if [ -e $file ]then#5. 获取父目录pdir=$(cd -P $(dirname $file); pwd)#6. 获取当前文件的名称fname=$(basename $file)ssh $host "mkdir -p $pdir"rsync -av $pdir/$fname $host:$pdirelseecho $file does not exists!fidone
done

分发到其他集群

同步hadoop   xsync /usr/local/hadoop
同步环境变量  xsync /etc/profile
这里在集群机器上,还要执行source /etc/profile .这里直接通过ssh 服务器来 远程执行也是可以的----以下 看自己的需求------------
当前,也需要同步jdk  xsync /usr/local/jdk

启动集群

这里意识hadoop98作为主服务器,在这上面执行 start-all.sh即可(这里没有这个命令的话,检查一下环境变量是否配置)
或者执行 start-dfs.sh

查看集群启动情况

hadoop dfsadmin -report

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/165309.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算方法与科学建模】矩阵特征值与特征向量的计算(四):乘幂法及其python实现

文章目录 一、Jacobi 旋转法二、Jacobi 过关法三、Householder 方法四、乘幂法 矩阵的特征值&#xff08;eigenvalue&#xff09;和特征向量&#xff08;eigenvector&#xff09;在很多应用中都具有重要的数学和物理意义。 本文将详细介绍乘幂法的基本原理和步骤&#xff0c;并…

【JavaSE】基础笔记 - 异常(Exception)

目录 1、异常的概念和体系结构 1.1、异常的概念 1.2、 异常的体系结构 1.3 异常的分类 2、异常的处理 2.1、防御式编程 2.2、异常的抛出 2.3、异常的捕获 2.3.1、异常声明throws 2.3.2、try-catch捕获并处理 3、自定义异常类 1、异常的概念和体系结构 1.1、异常的…

datasets.Dataset.map方法学习笔记

Dataset.map 方法概要 可以将datasets中的Dataset实例看做是一张数据表。map方法会将输入的function按照指定的方式应用在每一行&#xff08;每一行称为一个example&#xff09;上。本文采用一下示例进行说明&#xff1a; from datasets import Dataset # datasets.__versi…

前端开发工具集合

文章目录 Visual Studio Code (VS Code)安装及配置一、安装二、常用插件三、相关配置四、统一配置代码 Visual Studio Code (VS Code)安装及配置 一、安装 下载地址&#xff1a;https://code.visualstudio.com/ ?> VS Code 下载慢&#xff0c;解决办法请点击 双击下载文件…

Java零基础——SpringMVC篇

1.SpringMVC介绍 SpringMVC是Spring框架中的一个组件&#xff0c;是一个轻量级的web的MVC框架&#xff0c;充当controller,其本质就是一个Servlet。 1.1 传统Servlet的不足 每个请求&#xff0c;都需要定义一个Servlet。虽然可以在service方法中&#xff0c;根据业务标识进行…

【Linux 带宽限速】trickle,限制docker 上传速度

限制docker 上传速度 然而&#xff0c;你可以使用第三方工具来实现这个目的。一个常用的工具是 trickle&#xff0c;它可以模拟网络带宽。 首先&#xff0c;你需要安装 trickle。在 Ubuntu 上&#xff0c;可以使用以下命令安装&#xff1a; sudo apt-get install trickle然后…

deepxde 源码阅读笔记(长期更新)

2023.11.23 阅读的deepxde version: 1.9.0 1. train_aux_vars &#xff0c;即pde当中的第三个参数 这个变量的含义困惑很久。最后发现就是operator learning的PDEs方程parameters。 脉络&#xff1a;def pde aux_vars-> deepxde目前支持tf1最多&#xff0c;但是对其他框架…

系列二、Spring整合单元测试

一、概述 Spring中获取bean最常见的方式是通过ClassPathXmlApplicationContext 或者 AnnotationConfigApplicationContext的getBean()方式获取bean&#xff0c;那么在Spring中如何像在SpringBoot中直接一个类上添加个SpringBootTest注解&#xff0c;即可在类中注入自己想要测试…

优秀的企业协同OA系统如何促进团队协作?

优秀的企业协同OA系统可以帮助团队协同工作变得更简单、更高效。 一、以下是一些优秀的企业协同OA系统可以帮助团队协作的方法&#xff1a; 1、提高工作效率 优秀的企业协同OA系统可以提高工作效率&#xff0c;减少工作的重复性和低效率。例如&#xff0c;可以使用共享日历和…

vue2生命周期

前言 vue的生命周期其实可以分为两块,一个是vue实例的生命周期,一个是组件的生命周期。 vue实例的生命周期方法共有4个:$mout,$forceUpdate,$nextTick,$destroy vue组件的生命周期钩子共有8个:beforeCreate,created,beforeMount,mounted,beforeUpdate, updated,beforeDestr…

C/C++小写字母的判断 2022年3月电子学会中小学生软件编程(C/C++)等级考试一级真题答案解析

目录 C/C小写字母的判断 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 C/C小写字母的判断 2022年3月 C/C编程等级考试一级编程题 一、题目要求 1、编程实现 输入一个字符&#xff0c;判断是否是英文小…

iframe内部子页面与外部主页面通讯

文章目录 一、问题二、解决2.1、子页面2.2、主页面 三、知识点3.1、[浏览器兼容性](https://developer.mozilla.org/zh-CN/docs/Web/API/Window/postMessage#%E6%B5%8F%E8%A7%88%E5%99%A8%E5%85%BC%E5%AE%B9%E6%80%A7)3.2、详解3.2.1、发送方3.2.2、接收方 一、问题 如上所示&a…

被删数据库+勒索

被删数据库勒索 – WhiteNights Site 标签&#xff1a;日志 快照在手&#xff0c;天下我有 服务器又给人黑了。这次是给人黑了数据库&#xff0c;被人删库勒索&#xff0c;先放图吧。我还花了今天一个下午的时间查修这个漏洞&#xff0c;导致网站有接近6个小时都没法访问。 …

编程示例: Session Id的生成

实现思路 Session的实现方式如下&#xff1a;在用户第一次登录的时候&#xff0c;系统为它分配一个唯一Id(被称为Session Id)作为标识&#xff0c;并且 记录下这个用户的用户名、要登录的账套名、用户拥有的权限等&#xff0c;以Id为键&#xff0c;用户名、账套名等信息为值保…

云原生Kubernetes系列 | Kubernetes静态Pod的使用

云原生Kubernetes系列 | Kubernetes静态Pod的使用 静态pod不建议在master上操作,因为master上跑的是集群核心静态pod,如果配置失败,会导致集群故障。建议在knode1或knode2上去做。 kubernetes master节点上的核心组件pod其实都是静态pod: [root@k8s-master ~]# ls /etc/ku…

java中锁的使用-实战

技术主题 技术原理 在实际的业务中,为了保证线程安全,会进行对一些逻辑进行加锁,保证当前只有一个线程在操作。在代码中,我们经常使用两种方式进行加锁,来保证线程安全。一种是synchronized关键字,另一种是ReentrantLock加锁。写这一份的博客,就是为了记录下锁的基本使…

五分钟,Docker安装flink,并使用flinksql消费kafka数据

1、拉取flink镜像&#xff0c;创建网络 docker pull flink docker network create flink-network2、创建 jobmanager # 创建 JobManager docker run \-itd \--namejobmanager \--publish 8081:8081 \--network flink-network \--env FLINK_PROPERTIES"jobmanager.rpc.ad…

Redis 命令行 redis-cli 介绍

文章目录 前言1. 连接 Redis 服务2. 从其他程序获取输入3. 连续执行相同的命令4. CSV 输出5. 输出帮助信息6. 清空屏幕7. 连续监控统计信息8. 输出大 key 报告9. 监控 Redis 执行的命令 前言 redis-cli 是 Redis 自带的命令行工具&#xff0c;是运维和开发人员常用的工具&…

【C++干货铺】适配器 | stack | queue

个人主页点击直达&#xff1a;小白不是程序媛 C系列学习专栏&#xff1a;C干货铺 代码仓库&#xff1a;Gitee 目录 stack的介绍和使用 stack的介绍 stack的使用 queue的介绍和使用 queue的介绍 queue的使用 容器适配器 什么是适配器 STL中stack和queue的底层结构 d…

Doris扩容和缩容(六)

Doris 可以很方便的扩容和缩容 FE、BE、Broker 实例。 FE 扩容和缩容 可以通过将 FE 扩容至 3 个以上节点来实现 FE 的高可用。 1&#xff09;使用 MySQL 登录客户端后&#xff0c;可以使用 sql 命令查看 FE 状态&#xff0c;目前就一台 FE mysql -h hadoop1 -P 9030 -uroo…