Hadoop安装及配置

Hadoop的三种运行模式

  • 单机模式(Standalone,独立或本地模式):安装简单,运行时只启动单个进程,仅调试用途;
  • 伪分布模式(Pseudo-Distributed):在单节点上同时启动namenode、datanode、secondarynamenode、resourcemanager 、nodemanager等5个进程,模拟分布式运行的各个节点 ;
  • 完全分布式模式(Fully-Distributed) :正常的Hadoop集群,由多个各司其职的节点构成

Hadoop安装步骤

  1. 配置主机名、网络、编辑hosts文件,重启;
  2. 配置免密码登陆,连接其他机器;
  3. Hadoop安装(下载解压到预定目录下)
    tar -xzvf hadoop-2.7.7.tar.gz -C 目标文件夹/hadoop- 2.7.2/
  4. 编辑文件(Hadoop解压目录下etc/hadoop/文件夹)
  • 编辑该目录下hadoop-env.sh、yarn-env.sh文件 ;
  • 编辑该目录下core-site.xml、hdfs-site.xml和mapred- site.xml、yarn-site.xml四个核心配置文件 ;
  1. 编辑masters、slaves(或者workers)文件;
  2. 复制hadoop文件夹到其他节点;
  3. 格式化HDFS ;
  4. 启动Hadoop

预备步骤-集群时钟同步

  • 自动定时同步(设置系统定时任务)
1. crontab -e (vi操作,i插入,ESC,:wq)
2. 0 1 * * * /usr/sbin/ntpdate cn.pool.ntp.org 
  • 手动同步
/usr/sbin/ntpdate cn.pool.ntp.or

Step0:安装jdk

  1. 上传jdk-7u71-linux-x64(压缩文件)到/usr/java;
    不建议使用高版本JDK,查看Hadoop兼容的JDK版本;

  2. 解压文件(root用户操作);

cd /usr/javatar –xzvf /usr/java/jdk-7u71-linux-x64.gz
  1. 修改个人用户配置文件,vim ~/.bash_profile,在文件尾部添加(i进入编辑)
export JAVA_HOME=/usr/java/jdk1.7.0_71export PATH= $JAVA_HOME/bin: $ PATH
  1. 保存退出(ESC 退出编辑,:wq 存盘退出)
  2. 使(用户)配置生效,source ~/.bash_profile
  3. 测试,java –version

Step1:网络设置

  • 桥接模式:VMnet0
  • 主机模式:VMnet1
  • NAT模式:VMnet8
  1. 关闭防火墙 (root用户)
chkconfig iptables off (6.x指令)
systemctl disable firewalld (7.x指令)
  1. 修改/etc/sysconfig/network-scripts/相应的网络配置

  2. 修改机器名(root用户)

#hostnamectl set-hostname <机器名> (7.x指令)
#hostname <机器名> (6.x指令)
#vi /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=hadoop0 #主机名

保存退出,重启终端,测试hostname

  1. 修改/etc/hosts (root用户)
    5.重启网络服务
systemctl restart network.service
service network restart (6.x)

Step2:ssh免密码登录

Hadoop运行过程中需要管理远端Hadoop守护进
程,启动后,NameNode是通过SSH(Secure
Shell)来无密码登录启动和停止各个DataNode上
的各种守护进程的。同理,DataNode上也能使用
SSH无密码登录到NameNode。

  • 一般情况下,只需要从master单向SSH到slave
  1. 在各机器上执行(在免密码登陆的用户下)ssh-keygen -b 1024 -t rsa 一路回车
  2. 在~/.ssh/下生成文件 id_rsa 、id_rsa.pub
  3. 生成密码后输入命令 ssh-copy-id hadoop

Step3:Hadoop安装

  1. 上传hadoop文件到节点/home/zkpk/hadoop目录
  2. 解压文件
cd /home/zkpk/ – tar -zxvf hadoop-2.7.7.tar.gz
  1. 修改(Linux下)/etc/profile—(系统级环境设置,可选)
vi /etc/profile #在文件最后添加以下语句export JAVA_HOME=/usr/java – export HADOOP_HOME=/home/zkpk/hadoop
– export PATH=$JAVA_HOME/bin:$PATH::$HADOOP_HOME/bin – 保存退出
– source /etc/profile //切记修改后,使之立即生效
– 如果指定了用户级的环境变量(.bash_profile),可不编辑;

image.png

Step4:修改配置文件

hadoop安装目录下的配置文件路径,即$HADOOP_HOME/etc/hadoop

  1. 修改hadoop-env.sh、yarn-env.sh
  • export JAVA_HOME=/usr/java/jdk1.7.0_71/
  • 保存退出
  1. 配置core-site.xml,增加以下内容
  • master机器名的9000端口
  • 集群数据目录
<property><name>fs.default.name</name><value>hdfs://hadoop0:9000</value></property><property><name>hadoop.tmp.dir</name><value>/home/zkpk/hadoopdata</value></property>
  1. 配置hdfs-site.xml
  • 保存副本数量
<property><name>dfs.replication</name><value>2</value></property>
  1. 配置mapred-site.xml
  • 使用YARN进行资源调度和任务管理
<property><name> mapreduce.framework.name </name><value>yarn</value></property>
  1. 配置yarn-site.xml
<property><name>yarn.resourcemanager.hostname</name><value>hadoop0</value></property><property><name> yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></propert>

Step5:编辑masters、slaves(或者workers)文件

  1. 配置masters
  • 管理NN机器名称
Hadoop0
  1. 配置slaves(workers),可以包含master
  • 数据节点DN的机器名称
hadoop1
hadoop2
hadoop3
  • 说明:一行一个主机名

Step6:复制hadoop文件夹到其他节点

  1. 把hadoop0的hadoop目录、jdk目录、/etc/hosts、/etc/profile复制到hadoop1,hadoop2、hadoop3节点
  2. 复制master机器的hadoop安装目录到slave机器的用户目录(slave的 /home/zkpk/hadoop-2.7.7)
#cd $HADOOP_HOME/.. 
scp -r hadoop-2.7.7 hadoop1:~/
scp -r hadoop-2.7.7 hadoop2:~/
scp -r hadoop-2.7.7 hadoop3:

Step7:格式化HDFS

第一次启动Hadoop前,必须先格式化namenode

cd $HADOOP_HOME /bin
hdfs namenode –format

Step8:启动Hadoop

cd $HADOOP_HOME/sbin
./start-all.sh //启动所有
# 可分两步启动: start-dfs.sh 、start-yarn.sh
# 第一步启动文件系统,start-dfs.sh
# 出错时,查看logs,检查相关配置文件:hdfs-site.xml,core-site.xml
# 第二步启动yarn计算框架,start-yarn.sh
# 出错时,查看logs,检查相关配置文件:yarn-site.xml,mapred-site.xml
停止Hadoop
~/hadoop-2.5.2/sbin/stop-all.sh
或者分两步停止hadoop集群
可分两步停止: start-yarn.sh、start-dfs.sh
# 第一步停止yarn, stop-yarn.sh
# 第二步停止文件系统,stop-dfs.sh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/390782.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

漏洞发布平台-安百科技

一个不错的漏洞发布平台&#xff1a;https://vul.anbai.com/ 转载于:https://blog.51cto.com/antivirusjo/2093758

西格尔零点猜想_我从埃里克·西格尔学到的东西

西格尔零点猜想I finished reading Eric Siegel’s Predictive Analytics. And I have to say it was an awesome read. How do I define an awesome or great book? A book that changes your attitude permanently. You must not be the same person that you were before y…

HDFS 技术

HDFS定义 Hadoop Distributed File System&#xff0c;是一个使用 Java 实现的、分布式的、可横向扩展的文件系 统&#xff0c;是 HADOOP 的核心组件 HDFS特点 处理超大文件流式地访问数据运行于廉价的商用机器集群上&#xff1b; HDFS 不适合以下场合&#xff1a;低延迟数据…

深度学习算法和机器学习算法_啊哈! 4种流行的机器学习算法的片刻

深度学习算法和机器学习算法Most people are either in two camps:大多数人都在两个营地中&#xff1a; I don’t understand these machine learning algorithms. 我不了解这些机器学习算法。 I understand how the algorithms work, but not why they work. 我理解的算法是如…

Python第一次周考(0402)

2019独角兽企业重金招聘Python工程师标准>>> 一、单选 1、Python3中下列语句错误的有哪些&#xff1f; A s input() B s raw_input() C print(hello world.) D print(hello world.) 2、下面哪个是 Pycharm 在 Windows 下 默认 用于“批量注释”的快捷键 A Ctrl d…

ASP.NET 页面之间传值的几种方式

对于任何一个初学者来说&#xff0c;页面之间传值可谓是必经之路&#xff0c;却又是他们的难点。其实&#xff0c;对大部分高手来说&#xff0c;未必不是难点。 回想2016年面试的将近300人中&#xff0c;有实习生&#xff0c;有应届毕业生&#xff0c;有1-3年经验的&#xff0c…

Mapreduce原理和YARN

MapReduce定义 MapReduce是一种分布式计算框架&#xff0c;由Google公司2004年首次提出&#xff0c;并贡献给Apache基金会。 MR版本 MapReduce 1.0&#xff0c;Hadoop早期版本(只支持MR模型)MapReduce 2.0&#xff0c;Hadoop 2.X版本&#xff08;引入了YARN资源调度框架后&a…

数据可视化图表类型_数据可视化中12种最常见的图表类型

数据可视化图表类型In the current era of large amounts of information in the form of numbers available everywhere, it is a difficult task to understand and get insights from these dense piles of data.在当今时代&#xff0c;到处都是数字形式的大量信息&#xff…

MapReduce编程

自定义Mapper类 class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> &#xff5b; … }自定义mapper类都必须实现Mapper类&#xff0c;有4个类型参数&#xff0c;分别是&#xff1a; Object&#xff1a;Input Key Type-------------K1Text: Input…

统计信息在数据库中的作用_统计在行业中的作用

统计信息在数据库中的作用数据科学与机器学习 (DATA SCIENCE AND MACHINE LEARNING) Statistics are everywhere, and most industries rely on statistics and statistical thinking to support their business. The interest to grasp on statistics also required to become…

IOS手机关于音乐自动播放问题的解决办法

2019独角兽企业重金招聘Python工程师标准>>> 评估手机自带浏览器不能识别 aduio标签重的autoplay属性 也不能自动执行play()方法 一个有效的解决方案是在微信jssdk中调用play方法 document.addEventListener("WeixinJSBridgeReady", function () { docum…

开发人员怎么看实施人员

英文原文&#xff1a;What Developers Think Of Operations&#xff0c;翻译&#xff1a;张红月CSDN 在一个公司里面&#xff0c;开发和产品实施对于IS/IT的使用是至关重要的&#xff0c;一个负责产品的研发工作&#xff0c;另外一个负责产品的安装、调试等工作。但是在开发人员…

怎么评价两组数据是否接近_接近组数据(组间)

怎么评价两组数据是否接近接近组数据(组间) (Approaching group data (between-group)) A typical situation regarding solving an experimental question using a data-driven approach involves several groups that differ in (hopefully) one, sometimes more variables.使…

代码审计之DocCms漏洞分析

0x01 前言 DocCms[音译&#xff1a;稻壳Cms] &#xff0c;定位于为企业、站长、开发者、网络公司、VI策划设计公司、SEO推广营销公司、网站初学者等用户 量身打造的一款全新企业建站、内容管理系统&#xff0c;服务于企业品牌信息化建设&#xff0c;也适应用个人、门户网站建设…

翻译(九)——Clustered Indexes: Stairway to SQL Server Indexes Level 3

原文链接&#xff1a;www.sqlservercentral.com/articles/StairwaySeries/72351/ Clustered Indexes: Stairway to SQL Server Indexes Level 3 By David Durant, 2013/01/25 (first published: 2011/06/22) The Series 本文是阶梯系列的一部分&#xff1a;SQL Server索引的阶梯…

power bi 中计算_Power BI中的期间比较

power bi 中计算Just recently, I’ve come across a question on the LinkedIn platform, if it’s possible to create the following visualization in Power BI:就在最近&#xff0c;我是否在LinkedIn平台上遇到了一个问题&#xff0c;是否有可能在Power BI中创建以下可视化…

-Hive-

Hive定义 Hive 是一种数据仓库技术&#xff0c;用于查询和管理存储在分布式环境下的大数据集。构建于Hadoop的HDFS和MapReduce上&#xff0c;用于管理和查询分析结构化/非结构化数据的数据仓库; 使用HQL&#xff08;类SQL语句&#xff09;作为查询接口&#xff1b;使用HDFS作…

CentOS 7 安装 JDK

2019独角兽企业重金招聘Python工程师标准>>> 1、下载oracle jdk 下载地址&#xff1a; http://www.oracle.com/technetwork/java/javase/downloads/index.html 选择同一协议&#xff0c;下载rpm格式版本jdk&#xff0c;或tar.gz格式jdk。 2、卸载本机openjdk 2.1、查…

如何进行数据分析统计_对您不了解的数据集进行统计分析

如何进行数据分析统计Recently, I took the opportunity to work on a competition held by Wells Fargo (Mindsumo). The dataset provided was just a bunch of numbers in various columns with no indication of what the data might be. I always thought that the analys…

020-Spring Boot 监控和度量

一、概述 通过配置使用actuator查看监控和度量信息 二、使用 2.1、建立web项目&#xff0c;增加pom <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency> 启动项目&a…