Hadoop的安装与配置——设置单节点群集

本篇博客将主要介绍如何设置和配置单节点Hadoop安装,以便我们可以使用Hadoop 的MapReduce与HDFS快速执行简单的操作。

零、先决条件

1、本系列以Ubuntu Linux作为开发和生产平台
2、Linux所需的软件包括:

  • JAVA:必须安装Java,配置好JDK环境变量;
  • SSH:如果要使用可选的启动和停止脚本,则必须安装ssh并且必须运行sshd才能使用管理远程Hadoop守护程序的Hadoop脚本;
  • pdsh:安装pdsh以便更好地进行ssh资源管理。

如果群集中没有必需的软件,则需要安装它。在Ubuntu Linux上:

  $ sudo apt-get install ssh$ sudo apt-get install pdsh

一、下载

可以从 Apache Download Mirrors下载获得最稳定的发行版
下载后,使用 : tar -zxvf tar包名,解压到指定位置!

编辑文件etc/ hadoop / hadoop-env.sh以定义一些参数

  # set to the root of your Java installationexport JAVA_HOME=/usr/local/java/jdk1.8export HADOOP_CONF_DIR=/usr/local/apps/hadoop-3.2.1/etc/hadoop

尝试以下命令:

  $ bin / hadoop

二、准备启动Hadoop集群

这将显示hadoop脚本的用法文档
现在,我们可以以三种支持的模式之一启动Hadoop集群:

  • 本地(独立)模式
  • 伪分布式模式
  • 全分布式模式

2.1、独立模式运行

默认情况下,Hadoop被配置为在非分布式模式下作为单个Java进程运行。这对于调试很有用。
下面的示例复制解压缩的conf目录以用作输入,然后查找并显示给定正则表达式的每个匹配项。输出被写入给定的输出目录。

  $ mkdir input$ cp etc/hadoop/*.xml input$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'$ cat output/*

2.2、伪分布式操作模式运行

Hadoop也可以以伪分布式模式在单节点上运行,其中每个Hadoop守护程序都在单独的Java进程中运行。
在以下配置文件中进行修改或添加内容

etc/hadoop/core-site.xml:

<configuration><property><name>fs.defaultFS</name><value>hdfs://localhost:9000</value></property>
</configuration>

etc/hadoop/hdfs-site.xml:

<configuration><property><name>dfs.replication</name><value>1</value></property>
</configuration>

设置无密码SSH
现在检查您是否可以在不使用密码的情况下SSH到本地主机:

 $ ssh localhost

如果没有密码就无法SSH到本地主机,就执行以下命令:

  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys$ chmod 0600 ~/.ssh/authorized_keys

以下说明是在本地运行MapReduce作业:

  1. 格式化文件系统:
  $ bin/hdfs namenode -format
  1. 启动NameNode守护程序和DataNode守护程序:
 $ sbin/start-dfs.sh

hadoop守护程序日志输出将写入$ HADOOP_LOG_DIR目录(默认为$ HADOOP_HOME / logs)。

  1. 浏览Web界面的NameNode;默认情况下,它在以下位置可用:
    NameNode - http://localhost:9870/
  2. 设置执行MapReduce作业所需的HDFS目录:
  $ bin/hdfs dfs -mkdir /user$ bin/hdfs dfs -mkdir /user/root
  1. 将输入文件复制到分布式文件系统中:
  $ bin/hdfs dfs -mkdir input$ bin/hdfs dfs -put etc/hadoop/*.xml input
  1. 运行提供的一些示例:
 $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.1.jar grep input output 'dfs[a-z.]+'
  1. 检查输出文件:将输出文件从分布式文件系统复制到本地文件系统并检查它们:
  $ bin/hdfs dfs -get output output$ cat output/*
  1. 完成后,使用以下命令停止守护进程:
  $ sbin / stop-dfs.sh

以伪分布式模式在YARN上运行MapReduce作业:
以下指令假定上述本地运行MapReduce作业指令的1.〜4. 步骤已经执行。

  1. 如下配置参数:

etc / hadoop / mapred-site.xml:

<configuration> <property> <name> mapreduce.framework.name </ name> <value> yarn </ value> </ property> <property> <name> mapreduce.application.classpath </ name> <value> $ HADOOP_MAPRED_HOME / share / hadoop / mapreduce / *:$ HADOOP_MAPRED_HOME / share / hadoop / mapreduce / lib / * </ value> </ property> 
</ configuration>

etc / hadoop / yarn-site.xml:

<configuration> <property> <name> yarn.nodemanager.aux-services </ name> <value> mapreduce_shuffle </ value> </ property> <property> <name> yarn.nodemanager.env-whitelist </ name> <value> JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME </ value> </ property> 
</ configuration>
  1. 启动ResourceManager守护程序和NodeManager守护程序:
  $ sbin/start-yarn.sh
  1. 浏览Web界面以找到ResourceManager;默认情况下,它在以下位置可用:

ResourceManager- http:// localhost:8088 /
运行MapReduce作业。

  1. 完成后,使用以下命令停止守护进程:
  $ sbin/stop-yarn.sh

2.3、全分布式运行

有关设置完全分布式的非重要集群的信息,将在以后进行介绍!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/535835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MIP 脚本域名地址变更公告

尊敬的 MIP 开发者&#xff1a; MIP 团队为了解决 MIP-Cache 页面下 cookie 相互覆盖问题&#xff0c;增强站点品牌露出&#xff0c;在 2017 年 8 月将 MIP 的脚本域名和 MIP-Cache 页面域名进行了升级变更&#xff0c;详见说明 MIP-Cache 域名升级。 在 12 月中旬&#xff0…

新手教程:不写JS,在MIP页中实现异步加载数据

从需求谈起&#xff1a;在 MIP 页中异步加载数据 MIP&#xff08;移动网页加速器&#xff09; 的 加速原理 除了靠谱的 MIP-Cache CDN 加速外&#xff0c;最值得一提的就是组件系统。所有 JS 交互都需要使用 MIP 组件实现&#xff0c;保证页面中所有 JS 都是最精简高效的&…

日常问题———安装新版zookeeper 出现Starting zookeeper ... FAILED TO START

问题描述 安装新版zookeeper使用 /apache-zookeeper-3.6.1.tar.gz解压后运行zoServer.sh文件时出现Starting zookeeper … FAILED TO START错误 解决方案&#xff08;过程&#xff09; 实际上应该是下载错了文件。在官网上有两个tar.gz文件&#xff0c;从3.5.5版本开始&…

Hadoop的安装与配置——搭建完全分布式集群

一、搭建集群 1、准备服务器&#xff08;这里以我的3台Centos7为例&#xff09; 1个主节点&#xff1a;Carlota1(192.168.33.21)&#xff0c;2个子节点&#xff1a;Carlota2(192.168.33.22)&#xff0c;Carlota3(192.168.33.23) 2、配置主节点名 在主节点命令行输入&#x…

HTTP 视频怎么在 MIP 页面中使用?

在 MIP 中&#xff0c;一些资源的使用需要支持 HTTPS&#xff0c;视频就是其中一种。但目前大部分站点的视频资源都还是 HTTP 的资源&#xff0c;无法在百度 MIP 搜索结果中直接使用&#xff0c; mip-video 视频组件针对 HTTP 的视频资源采用跳到一个 HTTP 的播放页面进行播放&…

MIP 组件库升级公告

背景 为了方便广大开发者们更好地使用组件&#xff0c;现对 MIP 组件库统一进行升级&#xff0c;升级后将分为通用组件和自定义组件两类&#xff0c;方便开发。 通用组件&#xff0c;即考虑了组件通用性方便所有开发者参考使用的组件&#xff0c;将存放于 mip-extensions 仓库…

腾讯云服务器 ubuntu 设置允许root用户登录和禁用ubuntu用户

最近购买了腾讯云服务器&#xff0c;使用了 Ubuntu Server 18.04.1 LTS 64位操作系统&#xff0c;发现默认用户为ubuntu,而无法用root用户进行ssh登陆&#xff0c;本篇就记录一下开通root和禁用ubuntu的过程。 1、设置允许root用户登录 使用用户名ubuntu登录sudo passwd root…

Ubuntu 修改 hostname

1、vi /etc/cloud/cloud.cfg 2、将preserve_hostname: false修改为preserve_hostname: true 3、hostnamectl set-hostname 主机名 4、reboot重启系统生效

MIP 技术月报(4月):支持熊掌号登录;优化页面悬浮元素

之前由MIP团队维护的《移动 Web 加速技术月报》从本期开始&#xff0c;正式升级为《MIP 技术月报》&#xff0c;与以往不同的是&#xff0c;《MIP 技术月报》将会与大家分享包含移动加速技术以外的其他移动应用开发的技术&#xff0c;从移动用户体验、开发体验出发来分享 MIP 的…

Ubuntu18.04安装最新版Docker

卸载旧的docker版本apt-get remove docker docker-engine docker.io containerd runc更新软件列表apt-get update.允许apt命令可以使用HTTPS访问Docker repositoryapt-get install apt-transport-https ca-certificates curl gnupg-agent software-properties-common添加Docker…

MIP 问题解决方案大全(2018-06更新)

在 MIP 推出后&#xff0c;我们收到了一些站长的疑问。现将常见问题整理出来&#xff0c;帮助大家了解 MIP 的知识。 一、MIP 认知类问题二、改造前准备三、前端改造&#xff0c;组件使用四、提交生效五、MIPCache六、更多学习资源 一、MIP 认知类问题 1.1 MIP 化的收益是什…

Ubuntu18使用docker快速安装oracle 11g

1、安装docker环境&#xff0c;参照Ubuntu18.04安装最新版Docker 2、下载oracle镜像docker pull deadok22/docker-oracle-xe-11g 3、下载完成后&#xff0c;启动oracle镜像作为容器&#xff1a;docker run -h "oracle" --name "oracle" -d -p 49160:22 -p …

ubuntu新建用户后,终端下方向键和tab键不可用的解决方法

问题描述&#xff1a; 用adduser命令新增了用户之后&#xff0c;发现在该新建用户下的命令终端&#xff0c;使用方向键无法调出历史命令&#xff0c;同时tab键也无法补全输入命令。 问题解决&#xff1a; 在/etc/passwd中发现&#xff0c;该新建用户使用的shell为/bin/sh&…

移动Web体验月报(6月):MIP 核心代码升级,增加基于 Vue 开发能力

原创&#xff1a; BrilliantOpenWeb OpenWeb开发者 7月6日 作者 | Brilliant Open Web 团队 编辑 | Daisy 升级与重要进展 历时2个月&#xff0c;MIP团队完成了核心代码重构与核心功能升级&#xff0c;MIP新版本核心代码&#xff08;V2&#xff09;在实现向下完全兼容当前代…

腾讯云ubuntu18安装图形化界面

0、apt-get update 1、sudo apt-get install xinit 2、sudo apt-get install gdm3 3、apt-get install ubuntu-desktop

2017 到 2018,PWA 技术到底经历了什么

高磊 OpenWeb开发者 1周前 在 GMTC 2018 全球大前端会议举办期间&#xff0c;高磊担任主题演讲嘉宾&#xff0c;并担任 PWA 专场出品人。作为有近 10 年 Web 前端技术开发、管理经验的开发者&#xff0c;高磊一直关注着 PWA 技术的发展。 2017年 6月10日&#xff0c;GMTC 201…

CentrOS7静默安装oracle11g

最近要做一个用ogg实现oracle到kafka的增量数据实时同步&#xff0c;但是Oracle就让我装了好久&#xff0c;这里来记录一下安装oracle过程。 1.建立swap分区 创建充当swap分区的文件&#xff0c;文件大小就是要增加的swap大小&#xff0c;of是文件位置&#xff0c;bs为单位&a…

MIP 扩展组件开发手册

本手册将向你展示&#xff0c;完成一个 MIP 扩展组件的开发需要做哪些事情。在此之前&#xff0c;我们假定你&#xff1a; 有一定的 HTML、CSS 和 JavaScript 基础 了解 AMD 的模块管理方式 熟悉版本管理工具 Git 有自己的 GitHub 账号 懂得使用 npm 步骤 通常情况下&am…

Zookeeper分布式安装部署

本篇博客将主要介绍如何进行Zookeeper的分布式安装部署 集群规划 在Carlota1、Carlota2、Carlota3三台机器上进行部署。 安装部署 1、解压安装 上传压缩文件apache-zookeeper-3.6.1-bin.tar.gz到三台机器上解压文件tar -zxvf apache-zookeeper-3.6.1-bin.tar.gz改个名&…

MIP 网站中熊掌号登录

标题内容类型通用支持布局responsive,fixed-height,fill,container,fixed所需脚本https://c.mipcdn.com/static/v1/mip-mustache/mip-mustache.js https://c.mipcdn.com/static/v1/mip-login-xzh/mip-login-xzh.js 注意&#xff1a;使用该组件必须在引用本组件链接前引用 <…