hadoop伪分布式配置

1.1 准备
通过gedit编辑器修改比较方便,因此需先安装gedit。

sudo apt-get install gedit

1.2 修改配置文件core-site.xml和hdfs-site.xml(如下注释部分需要删除)

  • gedit打开core-site.xml
$ gedit ./etc/hadoop/core-site.xml
<configuration>#在该语句对中添加如下语句,单机模式删除该语句对中的所有语句。<property><name>hadoop.tmp.dir</name> #用于存储hadoop运行过程中的临时文件的目录<value>file:/usr/local/hadoop/tmp</value>#指定目为/usr/local/hadoop/tmp,若不设置,Hadoop关闭后,系统默认设置的目录会被情况,下次在开启hadoop时,又需要运行hadoop format初始化,才能正常使用。<description>Abase for other temporary directories.</description></property><property><name>fs.defaultFS</name>			#设置fs.dfaultFS对应的值<value>hdfs://localhost:9000</value>#设置整个hdfs路径的逻辑名称为hdfs://localhost:9000</property>
</configuration>
  • gedit打开hdfs-site.xml
$ gedit ./etc/hadoop/hdfs-site.xml
<configuration>#在该语句对中添加如下语句,单机模式删除该语句对中的所有语句。<property><name>dfs.replication</name>#表示副本的数量<value>1</value>			#伪分布式其实只有一台机器,可以设置副本数量为1</property><property><name>dfs.namenode.name.dir</name>#表示本地磁盘目录,是存储fsimage文件的地方<value>file:/usr/local/hadoop/tmp/dfs/name</value>#设置其值</property><property><name>dfs.datanode.data.dir</name>#表示本地磁盘目录,HDFS数据存放block的地方<value>file:/usr/local/hadoop/tmp/dfs/data</value>#设置其对应的值</property>
</configuration>

设置完后保存。

1.3 配置完成后,执行NameNode的格式化

$ cd /usr/local/hadoop
$ ./bin/hdfs namenode -format

输出如下信息则成功。
在这里插入图片描述

1.4 开启NameNode和DataNode守护进程。

$ cd /usr/local/hadoop
$ ./sbin/start-dfs.sh

1.5 通过jps来判断是否成功启动,出现NameNode、DataNode、SecondaryName(若没有这个,则再次尝试启动)则成功。
在这里插入图片描述

1.6 单机模式读取的是本地数据,伪分布式读取的是HDFS上的数据。要使用HDFS,则需要在HDFS中创建用户目录。

$ ./bin/hdfs dfs -mkdir -p /user/hadoop

1.7 三种shell命令方式介绍

  • hadoop fs:适用于任何不同的文件系统,如本地文件系统和HDFS文件系统。
  • hadoop dfs:只适用于HDFS文件系统。
  • hdfs dfs:只适用于HDFS文件系统。

1.8 使用

  • 将./etc/hadoop中的.xml文件作为输入,复制到分布式文件系统中的/user/hadoop/input中。
  • 执行如下命令创建文件夹和复制文件
$ ./bin/hdfs dfs -mkdir input
$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
  • 查看复制的文件目录
$ ./bin/hdfs dfs -ls input

1.9 伪分布式运行MapReduce作业与单机模式相同,伪分布式读取的HDFS中的文件。

$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'dfs[a-z.]+'

1.10 查看输出文件,每次运行上述输出语句,需要删除output输出文件夹。

$ ./bin/hdfs dfs -cat output/*

在这里插入图片描述
1.11 hadoop的关闭与启动:下次启动无需运行NameNode初始化。

$ ./sbin/stop-dfs.sh
$ ./sbin/start-dfs.sh

1.12 hadoop命令目录:

  • hadoop所在目录为/usr/local/hadoop
  • hadoop命令在sbin文件夹中。
    在这里插入图片描述
  • HDFS文件数据目录:/tmp/dfs/
    在这里插入图片描述
  • input 输入文件目录
    在这里插入图片描述

1.1.3 hadoop的访问:hadoop3.x版本的默认端口问9870,即通过localhost:9870可以访问启动的hadoop。

1.14 可能的错误

  • 若1.3 运行后出错Error: JAVA_HOME is not set and could not be found. 那么请保证JAVA_HOME配置正确。若还出错,则:
    转到hadoop的安装目录,修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”中的“export JAVA_HOME=${JAVA_HOME}”为Java安装路径的具体地址,如“export JAVA_HOME=/usr/lib/jvm/default-java”。

  • 启动hadoop识,若出现类似“ssh: Could not resolve hostname xxx”的错误。
    这不是SSH的问题,可以通过Hadoop配置来解决。

先ctrl+c中断启动,然后在~./bashrc中添加如下语句

export HADOOP_HOME=/usr/local/hadoop#hadoop的安装目录
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
保存执行命令使配置生效。
source ~/.bashrc
在执行启动命令。
$ ./sbin/start-dfs.sh
  • Hadoop 运行程序时,输出目录不能存在,否则会提示错误 “org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://localhost:9000/user/hadoop/output already exists” ,需要删除output文件夹。

  • 可以通过命令设置,可以运行是自动删除output目录,避免复杂的其他操作。

Configuration conf = new Configuration();
Job job = new Job(conf);/* 删除输出目录 */
Path outputPath = new Path(args[1]);
outputPath.getFileSystem(conf).delete(outputPath, true);

源文档
http://dblab.xmu.edu.cn/blog/2441-2/#more-2441

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484216.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实现AGI,强化学习就够了?Sutton、Silver师徒联手:奖励机制足够实现各种目标...

来源&#xff1a;机器学习研究组订阅通用人工智能&#xff0c;用强化学习的奖励机制就能实现吗&#xff1f;几十年来&#xff0c;在人工智能领域&#xff0c;计算机科学家设计并开发了各种复杂的机制和技术&#xff0c;以复现视觉、语言、推理、运动技能等智能能力。尽管这些努…

内网渗透闲谈

作者&#xff1a;天析 为什么要进行内网渗透&#xff1f; 场景一&#xff08;企业内网&#xff09;&#xff1a; 在做渗透测试时&#xff0c;发现web服务是通过处于域中的服务器经由路由完成端口映射来对外提供的&#xff0c;而此时我们已经通过web环境获得了该主机的system权限…

这可能是十年来最酷的神经科学发现

© Designer Shit Documentary来源&#xff1a;Diego Salinas翻译&#xff1a;Rachel校对&#xff1a;Yord原文&#xff1a;medium.com/artificial-intelligence-and-cognition/what-makes-emotions-feel-good-or-bad-9bdcd0a81afc过去的十年是神经科学史上极不平凡的十年&…

计算机网络(二十一)-数据链路层设备

1.1 物理层扩展以太网 扩展添加了主干集线器&#xff0c;信道的冲突概率增大&#xff0c;冲突域增加&#xff0c;效率降低。 1.2 链路层扩展以太网 可以通过网桥和交换机来实现。 网桥&#xff1a;根据MAC帧的目的地址对帧进行转发和过滤。当网桥接收到一个帧时&#xff0…

LeetCode 876 Middle of the Linked List 解题报告

题目要求 Given a non-empty, singly linked list with head node head, return a middle node of linked list. If there are two middle nodes, return the second middle node. 题目分析及思路 题目给出一个非空单链表&#xff0c;要求返回链表单的中间结点。可以将链表中的…

计算机网络(十八)-以太网

一.概述 1.1 以太网指的是由Xerox公司创建并由Xerox、Intel和DEC公司联合开发的基带总线局域网规范&#xff0c;是当今现有局域网采用的最通用的通信协议标准。以太网络使用CSMA/CD技术。 1.2 以太网在局域网各种技术中占统治性地位。 造价低;是应用最广泛的局域网技术。比令…

Cell颠覆性发现:中脑神经元的新作用

来源&#xff1a;生物通除了颠覆长期以来关于中脑运动区域作用的观点&#xff0c;这项研究还可能缓解对药物无效的帕金森病患者的姿势和步态问题具有启示意义。中脑运动区是中脑的一部分&#xff0c;参与调节许多动物的行走和其他形式的运动。但是大脑这一区域神经元的功能仍然…

nginx 高并发优化参数

关于内核参数的优化&#xff1a;net.ipv4.tcp_max_tw_buckets 6000timewait的数量&#xff0c;默认是180000。net.ipv4.ip_local_port_range 1024 65000允许系统打开的端口范围。net.ipv4.tcp_tw_recycle 1启用timewait快速回收。net.ipv4.tcp_tw_reuse 1开启重用。允许将T…

计算机网络(十九)-IEEE802.11无线局域网

IEEE802.11是无线局域网的通用的标准&#xff0c;它是由IEEE所定义的无线网络通信的标准。 802.11的MAC帧头格式 3.无线局域网分类 有固定基础设施无线局域网 wifi名称其实就是服务集标识符。无固定基础设施无线局域网的自组织网络

谷歌用量子计算机造出「时间晶体」,挑战热力学第二定律

来源&#xff1a;新智元近日&#xff0c;谷歌联合几十位物理学家&#xff0c;用量子计算机造出了「时间晶体」。你能想象得到&#xff0c;有这样一个物体&#xff0c;竟然跳出了经典的热力学第二定律&#xff1f;没错&#xff0c;这就是「时间晶体」。然而&#xff0c;时间晶体…

7、JPA-映射-双向一对多

一个用户对应多个订单&#xff0c;多个订单对应一个用户&#xff0c;不管查哪一边都可以得到另一边的信息 实体类 Customer package com.jpa.yingshe;import javax.persistence.*; import java.util.HashSet; import java.util.Set;Table(name "JPA_CUTOMERS") Enti…

计算机网络(二十)-广域网-PPP协议和HDLC协议

一.广域网 广域网&#xff0c;通常跨接很大的物理范围&#xff0c;所覆盖的范围从几十公里到几千公里&#xff0c;它能连接多个城市或国家&#xff0c;远距离通信&#xff0c;形成国际性的远程网络。 广域网的通信子网主要使用分组交换技术。广域网的通信子网可以利用分组交换…

设计模式(九)——适配器模式

将一个类的接口转换成客户希望的另外一个接口。使得原本由于接口不兼容而不能一起工作的那些类可以一起工作 Target&#xff08;目标抽象类&#xff09;&#xff1a;目标抽象类定义客户所需接口&#xff0c;可以是一个抽象类或接口&#xff0c;也可以是具体类。Adapter&#xf…

导弹防御系统,如何跟蜻蜓的大脑学习计算?

来源&#xff1a;大数据文摘作者&#xff1a;Frances Chance多雨的夏季&#xff0c;蜻蜓最为常见&#xff0c;这些美丽的生物的飞行速度极快&#xff0c;狩猎能力也极为出色&#xff1a;蜻蜓狩猎的成功率捕获了高达95% &#xff0c;它们一天可以吃掉数百只蚊子。这种狩猎能力吸…

分布式文件系统HDFS

1.HDFS简介 1.1 Hadoop Distributed File System&#xff0c;简称HDFS。解决海量数据的分布式存储。 1.2 分布式文件系统 计算机集群中内部机器通过光纤高速交换机进行连接&#xff0c;机架之间通过宽带更高的光纤交换机连接。 有一个主节点机器其他的为从节点机器&#xff…

小程序开发初体验,从静态demo到接入Bmob数据库完全实现

之前我胖汾公司年会、问我能不能帮忙搞个小程序方便他们进行游戏后的惩罚/抽奖使用、出了个简单的设计图、大概三天左右做了个简单的小程序、目前提交审核了。对于写过一小段时间vue来说小程序很容易上手、写法和结构差不多。 ----------------- 这里整理的内容大致划分四个部分…

演讲实录丨徐宗本院士:如何突破机器学习的先验假设?

来源&#xff1a;中国人工智能学会2021年6月5日至6日&#xff0c;由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导&#xff0c;中国人工智能学会、杭州市人民政府主办&#xff0c;杭州市余杭区人民政府筹备组承办&#xff0c;浙江杭州未来科技城管理委员会具体…

hbase单机模式配置

1.软件 https://pan.baidu.com/s/1mgPA8s02FFyPqcc9DmR-FA 提取码: 337t 2.在安装hbase之前&#xff0c;确保你的电脑已经安装Hadoop3.1.3&#xff0c;hbase对Hadoop具有版本依赖。 3.将hbase压缩文件解压到/usr/local目录下&#xff0c;先切换到压缩文件所在目录&#xff0…

QT QTransform与QMatrix 有啥区别?

刚开始学习QT&#xff0c;我使用的是QT5.12进行开发&#xff0c;要不时地查阅QT的官方帮助文档~ 仔细阅读QT官方帮助QTransform类以及QMatrix类&#xff0c;发现两个类的作用描述一模一样&#xff08;“The QTransform class specifies 2D transformations of a coordinate sys…

hbase伪分布式配置

1.在单机模式的基础上进行配置&#xff0c;打开hbase-env.sh。 vim /usr/local/hbase/conf/hbase-env.sh2.配置HBASE_CLASSPATH为hadoop安装目录下的conf目录&#xff0c;即 /usr/local/hadoop/conf。JAVA_HOME、HBASE_MANAGES_ZK之前已经配置好了。 export HBASE_CLASSPATH/…