windows下eclipse远程连接hadoop集群开发mapreduce

转载请注明出处,谢谢
2017-10-22 17:14:09
之前都是用python开发maprduce程序的,今天试了在windows下通过eclipse java开发,在开发前先搭建开发环境。在此,总结这个过程,希望能够帮助有需要的朋友。
用Hadoop eclipse plugin,可以浏览管理HDFS,自动创建MR程序的模板文件,最爽的就是可以直接Run on hadoop。
1、安装插件
下载hadoop-eclipse-plugin-1.2.1.jar,并把它放到 F:\eclipse\plugins 目录下。
2、插件配置与使用
2.1指定hadoop的源码目录
2.2、打开Map/Reduce视图
”Window”->”Open Perspective”->”Other”->“Map/Reduce”.
“Window”->”Show views”->”Other”->”Map Reduce Tools”->”Map/Reduce locations”.

 

正常情况下回出现左上角的HDFS标志,等eclipse与hadoop集群连接后,会在这显示HDFS目录结构。
2.3、新建Map/Reduce Localtion
点击图中红色框或者鼠标右击选中新建,然后出现下面的界面,配置hadoop集群的信息。
这里需要注意的是hadoop集群信息的填写。因为我是在windows下用eclipse远程连接hadoop集群【完全分布式】开发的,所以这里填写的host是master的IP地址。如果是hadoop伪分布式的可以填写localhost。
【Jser name】填写的windows电脑的用户名,右击【我的电脑】-->【管理】-->【本地用户和组】-->【修改用户名字】
完成前面的步骤后,正常的eclipse界面应该像下图那样的。注意example1工程是我自己新建的,主要是用来验证eclipse能否远程连接hadoop集群来开发mapreduce程序。并且,此时在eclipse的HDFS视图界面对HDFS的操作(增删查)和在命令行上对HDFS操作的结果是一样的。
3、开发mapreduce程序
3.1、新建mapreduce工程
使用插件开发的好处这时显示出来了,完成这一个步骤,在工程视图会出现一个mapreduce工程模板,不用我们自己导入hadoop的jar包。下图红框就是新建mapreduce工程后生成的空模板,我们需要做的是在src文件夹中新建包和开发java程序。
3.3、在远程终端中通过命令行方式上传文件hadoop fs -put test.txt /input/  或者 通过eclipse 的HDFS视图上传input文件: /input/test.txt,内容如下:
liang ni hao ma
wo hen hao
ha
qwe
asasa
xcxc vbv xxxx aaa eee
3.2、WordCount.java程序
package com.hadoop.example1;
import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat;
public class WordCount {public static class Map extends MapReduceBase implementsMapper<LongWritable, Text, Text, IntWritable> {private final static IntWritable one = new IntWritable(1);private Text word = new Text();public void map(LongWritable key, Text value,OutputCollector<Text, IntWritable> output, Reporter reporter)throws IOException {String line = value.toString();StringTokenizer tokenizer = new StringTokenizer(line);while (tokenizer.hasMoreTokens()) {word.set(tokenizer.nextToken());output.collect(word, one);}}}public static class Reduce extends MapReduceBase implementsReducer<Text, IntWritable, Text, IntWritable> {public void reduce(Text key, Iterator<IntWritable> values,OutputCollector<Text, IntWritable> output, Reporter reporter)throws IOException {int sum = 0;while (values.hasNext()) {sum += values.next().get();}output.collect(key, new IntWritable(sum));}}public static void main(String[] args) throws Exception {JobConf conf = new JobConf(WordCount.class);conf.setJobName("wordcount");conf.setOutputKeyClass(Text.class);conf.setOutputValueClass(IntWritable.class);conf.setMapperClass(Map.class);conf.setCombinerClass(Reduce.class);conf.setReducerClass(Reduce.class);conf.setInputFormat(TextInputFormat.class);conf.setOutputFormat(TextOutputFormat.class);FileInputFormat.setInputPaths(conf, new Path(args[0]));FileOutputFormat.setOutputPath(conf, new Path(args[1]));JobClient.runJob(conf);}
}

 

3.3、运行examplse1工程
注意的这种开发方式运行采用的是:run on haoop
运行方法:【右击工程】-->【Run as】-->【run on hadoop】 。在这里如果跳出一个界面让你选择,证明现在工程选用的Java Applicaltion不对。这时可以这样做:【右击工程】-->【Run as】-->【run on configrations】。并填写传的参数是输入文件路径和输出目录路径。

在Linux eclipse上开发,以上步骤都成功的话程序会正常运行。但是在windows eclipse 下开发会以下错误。因为在hadoop源码中会检查windows文件权限,因此,我们要修改hadoop源码。
14/05/29 13:49:16 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
14/05/29 13:49:16 ERROR security.UserGroupInformation: PriviledgedActionException as:ISCAS cause:java.io.IOException: Failed to set permissions of path: \tmp\hadoop-ISCAS\mapred\staging\ISCAS1655603947\.staging to 0700
Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-ISCAS\mapred\staging\ISCAS1655603947\.staging to 0700
at org.apache.hadoop.fs.FileUtil.checkReturnValue(FileUtil.java:691)
at org.apache.hadoop.fs.FileUtil.setPermission(FileUtil.java:664)
at org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:514)
at org.apache.hadoop.fs.RawLocalFileSystem.mkdirs(RawLocalFileSystem.java:349)
at org.apache.hadoop.fs.FilterFileSystem.mkdirs(FilterFileSystem.java:193)
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:126)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:942)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Unknown Source)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:550)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:580)
at org.apache.hadoop.examples.WordCount.main(WordCount.java:82)
3.4、修改hadoop源码以支持windows下eclipse开发mapreduce程序。
出现问题的代码位于 【hadoop-1.2.1\src\core\org\apache\hadoop\fs\FileUtil.java】。
修改方式如下,注释掉对文件权限的判断。
private static void checkReturnValue(boolean rv, File p,
FsPermission permission)
throws IOException
{/*** comment the following, disable this functionif (!rv){throw new IOException("Failed to set permissions of path: " + p +" to " +String.format("%04o", permission.toShort()));}*/
}
然后将修改好的文件重新编译,并将.class文件打包到hadoop-core-1.2.1.jar中,并重新刷新工程。这里,为了方便大家,我提供已经修改后的jar文件包,如果需要可以点击下载,并替换掉原有的hadoop-1.2.1中的jar包,位于hadoop-1.2.1根目录。
再次3,3步骤的操作,这时运行成功了。
3.5查看结果
在HDFS视图刷新后,可以看到生成output_wordcount文件夹,进入此目录可以看见生成的part-00000,其结果为:

 

转载于:https://www.cnblogs.com/liangjf/p/7710789.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20145308刘昊阳 《Java程序设计》实验五报告

20145308刘昊阳 《Java程序设计》实验五 Java网络编程及安全 实验报告 实验名称 Java网络编程及安全 实验内容 1&#xff0e;掌握Socket程序的编写&#xff1b; 2&#xff0e;掌握密码技术的使用&#xff1b; 3&#xff0e;设计安全传输系统。 统计的PSP(Personal Software Pro…

FPL 2017最佳论文:如何对FPGA云发动DoS攻击?

第27届现场可编程逻辑与应用国际会议&#xff08;The International Conference on Field-Programmable Logic and Applications&#xff0c;FPL&#xff09;九月份在比利时根特召开。在FPL 2017上&#xff0c;一篇来自德国卡尔斯鲁厄理工学院&#xff08;Karlsruhe Institute …

BZOJ 1692: [Usaco2007 Dec]队列变换( 贪心 )

数据 n < 30000 , 然后 O( n ) 的贪心也过了..... USACO 数据是有多弱啊 ( ps : BZOJ 1640 和此题一模一样 , 双倍经验 ) --------------------------------------------------------------------------------------#include<cstdio>#include<cstring>#include…

数据说话,88000条数据绘制北京市地图

偶获得一批数据&#xff0c;本着好玩的态度绘制下来看看到底是什么鬼&#xff0c;绘制的结果如下&#xff1a; 呵呵&#xff0c;什么都不像。而且中间最重要的部分因数据量过大绘制的已经看不清楚了。于是乎&#xff0c;缩小绘制范围&#xff0c;去除周围没有用的数据。重新绘制…

我的第一个python web开发框架(11)——工具函数包说明(二)

db_helper.py是数据库操作包&#xff0c;主要有两个函数&#xff0c;分别是read()数据库读操作函数和write()数据库写操作函数。这个包的代码是从小戴同学分享的博文改造过来的。 1 #!/usr/bin/env python2 # codingutf-83 4 import psycopg25 from common import log_helper6 …

linux crontab 命令

#method 1 crontab -e crontab -u root -e #不同用户自己的任务计划 crontab -l#method 2 vim /etc/crontab# Example of job definition: # .---------------- minute (0 - 59) # | .------------- hour (0 - 23) # | | .---------- day of month (1 - 31) # | | | .--…

【Swift学习】Swift编程之旅---ARC(二十)

Swift使用自动引用计数(ARC)来跟踪并管理应用使用的内存。大部分情况下&#xff0c;这意味着在Swift语言中&#xff0c;内存管理"仍然工作"&#xff0c;不需要自己去考虑内存管理的事情。当实例不再被使用时&#xff0c;ARC会自动释放这些类的实例所占用的内存。然而…

转:传入的表格格式数据流(TDS)远程过程调用(RPC)协议流不正确 .

近期在做淘宝客的项目&#xff0c;大家都知道&#xff0c;淘宝的商品详细描述字符长度很大&#xff0c;所以就导致了今天出现了一个问题 VS的报错是这样子的 ” 传入的表格格式数据流(TDS)远程过程调用(RPC)协议流不正确“ 还说某个desricption 过长之类的话 直觉告诉我&#…

合并bin文件-----带boot发布版本比较好用的bat(便捷版)

直接上图上代码&#xff08;代码在结尾&#xff09;&#xff0c;有不会用的可以留言&#xff1a; 第一步&#xff1a;工程介绍&#xff0c;关键点--- 1.bat文件放所在app和boot工程的同级目录下 2.release为运行bat自动生成文件夹 第二步&#xff1a;合版.bat 针对具体项目需…

关于cmake从GitHub上下载的源码启动时报错的问题

关于cmake从GitHub上下载的源码启动时报错的问题&#xff1a; 由于cmake会产生all_build和zero_check两个project&#xff0c;此时需要右击鼠标将需要运行的项目设为启动项&#xff0c;在进行编译&#xff0c;现只针对“找不到all_build文件“的出错信息&#xff0c;若有相关编…

Elementary OS安装Chrome

elementary os 官方网站&#xff1a;https://elementary.io/ 这os是真好看&#xff01;首先这是基于ubuntu的&#xff0c;所以可以安装ubuntu的软件&#xff01; 电脑必备浏览器必须是chrome呀&#xff01;下载地址&#xff1a; https://www.chrome64bit.com/index.php/google…

spark、oozie、yarn、hdfs、zookeeper、

为什么80%的码农都做不了架构师&#xff1f;>>> spark、 oozie:任务调度 yarn:资源调度 hdfs:分布式文件系统 zookeeper、 转载于:https://my.oschina.net/u/3709135/blog/1556661

JLOI2016 方

bzoj4558 真是一道非常excited的题目啊…JLOI有毒 题目大意&#xff1a;给一个(N1)*(M1)的网格图&#xff0c;格点坐标为(0~N,0~M)&#xff0c;现在挖去了K个点&#xff0c;求剩下多少个正方形&#xff08;需要注意的是正方形可以是斜着的&#xff0c;多斜都可以&#xff09; N…

opencv 直方图反向投影

转载至&#xff1a;http://www.cnblogs.com/zsb517/archive/2012/06/20/2556508.html 直方图反向投影式通过给定的直方图信息&#xff0c;在图像找到相应的像素分布区域&#xff0c;opencv提供两种算法&#xff0c;一个是基于像素的&#xff0c;一个是基于块的。 使用方法不写了…

request请求在Struts2中的处理步骤

2019独角兽企业重金招聘Python工程师标准>>> 一个请求在Struts2框架中的处理大概分为以下几个步骤 1 客户端初始化一个指向Servlet容器&#xff08;例如Tomcat&#xff09;的请求 2 这个请求经过一系列的过滤器&#xff08;Filter&#xff09;&#xff08;这些过滤…

vs联合torch,ZED相机api,opencv建立C++项目

ZED相机api下载及cmake教程 generate产生工程文件后打开&#xff0c;配置如下&#xff1a; 将ZED项目作为启动项 然后在main.cpp中写入自己的工程代码即可&#xff0c;运行也在release X64下进行 注&#xff1a;cmake之前源文件下main.cpp&#xff0c;也就是tutorial 1 - h…

使用DataGridView数据窗口控件,构建用户快速输入体验

使用DataGridView数据窗口控件&#xff0c;构建用户快速输入体验 在“随风飘散” 博客里面&#xff0c;介绍了一个不错的DataGridView数据窗口控件《DataGridView数据窗口控件开发方法及其源码提供下载》&#xff0c;这种控件在有些场合下&#xff0c;还是非常直观的。因为&…

pip安装

下载pip安装包&#xff0c;解压。复制到C:\Users\administrator\下&#xff0c;用cmd打开当前文件夹&#xff0c;用Python安装&#xff0c; Python setup.py install 安装完之后记得把Python根目录下的scripts也放在环境变量里。 以上是我pip安装的成功例子&#xff0c;可能不…

手把手教你用1行代码实现人脸识别 -- Python Face_recognition

2019独角兽企业重金招聘Python工程师标准>>> 环境要求&#xff1a; Ubuntu17.10Python 2.7.14环境搭建&#xff1a; 1. 安装 Ubuntu17.10 > 安装步骤在这里 2. 安装 Python2.7.14 (Ubuntu17.10 默认Python版本为2.7.14) 3. 安装 git 、cmake 、 python-pip # 安装…

pip安装的库导入pycharm中

用pip安装了一些库&#xff0c;但pycharm中却没有&#xff0c;解决方法是