hadoop jar包_【大数据学习】Hadoop的MR分布式开发小实战

前提:hadoop集群应部署完毕。

一、实战科目

做一个Map Reduce分布式开发,开发内容为统计文件中的单词出现次数。

二、战前准备

1、本人在本地创建了一个用于执行MR的的文件,文件中有209行,每行写了“这是一个测试文件”的句子。

2、将该文件上传至HDFS中。你可以使用idea中的插件上传、也可以使用HDFS的可视化页面上传、也可以使用HDFS的命令上传,都可以。目的达到就行。

3、准备好开发环境,准备开发。

三、开战!

1、打开idea,创建com.test.hadoop.mr的包

2、在该包下创建MyWordCount的Java类,并进行如下编程

package com.test.hadoop.mr;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class MyWordCount {    public static void main(String[] args) throws Exception {        Configuration conf = new Configuration(true);        Job job = Job.getInstance(conf);        job.setJarByClass(MyWordCount.class);        // Specify various job-specific parameters        job.setJobName("myJob");        Path input = new Path("/testApi/testUploadFile.txt");        FileInputFormat.addInputPath(job, input);//文件输入格式化;还有其他的数据源的输入格式化        Path output = new Path("/testApi/mr_output.txt");        if (output.getFileSystem(conf).exists(output)){            output.getFileSystem(conf).delete(output,true);//一般不删除!        }        FileOutputFormat.setOutputPath(job, output);        job.setMapperClass(MyMapper.class);        job.setMapOutputKeyClass(Text.class);        job.setMapOutputValueClass(IntWritable.class);        job.setReducerClass(MyReducer.class);        // Submit the job, then poll for progress until the job is complete        job.waitForCompletion(true);    }}

3、创建对应的MyMapper和MyReducer类

MyMapper

package com.test.hadoop.mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException;import java.util.StringTokenizer;public class MyMapper extends Mapper<Object, Text, Text, IntWritable> {    private final static IntWritable one = new IntWritable(1);    private Text word = new Text();    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {        //AAA BBB CCC        StringTokenizer itr = new StringTokenizer(value.toString());        while (itr.hasMoreTokens()) {            word.set(itr.nextToken());            context.write(word, one);//引用传参,减少创建对象的次数。        }    }}

MyReducer

package com.test.hadoop.mr;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {    //相同的key为一组,调用方法,然后在方法内迭代一组数据进行计算(sum/max/min/count/...)。    private IntWritable result = new IntWritable();    public void reduce(Text key, Iterable values,                       Context context) throws IOException, InterruptedException {        int sum = 0;        for (IntWritable val : values) {            sum += val.get();        }        result.set(sum);        context.write(key, result);    }}

4、打jar包

右键项目根目录,点击Open Module Settings;然后选择Artifacts,然后右边栏选择要打包的主类以及是否添加lib(lib可能会很大,建议不要在jar中添加lib)。

2b698fd76cb292d23432b6071946462b.png0df5155167a5b96a1a7f06d247132354.png

 然后,在build中选择build Artifacts进行编译。

8814a04dacc10af1520b9b5c3bca2834.png7f9ea77ec11f2e4240da8d68e1af3afa.png

在你设置的目录下,发现输出的jar文件。

a30a46515790b72e6d22ee0664eb5e48.png

5、上传集群

将该文件上传集群某节点,这里选择节点1。

6fb05f5fb81c5fc6520ccc9185299785.png

6、执行

定位到jar目录,输入命令执行

hadoop jar hadoop_hdfs_api.jar com.test.hadoop.mr.MyWordCount

861d941154a42c73df2fa412452ba742.png成功执行!

7、查看结果

在节点1的对应位置找到结果文件,cat查看内容

af502be9d1341165caa46265c1ff4401.png

成功统计,说明逻辑以及实战运行均无误!

四、实战总结

首先,要了解MapReduce的运行机制,在客户端的开发中,我们不仅要使用Java实现客户端的基础配置外,还要实现Map Task即对应的MyMapper类,还要实现Reduce Task即对应的MyReducer类。

其次,在进行运行时,可能会报编译版本过高的错误,即你的服务器版本使用java8,而idea本身使用更高版本的Java编译,就会导致此问题,博主就遇到了。因此,要不就是升级服务器Java版本,要么就要用低版本Java进行编译,生成jar。两种策略中,服务器能不动就不动,因为改动成本太大。所以使用idea低版本进行编译,具体如何设置请自行百度或Google。

最后,Java类的编写要参考源码中的例子,在知道了MR的逻辑运行之后,要懂得代码的实现,这条路还很漫长,要加油!

26161c39c495ebffe3a5b6dee097d141.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/490407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新数据:一图看清全球393家独角兽公司

来源&#xff1a;资本实验室据CB Insights最新数据&#xff0c;截至2019年8月底&#xff0c;全球共有393家未上市公司的估值达到或超过10亿美元以上&#xff0c;也就是我们俗称的“独角兽”公司。这些公司的融资总额超过2920亿美元&#xff0c;平均融资额超过7.43亿美元&#x…

它指导了计算机行业大半个世纪的发展,如今却要走下神坛?

来源&#xff1a;托尼前几天&#xff0c;有这样一条新闻。全球最大的芯片代工巨头台积电&#xff0c;其高管力挺摩尔定律&#xff0c;认为这个定律没有消亡&#xff0c;仍然可以通过增加晶体管密度&#xff0c;实现计算性能的提高。事实上&#xff0c;在摩尔定律是否已经失效这…

nodejs+kafka+storm+hbase 开发

1.环境介绍 如图所示&#xff0c;NODEJS做为数据源的的产生者产生消息&#xff0c;发到Kafka队列&#xff0c;然后参见红线&#xff0c;表示本地开发的环境下数据的流向&#xff08;本地开发时&#xff0c;storm topology运行在本地模式&#xff09; 2.搭建环境,我采用的是ecli…

将代码美观地复制到word的网站

http://www.codeinword.com/ 左边是源代码&#xff0c;右边是排版后的代码&#xff0c;复制右边的代码粘贴到word&#xff0c;可以使得word中的代码美观

c# 网口相机可以通过_电脑可以跑安卓9.0了!完全免费

Android早已超过Windows&#xff0c;坐拥全球用户量最大的操作系统宝座。这么高的人气&#xff0c;当然会有很多可玩性&#xff0c;比如Android -x86项目&#xff0c;即在x86处理器平台上运行Android。据悉&#xff0c;底层升级为Android 9 Pie(android-9.0.0_r50)的x86项目已经…

我的runtime学习笔记

0、简介&#xff1a; OC方法不同于C语言函数&#xff0c;属于动态调用过程&#xff0c;在编译的时候并不能决定真正调用哪个函数&#xff0c;只有在真正运行的时候才会根据函数的名称找到对应的函数来调用。 至于其他理论上的东西不必讲太多&#xff0c;编程讲的就是实用性&…

详解工业机器人和机械手臂的区别

来源&#xff1a;工业机器人目前市场上出现许多机械臂&#xff0c;很多小伙伴不能区分机械臂和机器人是不是同一种概念&#xff0c;今天小编和大伙讲解讲解。机械臂是一种机械装置&#xff0c;可以是自动的也可以是人为控制的&#xff1b;工业机器人是一种自动化设备&#xff0…

php 实时监测网站是否异常_网站跳转劫持解决,网站跳转劫持解决方法只有3步...

某一客户单位的网站首页被篡改&#xff0c;并收到网检的通知说是网站有漏洞&#xff0c;接到上级部门的信息安全整改通报&#xff0c;贵单位网站被植入木马文件&#xff0c;导致网站首页篡改跳转到彩票网站&#xff0c;根据中华人民共和国计算机信息系统安全保护条例以及信息安…

大脑通过统计推理表征“自我”

来源&#xff1a; 脑智卓越中心9月3日&#xff0c;《美国科学院院刊》在线发表了题为《猕猴对自我身体表征的统计推理》的研究论文。该研究由中国科学院脑科学与智能技术卓越创新中心&#xff08;神经科学研究所&#xff09;、上海脑科学与类脑研究中心、灵长类神经生物学重点实…

关于未来50年的工作与生活,三星联合未来学家们做出了这些预测

来源&#xff1a;资本实验室8月底&#xff0c;三星公司为庆祝其位于伦敦的新体验空间Samsung KX投入运营&#xff0c;委托英国的几位专家学者和未来学家们共同研究&#xff0c;并发布了一份题为《三星KX50&#xff1a;聚焦未来》的报告。根据该报告的预测&#xff0c;到2069年&…

Samba Linux 和windows 共享

1.安装Samba (yum install Samba) 2.配置Samba &#xff08;Samba的配置文件为/etc/samba/smb.conf&#xff09; 1&#xff09;打开smb.conf vim /etc/samba/smb.conf 2)将文件中的内容做如下相应修改&#xff1a;    #securityuser 后面添加&#xff1a; secur…

深度!全球机器人产业趋势及特征分析

来源&#xff1a;AI城市智库当前&#xff0c;全球机器人市场规模持续扩大&#xff0c;工业机器人市场增速回落&#xff0c;服务、特种机器人增速稳定。技术创新围绕仿生结构、人工智能和人机协作不断深入&#xff0c;产品在教育陪护、医疗康复、危险环境等领域的应用持续拓展&a…

设计代码说明什么是多态性?如何实现多态?(代码中要写注释解释)_狗屎一样的代码!快,重构我...

关注后你就是我的人了重构不止是代码整理&#xff0c;它提供了一种高效且受控的代码整理技术。&#xff08;一&#xff09;重构原则1、何谓重构对软件内部结构的一种调整&#xff0c;目的是在不改变软件可观察行为的前提下&#xff0c;提高其可理解性&#xff0c;降低其修改成本…

影响国家安全的四项新兴技术

来源&#xff1a;《Technology and National Security: Maintaining Americas Edge》The Aspen Institute (2019年1月31日)本文节选自专著《Technology and National Security: Maintaining Americas Edge》&#xff0c;本文部分讨论了四种新兴技术&#xff1a;生物技术、小型卫…

找到一个或多个多重定义的符号_初中数学之相反数,总结规律,学会多重符号的化简...

今天继续和大家一起来学习初中数学&#xff0c;初一的相关知识&#xff0c;在前面已经介绍了正数和负数&#xff0c;对于有理数也有了清楚的认识&#xff0c;今天我们来学习相反数&#xff0c;相反数的概念和表示是中考命题的热点之一&#xff0c;经常结合其他知识点一起考察&a…

分类分布(categorical分布)

解释&#xff1a; 假设X有3种状态&#xff0c;分别为x_1,x_2,x_3&#xff0c;这三种状态的概率分别为0.1,0.7,0.2&#xff08;分别对应θ_1,θ_2,θ_3&#xff09; 例如现在要求x_2这种状态的概率&#xff0c;则x_10,x_21,x_30 代入公式&#xff1a; θ_1^x_1θ_1^01; θ_…

【人工智能】人工智能时代的道路选择 | 焦点评论

‍‍‍来源&#xff1a;产业智能官对话嘉宾朱松纯&#xff08;Song-Chun Zhu&#xff09;教授马尔奖、赫尔姆霍茨奖获得者、UCLA教授、IEEE Fellow、暗物智能科技创始人沈向洋&#xff08;Harry Shum&#xff09;博士微软全球执行副总裁、美国国家工程院外籍院士、英国皇家工程…

怎么把php查询到的值显示到下拉框中_RazorSQL for Mac(数据库工具查询) v8.5.0

RazorSQL Mac是一款专门为mac用户推出的数据库管理软件&#xff0c;允许您从一个数据库工具查询&#xff0c;更新&#xff0c;导航和管理所有主要数据库&#xff0c;RazorSQL Mac功能强大还支持SQL的编辑、数据库管理工具,支持多种数据库&#xff01;razorsql mac版使用方法Raz…

5分钟,看尽芯片和摩尔定律“你追我赶”的抗衡50年

来源&#xff1a;大数据文摘“摩尔定律过去是每5年增长10倍&#xff0c;每10年增长100倍。而如今&#xff0c;摩尔定律每年只能增长几个百分点&#xff0c;每10年可能只有2倍。因此&#xff0c;摩尔定律结束了。”今年一月份&#xff0c;英伟达(Nvidia)CEO黄仁勋在CES 2019展会…

Android Context 上下文 你必须知道的一切

今天被问到了关于Context的一些问题。发现自己关于这部分还是不是很清晰&#xff0c;然后发现洋神博客里有一篇讲的很好 很详细。我反正是看懂了&#xff0c;我觉得我再写 也不会比这个更清楚了&#xff0c;所以转过来。 http://blog.csdn.net/lmj623565791/article/details/40…