MapReduce词频统计

1.1 文件准备
创建本地目录和创建两个文本文件,在两个文件中输入单词,用于统计词频。

cd /usr/local/hadoop
mkdir WordFile
cd WordFile
touch wordfile1.txt
touch wordfile2.txt

在这里插入图片描述

1.2 创建一个HDFS目录,在本地上不可见,并将本地文本文件上传到HDFS目录。通过如下命令创建。

cd /usr/local/hadoop
./bin/hdfs dfs -mkdir wordfileinput
./bin/hdfs dfs -put ./WordFile/wordfile1.txt wordfileinput
./bin/hdfs dfs -put ./WordFile/wordfile2.txt wordfileinput

1.3 保证HDFS目录不存在output,我们执行如下命令,每次运行词频统计都要删除output输出文件,/user/hadoop/是HDFS的用户目录,不是本地目录。

./bin/hdfs dfs -rm -r /user/hadoop/output

1.4 Eclips编写代码
创建Java project ,项目名称为MapReduceWordCount,右键项目名,导入相关Jar包。
在这里插入图片描述
在这里插入图片描述
1.5 点击Add External Jars,进入目录/usr/local/hadoop/share/hadoop,导入如下包。

  • “/usr/local/hadoop/share/hadoop/common”目录下的hadoop-common-3.1.3.jar和haoop-nfs-3.1.3.jar;
  • “/usr/local/hadoop/share/hadoop/common/lib”目录下的所有JAR包;
  • “/usr/local/hadoop/share/hadoop/mapreduce”目录下的所有JAR包,但是,不包括jdiff、lib、lib-examples和sources目录;
  • “/usr/local/hadoop/share/hadoop/mapreduce/lib”目录下的所有JAR包。

1.6 创建类WordCount.java

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class WordCount {public WordCount() {}public static void main(String[] args) throws Exception {Configuration conf = new Configuration();String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();if(otherArgs.length < 2) {System.err.println("Usage: wordcount <in> [<in>...] <out>");System.exit(2);}Job job = Job.getInstance(conf, "word count");job.setJarByClass(WordCount.class);job.setMapperClass(WordCount.TokenizerMapper.class);job.setCombinerClass(WordCount.IntSumReducer.class);job.setReducerClass(WordCount.IntSumReducer.class);job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class); for(int i = 0; i < otherArgs.length - 1; ++i) {FileInputFormat.addInputPath(job, new Path(otherArgs[i]));}FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));System.exit(job.waitForCompletion(true)?0:1);}public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {private static final IntWritable one = new IntWritable(1);private Text word = new Text();public TokenizerMapper() {}public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {StringTokenizer itr = new StringTokenizer(value.toString()); while(itr.hasMoreTokens()) {this.word.set(itr.nextToken());context.write(this.word, one);}}}
public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {private IntWritable result = new IntWritable();public IntSumReducer() {}public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {int sum = 0;IntWritable val;for(Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()) {val = (IntWritable)i$.next();}this.result.set(sum);context.write(key, this.result);}}
}

1.7 编译打包程序
将程序打包到 /usr/local/hadoop/myapp目录下,

cd /usr/local/hadoop
mkdir myapp
  • Run As 运行程序;
  • 右键工程名->Export->Java->Runnable JAR file

在这里插入图片描述

  • “Launch configuration”用于设置生成的JAR包被部署启动时运行的主类,需要在下拉列表中选择刚才配置的类“WordCount-MapReduceWordCount”。在“Export destination”中需要设置JAR包要输出保存到哪个目录即其名称。点击finish,中间会出现一些信息,一直点击Ok即可。

1.8 运行程序
启动hadoop

cd /usr/local/hadoop
./sbin/start-dfs.sh
./bin/hadoop jar ./myapp/WordCount.jar wordfileinput output

在这里插入图片描述

1.9 查看结果

cd /usr/local/hadoop
./bin/hdfs dfs -cat output/*

在这里插入图片描述

1.20 查看HDFS 文件系统
进入/usr/local/hadoop/bin 目录,执行相关命令。

./hadoop fs -ls

1.21 源文档
http://dblab.xmu.edu.cn/blog/2481-2/#more-2481

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring中注解大全

Spring中注解大全 Controller 标识一个该类是Spring MVC controller 处理器&#xff0c;用来创建处理http请求的对象 Controller public class TestController{RequestMapping("test")public String test(Map<String,Object> map){return "hello"…

Linux系统组成

1 系统组成 BootLoader&#xff1a;操作系统引导程序 内核&#xff1a; 文件系统&#xff1a;应用程序(用户开发的、网上下载的) 2 安装USB驱动 dongryd-linux:~$ insmod usb_dnw.ko //安装USB驱动 dongryd-linux:~$ kernel:GuoQian USB driver for DMW! //出现这一句说明驱动…

使用github托管代码以及github一些最常用的命令

生成SSH密钥 首先打开命令行工具&#xff0c;右键鼠标任意位置打开git bash here,然后输入以下命令 cd ~/.ssh 使用ssh-keygen生成密钥 ssh-keygen -t rsa -C "我的邮箱地址" 使用默认的文件名&#xff0c;输入密码&#xff0c;密钥生成成功 直接复制命令行看到的密钥…

Hive安装与配置MySQL元数据库

一.MySQL的安装 1.1 更新获取最新软件源&#xff0c;并安装MySQL。 sudo apt-get update sudo apt-get install mysql-server1.2 启动和关闭MySQL服务器。 service mysql start service mysql stop1.3 确认MySQL 是否启动成功&#xff0c;MySQL 处于LISTEN状态则表示启动成功…

国际领先的人工智能团队值得我们学习和深思

‍来源&#xff1a;陈德旺科学网博客链接地址&#xff1a;http://blog.sciencenet.cn/blog-57940-1299162.html如其说&#xff0c;人工智能&#xff08;AI&#xff09;现今热潮是Hinton等图灵奖获得者引发的&#xff0c;不如说是DeepMind&#xff08;深度思考&#xff0c;简称深…

Curr Biol:间隔学习可巩固记忆的奥秘

来源&#xff1a;brainnews已有一些实验现象表明当把连续的学习过程在一定时间范围内做间隔&#xff08;spaced&#xff09;后&#xff0c;学习效率将大大提高&#xff0c;这种效应称为“间隔效应”。然而迄今为止尚未有进一步的研究来探索间隔学习是如何影响与记忆相关的神经环…

Flume原理及使用案例

本文为转载篇&#xff01;原文&#xff1a; https://www.cnblogs.com/zhangyinhua/p/7803486.html https://www.cnblogs.com/ciade/p/5495218.html 原理 一、Flume简介 flume 作为 cloudera 开发的实时日志收集系统&#xff0c;受到了业界的认可与广泛应用。Flume 初始的发行版…

Hadoop相关技术

一.Hadoop 的优化与发展 1.1 局限与不足 抽象层次低&#xff0c;需要人工编码&#xff1b;表达能力有限&#xff1b;开发者自己管理作业之间的依赖关系&#xff1b;难于看到程序的整体的逻辑&#xff1b;执行迭代操作效率低;实时性差&#xff1b;资源浪费&#xff1b; 1.2 改…

网络的性能指标与分组交换网络

同个人网站&#xff1a;http://tsundere-x.top/ 计算机网络概述&#xff08;三&#xff09; 计算机网络概述&#xff08;一&#xff09; 网络协议 网络协议规定了通信双方具体的通信规则&#xff0c;包括消息的传递细节。协议的三要素&#xff1a;语法、语义、同步 语义&#…

Hadoop分布式集群安装配置

1.1 安装环境 操作系统deepin 15.11, VMware Workstation&#xff0c;hadoop 3.1.3 版本。在deepin 操作系统中安装 VMware Workstation&#xff0c;在 VMware Workstation中安装两个deepin系统&#xff0c;采用两个节点作为集群环境&#xff0c;一个作为Master节点&#xff0…

复杂性理论研究的核心问题是什么

文章来源&#xff1a;学习时报作者&#xff1a;陈一壮我曾提出复杂性理论的核心不是一般的涌现而是自组织&#xff0c;以突出其相对于传统系统论的特点。普利高津也讲到过&#xff1a;“复杂性诞生”于“物理―化学系统的自组织”。但是我又想到必须对这个自组织的概念作进一步…

【译】索引进阶(四):页和区

【译注&#xff1a;此文为翻译&#xff0c;由于本人水平所限&#xff0c;疏漏在所难免&#xff0c;欢迎探讨指正】 原文链接&#xff1a;传送门。 在之前的章节中&#xff0c;我们在有索引和没有索引的情况下执行同一个查询&#xff0c;比较了各自需要的工作。我们的最主要的评…

网络体系结构

计算机网络的体系结构 网络体系结构是从功能上描述计算机网络结构计算机网络体系结构简称网络体系结构&#xff0c;是分层结构每层遵循某个/些网络协议完成本层功能计算机网络体系结构是计算机网络各层及其协议的集合体系结构是一个计算机网络的功能层次及其关系的定义体系结构…

计算机网络安全-RSA加密原理

一. 安全的攻击类型 危及信息安全的举动. 中断&#xff1a;对可用性的攻击&#xff0c;包括对硬件,通信线路的破坏等&#xff1b; 截获:对机密性的攻击&#xff0c;如窃听等&#xff1b; 篡改&#xff1a;对完整性的攻击&#xff0c;如改变数据或文件&#xff1b; 伪造&…

为什么神经网络不适合理解自然语言 ?

来源&#xff1a;AI前线作者&#xff1a;Ben Dickson译者&#xff1a;王强策划&#xff1a;刘燕过去十年中&#xff0c;人工智能行业的一大趋势就是通过创建更大的深度学习模型来解决问题。这种趋势在自然语言处理领域最为明显&#xff0c;这也是人工智能最具挑战性的领域之一。…

Spark详解

一.Spark 简介 Spark 和Scala 1.1 Spark 是基于内存计算的大数据并行计算框架&#xff0c;可用于构建大型的、低延迟的数据分析应用程序&#xff1b; 1.2 Spark 的特点&#xff1a; 1.3 Scala是一门现代的多范式编程语言&#xff0c;可扩展式语言&#xff1b; 1.4 Scala 特性&…

应用层协议与网络应用

网络应用的体系结构 1、客户机/服务器&#xff08;Client-Server&#xff0c; C/S&#xff09; 服务器&#xff1a; 7*24小时提供服务永久访问地址/域名利用大量服务器实现可拓展性 客户机&#xff1a; 与服务器通信&#xff0c;使用服务器提供的服务间歇性接入网络可能使…

oc之脚本

进入Build Phases页面&#xff0c;点击加号选择“New Run Script Phases”创建Run Script 在这里添加Run Script&#xff0c; 1.每次编译运行版本号&#xff08;bundleVersion&#xff09;自增1 buildNumber$(/usr/libexec/PlistBuddy -c "Print CFBundleVersion" &q…

案例分享|突破卡脖子技术,研制协作机器人核心零部件的方向与思考

来源&#xff1a; 机器人大讲堂协作机器人&#xff0c;作为一种新型的智能机器人&#xff0c;扫除了人机协作的障碍&#xff0c;让机器人彻底摆脱护栏或围笼的束缚&#xff0c;让机器人与人可以在生产、制造与服务上协同作战&#xff0c;充分发挥机器人的效率及人类的智能&…

Spark安装及其sbt和maven 打包工具安装

一&#xff0e;安装准备 需要先安装hadoop,Java JDK,采用 Hadoop(伪分布式)&#xff0b;Spark(Local模式) 的组合&#xff0e;spark和sbt&#xff0c;maven的版本&#xff1a;spark-2.4.5-bin-without-hadoop.tgz 和sbt-1.3.8.tgz,maven-3.6.3&#xff1b; https://pan.baidu.…