Mapreduce小试牛刀(1)

1.与hdfs一样,mapreduce基于hadoop框架,所以我们首先要启动hadoop服务器

---------------------------------------------------------------------------------------------------------------------------------

2.修改hadoop-env.sh位置JAVA_HOME配置,在JAVA_HOME前面加上export,重启主虚拟机,最好也把另外两个节点同位置的该配置文件改了

如果这里不配置好JAVA_HOME变量,那么在后续运行时会出现127号报错,显示未找到JAVA_HOME

---------------------------------------------------------------------------------------------------------------------------------

3.修改内存

修改yarn-site.xml文件中的内存大小。一般来说,第一次都分配的1024mb,但是在进行mapreduce运算时,会要求至少1536mb内存。但是不要直接设置为1536mb,不要忘记操作系统也会占用内存!但是也不要设置的太大,以免把本机下爆

---------------------------------------------------------------------------------------------------------------------------------

4.示例1

本地文档单词统计

1.在某一文件夹下,编辑一个txt文件

vi wdtest.txt

2.上传到某一hdfs的目录下

hdfs dfs -put wdtest.txt /input

3.利用hadoop自带的包,进行单词统计

hadoop jar /home/hadoop/hadoop-3.3.4/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.4.jar wordcount /input /output

系统会新建一个叫做ouput的目录收录统计结果(part-r-00000文件)

4.利用cat命令查看统计结果

hadoop fs -cat /output/part-r-00000

---------------------------------------------------------------------------------------------------------------------------------

5.示例2(Hadoop Streaming统计总的字节数)

输入如下代码,结果会在output2目录下显示

mapred streaming \-input /input \                                        -output /output2 \                                  -mapper /bin/cat \-reducer /usr/bin/wc

注意:要连续、完整输入这段代码,输完后会自动开始计算作业!

输入代码,查看统计结果:

hadoop fs -cat /output2/part-00000

分别为行数、单词数、字节数

这里采用了Hadoop Streaming工具集。Hadoop Streaming是Hadoop新推出的一个工具集。这个工具集并不是提供流式计算的功能,而是允许以命令行的方式代替千篇一律的Driver代码。但是与第一种方法相比,它并不能统计出各个单词出现的次数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/219873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MBR30300FCT-ASEMI高耐压肖特基MBR30300FCT

编辑:ll MBR30300FCT-ASEMI高耐压肖特基MBR30300FCT 型号:MBR30200FCT 品牌:ASEMI 封装:TO-220F 最大平均正向电流:30A 最大重复峰值反向电压:300V 产品引线数量:3 产品内部芯片个数&…

***Cpolar配置外网访问和Dashy

Dashy是一个开源的自托管的导航页配置服务,具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。你可以将自己常用的一些网站聚合起来放在一起,形成自己的导航页。一款功能超强大,颜值爆表的可定制专属导航页工具 结合cpolar内网工具,我们实现无需部署到公网服务器…

android 13.0 Launcher3禁止拖动图标到Hotseat功能实现

1.概述 在13.0系统Launcher3进行定制化开发中,对于hotseat的开发中,由功能需求要求禁止拖动图标到Hotseat的功能,而拖拽也是在workspace.java中处理的 接下来就从workspace.java 开始找解决的办法 2.Launcher3禁止拖动图标到Hotseat相关代码分析 packages/apps/Launcher3/…

一文1000字基于Jenkins实现接口自动化持续集成!

一、JOB项目配置 1、添加描述 可选选项可填可不填 2、限制项目的运行节点 节点中要有运行环境所需的配置 节点配置教程:https://blog.csdn.net/YZL40514131/article/details/131504280 3、源码管理 需要将脚本推送到远程仓库中 4、构建触发器 可以选择定时构建…

ARM MMU简介

MMU内存保护场景 ARM MMU能够针对多种场景进行内存保护,包括以下几个常见的例子: 1. 操作系统级别的内存隔离 ARM MMU可以将不同的进程或线程的虚拟地址映射到不同的物理地址空间,实现进程间的内存隔离。这样可以确保一个进程无法访问或篡…

vite 打包图标icon ,content 内容乱码

问题描述:本地开发环境icon 显示正常,打包后发布线上环境icon乱码,而且具有偶发性,刷新页面乱码又正常了。 找问题:观察发现是content 内容没有编译成功导致乱码 解决:vite.config.ts / vite.config.js 文件…

计算机网络期末考试A卷及答案

一、选择题(30分,每题1分) 世界上第一个网络系统是( C )。 A、ENIAC B、以太网 C、ARPANET D、DECNET 2.在常用的传输介质中,( C )的带宽最宽、信号传输衰减最小、抗干扰能力最强。 A.双绞线 …

Facebook运营技巧详解,Facebook多店铺如何运营?

在前不久的文章中就讲过Facebook养号和广告的投放技巧,今天东哥就趁热打铁来接着讲讲Facebook的运营技巧,现在做外贸和跨境电商的人基本上都用过Facebook,像在流量这么庞大的平台上想要抓住更多机遇,懂得一些运营技巧是必不可少的…

数据可视化作用探析

数据可视化是一种将数据转化为图表、图形或其他视觉形式的过程,旨在更直观、更易于理解地展示数据信息。它不仅仅是对数据的简单呈现,更是一种利用视觉化手段帮助人们理解数据、发现模式、分析趋势和做出决策的强大工具。今天,我就从可视化从…

设计模式之开篇

在软件开发的世界里,设计模式有如一本精妙的工程艺术指导准则,为我们提供了解决常见问题的优雅实现方案。然而,有些程序员可能会认为设计模式太过繁琐,一个简单的 if/else 语句就能解决问题,何必费心去学习这些看似复杂…

input 获取焦点后样式的修改

一、实现目标 1.没有获取焦点时样子 2.获取焦点时 代码&#xff1a; <input class"input"placeholder"请输入关键字" input"loadNode" />css .input {border-radius: 14px;border:1px solid #e4e4e4;margin: 5px;margin-top: 10px;wi…

小程序开发实战案例四 | 小程序标题栏如何设置

上一期我们了解了 小程序底部导航栏 的实现效果&#xff0c;今天一起来了解下如何设置小程序标题栏&#xff5e; 基础标题栏 小程序标题栏主要包含返回、标题、收藏、菜单、收起 5 个模块&#xff0c;其中能够调整的部分只有标题和背景色。 另外 IDE上无法展示收藏按钮&#…

『PyTorch』张量和函数之gather()函数

文章目录 PyTorch中的选择函数gather()函数 参考文献 PyTorch中的选择函数 gather()函数 import torch a torch.arange(1, 16).reshape(5, 3) """ result: a [[1, 2, 3],[4, 5, 6],[7, 8, 9],[10, 11, 12],[13, 14, 15]] """# 定义两个index…

Linux的基本指令和权限的知识

学前的建议&#xff1a;大家不要太关注指令是啥&#xff0c;记不住怎么办&#xff08;没事&#xff0c;想用时去查就好了&#xff09;&#xff0c;这篇文章重点部分是围绕指令的周边知识。毕竟指令是“死肌肉”&#xff0c;而一些关于Linux和操作系统的理论知识才是最重要滴&am…

ARM SMMU简介

ARM SMMU&#xff08;System Memory Management Unit&#xff09;主要用于提供外设的DMA请求的内存管理和地址转换功能。它主要处理虚拟地址与物理地址之间的映射关系&#xff0c;将外设的物理地址映射到系统的虚拟地址空间。在这个过程中&#xff0c;SMMU会根据配置的映射表将…

认识loader和plugin

在 webpack 中&#xff0c;专注于处理 webpack 在编译过程中的某个特定的任务的功能模块&#xff0c;可以称为插件。它和 loader 有以下区别&#xff1a; 1loader 是一个转换器&#xff0c;将 A 文件进行编译成 B 文件&#xff0c;比如&#xff1a;将 A.less 转换为 A.css&…

webpack学习-4.开发环境

webpack学习-4.开发环境 1.mode2.使用source map3.自动编译代码3.1 webpack 的 观察模式3.2 使用 webpack-dev-server3.3 使用 webpack-dev-middleware 4.总结 1.mode 本章的标题一看就是开发环境&#xff0c;那就要引入webpack配置文件的mode了。 mode 属性用于指定 Webpack …

`/etc/gitlab/gitlab-secrets.json`文件丢失时Gitlab恢复办法

当/etc/gitlab/gitlab-secrets.json文件丢失时 如果您没有备份secrets文件&#xff0c;则必须完成几个步骤才能使GitLab重新正常工作。 secrets文件负责存储包含必需的敏感信息的列的加密密钥。如果密钥丢失&#xff0c;GitLab将无法解密这些列&#xff0c;从而阻止对以下项目…

052:vue重新发布,软件热更新方面的一点经验示例

第052个 查看专栏目录: VUE ------ element UI 专栏目标 在vue和element UI联合技术栈的操控下&#xff0c;本专栏提供行之有效的源代码示例和信息点介绍&#xff0c;做到灵活运用。 &#xff08;1&#xff09;提供vue2的一些基本操作&#xff1a;安装、引用&#xff0c;模板使…

Github 2023-12-13 开源项目日报 Top10

根据Github Trendings的统计&#xff0c;今日(2023-12-13统计)共有10个项目上榜。根据开发语言中项目的数量&#xff0c;汇总情况如下&#xff1a; 开发语言项目数量非开发语言项目5Python项目2TypeScript项目1Jupyter Notebook项目1JavaScript项目1PHP项目1 从零开始构建技术…