使用MRUnit测试Hadoop程序

这篇文章将略微绕开使用MapReduce实现数据密集型处理中的模式,以讨论同样重要的测试。 汤姆•惠勒 ( Tom Wheeler)在纽约2012年Strata / Hadoop World会议上参加的一次演讲给了我部分启发。 处理大型数据集时,想到的并不是单元测试。 但是,当考虑到无论集群有多大或有多少数据时,都将相同的代码推送到所有节点以运行MapReduce作业,因此Hadoop映射器和化简器非常适合进行单元测试。 但是,对框架进行Hadoop的单元测试并不容易。 幸运的是,有一个使Hadoop测试相当容易的库– MRUnit 。 MRUnit基于JUnit,并允许对映射器,化简器进行单元测试以及对映射器进行一些有限的集成测试-归化器与组合器,自定义计数器和分区器之间的交互。 在撰写本文时,我们正在使用MRUnit的最新版本0.9.0。 所有测试的代码均来自上一则有关使用本地聚合计算平均值的文章 。

设定

要开始使用,请从此处下载MRUnit。 解压缩tar文件后,将cd插入mrunit-0.9.0-incubating / lib目录。 在其中,您应该看到以下内容:

  1. mrunit-0.9.0-incubating-hadoop1.jar
  2. mrunit-0.9.0-incubating-hadoop2.jar

我敢肯定,mrunit-0.9.0-incubating-hadoop1.jar用于Hadoop的MapReduce版本1,而mrunit-0.9.0-incubating-hadoop2.jar用于处理Hadoop的新版本的MapReduce。 对于本文以及其他所有后续文章,我们将使用Cloudera CDH4.1.1发行版中的hadoop-2.0版本,因此我们需要mrunit-0.9.0-incubating-hadoop2.jar文件。 我在Intellij中将MRUnit,JUnit和Mockito添加为库(JUnit和Mockito与MRUnit jar文件位于同一目录中)。 现在我们已经建立了依赖关系,让我们开始测试。

测试映射器

设置测试映射器非常简单,最好先查看一些代码来说明。 我们将使用上一篇文章中的映射器内合并示例:

@Test
public void testCombiningMapper() throws Exception {new MapDriver<LongWritable,Text,Text,TemperatureAveragingPair>().withMapper(new AverageTemperatureCombiningMapper()).withInput(new LongWritable(4),new Text(temps[3])).withOutput(new Text('190101'),new TemperatureAveragingPair(-61,1)).runTest();}

注意流利的api样式,这增加了创建测试的便利性。 要编写测试,您将:

  1. 实例化完全与被测映射器参数化的MapDriver类的实例。
  2. 在withMapper调用中添加要测试的Mapper实例。
  3. 在withInput调用中,输入您的键和输入值,在这种情况下,一个LongWritable具有任意值和一个Text对象,该对象包含来自NCDC天气数据集的行,该数据集包含在名为“ temps”的字符串数组中,该数组早些时候在其中建立。测试(此处不会显示,因为它会从演示文稿中删除)。
  4. 在withOutput调用中指定期望的输出,这里我们期望一个Text对象的值为“ 190101”,一个TemperatureAveragingPair对象的值为-61(温度)和1(计数)。
  5. 最后一个调用runTest将指定的输入值输入到映射器中,并将实际输出与“ withOutput”方法中设置的预期输出进行比较。

要注意的一件事是MapDriver每次测试仅允许一个输入和输出。 您可以根据需要多次调用withInput和withOutput,但是MapDriver会用新值覆盖现有值,因此您将只能在任何时候使用一个输入/输出进行测试。 为了指定多个输入,我们将使用MapReduceDriver,稍后将介绍几节,但接下来将测试reducer。

测试减速器

测试减速器遵循与映射器测试相同的模式。 再次,让我们看一个代码示例:

@Test
public void testReducerCold(){List<TemperatureAveragingPair> pairList = new ArrayList<TemperatureAveragingPair>();pairList.add(new TemperatureAveragingPair(-78,1));pairList.add(new TemperatureAveragingPair(-84,1));pairList.add(new TemperatureAveragingPair(-28,1));pairList.add(new TemperatureAveragingPair(-56,1));new ReduceDriver<Text,TemperatureAveragingPair,Text,IntWritable>().withReducer(new AverageTemperatureReducer()).withInput(new Text('190101'), pairList).withOutput(new Text('190101'),new IntWritable(-61)).runTest();}
  1. 该测试首先创建一个TemperatureAveragingPair对象列表,用作减速器的输入。
  2. 实例化了ReducerDriver,并且与MapperDriver一样,对它的参数设置也与被测试的reducer完全相同。
  3. 接下来,我们要在withReducer调用中传入要测试的reducer实例。
  4. 在withInput调用中,我们传入键“ 190101”和在测试开始时创建的pairList对象。
  5. 接下来,我们指定我们期望减速器发出的输出,相同的键“ 190101”和一个IntWritable,它表示列表中的温度平均值。
  6. 最后调用runTest,它将给我们的减速器提供指定的输入,并将减速器的输出与期望输出进行比较。

ReducerDriver具有与MapperDriver相同的限制,即不接受多个输入/输出对。 到目前为止,我们已经单独测试了Mapper和Reducer,但我们也想在集成测试中一起测试它们。 可以通过使用MapReduceDriver类完成集成测试。 MapReduceDriver还是用于测试组合器,自定义计数器或自定义分区程序使用情况的类。

整合测试

为了测试您的mapper和reducer一起工作,MRUnit提供了MapReduceDriver类。 正如您现在所期望的,MapReduceDriver类有两个主要区别。 首先,参数化映射器的输入和输出类型以及化简器的输入和输出类型。 由于映射器输出类型需要与化简器输入类型匹配,因此最终需要3对参数化类型。 其次,您可以提供多个输入并指定多个预期输出。 这是我们的示例代码:

@Test
public void testMapReduce(){new MapReduceDriver<LongWritable,Text,Text,TemperatureAveragingPair,Text,IntWritable>().withMapper(new AverageTemperatureMapper()).withInput(new LongWritable(1),new Text(temps[0])).withInput(new LongWritable(2),new Text(temps[1])).withInput(new LongWritable(3),new Text(temps[2])).withInput(new LongWritable(4),new Text(temps[3])).withInput(new LongWritable(5),new Text(temps[6])).withInput(new LongWritable(6),new Text(temps[7])).withInput(new LongWritable(7),new Text(temps[8])).withInput(new LongWritable(8),new Text(temps[9])).withCombiner(new AverageTemperatureCombiner()).withReducer(new AverageTemperatureReducer()).withOutput(new Text('190101'),new IntWritable(-22)).withOutput(new Text('190102'),new IntWritable(-40)).runTest();}

从上面的示例中可以看到,设置与MapDriver和ReduceDriver类相同。 您传入了映射器,reducer和(可选)组合器的实例进行测试。 MapReduceDriver允许我们传递具有不同键的多个输入。 此处的“温度”数组与Mapper样本中引用的数组相同,并包含NCDC天气数据集中的几行内容,这些样本行中的关键字为1901年1月和2月,分别表示为“ 190101”和“ 190102“。 该测试是成功的,因此我们对映射器和化简器一起工作的正确性有了更多的信心。

结论

希望我们已经证明了MRUnit对于测试Hadoop程序有多么有用。 我想用我自己的一些观点来总结这篇文章。 尽管MRUnit使映射器和化简器代码的单元测试变得容易,但是这里介绍的映射器和化简器示例相当简单。 如果您的映射和/或精简代码开始变得更加复杂,则最好将代码与Hadoop框架解耦,然后单独测试新类。 另外,与MapReduceDriver类一样,它用于集成测试也非常有用,很容易达到不再测试代码,而已经测试Hadoop框架本身的地步。 我提出了自己打算继续使用的测试策略:

  1. 单元测试映射/减少代码。
  2. 可能使用MapReduceDriver类编写一个集成测试。
  3. 作为健全性检查,请在单节点安装(在我的笔记本电脑上)上运行MapReduce作业,以确保其在Hadoop框架上运行。
  4. 然后在我的案例中,使用Apache Whirr在EC2的测试集群上运行我的代码。

讨论如何在笔记本电脑(OSX Lion)上设置单节点安装以及如何使用Whirr在EC2上建立群集将使这篇文章过长,因此我将在下一篇文章中介绍这些主题。 谢谢你的时间。

资源资源

  • Jimmy Lin和Chris Dyer 使用MapReduce进行的数据密集型处理
  • Hadoop: Tom White 的权威指南
  • 来自博客的源代码
  • Hadoop API
  • MRUnit用于单元测试Apache Hadoop映射减少工作
  • Gutenberg项目提供了大量纯文本格式的书籍,非常适合在本地测试Hadoop作业。


参考:来自我们的JCG合作伙伴 Bill Bejeck的《 Random Thoughts On Coding》博客中的MRUnit测试Hadoop程序 。

翻译自: https://www.javacodegeeks.com/2012/11/testing-hadoop-programs-with-mrunit.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/371032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android之 TextWatcher的监听

以前用过android.text.TextWatcher来监听文本发生变化&#xff0c;但没有仔细去想它&#xff0c;今天兴致来了就发个疯来玩玩吧&#xff01; 有点担心自己理解错&#xff0c;所以还是先把英文API解释给大家看看 1、什么情况下使用了&#xff1f; When an object of a type is a…

php 秒杀并发怎么做,PHP实现高并发下的秒杀功能–Laravel

namespace App\Http\Controllers\SecKill;use App\Http\Controllers\Controller;use Exception;use Illuminate\Support\Facades\DB;use Illuminate\Support\Facades\Redis;class SecKillController extends Controller{/*** 往redis的隊列中添加庫存(用於測試的數據)**/public…

苹果mp3软件_优秀的Apple音乐转换器,将任何iTunes M4P,AAX,AA转换为MP3

Macsome iTunes Converter是一款优秀的音频转换工具&#xff0c;这款音频转换软件能够帮助大家快速进行音频格式转换&#xff0c;使得您可以自由的播放和分享自己喜爱的音频文件。同时这款软件与大多数音频转换软件一样&#xff0c;将受到保护DRM的Apple音乐转换转换成MP3, AAC…

Vuejs开发环境搭建及热更新

一、安装NPM 1.1最新稳定版本&#xff1a; npm install vue 二、命令行工具安装 国内速度慢&#xff0c;使用淘宝镜像&#xff1a; npm install -g cnpm --registryhttps://registry.npm.taobao.org 注意&#xff1a;以后使用npm的地方就替换成cnpm 1、全局安装vue-vli ​ …

线索二叉树的C语言实现

#include "string.h"#include "stdio.h" #include "stdlib.h" #include "io.h" #include "math.h" #include "time.h" #define OK 1#define ERROR 0#define TRUE 1#define FALSE 0 #define MAXSIZE 100 /* 存储空…

发送带有接缝的活动邀请

这些天来&#xff0c;我的一位同事在使用带有接缝&#xff08;2.x版&#xff09;的邮件模板发送事件邀请时遇到了问题。 从根本上讲&#xff0c;这不是一个艰巨的任务&#xff0c;因此我将简要说明使用接缝邮件模板发送事件邀请需要做什么。 发送邮件邀请时&#xff0c;您需要发…

Oracle内存管理(之二)

Oracle内存管理&#xff08;之二&#xff09; 【深入解析--eygle】 学习笔记 1.2.2 UGA和CGA UGA&#xff08;用户全局区&#xff09;由用户会话数据、游标状态和索引区组成。在共享server模式下&#xff0c;一个共享服务进程被多个用户进程共享&#xff0c;此时UGA是Shared Po…

matlab抓取股票数据,Matlab经过sina web接口获取个数即时股票数据函数实现代码

Matlab通过sina web接口获取个数即时股票数据函数实现代码代码如下&#xff1a;function stockinfo queryprice(stocktype, stockid)%stocktype 股票类型&#xff1a;sh和sz%stockid 股票编码&#xff1a;url sprintf(http://hq.sinajs.cn/list%s%d, stocktype, stockid);[so…

虚幻4毛发系统_虚幻引擎复活!苹果与Epic对决,有哪些游戏险些中枪?

最近&#xff0c;苹果和Epic的官司闹得沸沸扬扬。随着Epic旗下热门手游《堡垒之夜》遭苹果火速下架&#xff0c;两大巨头之间的冲突愈演愈烈。苹果似乎并不满足于此&#xff0c;由于Epic公开违反自家规定&#xff0c;苹果计划进一步封禁Epic维护虚幻引擎的开发者账户&#xff0…

史上最全的HTML和CSS标签常用命名规则

文件夹主要建立以下文件夹&#xff1a;  1、Images 存放一些网站常用的图片&#xff1b;  2、Css 存放一些CSS文件&#xff1b;  3、Flash 存放一些Flash文件&#xff1b;  4、PSD 存放一些PSD源文件&#xff1b;  5、Temp 存放所有临时图片和其它文件&#xff1b; …

01-JAVA语言基础

1.设计思想&#xff1a; 先以字符串的形式输入两个数字&#xff0c;然后将他们转化为int类型&#xff0c;再对两数进行相加&#xff0c;最后输出结果。 2.程序流程图&#xff1a; 3.源程序代码&#xff1a; import java.util.Scanner;public class Addition2 {public static vo…

与JodaTime的DateTime和Google Guava的供应商嘲笑

介绍 如果您是经验丰富的单元测试人员&#xff0c;那么当您看到任何与时间 &#xff0c; 并发性 &#xff0c; 随机性 &#xff0c; 持久性和磁盘I / O协同工作的代码时&#xff0c;您就会学会做笔记。 原因是测试可能非常脆弱&#xff0c;有时完全无法正确测试。 这篇文章将展…

栈实现 C语言

最近上来写了一下栈&#xff0c;理解数据结构的栈。 头文件&#xff1a;stack.h 初始化栈结构与函数定义&#xff1a; #include<stdlib.h> #include <stdio.h> #include<memory.h> #define N 100struct stack {int data[N];int top;//标识栈顶 }; typedef s…

php签名墙,肺功能检查质量控制网

2017年12月2日&#xff0c;由中华医学会呼吸病学分会/儿科分会、国家呼吸系统疾病临床医学研究中心、国家呼吸疾病医疗质量控制中心、中国肺功能联盟、中国儿童肺功能协作组主办&#xff0c;浙江省中医院承办的"2017年中国肺功能检查规范化培训及应用推广学习班暨肺功能检…

餐饮水单打印软件_开发一款餐饮手机app系统软件什么价格?有哪些方面需要考虑?...

开发一款餐饮手机app系统软件什么价格&#xff1f;有哪些方面需要考虑&#xff1f;近年来&#xff0c;餐饮类的APP如雨后春笋般快速增长&#xff0c;无论是上档次的酒店&#xff0c;还是各大餐厅&#xff0c;都有各自的专属APP。餐饮APP的开发能让大型酒店/餐厅获得更多盈利、销…

html5中如何去掉input type date默认

html5中如何去掉input type date默认样式 2.对日期时间控件的样式进行修改目前WebKit下有如下9个伪元素可以改变日期控件的UI&#xff1a;::-webkit-datetime-edit – 控制编辑区域的::-webkit-datetime-edit-fields-wrapper – 控制年月日这个区域的::-webkit-datetime-edit-…

Spring-framework应用程序启动loadtime源码分析笔记(二)——@Transactional

Transactional标识类或方法&#xff0c;使方法被执行时使用事务方式执行&#xff0c;这里只讨论PROXY方法增强方法。使用EnableTransactionManagement&#xff0c;默认modelAdviceMode.PROXY&#xff0c;通过Import(TransactionManagementConfigurationSelector.class)来判断在…

具有Spring的简单工作流引擎

几个月前&#xff0c;在处理一个公司项目时&#xff0c;我们需要开发REST服务&#xff0c;该服务用于根据客户端应用程序发送的数据发送电子邮件。 在开发此服务期间&#xff0c;我们决定创建简单的工作流引擎&#xff0c;该引擎将为发送电子邮件收费&#xff0c;但该引擎也可用…

php put 参数,php – 如何在Guzzle 5中发送PUT请求的参数?

根据the manual,The body option is used to control the body of an entity enclosingrequest (e.g., PUT, POST, PATCH).记录的put’ing方法是&#xff1a;$client new GuzzleHttp\Client();$client->put(http://httpbin.org, [headers > [X-Foo > Bar],body > …

TypeScript学习笔记归纳(持续更新ing)

文章目录 前言 二、TypeScript的优势体现在哪里&#xff1f; 1、执行时间上的区别 2、基础数据类型区别 3、TS优势 三、TypeScript的关键特性 四、TypeScript的类型系统 1、什么是类型注释&#xff1f; 2、类型系统核心 - 常用类型 1&#xff09; 基本类型&#xff0…