Hadoop DistributedCache分布式缓存的使用

转载请注明:http://www.cnblogs.com/demievil/p/4059141.html

我的github博客:http://demievil.github.io/

做项目的时候遇到一个问题,在Mapper和Reducer方法中处理目标数据时,先要去检索和匹配一个已存在的标签库,再对所处理的字段打标签。因为标签库不是很大,没必要用HBase。我的实现方法是把标签库存储成HDFS上的文件,用分布式缓存存储,这样让每个slave都能读取到这个文件。


main方法中的配置:

//分布式缓存要存储的文件路径
String cachePath[] = {"hdfs://10.105.32.57:8020/user/ad-data/tag/tag-set.csv","hdfs://10.105.32.57:8020/user/ad-data/tag/TagedUrl.csv"};
//向分布式缓存中添加文件job.addCacheFile(new Path(cachePath[0]).toUri());job.addCacheFile(new Path(cachePath[1]).toUri());

参考上面代码即可向分布式缓存中添加文件。


在Mapper和Reducer方法中读取分布式缓存文件:

/** 重写Mapper的setup方法,获取分布式缓存中的文件*/@Overrideprotected void setup(Mapper<LongWritable, Text, Text, Text>.Context context)throws IOException, InterruptedException {// TODO Auto-generated method stubsuper.setup(context);URI[] cacheFile = context.getCacheFiles();Path tagSetPath = new Path(cacheFile[0]);Path tagedUrlPath = new Path(cacheFile[1]);文件操作(如把内容读到set或map中);}@Override
public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {在map()中使用读取出的数据;}

同样,如果在Reducer中也要读取分布式缓存文件,示例如下:

/** 重写Reducer的setup方法,获取分布式缓存中的文件*/@Overrideprotected void setup(Context context) throws IOException, InterruptedException {super.setup(context);mos = new MultipleOutputs<Text, Text>(context);URI[] cacheFile = context.getCacheFiles();Path tagSetPath = new Path(cacheFile[0]);Path tagSetPath = new Path(cacheFile[1]);文件读取操作;}@Overridepublic void reduce(Text key, Iterable<Text> values, Context context)throws IOException, InterruptedException {while(values.iterator().hasNext()){使用读取出的数据;}context.write(key, new Text(sb.toString()));}

 

以上。

 

转载于:https://www.cnblogs.com/kodyan/p/4059141.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/375530.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日温度

根据每日 气温 列表&#xff0c;请重新生成一个列表&#xff0c;对应位置的输出是需要再等待多久温度才会升高超过该日的天数。如果之后都不会升高&#xff0c;请在该位置用 0 来代替。 例如&#xff0c;给定一个列表 temperatures [73, 74, 75, 71, 69, 72, 76, 73]&#xf…

什么是Modbus

什么是Modbus 1. Modbus如何工作 Modbus是通过设备之间的几根连线来传递数据&#xff0c;最简单的设置就是主站和从站之间用一跟串口线相连。数据通过一串0或者1来传递&#xff0c;也就是位。0为正电压&#xff0c;1为负电压。位数据传递速度非常快&#xff0c;常见的传输速度为…

博客刚刚开通!

今天老贼开播了&#xff01;以后请大家多多关照&#xff01; 转载于:https://www.cnblogs.com/xiaosayi/p/4065313.html

Android实例-拍摄和分享照片、分享文本(XE8+小米2)

结果&#xff1a; 1.分享文本不好使&#xff0c;原因不明。有大神了解的&#xff0c;请M我&#xff0c;在此十分感谢。 2.如果想支持图片编辑&#xff0c;将Action事件的Editable改为True。 相关资料&#xff1a; 官网地址&#xff1a;http://docwiki.embarcadero.com/RADStudi…

go语言 expected ; found a

错误代码&#xff0c;这是一段测试go语言类型转换的代码 package type_testimport "testing"type MyInt int64func TestImplicit(t *testing.T) {var a int32 1var b int64 3b (int64)avar c MyInt 4// c bt.Log(a, b, c) }报错代码 b (int64)a改正 b int6…

win8 metro 调用摄像头拍摄照片并将照片保存在对应的位置

刚刚做过这类开发&#xff0c;所以就先献丑了&#xff0c;当然所贴上的源代码都是经过验证过的&#xff0c;已经执行成功了&#xff0c;希望能够给大家一些借鉴&#xff1a; 以下是metro UI代码&#xff1a; <Pagex:Class"Camera.MainPage"xmlns"http://sche…

poj 3678 Katu Puzzle(2-sat)

Description Katu Puzzle is presented as a directed graph G(V, E) with each edge e(a, b) labeled by a boolean operator op (one of AND, OR, XOR) and an integer c (0 ≤ c ≤ 1). One Katu is solvable if one can find each vertex Vi a value Xi (0 ≤ Xi ≤ 1) suc…

go 语言 first argument to append must be slice

错误代码 func TestSliceGrowing(t *testing.T) {s : [4]int{1, 2, 3, 4}for i :0; i<10; i {s append(s, i)t.Log(len(s), cap(s))} }报错代码 s append(s, i)原因&#xff1a;append的第一个参数必须是切片 更正 func TestSliceGrowing(t *testing.T) {s : []int{1,…

豆瓣网静态页面

divcss网站登录注册豆瓣读书视频 音乐同城小组阅读 豆瓣FM东西更多豆瓣视频 影讯&购票电视剧排行榜 分类影评预告片 向后向前3/5正在热映全部正在热映>>即将上映 烈日灼心 4.7终结者&#xff1a;创世纪... 4.7百团大战 4.7刺客&#xff1a;聂隐娘 4.7近期热门更多影视…

C++并发编程实战(豆瓣评分5.4)

评分已说明一切&#xff0c;切勿踩坑&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01;&#xff01; 推荐的翻译 C并发编程实战 关注公众号回复【C并发编程实…

Please use boost/bind/bind.hpp + using namespace boost::placeholders

The practice of declaring the Bind placeholders (_1, _2, …) in the global namespace is deprecated. Please use <boost/bind/bind.hpp> using namespace boost::placeholders, or define BOOST_BIND_GLOBAL_PLACEHOLDERS to retain the current behavior. 提示w…

奔跑吧,兄弟

10月底的时候&#xff0c;不能忍受老婆的奚落&#xff0c;开始了我的跑步计划。 说说&#xff0c;跑步需要注意的事项&#xff0c;首先你得有双跑步鞋&#xff0c;我有一次是穿了薄底鞋跑的&#xff0c;结果&#xff0c;打满了水泡。跑步前控制饮水&#xff0c;最好在饮食后2个…

2299 Ultra-QuickSort(归并)

合并排序第一次。连环画看着合并看着别人的博客的想法。http://poj.org/problem?id2299 #include <stdio.h> #include <stdlib.h>#define MAX 500001int n,a[MAX], t[MAX]; long long int sum;//归并 void Merge(int l, int m, int r) {int p0;int il, jm1;while…

由openSession、getCurrentSession和HibernateDaoSupport浅谈Spring对事物的支持

由openSession、getCurrentSession和HibernateDaoSupport浅谈Spring对事物的支持 Spring和Hibernate的集成的一个要点就是对事务的支持&#xff0c;openSession、getCurrentSession都是编程式事务&#xff08;手动设置事务的提交、回滚&#xff09;中重要的对象&#xff0c;Hi…

【tool】没有需求文档的时候如何来设计测试用例

没有需求文档的时候如何来设计测试用例 1.根据客户的功能点整理测试需求追朔表&#xff1a; 一般的客户都要把要开发软件的功能点写成一个表格交给市场部&#xff0c;让市场部门转交研发部。所以客户的功能点是编写测试用例一个最最重要的依据。 2.根据开发人员的Software Spec…

go返回多个值和python返回多个值对比

go package mulVals_test import "testing" func returnMultiValues(n int)(int, int){return n1, n2 }func TestReturnMultiValues(t *testing.T) {// a : returnMultiValues(5)// 这里尝试用一个值接受多个返回值&#xff0c;将编译错误a, _ : returnMultiValues(…

努力学习 HTML5 (3)—— 改造传统的 HTML 页面

要了解和熟悉 HTML5 中的新的语义元素&#xff0c;最好的方式就是拿一经典的 HTML 文档作例子&#xff0c;然后把 HTML5 的一些新鲜营养充实进入。如下就是我们要改造的页面&#xff0c;该页面很简单&#xff0c;只包含一篇文章。 ApocalypsePage_Original.html&#xff0c;这是…

判断系统是大端还是小段

大端&#xff1a;高位内存存储低序字节小端&#xff1a;高位内存存储高序字节short a 0x0102&#xff0c;其中 01 高序字节&#xff0c; 02 低序字节 #include<stdio.h>int main() {union {short s;char c[sizeof(short)];} un;un.s 0x0102;if (sizeof(short) 2) {if…

手机页面head中的meta元素

<meta http-equiv"Pragma" content"no-cache"> <meta http-equiv"expires" content"0"> <meta http-equiv"cache-control" content"no-cache"> 清除浏览器中的缓存&#xff0c;它和其它几句合起…

Delphi 关键 重启 注销

//在初始化的时候获取权限 varhToken: THandle;Tkp: TTokenPrivileges;Zero: DWORD;beginOpenProcessToken(GetCurrentProcess(), TOKEN_ADJUST_PRIVILEGES orTOKEN_QUERY, hToken);LookupPrivilegeValue(nil, SeShutdownPrivilege, Tkp.Privileges[0].Luid);Tkp.PrivilegeCou…