Hadoop Archives

介绍


时间:

Hadoop Archives (HAR files)是在0.18.0版本中引入的。

作用:

将hdfs里的小文件打包成一个文件,相当于windows的zip,rar。Linux的 tar等压缩文件。把多个文件打包一个文件。

意义:

它的出现就是为了缓解大量小文件消耗namenode内存的问题。

原理:

HAR文件是通过在HDFS上构建一个层次化的文件系统来工作。

一个HAR文件是通过hadoop的archive命令来创建,而这个命令实际上也是运行了一个MapReduce任务来将小文件打包成HAR。

对于client端来说,使用HAR文件没有任何影响。但在HDFS端它内部的文件数减少了。


读取效率不高:

通过HAR来读取一个文件并不会比直接从HDFS中读取文件高效,而且实际上可能还会稍微低效一点,因为对每一个HAR文件的访问都需要完成两层 index文件的读取和文件本身数据的读取。

尽管HAR文件可以被用来作为MapReduce job的input,但是并没有特殊的方法来使maps将HAR文件中打包的文件当作一个HDFS文件处理。


创建命令:

hadoop archive -archiveName xxx.har -p  /src  /dest

archive -archiveName <NAME>.har -p <parent path> [-r <replication factor>]<src>* <dest>

查看命令:

hadoop fs -ls -r har://路径/xxx.har


操作实例:

注意:是hdfs里的文件才能打包,如果不是hdfs里的路径会报错。  


1、hdfs dfs -ls  /

drwx------   - hadoop supergroup          0 2016-04-14 22:19 /tmp
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 /wc


2、hadoop archive -archiveName temp.har -p /tmp /

会启动mapreduce

16/08/13 00:41:16 INFO client.RMProxy: Connecting to ResourceManager at hello110/192.168.255.130:8032
16/08/13 00:41:18 INFO client.RMProxy: Connecting to ResourceManager at hello110/192.168.255.130:8032
16/08/13 00:41:18 INFO client.RMProxy: Connecting to ResourceManager at hello110/192.168.255.130:8032
16/08/13 00:41:18 INFO mapreduce.JobSubmitter: number of splits:1
16/08/13 00:41:19 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1471019987033_0001
16/08/13 00:41:19 INFO impl.YarnClientImpl: Submitted application application_1471019987033_0001
16/08/13 00:41:19 INFO mapreduce.Job: The url to track the job: http://hello110:8088/proxy/application_1471019987033_0001/
16/08/13 00:41:19 INFO mapreduce.Job: Running job: job_1471019987033_0001
16/08/13 00:41:35 INFO mapreduce.Job: Job job_1471019987033_0001 running in uber mode : false
16/08/13 00:41:35 INFO mapreduce.Job:  map 0% reduce 0%
16/08/13 00:41:57 INFO mapreduce.Job:  map 100% reduce 0%
16/08/13 00:42:21 INFO mapreduce.Job:  map 100% reduce 100%
16/08/13 00:42:23 INFO mapreduce.Job: Job job_1471019987033_0001 completed successfully


3、hdfs dfs -ls  /

drwxr-xr-x   - hadoop supergroup          0 2016-08-13 00:42 /temp.har  (新增的)
drwx------   - hadoop supergroup          0 2016-04-14 22:19 /tmp
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 /wc


4、hadoop fs -ls -R har:///temp.har

drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 har:///temp.har/hadoop-yarn
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging/hadoop
drwxr-xr-x   - hadoop supergroup          0 2016-08-13 00:41 har:///temp.har/hadoop-yarn/staging/hadoop/.staging
drwxr-xr-x   - hadoop supergroup          0 2016-08-13 00:41 har:///temp.har/hadoop-yarn/staging/hadoop/.staging/har_dj36hy
-rw-r--r--   1 hadoop supergroup       1593 2016-08-13 00:41 har:///temp.har/hadoop-yarn/staging/hadoop/.staging/har_dj36hy/_har_src_files
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging/history
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging/history/done_intermediate
drwxr-xr-x   - hadoop supergroup          0 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop
-rw-r--r--   1 hadoop supergroup      33303 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001-1460643581404-hadoop-wcount.jar-1460643608082-1-1-SUCCEEDED-default-1460643592087.jhist
-rw-r--r--   1 hadoop supergroup        349 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001.summary
-rw-r--r--   1 hadoop supergroup     115449 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001_conf.xml


5、 hdfs dfs -cat  har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001_conf.xml

<property><name>mapreduce.tasktracker.instrumentation</name><value>org.apache.hadoop.mapred.TaskTrackerMetricsInst</value><source>mapred-default.xml</source><source>job.xml</source></property>
<property><name>io.seqfile.sorter.recordlimit</name><value>1000000</value><source>core-default.xml</source><source>job.xml</source></property>
<property><name>yarn.sharedcache.webapp.address</name><value>0.0.0.0:8788</value><source>yarn-default.xml</source><source>job.xml</source></property>
<property><name>yarn.app.mapreduce.am.resource.mb</name><value>1536</value><source>mapred-default.xml</source><source>job.xml</source></property>
<property><name>mapreduce.framework.name</name><value>yarn</value><source>mapred-site.xml</source><source>job.xml</source></property>
<property><name>mapreduce.job.reduce.slowstart.completedmaps</name><value>0.05</value><source>mapred-default.xml</source><source>job.xml</source></property>
.....................太多了.....................................




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/539326.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js 判断日期时间差

2019独角兽企业重金招聘Python工程师标准>>> alert(GetDateDiff("2018-02-27 19:20:22","2018-02-27 09:20:22","hour"));function GetDateDiff(startTime, endTime, diffType) {//将xxxx-xx-xx的时间格式&#xff0c;转换为 xxxx/xx…

python 图形_Python图形数据

CSGraph代表 压缩稀疏图 &#xff0c;它着重于基于稀疏矩阵表示的快速图算法。 图表表示 首先&#xff0c;让我们了解一个稀疏图是什么以及它在图表示中的作用。 什么是稀疏图&#xff1f; 图形只是节点的集合&#xff0c;它们之间有链接。图表几乎可以代表任何事物 - 社交网络…

本地运行hadoop-Failed to locate the winutils binary in the hadoop binary path

转自&#xff1a;http://www.cnblogs.com/zq-inlook/p/4386216.html 之前在mac上调试hadoop程序&#xff08;mac之前配置过hadoop环境&#xff09;一直都是正常的。因为工作需要&#xff0c;需要在windows上先调试该程序&#xff0c;然后再转到linux下。程序运行的过程中&#…

dubbo 支持服务降级吗_dubbo面试题!会这些,说明你真正看懂了dubbo源码

整理了一些dubbo可能会被面试的面试题&#xff0c;感觉非常不错。如果你基本能回答说明你看懂了dubbo源码&#xff0c;对dubbo了解的足够全面。你可以尝试看能不能回答下。我们一起看下有哪些问题吧&#xff1f;dubbo中"读接口"和"写接口"有什么区别?谈谈…

不满足于汽车制造,丰田展示仿钢铁侠机器支撑腿架

而汽车制造商开发机器人也不是丰田一家的专利&#xff0c;此前现代也推出过类似的支撑机器人腿架 大多数人对于丰田的印象都停留在汽车制造上&#xff0c;不过他们却不仅仅满足于汽车事业的发展&#xff0c;最近&#xff0c;丰田正在研发一款机器人支撑腿架&#xff0c;来帮助…

js html异步加载的属性,异步加载JS的五种方式

方案一&#xff1a;点评&#xff1a;HTML5中新增的属性&#xff0c;Chrome、FF、IE9&IE9均支持(IE6~8不支持)。此外&#xff0c;这种方法不能保证脚本按顺序执行。方案二&#xff1a;点评&#xff1a;兼容所有浏览器。此外&#xff0c;这种方法可以确保所有设置defer属性的…

python中各操作符的优先级_Python3练习题系列(06)——各种符号总结

Python3中的各种符号总结 1关键字 import keyword print(keyword.kwlist, end\t) [False, None, True, and, as, assert, break, class, continue, def, del, elif, else, except, finally, for, from, global, if, import, in, is, lambda, nonlocal, not, or, pass, raise, r…

hdfs java读写hdfs demo

windows环境配置&#xff1a; 1.下载winutils的windows版本 GitHub上&#xff0c;有人提供了winutils的windows的版本&#xff0c; 项目地址是&#xff1a;https://github.com/srccodes/hadoop-common-2.2.0-bin,直接下载此项目的zip包&#xff0c;下载后是文件名是hadoop-comm…

cesium 经纬度绘制点_NCL绘制2016年1号台风(Nepartak)

begin ncol 6 ;台风参数 nrow 31 ;时次总数 nbin 6 ;已知该该气旋共经历了6个等级的演变 ;读入台风资料 data asciiread("NEPARTAK.txt",(/nrow,ncol/),"integer") ;/31,6/ 31行6列&#xff0c;integer整数类型 ;;数据读取函数总结&…

VR究竟多奇幻?eSmart邀你共赴一场VR奇幻之旅!

今年夏天&#xff0c;快来参加首届eSmart展会&#xff0c;来一场VR游戏的奇妙之旅&#xff0c;见识最好玩、最有趣的VR游戏&#xff01; 正如十几年前互联网的兴起开创了全新时代一样&#xff0c;VR产业在近两年也势不可挡。随着一重行业巨头的进入&#xff0c;2016年&#xf…

HTML5新的解析顺序,HTML5新表单新功能解析

HTML5新增了很多属性功能。但是有兼容性问题&#xff0c;因为这些表单功能新增的。我这里做了一个简单的练习&#xff0c;方便参考。如果完全兼容的话&#xff0c;那我们写表单的时候就省了很多代码以及各种判断。HTML5表单新功能解析#da{width:350px;height:600px;margin:0 au…

python子类继承父类属性实例_Python实现子类调用父类的初始化实例

前言 python中进行面向对象编程&#xff0c;当在子类的实例中调用父类的属性时&#xff0c;由于子类的__init__方法重写了父类的__init__方法&#xff0c;如果在子类中这些属性未经过初始化&#xff0c;使用时就会出错。 例如以下的代码: class A(object): def __init__(self):…

hadoop 回收站Trash

介绍&#xff1a; Hadoop回收站trash&#xff0c;默认是关闭的。 和Linux系统的回收站设计一样&#xff0c;HDFS会为每一个用户创建一个回收站目录&#xff1a;/user/用户名/.Trash/&#xff0c;每一个被用户通过Shell删除的文件/目录&#xff0c;在系统回收站中都一个周期&…

opencv画框返回坐标 python_[python]依靠pynput和pyautogui替换ahk

autohotkey当然是不错的工具&#xff0c;但是这个东西的社群一直发展的不行。从开始学习python以后&#xff0c;我就不时会希望能找到别的工具替代ahk。Python的众多包里面确实是有对应的工具的&#xff1a;模拟鼠标和键盘的操作可以用pyautogui&#xff0c;而捕捉热键则可以使…

Hadoop SequenceFile

apache原文&#xff1a;http://hadoop.apache.org/docs/r1.0.4/api/org/apache/hadoop/io/SequenceFile.html 概念&#xff1a; SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件&#xff0c;它可以在map/reduce过程中的input/output 的format时被使…

机器学习算法平台alink_Alink漫谈(十二) :在线学习算法FTRL 之 整体设计

Alink漫谈(十二) &#xff1a;在线学习算法FTRL 之 整体设计[Toc]0x00 摘要Alink 是阿里巴巴基于实时计算引擎 Flink 研发的新一代机器学习算法平台&#xff0c;是业界首个同时支持批式算法、流式算法的机器学习平台。本文和下文将介绍在线学习算法FTRL在Alink中是如何实现的&a…

Linux Shell获取系统资源使用百分比(CentOS)

CPU使用率&#xff1a; top -b -n 1 | head -n 4 | grep "^Cpu(s)" | awk {print $2} | cut -d u -f 1 内存使用率&#xff1a; free -m | grep ^- | awk {print $3/($3$4)*100"%"} IO使用率&#xff08;FS_PATH的值改成df -h出来的那些Filesystem名称即可…

html城市绘制,HTML5/Canvas二分法构建城市版图

JavaScript语言&#xff1a;JaveScriptBabelCoffeeScript确定var ctx fullscreenCanvas().ctx;var canvas ctx.canvas;function Rect(pos, width, height) {this.pos pos;this.width width;this.height height;}Rect.prototype.update Function.prototype;Rect.prototype…

探测器反向偏压_近红外和可见光双模有机光电探测器

更多精彩&#xff0c;点击上方蓝字关注我们&#xff01;中英标题近红外和可见光双模有机光电探测器Near-infrared and Visible Light Dual-mode Organic Photodetectors图文导读研究报告了一种具有三层可见光吸收体/光学间隔层/近红外(NIR)光吸收体结构的双模有机光电探测器(OP…

html里post请求404,请求登陆页面post请求404错误,OPTIONS请求通过

点击登录的时候option请求是通过的&#xff0c;但post请求失败。服务端代码app.js&#xff1a;const express require(‘express’)const bodyParser require(‘body-parser’)const cors require(‘cors’)const router require(’./router/index’)// 创建 express 应用c…