Hadoop小知识点


hdfs命令行

上传  hadoop fs -put 文件名 hdfs://主机名:9000/...

下载  hadoop fs -get hdfs://主机名:9000/... 文件名


/hadoop/share/hadoop/mapreduce 文件夹下有测试程序

提交MapReduce任务命令

#hadoop jar hadoop-mapreduce-examples-2.4.1.jar pi 5 5


hadoop fs -mkdir /wordcount

hadoop fs -mkdir /wordcount/imput

hadoop fs -put test.txt /wordcount/input

hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /wordcount/input /wordcount/output


hadoop fs -ls /wordcount/output

hadoop fs -cat /wordcount/output/part-r-00000


hadoop fs -appendToFile 源 目的    HDFS支持追加,不支持修改



元数据:

/test/a.log, 3, {blk_1, blk_2}, [{blk_1:[h0, h1, h2]},{blk_2:[h1, h2, h3]}]

文件名  副本数  分块  块的副本所在的结点


(1)客户端上传文件时,NN首先往edits log文件中记录元数据操作日志;

(2)上传完成后,NN在内存中写入这次上传操作的元数据信息;

(3)edits满或时间到,将edits刷入fsimage中,此步操作由secondnamenode来完成(checkpoint操作)。



checkpoint配置

hdfs-site.xml

fs.checkpoint.period    default=3600s

fs.checkpoint.size    default=64M



datanode配置

dfs.block.size    default=128M

dfs.replication    default=3


Linux  du -sh *    查看目录中文件大小

hadoop spark 等基于大数据的产品,在Linux下开发更方便



Eclipse导包

1、新建project;

2、Project-->Properties-->Java Build Path-->Libraries-->AddLibrary-->User Library-->User Libraries-->New-->Add External JARs


hadoop/share/hadoop/...

hdfs hadoop-hdfs-2.4.1.jar,依赖于

hdfs/lib/*

common hadoop-common-2.4.1.jar,依赖于

common/lib/*



RUN-->Run Configuration-->Arguments-->VM arguments

设置 -DHADOOP_USER_NAME=...


Ctrl+T查看继承结构



MapReduce中自定义排序的实现:

依据key类中的compareTo方法排序map task产生的中间输出结果。


自定义Partitioner:

自定义的Partitioner类将所需的key值放入同一个reduce进程中处理,每个reduce进程将产生一个输出文件。

Reduce进程的个数可通过job.setNumReduceTasks(int i)设置,默认reduce进程为1个。


ruduce number >= partitioner    OK  多余将产生空文件结果

reduce number < partitioner    ERROR

reduce number = 1    OK



block  文件块

split  切片

map task的数量由切片的数量决定

io.sort.mb  缓冲大小,默认100M

io.sort.spill.percent  阈值,默认0.8

mapred.local.dir  写入磁盘位置

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387185.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

copy 扩展名 包含子文件夹 文件 到某个 文件夹

比如我在d:\fff下面有很多子文件夹&#xff0c;子文件夹里还有子文件夹&#xff0c;里面有些文件夹里有.ppm.bz2的后缀的文件&#xff0c;需要把他们找出来复制到d:\fff2里面&#xff0c;应该怎么用批处理写&#xff1f;最佳答案1234echo offfor /r d:\fff %%a in (*.ppm.bz2) …

在线视频常见加密方式及安全性透析

信息化时代&#xff0c;多媒体的应用日渐成为人们生活中不可或缺的部分&#xff0c;无论是获取最新资讯还是教育学习&#xff0c;视频都是直观高效的媒介之一。 基于互联网的快速传播&#xff0c;众多培训机构也逐渐将线下原创版权课程迁移到在线平台中&#xff0c;一方面可以更…

分享一个前后端分离的web项目(vue+spring boot)

Github地址&#xff1a;https://github.com/smallsnail-wh 前端项目名为wh-web后端项目名为wh-server项目展示地址为我的github pages&#xff08;https://smallsnail-wh.github.io&#xff09;用户名&#xff1a;admin&#xff0c;密码admin&#xff08;第一次启动会比较慢&am…

部署php项目到linux

服务器&#xff1a;39.106.26.67rootBayou2009 数据库&#xff1a;rootbayou2009 项目文件夹路径&#xff1a;/home/www/项目文件夹名称&#xff1a;education.bayou-tech.cn 绑定域名&#xff1a;education.bayou-tech.cn 绑定域名&#xff1a; 用ftp把配置文件下班到windows修…

ionic最新安装教程

公司最近开发webapp&#xff0c;研究了一下ionicangularjs开发。 安装过程中碰到许多问题&#xff0c;发现网上有好多资料都已经过时&#xff0c;在这里把最新的流程记录一下。 首先是安装node.js&#xff0c;通过nodejs官网下载&#xff0c;没什么问题。npm已经默认安装&#…

ZooKeeper安装配置

配置 1、在conf目录下创建一个配置文件zoo.cfg tickTime2000 dataDir.../zookeeper/data dataLogDir.../zookeeper/dataLog clientPort2181 initLimit5 syncLimit2 server.1server1:2888:3888 server.2server2:2888:3888 server.3server3:2888:3888 •tickTime&#…

1.1 算法编译与调试

编程要保持简单&#xff08;KISS, keep it simple and stupid&#xff09;。 算法竞赛中的输入输出框架&#xff1a; 输入数据保存在文件中&#xff0c;输出数据也保存在文件中。 几乎所有算法竞赛的输入数据和标准答案都是保存在文件中的。 使用文件最简单的方法是使用输入…

ionic2开发的仿外卖点餐系统(Ionic2+Angular2

github上的项目源码 Run this Project&#xff08;运行该项目&#xff09; first&#xff08;首先&#xff09;: make sure your computer install ionic 确保你的电脑安装了ionic2,不懂自行百度 second&#xff08;其次&#xff09;:$ ionic start wechat_restaurant tutorial…

Container Injection

Container的历史&#xff1a; 2000 年的时候 FreeBSD 开发了一个类似于 chroot 的容器技术 Jails&#xff0c;这是最早期&#xff0c;也是功能最多的容器技术。Jails 英译过来是监狱的意思&#xff0c;这个“监狱”&#xff08;用沙盒更为准确&#xff09;包含了文件系统、用户…

HadoopHA集群搭建

三台主机&#xff1a; 192.168.143.111 hdp1 192.168.143.112 hdp2 192.168.143.113 hdp3 1、安装配置ZooKeeper&#xff1b; (1)在conf目录下创建配置文件zoo.cfg tickTime2000 dataDir.../zookeeper/data dataLogDir.../zookeeper/dataLog clientPort2181 initLim…

node搭建服务器,写接口,调接口,跨域

刚开始学node&#xff0c;今天做这个也是累死宝宝了&#xff0c;以后可以自己写接口自己用了&#xff0c;再也不用麻烦人家后台人员了&#xff0c;这些年我们欠他们的太多了&#xff0c;说多了都是泪&#xff0c;不多说&#xff0c;往下看吧。。。 服务端项目目录下&#xff1a…

ThreadPoolExcutor 线程池 异常处理 (上篇)

前言 最近看到crossoverJie的一篇文章&#xff1a;一个线程罢工的诡异事件 首先感谢原作者的分享&#xff0c;自己获益匪浅。然后是回想到自己的一次面试经历&#xff0c;面试官提问了线程池中的线程出现了异常该怎样捕获&#xff1f;会导致什么样的问题&#xff1f; 示例代码 …

3 MapReduce计算模型

MapReduce被广泛应用于日志分析、海量数据排序、在海量数据中查找特定模式等场景中。 MapReduceJob 在Hadoop中&#xff0c;每个MapReduce任务都被初始化为一个Job。 每个Job又可以分为两个阶段&#xff1a;Map阶段和Reduce阶段。这两个阶段分别用Map函数和Reduce函数来表示。…

ionic3 调用本地相册并上传图片

前言在APP中启动相册选择器或者拍照上传图片这些功能是非常常见的。对于Ionic2&#xff0c;我们只能通过cordova插件实现调用原生的功能。下面将简单的封装一个选择相册或拍照上传图片的ImgService服务。具体如下。 Cordova准备下载安装所需的Cordovar插件&#xff1a; Image P…

Mapreduce中maptask过程详解

一、Maptask并行度与决定机制 1.一个job任务的map阶段的并行度默认是由该任务的大小决定的&#xff1b; 2.一个split切分分配一个maprask来并行处理&#xff1b; 3.默认情况下&#xff0c;split切分的大小等于blocksize大小&#xff1b; 4.切片不是mapper类中对单词的切片&…

4 开发MapReduce应用程序

系统参数配置 Configuration类由源来设置&#xff0c;每个源包含以XML形式出现的一系列属性/值对。如&#xff1a; configuration-default.xml configuration-site.xml Configuration conf new Configuration(); conf.addResource("configuraition-default.xml"…

实用的HTML5的上传图片方法

<input type"file" accept"video/*;capturecamcorder"> <input type"file" accept"audio/*;capturemicrophone"><input type"file" accept"image/*;capturecamera">直接调用相机<input type…

3.11 列出完数

完数&#xff1a;一个数恰好等于不包括自身的所有不同因子之和。如6123。 输入&#xff1a;每一行含有一个整数n。 输出&#xff1a;对每个整数n&#xff0c;输出所有不大于n的完数。输出格式为&#xff1a;整数n&#xff0c;冒号&#xff0c;空格&#xff0c;完数&#xff0…

angularjs 上传

xxx.module.ts模块 import { NgModule} from “angular/core”; import { FileUploadModule } from “ng2-file-upload” ; import { XXXComponent } from “./xxx.component”; NgModule({ imports:[ FileUploadModule ], declarations:[ XXXComponent &#xff0c;/component…

PHPCMS的产品筛选功能

如下图所示功能&#xff1a; 首先&#xff0c;用下面这些代码替换掉phpcms/libs/functions/extention.func.php的内容 <?php /*** extention.func.php 用户自定义函数库** copyright (C) 2005-2010 PHPCMS* license http://www.phpcms.cn/licen…