hadoop job 数量_Hadoop job任务分配

1. 必要性Hadoop提供了多个配置参数使得admin和user可以灵活设定内存;有些参数有defaut-value, 有些选项是cluster specific以支持memory-intensive作业。

当构建一个cluster时,admin可以先设定一些appropriate default value;其他一些参数设定可根据cluster硬件配置(如任务可获得的物理内存和虚拟内存的总大小、slave配置的slots的数目、在slave上运行的process的需求)和作业类型(如内存密集型任务)而确定。

2. 内存监控(1) 监控任务内存的目的防止MapReduce task占用了过量的内存(consuming memory beyond a limit),从而导致同在该slave上运行的其他进程、其他任务、或者daemon(例如DataNode或者TaskTracker)。(2) virtual memory和physical memoryHadoop可以监控节点的virtual memory和physical memory,两者之间独立。然而,在streaming应用中,由于程序需要加载了libraries来执行任务,故virtual memory使用较多。在这种情况下,监控physical memory会更准确.

(3) hadoop允许为作业指定期望所需内存的最大值。通过resource aware scheduling and monitoring, hadoop tries to确保满足task数量,以满足限制(a) an individual job's memory requirement

(b) the total amount of memory available for all MapReduce tasks(4) TaskTracker 对task的监控(a) 周期性的监控第一步:以防某个task及其child process累计使用的virtual memory和physical memory的量不超过specified的量。先查virtual memory, 接着physical memory. 若超过,则kill该task及其child process。并标记该task为failed.

第二步:检查某个job的所有running tasks及其child processes累计使用的virtual memory和physical memory的量。若超过limit, 则kill以足够量的task,直到累计内存的使用量低于limit. (若virtual memory超限,则kill掉那些进展最小的tasks;若physical memory超限,则kill掉那些占用physical memory最多的task)。被kill掉的task被标记为killed.(5) Resource aware schedulingResource aware scheduling能确保:要调度task到某个slave上前,先要确保该slave能够满足task的memory requirement。

Capacity Scheduling在调度作业时,把virtual memory的需求考虑进去。见

(7) cluster相关的内存配置这些配置与JobTracker和TaskTracker相关,任何job不能修改这些参数。另外,配置参数在每个slave上相同。

mapreduce.cluster.{map|reduce}memory.mb: These options define the default amount of virtual memory that should be allocated for MapReduce tasks running in the cluster. They typically match the default values set for the options mapreduce.{map|reduce}.memory.mb. They help in the calculation of the total amount of virtual memory available for MapReduce tasks on a slave, using the following equation:

Total virtual memory for all MapReduce tasks = (mapreduce.cluster.mapmemory.mb * mapreduce.tasktracker.map.tasks.maximum) + (mapreduce.cluster.reducememory.mb * mapreduce.tasktracker.reduce.tasks.maximum)

Typically, reduce tasks require more memory than map tasks. Hence a higher value is recommended for mapreduce.cluster.reducememory.mb. The value is specified in MB. To set a value of 2GB for reduce tasks, set mapreduce.cluster.reducememory.mb to 2048.

mapreduce.jobtracker.max{map|reduce}memory.mb: These options define the maximum amount of virtual memory that can be requested by jobs using the parameters mapreduce.{map|reduce}.memory.mb. The system will reject any job that is submitted requesting for more memory than these limits. Typically, the values for these options should be set to satisfy the following constraint:

mapreduce.jobtracker.maxmapmemory.mb = mapreduce.cluster.mapmemory.mb * mapreduce.tasktracker.map.tasks.maximum

mapreduce.jobtracker.maxreducememory.mb = mapreduce.cluster.reducememory.mb * mapreduce.tasktracker.reduce.tasks.maximum

The value is specified in MB. If mapreduce.cluster.reducememory.mb is set to 2GB and there are 2 reduce slots configured in the slaves, the value formapreduce.jobtracker.maxreducememory.mb should be set to 4096.

mapreduce.tasktracker.reserved.physicalmemory.mb: This option defines the amount of physical memory that is marked for system and daemon processes. Using this, the amount of physical memory available for MapReduce tasks is calculated using the following equation:

Total physical memory for all MapReduce tasks = Total physical memory available on the system - mapreduce.tasktracker.reserved.physicalmemory.mb

The value is specified in MB. To set this value to 2GB, specify the value as 2048.

mapreduce.tasktracker.taskmemorymanager.monitoringinterval: This option defines the time the TaskTracker waits between two cycles of memory monitoring. The value is specified in milliseconds.

Note: The virtual memory monitoring function is only enabled if the variables mapreduce.cluster.{map|reduce}memory.mb andmapreduce.jobtracker.max{map|reduce}memory.mb are set to values greater than zero. Likewise, the physical memory monitoring function is only enabled if the variable mapreduce.tasktracker.reserved.physicalmemory.mb is set to a value greater than zero.

转自http://blog.csdn.net/amaowolf/article/details/7188504

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/503492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计量经济学计算机输出结果,计量经济学作业答案A..doc

计量经济学作业答案A.计量经济学(本科)第一次作业(First Assignment) 答案问题1某一元回归模型y ?0 ?1 x u 中 ?1 的估计量(OLS法-最小二乘法)用表示。检验 ?1 0的t统计量定义为 t ,其中S()为的样本标准差(Standard Error)。问题:1) 请找出t统计…

均值滤波器类型_均值滤波适用于处理什么样的噪声

图像降噪是图像处理中的专业术语。在现实生活中,我们看到的数字图像,在数字化和传输过程中由于常受到成像设备与外部环境噪声干扰等影响,把这些图像称为含噪图像或者叫噪声图像。减少数字图像中噪声的过程称为图像降噪,有时候又称为图像去噪。…

采用计算机发布调度命令时 必须严格遵守,实用文档其他之铁路调度命令格式图片调度命令规范格式...

铁路调度命令格式图片调度命令规范格式一、发布行车调度命令的原则1.指挥列车运行的命令和口头指示,只能由列车调度员发布。旅客列车的加开、停运、折返、变更径路及车辆甩挂的命令,经铁道部、铁路局客运调度分别报告值班处长、值班主任同意签字后&#…

c3p0 参数 模糊查询_Hibernate day03笔记

Hibernate的关联关系映射:(多对多)多对多的配置:步骤一创建实体和映射:Student:public class Student {private Integer sid;private String sname;//学生选择多门课程.private Set courses new HashSet();...}Course:public class Course {private Integer cid;private Strin…

微型计算机实验四答案,微型计算机技术实验指导书的答案.doc

微型计算机技术实验指导书的答案3、设计要求:(1)在数据段偏移地址为1000H处开始,连续存放有3字节数据(高位对应高地址,低位对应低地址)1003H处连续存放2字节的数据(高位对应高地址,低位对应低地址),求两个数据之和。并…

mybatis 动态传入表名 注解_mybatis 标签 和注解 ( 动态 sql的 用法)

1. 动态 sqlmybatis select 元素总结:一般下执行完commit操作都需要刷新缓存,flushCachetrue表示刷新缓存,这样可以避免数据库脏读。注意:(1)当为select语句时:flushCache默认为false,表示任何时候语句被调…

微型计算机的alu部件是包含在,微型计算机的ALU部件是什么?

计算机中执行各种算术和逻辑运算操作的部件。运算器的基本操作包括加、减、乘、除四则运算,与、或、非、异或等逻辑操作,以及移位、比较和传送等操作,亦称算术逻辑部件(ALU)。计算机运行时,运算器的操作和操作种类由控制器决定。运…

yolov4 开发环境搭建_YOLOv4 的各种新实现、配置、测试、训练资源汇总

点击上方“计算机视觉life”,选择“星标”快速获得最新干货近日最火的莫过于 YOLOv4 的横空出世,CV君在第一时间进行了 YOLOv4的论文解读:得到了大家的广泛关注。以下视频为 YOLOv4 在驾驶环境的测试结果:来自 https://www.youtub…

计算机基础知识的重点,计算机基础知识重点

计算机基础知识重点1、 第一台电子计算机诞生时间?2、 计算机的发展按照逻辑元件分为哪几个阶段?3、 计算机之父是谁?提出了什么原理?原理内容是什么?4、 计算机系统的组成5、 常见的输入输出设备有哪些?6、…

交换机putty怎么调试_使用在300和500系列托管型交换机的一个控制台连接通过PuTTY访问CLI...

目标交换机可以通过命令行界面(CLI)访问和配置。访问CLI在一个终端的基于窗口允许命令被输入。对于有更多体验用终端命令的用户,这可能是一更加容易的替代方案到导航Web配置工具。某些任务例如恢复管理员密码可能通过CLI只执行。为了访问CLI您必须使用SSH客户端。Pu…

春考天津计算机知识点,天津春季高考计算机模拟试题

天津春季高考计算机模拟试题一、单项选择题:每题2分,共20分。在每小题给出的四个选项中,只有一项是最符合题目要求的。1. 第一代电子计算机使用的电子元器件是( )A、晶体管 B、电子管 C、中小规模集成电路 D、大或超大规模集成电路2. 二进制数…

layui 传递前端请求_layui弹出层如何传值?

layui弹出层如何传值?下面本篇文章给大家介绍一下layui弹窗间的传值(layui弹出层传值)(窗口传值)。有一定的参考价值,有需要的朋友可以参考一下,希望对大家有所帮助。主要有两部分从主窗口传值到弹出层从弹出层传值到主窗口通过session互传通…

长春学校计算机科学技术学院,长春大学计算机科学技术学院

长春大学计算机科学技术学院介绍:长春大学计算机科学技术学院成立于1996年。目前,学院下设计算机科学与技术系、网络工程系、软件工程系、计算机基础教学部、计算机实验教学中心五个部门;有计算机科学与技术、网络工程、软件工程三个全日制本…

工具系列:TensorFlow决策森林_(5)使用文本和神经网络特征

文章目录 设置使用原始文本作为特征使用预训练的文本嵌入同时训练决策树和神经网络构建模型训练和评估模型 欢迎来到 TensorFlow决策森林( TF-DF)的 中级教程。 在本文中,您将学习有关 TF-DF的一些更高级的功能,包括如何处理自…

hive 导出json格式 文件_hive支持json格式的数据

Hive支持完全json格式的数据现有json格式的数据test.txt,如下{"name":"zhang","age":"20","sex":"man"}{"name":"li","age":"21","sex":"m…

超级计算机游戏电脑,Salad邀请PC玩家参与全球最大分布式超级计算机的构建

(来自:Salad 官网)据悉,自 2018 年成立以来,Salad 已经在 25 万名 PC 玩家的帮助下,利用闲置的硬件算力、以及开源的桌面应用程序,来帮助验证区块链交易。作为奖励,Salad 用户能够分享计算资源,…

pd对焦速度_捕捉爆炸瞬间!魅蓝Note6双PD对焦速度逆天

随着手机拍照技术的不断突破,手机拍照效果让我们惊叹不已。全新发布的魅蓝Note6手机之前已经被曝光了拍照样张,同时官网也在发布会前夕提出“全球最快的双摄,对焦速度是多少?今天就让我们通过实际样张,感受一下魅蓝Note6给我们带…

更换锁定计算机图片,电脑锁屏图片怎么设置

电脑锁屏图片怎么设置觉得电脑锁屏的图片单调没有新意?其实大家想知道电脑锁屏图片应该怎么设置吗?下面是小编推荐给大家的电脑锁屏图片怎么设置,希望大家有所收获。同时按下窗口键winR,调出运行对话框,如下图所示运行…

单片机音频谱曲软件_【自己写的小软件】CLY单片机音乐代码超级生成器

我比较喜欢动漫歌曲,最近用它打了《东京泰迪熊》到单片机里面,用P0.0做蜂鸣器输出口,挺好听的,分享一下源代码应该没什么问题吧?/*--------------------------------------------------------8051单片机音乐代码生成器…

六年级计算机应用计划,2017六年级信息技术下册教学计划

2017六年级信息技术下册教学计划制订教学计划必须按学生的特点制订,不能仿制照搬的计划,只有自己去试着做,摸索出自己的完整方法,才是最有用的。下面应届毕业生考试网小编为大家提供了2017六年级信息技术下册教学计划,…