Hadoop3:MapReduce源码解读之Map阶段的数据输入过程整体概览(0)

一、MapReduce中数据流向

在这里插入图片描述

二、MapTask并行度

1、原理概览

数据块:BlockHDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。
数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位,一个切片会对应启动一个MapTask

1)一个JobMap阶段并行度由客户端在提交Job时的切片数决定
2)每一个Split切片分配一个MapTask并行实例处理
3)默认情况下,切片大小=BlockSize
4)切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

所以,会开启几个MapTask线程并发处理任务,是由切片数量决定的。
一般,切片大小的设置要与Block大小保持一致。这样性能最优。

2、相关配置

切片大小的配置
mapred-default.xml
最小切片大小配置
默认0,如果配置0,则代码层面分配是1

<property><name>mapreduce.input.fileinputformat.split.minsize</name><value>0</value><description>The minimum size chunk that map input should be splitinto.  Note that some file formats may have minimum split sizes thattake priority over this setting.</description>
</property>

在这里插入图片描述
最大切片大小配置
默认不配置,所以代码获取不到,代码给予Long.MAX_VALUE
mapreduce.input.fileinputformat.split.maxsize
在这里插入图片描述


BlockSize的配置
hdfs-default.xml

<property><name>dfs.blocksize</name><value>134217728</value><description>The default block size for new files, in bytes.You can use the following suffix (case insensitive):k(kilo), m(mega), g(giga), t(tera), p(peta), e(exa) to specify the size (such as 128k, 512m, 1g, etc.),Or provide complete size in bytes (such as 134217728 for 128 MB).</description>
</property>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/850549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

XUbuntu24.04之ch9344(usb转串口芯片)安装驱动(二百四十五)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

11-Eureka-服务发现

11-Eureka-服务发现 1.在order-service完成服务拉取: 服务拉取是基于服务名称获取服务列表,然后再对服务列表做负载均衡 1.修改OrderService的代码,修改访问的url路径,用服务名称代替ip、端口: ​ String url = "http://userservice/user/" + order.getUser…

xshell远程无法链接上VM的centos7

1、现象如下&#xff0c; 2.解决办法&#xff1a;查证后发现这个默认的设置为vmnet0 3.参考文章&#xff1a;Xshell连接不上虚拟机centos7_centos7的nat模式可以ping通网络,但是用xshell连不上是什么原因-CSDN博客

linux内核获取未导出函数地址的两种方法

第一种 第一种是借助于kprobe机制&#xff0c;通过kprobe机制中会调用kallsyms_lookup_name函数并设置到kprobe结构体中返回的原理找到我们需要的函数地址 内核中调用逻辑简化代码如下&#xff1a; int register_kprobe(struct kprobe *p) {int ret;struct kprobe *old_p;st…

从GAN到WGAN(01/2)

从GAN到WGAN 文章目录 一、说明二、Kullback-Leibler 和 Jensen-Shannon 背离三、生成对抗网络 &#xff08;GAN&#xff09;四、D 的最优值是多少&#xff1f;五、什么是全局最优&#xff1f;六、损失函数代表什么&#xff1f;七、GAN中的问题 一、说明 生成对抗网络 &#…

SwiftUI四绘制路径和形状

代码下载 创建徽章视图 创建徽章前需要使用SwiftUI的矢量绘画API创建一个徽章视图 1、新建HexagonParameters.swift文件。HexagonParameters结构体定义了绘制徽章六边形形状的控制点参数。仅仅使用这些数据指定绘制徽章形状时&#xff0c;线段和曲线的控制点位置&#xff1a…

Camtasia Studio怎么自动加字幕呢,Camtasia Studio有什么功能呢

在信息化高度发达的今天&#xff0c;视频作为一种直观、生动的信息表达方式&#xff0c;受到了越来越多人的青睐。无论是教育领域的教学视频&#xff0c;还是企业宣传的推广短片&#xff0c;甚至是个人创作的分享作品&#xff0c;都离不开一款优秀的视频编辑软件。Camtasia Stu…

【Python数据分析--pandas学习笔记】Python数据分析库pandas详细学习笔记(内容详细,适合小白入门),数据分析学习笔记

一&#xff0c;pandas教程 1-1 pandas 安装 1-1-1 使用 pip 安装 pandas: pip install pandas安装成功后&#xff0c;我们就可以导入 pandas 包使用&#xff1a; import pandas1-1-2 查看 pandas 版本 >>> import pandas >>> pandas.__version__ # 查看…

减少GPU显存的策略

训练时 减少batchsize图片尺寸缩小 推理时 cpu加载模型 pipe.enable_sequential_cpu_offload()减小精度 torch.float32 --> torch.float16其它

2.组件间通信-自定义事件(子传父)

子传父 父组件&#xff1a; <template><div class"father"><h3>父组件</h3><h3 v-show"toy">父组件接收到子组件传过来的数据:{{ toy }}</h3><!-- 给子组件Child绑定自定义事件 --><Child send-toy"sa…

L46---面试题 01.02. 判定是否互为字符重排(排序)---Java版

1.题目描述 给定两个由小写字母组成的字符串 s1 和 s2&#xff0c;请编写一个程序&#xff0c;确定其中一个字符串的字符重新排列后&#xff0c;能否变成另一个字符串。 示例 1&#xff1a; 输入: s1 “abc”, s2 “bca” 输出: true 示例 2&#xff1a; 输入: s1 “abc”,…

【面试】哪些类型对应有Class的对象?

目录 1. 类&#xff08;Class Types&#xff09;2. 接口&#xff08;Interface Types&#xff09;3. 数组类型&#xff08;Array Types&#xff09;4. 基本类型&#xff08;Primitive Types&#xff09;5. 枚举类型&#xff08;Enum Types&#xff09;6. 注解类型&#xff08;A…

c++ 实现栈、单向队列、双向队列

一、栈实现 code // // Created by shaoxinHe on 2024/6/8. //#ifndef CPRIMER_MYSTACK_H #define CPRIMER_MYSTACK_H#include "stdexcept" #include "iostream"using namespace std;struct queuNode {int num{};queuNode *next nullptr; };class mySta…

数据+AI 打造企业的“金山银山”

今日之世界&#xff0c;数据是生产资料&#xff0c;而人工智能&#xff08;AI&#xff09;是生产工具&#xff0c;它们的结合&#xff0c;带来的是业务的增长、新质生产力的提升&#xff0c;就是金山银山。 创新是源动力 凡是到过浙江省安吉县余村的人&#xff0c;应该都会被它…

2D图片的描边

第一种 Sprite 外边框 原理是找到边缘像素&#xff0c;然后设置颜色&#xff0c;边缘像素的特点是像素的八个方向的邻像素不全是透明或者不全是不透明&#xff0c;这样的像素就是边缘上的像素&#xff0c;下面是找到的shader源码&#xff0c;很简单 Shader "Custom/Spri…

【云原生_K8S系列】Kubernetes 控制器之 Deployment

在 Kubernetes 中&#xff0c;Deployment 是一种高级控制器&#xff0c;负责管理应用的部署和生命周期。它提供了一种声明性的方式来定义应用的期望状态&#xff0c;并确保实际状态与期望状态保持一致。Deployment 可以自动处理应用的滚动更新、扩展和回滚等任务&#xff0c;是…

Spring AI 第二讲 之 Chat Model API 第九节 watsonx.ai Chat

通过 watsonx.ai&#xff0c;你可以在本地运行各种大型语言模型&#xff08;LLM&#xff09;&#xff0c;并从中生成文本。Spring AI 通过 WatsonxAiChatModel 支持 watsonx.ai 文本生成。 您首先需要拥有一个 watsonx.ai 的 SaaS 实例&#xff08;以及一个 IBM 云帐户&#x…

Elasticsearch高效检索:基础查询详解

在当今大数据和云计算的时代&#xff0c;信息的快速检索和高效处理成为了企业竞争的关键。Elasticsearch&#xff0c;作为一款基于Lucene构建的开源、分布式、RESTful搜索引擎&#xff0c;以其强大的全文搜索和结构化搜索能力&#xff0c;赢得了众多开发者和企业的青睐。今天&a…

web前端复试经验:深度解析与实用指南

web前端复试经验&#xff1a;深度解析与实用指南 在Web前端开发领域的求职过程中&#xff0c;复试无疑是一个至关重要的环节。它既是对求职者技术实力的全面检验&#xff0c;也是展现个人能力与潜力的绝佳机会。本文将围绕四个方面、五个方面、六个方面和七个方面&#xff0c;…

C++STL(四)priority_queue的详细用法及仿函数实现

目录 一&#xff1a;&#x1f525;介绍二&#xff1a;&#x1f525;priority_queue 的基本操作三&#xff1a;&#x1f525;priority_queue 的原型定义四&#xff1a;&#x1f525;重写仿函数4.1.仿函数的介绍4.2.priority_queue仿函数代码示例 五&#xff1a;&#x1f525;pri…