Spark产生小文件的原因及解决方案

一、小文件的定义

Hadoop集群中的文件都是以块(Block)的形式存储在分布式文件系统(HDFS)中的,而Block的默认大小设置随着Hadoop的版本迭代经历了64MB、128MB、256MB,其大小实际受制于磁盘/网络的传输速率。当Block的大小为128MB时,若一个文件的大小显著小于128MB,我们就称之为小文件。

二、小文件产生过多的原因

  1. 写操作不当:如果在写数据时,设置的分区策略不当,或者没有指定合适的压缩策略,则可能产生大量小文件。
  2. 数据倾斜:如果spark任务处理的数据,某一个分区的数据量远远大于其他分区时,可能会导致该分区产生大量小文件。
  3. 其他待验证原因。

三、小文件过多的影响

  1. 对NameNode产生压力:HDFS中的每个文件都需要在NameNode里维护一份元数据信息(文件目录、大小等信息),大量小文件则会占用过多的NameNode内存,影响集群稳定性。
  2. 增加文件读取时间:如果某个表在HDFS中存放有大量的小文件,在访问该表获取数据时,需要先从NameNode获取元数据信息,再从DataNode读取对应数据,大量的小文件会导致频繁访问,影响读写效率。
  3. 容易导致task数量过多,且影响计算性能:spark计算时,每个小文件通常被视为一个单独的分区,而spark会为每个分区启动一个或多个task来进行计算,大量小文件会导致启动过多的task,有可能导致内存超出报错(Total size of serialized results of * tasks is bigger than spark.driver.maxResultSize);其次,每个task的启动和销毁也会消耗时间,影响效率。

四、小文件查看方式

  • 查看文件数量
hadoop fs -ls /user/hive/warehouse/temp.db/table_target/dt=20240101/* | wc -l
  • 查看文件大小
hadoop fs -du -h /user/hive/warehouse/temp.db/table_target/dt=20240101/*

五、小文件合并方案

  • distribute by rand()

distribute by可以确保相同键值的数据分配到相同的分区中,减少数据的移动,提高聚合、连接、排序等操作的效率。

--默认N = 1
insert overwrite temp.table_target 
select * from temp.table_source distribute by rand();--更精准的做法,N为正整数,由:文件大小(MB)/128(MB) 得出
insert overwrite temp.table_target 
select * from temp.table_source distribute by ceil(rand() * N);
  • /*+ repartition(N) */

repartition只是coalesce接口中shuffle为true的简易实现,对数据进行重新分区,由于开启了shuffle,所以既可以扩大分区数,也可以缩小分区数,缺点是会有磁盘操作,性能差些。

其中N取正整数,可以由:单个分区内文件总大小(MB) / 128(MB) 得出,确定N值后,该hint可以实现单个分区内只生成N个文件的目的。

--N为重新分区的个数,正整数,由:单个分区内的文件大小(MB)/128(MB) 得出
insert overwrite temp.table_target 
select /*+ repartition(N) */ * from temp.table_source;
  • 开发额外的小文件压缩程序,用于日常的小文件压缩

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/818365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EasyRecovery数据恢复软件2024百度云网盘下载链接

EasyRecovery数据恢复软件是一款功能强大的数据恢复工具,它能够帮助用户从各种存储设备中恢复丢失或误删除的文件数据。无论是由于意外删除、格式化、病毒攻击还是其他原因导致的数据丢失,EasyRecovery都能提供有效的解决方案。 该软件支持多种存储介质…

Java全栈开发前端+后端(全栈工程师进阶之路)【介绍】

Java全栈开发前端后端(全栈工程师进阶之路) 本次课程,从0到1讲解全栈开发 前端到后端,解决您的开发难题 课程如下: 第1阶段-课程介绍与环境搭建 前置课程: 1、HTML 2、JavaScript 3、CSS 4、Java基…

Redis实现延迟任务的几种方案

🏷️个人主页:牵着猫散步的鼠鼠 🏷️系列专栏:Java全栈-专栏 🏷️个人学习笔记,若有缺误,欢迎评论区指正 目录 1.前言 2.Redis如何实现延迟任务? 3.代码实现 3.1. 过期键通知事…

针对MaxCompute优化案例分享

声明 原文来源:微信公众号:阿里云开发者 前言 MaxCompute 是阿里巴巴集团推出的一种大数据计算平台,用于处理海量数据和进行数据分析。它提供了高可靠性、高扩展性和高性能的数据处理能力,支持 SQL 查询、MapReduce 计算和机器…

初识ansible服务剧本playbook及剧本编写实例

目录 1、playbook剧本文件概念 1.1 剧本文件的结构由4部分组成 2、配置实例 实例1-编写一个实现批量安装mariadb数据库的剧本 实例2-编写一个创建一个目录/backup,并在目录喜爱创建01.txt文件的剧本 实例3-编写一个添加定时同步时间的定时任务剧本 错误反思 1、playbook剧…

element UI 日期选择器 当前年份之前不可选

<el-date-pickertype"year"format"YYYY"value-format"YYYY"v-model"declareYear"placeholder"请选择年份":disabled-date"disabledDateFun"/>function disabledDateFun(time) {if (time.getFullYear() <…

趣话最大割问题:花果山之群猴博弈

内容来源&#xff1a;量子前哨&#xff08;ID&#xff1a;Qforepost&#xff09; 编辑丨浪味仙 排版丨 沛贤 深度好文&#xff1a;3000字丨15分钟阅读 趋利避害&#xff0c;是所有生物遵循的自然法则&#xff0c;人类也不例外。 举个例子&#xff0c;假如你是某生鲜平台的配…

游戏方舟服务器怎么选择?

选择游戏方舟服务器是一个需要仔细考虑的过程&#xff0c;因为服务器的质量和稳定性将直接影响到你的游戏体验。以下是一些建议&#xff0c;帮助你选择适合的游戏方舟服务器。 1、考虑服务器的地理位置 选择一个地理位置靠近你的服务器&#xff0c;可以减少延迟和网络问题。你可…

论文速读:Do Generated Data Always Help Contrastive Learning?

在对比学习领域&#xff0c;最近很多研究利用高质量生成模型来提升对比学习 给定一个未标记的数据集&#xff0c;在其上训练一个生成模型来生成大量的合成样本&#xff0c;然后在真实数据和生成数据的组合上执行对比学习这种使用生成数据的最简单方式被称为“数据膨胀”这与数据…

【C++核心-基础知识】内存分析和new操作符

内存分析和new操作符 一、内存分析1. 程序运行前就存在的区域1.1 代码区1.2 全局区1.3 代码演示 2. 程序运行后才存在的区域2.1 栈区2.2 堆区 二、new操作符1. 基本介绍2. 代码演示 一、内存分析 C程序在执行时&#xff0c;将内存大方向划分为4个区域&#xff1a; 代码区&…

CountDownLatch

CountDownLatch 翻译&#xff1a; 倒计时锁存器&#xff0c;&#xff0c;&#xff0c;&#xff0c;count计数&#xff0c;down停止&#xff0c;Latch锁 解释&#xff1a; 允许一个或多个线程等待&#xff0c;直到在其他线程中执行的一组操作完成的同步辅助不懂&#xff1f;…

破译验证码reCAPTCHA 之 打码平台

由于登录需要验证码&#xff0c;除了日常的字符串&#xff0b;数字&#xff0c;此时就需要用第三方插件进行破译。 reCaptcha是Google公司的验证码服务&#xff0c;方便快捷&#xff0c;改变了传统验证码需要输入n位失真字符的特点。 1. reCAPTCHA 初识 reCaptcha是Google公司…

Linux超级基础命令

1&#xff09;、cd&#xff1a;改变目录。 2&#xff09;、cd.&#xff0e;回退到上一个目录&#xff0c;直接cd进入默认目录 3&#xff09;、pwd&#xff1a;显示当前所在的目录路径。 4&#xff09;、ls&#xff08;lI&#xff09;&#xff1a;都是列出当前目录中的所有文…

Nginx讲解 很详细了!!!

hello&#xff0c;你好鸭&#xff0c;我是Ethan&#xff0c;很高兴你能来阅读&#xff0c;昵称是希望自己能不断精进&#xff0c;向着优秀程序员前行!&#x1f4aa;&#x1f4aa;&#x1f4aa; 目前博客主要更新Java系列、数据库、项目案例、计算机基础等知识点。感谢你的阅读和…

pnpm 使用 workspace 报错 ERR_INVALID_THIS

有时候真的感觉如果有一个老师指路&#xff0c;那么遇到的坑真的会少很多。 错误示例&#xff1a; GET https://registry.npmjs.org/rollup%2Fplugin-typescript error (ERR_INVALID_THIS). Will retry in 10 seconds. 2 retries left.原因是什么&#xff1f;原因就是 pnpm 的…

结合文本的目标检测:Open-GroundingDino训练自己的数据集

1、简单介绍 Open-GroundingDino是GroundingDino的第三方实现训练流程的代码&#xff0c;因为官方GroundingDino没有提供训练代码&#xff0c;只提供了demo推理代码。 关于GroundingDino的介绍可以看论文&#xff1a;https://arxiv.org/pdf/2303.05499.pdf GroundingDino的G…

亚信安慧AntDB的多维度支持

在AntDB数据库中&#xff0c;其卓越的创新能力得以充分体现&#xff0c;其独特之处在于融合统一与实时处理这两大关键领域。AntDB以其独特的技术和理念&#xff0c;引领着数据库领域的发展潮流&#xff0c;成为众多企业和机构首选的数据库解决方案。在这个信息化时代&#xff0…

WInForm —— 自定义画板

项目模板:要实现在背景和无背景上完成画线&#xff0c;画直线、矩形、椭圆、并能随意调整字体的大小 首先要定义绘制的类型 enum DrawMode {None, // 没有选择绘制型Pen, // 画笔 画直线Line,// 画直线Rectangle,// 画矩形Ellipse, // 画椭圆Rubber // 橡皮擦 } //如果要想…

9. Spring Boot 日志文件

本篇文章源码位置延续上个章节&#xff1a;SpringBoot_demo 本篇文章内容源码位于上述地址的com/chenshu/springboot_demo/logging包下 1. 日志的作用 发现和定位问题&#xff1a; 日志是程序的重要组成部分&#xff0c;它在系统、程序出现错误或异常时提供诊断和解决问题的线…

为什么把script标签放在div下面?

放在底部可以优先加载页面的内容结构,提升页面渲染速度。只有等到HTML解析完成后,才会开始执行main.js,避免JS阻塞页面解析&#xff0c; 同时main.js里可能会操作DOM,如果放头部,可能会找不到节点而报错 <body><div id"root"><App></App>&l…