spark sql合并小文件_Spark SQL小文件问题在OPPO的解决方案

Spark SQL小文件是指文件大小显著小于hdfs block块大小的的文件。过于繁多的小文件会给HDFS带来很严重的性能瓶颈,对任务的稳定和集群的维护会带来极大的挑战。

一般来说,通过Hive调度的MR任务都可以简单设置如下几个小文件合并的参数来解决任务产生的小文件问题:

set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=xxxx;
set hive.merge.smallfiles.avgsize=xxx;

然而在我们将离线调度任务逐步从Hive迁移到Spark的过程中,由于Spark本身并不支持小文件合并功能,小文件问题日益突出,对集群稳定性造成很大影响,一度阻碍了我们的迁移工作。

为了解决小文件问题,我们经历了从开始的不断调整参数到后期的代码开发等不同阶段,这里给大家做一个简单的分享。

1. Spark为什么会产生小文件

Spark生成的文件数量直接取决于RDD里partition的数量和表分区数量。注意这里的两个分区概念并不相同,RDD的分区与任务并行度相关,而表分区则是Hive的分区数目。生成的文件数目一般是RDD分区数和表分区的乘积。因此,当任务并行度过高或者分区数目很大时,很容易产生很多的小文件。

f7a2169e54aa093a341656c7bbf424f5.png

图1:Spark RDD分区数

因此,如果需要从参数调整来减少生成的文件数目,就只能通过减少最后一个阶段RDD的分区数来达到了(减少分区数目限制于历史数据和上下游关系,难以修改)

2. 基于社区版本的参数进行调整的方案

2.1 不含有Shuffle算子的简单静态分区SQL 

这样的SQL比较简单,主要是filter上游表一部分数据写入到下游表,或者是两张表简单UNION起来的任务,这种任务的分区数目主要是由读取文件时Partition数目决定的。

  •  因为从Spark 2.4以来,对Hive orc表和parquet支持已经很不错了,为了加快运行速率,我们开启了将Hive orc/parquet表自动转为DataSource的参数。对于这种DataSource表的类型,partition数目主要是由如下三个参数控制其关系。

spark.sql.files.maxPartitionBytes;
spark.sql.files.opencostinbytes;
spark.default.parallelism;

其关系如下图所示,因此可以通过调整这三个参数来输入数据的分片进行调整:

       39dd42f921cb511c41875d085ae67c75.png

  • 而非DataSource表,使用CombineInputFormat来读取数据,因此主要是通过MR参数来进行分片调整:

    mapreduce.input.fileinputformat.split.minsize

虽然我们可以通过调整输入数据的分片来对最终文件数量进行调整,但是这样的调整是不稳定的,上游数据大小发生一些轻微的变化,就可能带来参数的重新适配。

为了简单粗暴的解决这个问题,我们对这样的SQL加了repartition的hint,引入了新的shuffle,保证文件数量是一个固定值。

d19fa3c8f83e45ab05f3f3bccb7f4566.png

2.2 带有Shuffle算子的静态分区任务 

在ISSUE SPARK-9858中,引入了一个新的参数:

spark.sql.adaptive.shuffle.targetPostShuffleInputSize,

后期基于spark adaptive又对这个参数做了进一步增强,可以动态的调整partition数量,尽可能保证每个task处理targetPostShuffleInputSize大小的数据,因此这个参数我们也可以用来在一定程度上控制生成的文件数量。

2.3 动态分区任务  

动态分区任务因为存在着分区这一变量,单纯调整rdd这边的partition数目很难把控整体的文件数量。

在hive里,我们可以通过设置hive.optimize.sort.dynamic.partition来缓解动态分区产生文件过多导致任务执行时task节点经常oom的状况。这样的参数会引入新的的shuffle,来对数据进行重排序,将相同的partition分给同一个task处理,从而避免了一个task同时持有多个文件句柄。

因此,我们可以借助这样的思想,使用distribute by语句来修改sql,从而控制文件数量。一般而言,假设我们想对于每个分区生成不超过N个文件,则可以在SQL末尾增加DISTRIBUTE BY [动态分区列],ceil(rand() * N)。

2fd31fc47c7466fd040562186737d73e.png

3. 自研可合并文件的commitProtocol方案

综上种种,每个方法都存在一定的弊端,众多规则也在实际使用过程中对业务方造成很大困扰。

因此我们产生了想在spark这边实现和hive类似的小文件合并机制。在几个可能的方案选型中,我们最终选择了:重写spark.sql.sources.commitProtocolClass方法。

一方面,该方案对Spark代码无侵入,便于Spark源码的维护,另一方面,该方案对业务方使用友好,可以动态通过set命令设置,如果出现问题回滚也十分方便。业务方在使用过程中,只需要简单设置:

spark.sql.sources.commitProtocolClass,即可控制是否开启小文件合并。

在开启小文件合并参数后,我们会在commit阶段拿到生成的所有文件,引入两个新的job来对这些文件进行处理。首先我们在第一个job获取到所有大小小于spark.compact.smallfile.size的文件,在查找完成后按照spark.compact.size参数值对组合文件,并在第二个job中对这些文件进行合并。

6cf3babbeb6f0ca4353f465a91036aad.png

691c6edc73247ac49d50c86e26a9829a.png

☆ END ☆

招聘信息

OPPO互联网技术团队招聘一大波岗位,涵盖C++、Go、OpenJDK、Java、DevOps、容器、Linux内核开发、产品经理、项目经理等多个方向,请在公众号后台回复关键词“招聘”查看查详细信息。

你可能还喜欢

OPPO自研ESA DataFlow架构与实践

OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移

OPPO异地多活实践——缓存篇

OPPO百万级高并发MongoDB集群性能数十倍提升优化实践(上)

OPPO百万级高并发MongoDB集群性能数十倍提升优化实践(下)

更多技术干货

扫码关注

OPPO互联网技术

5b4cbd1bad88c82085233309ea2b0026.png 我就知道你“在看”d34700448dcb6849d0fd25d3d2f80db4.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux脚本 scp 管道,scp命令详解(全)

svn 删除所有的 .svn文件find . -name .svn -type d -exec rm -fr {} \;linux之cp/scp命令+scp命令详解名称:cp使用权限:所有使用者使用方式:cp [options] source destcp [options] source... directory说明:将一个档案…

白春礼:探究物质世界奥秘的一把金钥匙——纪念元素周期表发表150周年

来源:中国科学报联合国大会宣布2019年为国际化学元素周期表年,旨在纪念俄罗斯化学家门捷列夫在150年前发表元素周期表这一科学发展史上的重大成就。世界万物是由什么最基本的物质构成的?这些最基本的物质又是怎样变成万物世界的?这…

莫名的证书错误...ERROR ITMS-90035:Invalid Signature.

请删除 .DS_Store 这种类似的文件再尝试转载于:https://www.cnblogs.com/decode1234/p/6529601.html

linux里工作目录的字体变蓝,netterm访问Linux时字体和背景颜色随目录发生改变的问题解决...

方法很多,除了改用其他仿真终端程序外,继续使用netterm可用下面方法解决。方法1:修改netterm参数,最简单选项-->屏幕颜色-->允许图形编译码 重置颜色至默认值点选上,见下图:这种方法的最大特点是目录…

因果关系:真的存在吗?

来源:白驹静夜思学图灵奖获得者、贝叶斯网络之父 Judea Pearl 和他的同事在 2018 年完成了的著作《The Book of Why: The New Science of Cause and Effect》(中文名《为什么》)中认为:机器学习不过是在拟合数据和概率分布曲线。变…

ThinkPhp知识大全(非常详细)

php框架 发瑞 一、真实项目开发步骤: 多人同时开发项目,协作开发项目、分工合理、效率有提高(代码风格不一样、分工不好)测试阶段上线运行对项目进行维护、修改、升级(单个人维护项目,十分困难&#xff…

linux 中如何查看块设备,在linux中,如何确定使用块设备的进程?

我在服务器中有一个磁盘,我正在迁移到LVM卷组.以前,它使用传统的DOS磁盘分区,hdb [1-5].我已经从hdb卸载了每个文件系统,使用hdb关闭交换,已经在设备上删除了一个较小的VG,然后使用fdisk重新分区,删除现有分区,并创建了2个分区,但在写完后,linux拒绝了重新读取分区表.使用hdpar…

盘点2019年336起机器人及相关领域投融资事件!注重细分领域深耕行业复苏趋势显现...

来源:机器人大讲堂2019年的投资就像是随着季节气候变化的,现在到了冬季,或许有些人等不到明年春天的回暖,但终究春天还是会来。机器人是继互联网热潮逐渐褪去后,投资人寻找到的新投资项目,科创板使得机器人…

项目管理论坛_【项目管理论坛】 第15期:如何做一名优秀的项目经理

点击上方蓝字关注中铁大桥局五公司企业是个人成长的平台,个人是企业发展的力量。心在一起,力出一孔。根据公司全年生产经营的“路线图”和“时间表”,围绕今年的任务目标,展开思考讨论,凝聚全员智慧,共同探…

单行文本与多行文本省略文本

一、单行文本省略 1.text-overflow:ellipsis;该属性用于当文本溢出的时候用省略号的方式显示。它还有一个属性值是clip(溢出部分直接裁剪掉)。 2.overflow:hidden;对溢出内容进行隐藏。 3.white-space:nowrap;强制在一行显示 二、多行文本省略 用-webkit…

linux驱动向不同串口发数据,Linux串口(serial、uart)驱动程序设计

一、核心数据结构串口驱动有3个核心数据结构,它们都定义在1、uart_driveruart_driver包含了串口设备名、串口驱动名、主次设备号、串口控制台(可选)等信息,还封装了tty_driver(底层串口驱动无需关心tty_driver)。struct uart_driver {struct module …

推荐系统技术演进趋势:召回-排序-重排

来源:DataFunTalk导读:推荐系统技术,总体而言,与 NLP 和图像领域比,发展速度不算太快。不过最近两年,由于深度学习等一些新技术的引入,总体还是表现出了一些比较明显的技术发展趋势。这篇文章试…

cpuz测试分数天梯图_2018年9月CPU天梯图 桌面级处理器天梯图最新版

2018年9月CPU天梯图发布了,通过最新的CPU天梯图我们可以了解各大CPU的性能,目前CPU天梯图已经更新到2018年9月。想要了解最新的CPU动向,一起来看看最新的CPU天梯图吧。2018年9月CPU天梯图 桌面级处理器天梯图最新版CPU性能的排行很难在一张图…

ansbile简单应用

一、简介 Ansible is a radically simple configuration-management, application deployment, task-execution, and multinode orchestration engine. Design Principles Have a dead simple setup process and a minimal learning curve Be super fast & parallel by def…

linux命令怎么调wsdl,如何从命令行执行SOAP wsdl Web服务调用

它是一个标准的,普通的SOAP Web服务。 SSH在这里没有什么可做。我只是叫它与curl(单线):$ curl -X POST -H "Content-Type: text/xml" \-H "SOAPAction: \"http://api.eyeblaster.com/IAuthenticationService/ClientLogin\"&qu…

世界上最顶尖的技术都在哪些国家?

文章来源:深度无聊半导体加工设备基本被日本,美国霸占。目前蚀刻设备精度最高的是日立。比如东丽,帝人的炭纤维,超高精密仪器,数控机床,光栅刻画机(这个最牛的也是日立,刻画精度达到…

Spring Boot Learning(模版引擎)

一. spring boot的web应用开发,是基于spring mvc 二. Spring boot 在spring默认基础上,自动配置添加了以下特性:1. 包含了ContentNegotiatingViewResolver和BeanNameViewResolver beans。2. 对静态资源的支持&#xff…

linux字符驱动向vxworks移植,VxWorks驱动移植至SylixOS总结

本文档描述了将VxWorks中的驱动源码快速移植至SylixOS中的方法,使用时需要结合SylixOS中的VxWorks兼容层实现。1. 驱动注册与初始化1.1 VxWorks中驱动注册与初始化1.1.1 初始化函数VxWorks中大部分函数使用了VxWorks的VxBus结构,对于基于VxBus的驱动结构…

echart 三维可视化地图_在 ECharts GL 中绘制三维地图

ECharts 前段时间发布了超亮眼的 GL,相对于之前已经圈粉无数的 ECharst-X 而言,ECharst GL更是帅到爆,无论是性能、颜值、类型都有了巨大的飞跃。但是对于小编这样的设计师来说是不是更易上手呢?答案是肯定的,我们除了…