Iceberg 合并datafiles、manifest files，清除过期snapshot、删除孤立文件

本文Iceberg使用的为HiveCataLog，依赖HiveMemstore

1、首先获取要操作的表对象及SparkSession

import org.apache.iceberg.{CatalogProperties, Table}
import org.apache.iceberg.spark.actions.SparkActions
......
......
......
//获取表
val tabled: TableIdentifier = TableIdentifier.of(Namespace.of("ns"), "tb")
val table: Table = hiveCatalog.loadTable(tabled)
//获取SparkSession
val sparkConf = new SparkConf()
val sparkSession: SparkSession = SparkSession.builder().master("local").appName("iceberg").config(sparkConf).getOrCreate()

2、合并datafiles

filter 可以指定需要操作的数据范围
option 指定合并的目标文件大小

SparkActions.get(sparkSession).rewriteDataFiles(table).filter(Expressions.lessThan("age", 1)).filter(Expressions.greaterThan("age", 10)).option("target-file-size-bytes", (128 * 1024 * 1024).toString) // 128 MB.execute()

3、合并manifest files

SparkActions.get(sparkSession).rewriteManifests(table).rewriteIf(file =>file.length() < 10 *1024*1024)  // 10 MB.execute()

4、删除过期快照

方法一

val before: Long = System.currentTimeMillis() - (1000L * 60 * 60 * 24)
table.expireSnapshots().expireOlderThan(before).commit()

方法二

val before: Long = System.currentTimeMillis() - (1000L * 60 * 60 * 24)
SparkActions.get(sparkSession).expireSnapshots(table).expireOlderThan(before).execute();

5、删除孤立文件

为啥会产生孤立文件？

情况1：计算引擎执行任务失败，会产生不会metadata.json引用的datafile 和metadata file
情况2：标记快照为过期，需要删除没有被引用的datafile，但无法确定该datafile是否被快照引用，导致本该删除datafile却没有被删除

val before: Long = System.currentTimeMillis() - (1000L * 60 * 60 * 24)
SparkActions.get(sparkSession).deleteOrphanFiles(table).olderThan(before).execute()

孤立文件的删除会耗费很长的时间，所以不要频繁进行孤立文件的删除

6、删除旧版本的metadata file

iceberg 每次write都会产生一个新的snapshot，同时也会产生一个新的version。建议给表设置对应的参数：

write.metadata.delete-after-commit.enabled=true
write.metadata.previous-versions-max=5

这样每次对标产生改变的操作commit后，会自动删除老的metadata files，保留指定版本数量的metadata files

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/11395.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Iceberg 合并datafiles、manifest files，清除过期snapshot、删除孤立文件

本文Iceberg使用的为HiveCataLog，依赖HiveMemstore

相关文章

6个高清图片素材网站，免费下载，值得推荐~

在C++中，什么时候用:: ?什么时候用. ?什么时候用-＞?

Git移除commit过的大文件

23款奔驰S400豪华型升级后排电动腿托系统，提升后排乘坐舒适性

【基于Spark的电影推荐系统】环境准备

Vue.nextTick函数的用法及在异步更新中的应用

从零开始 Spring Cloud 7：Gateway

服务都挂了你还在打代码？

ICC2删除所有电源的方法

网安周报 | 银行业成为开源软件供应链攻击的目标

微服务入门---SpringCloud（二）

vue2+wangEditor5富文本编辑器（图片视频自定义上传七牛云/服务器）

Android 截图功能实现

顺序表的实现

【物理】模拟粒子在电场和磁场中的轨迹研究（Matlab代码实现）

Python爬虫实例之淘宝商品页面爬取（api接口）

前端CryptoJS-AES加解密对应php的AES-128-CBC加解密踩坑（java也相同加解密）

今天你做代码检查了吗？

【Spring框架】Spring读取与存储综合练习

抖音账号矩阵系统开发源码