Paimon新版本核心特性和生产实践解读

最近Apche Paimon发布了最新版本0.7.0,在这个版本中,Paimon对一些新特性进行了增强。

Paimon在数据湖领域发展迅速,未来会在整个数据开发领域占有很重要的地位,今天我们来盘点一下当前能力的特点以及在生产环境中的使用情况。

Look up join

在实时数据开发领域,Look up join一般被认为等效于「维度表关联」。在一些企业的分享中,利用Paimon进行维度表关联,是一个比较常见的方式或者是未来的规划。

在Paimon的最新版本中,针对Look up join做了一些优化如下:

修复了lookup join 不能正确处理维表的 sequence field 问题。
基于 Paimon 的 hash lookup join,添加了 primary key partial lookup 功能。
通过并行读取文件和批加载的方式,加快了维表的初始化数据加载速度。

维度表关联在生产环境中是一个经常被提及和使用的能力,但是目前根据个人经验,利用Paimon/Hudi进行维度表关联目前不是一个很好的选择。主要的不足包括:Paimon/Hudi这样的表本身并不适合存储维度数据,有更好的选择例如Hbase/Redis或者基于这两个框架开发的其他高速存储;此外,维度表关联在复杂/大数据规模下问题非常多,例如缓存命中率/缓存时间/加载频率/访问限速等等,这些问题在大数据量下会被放大,是不得不解决的问题。在很多公司的生产环境针对维度表优化是一个很重要的课题。

所以,大家需要谨慎评估使用湖表的look up join能力。

CDC能力

大家要特别注意的是,CDC能力分两个部分:

  • 第一,CDC入Paimon

这个能力是一个基础能力,Paimon在新的CDC接入支持上越来越完善,这个是各类型湖表都在持续完善的能力。

CDC数据入湖在时效/存储/计算成本上都会有独特的优势,大家可以持续关注。

  • 第二,Paimon CDC能力

这个能力未来是否具备,大家可以持续关注,一旦Paimon具备的CDC能力,未来在技术架构上会有巨大的改变。Paimon将同时具备批读和流读能力,会在某些场景下改变现有的技术架构,那就真的是未来可期。

完善对接Spark/Hive

在结合Spark/Hive方面,能力不断完善,这也是Paimon这类湖表框架未来被更广泛使用的基础。

此外还有一些功能上的改进,例如支持 level0FileCount,它可以用于查看 compaction 作业的进度;time travel能力增强等等。

总之,大家持续关注Paimon社区的发展,未来在生产环境会有更广泛和深入的应用。

799a96329d404d449e8c8eb2c39de8c0.png300万字!全网最全大数据学习面试社区等你来!

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

5f9b7b9af5dfd921e7fb4e27d32f2770.png

97cd8c842397cf1f9f5ecc1e8e3dff47.jpeg

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/736652.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

fastgpt本地详细部署以及配置

目录 一、Docker部署1、docker安装2、docker启动3、添加用户到 docker 组:4、验证 Docker 安装:二、one_api 本地部署1、linux系统部署2、windows系统部署三、向量模型部署(m3e)四、chatglm2模型本地部署五、fastgpt模型本地部署1、下载配置文件2、文件配置--docker-compos…

Windows环境编译webots遇到报错:‘gbk‘ codec can‘t decode byte 0x93 in position 547

Windows环境下编译webots的官方说明在 https://github.com/cyberbotics/webots/wiki/Windows-installation/ ,概括起来就是:先安装MYSYS2,然后git clone --recurse-submodules -j8 https://github.com/cyberbotics/webots.git ,最…

finalize方法做什么用的?

在Java中,finalize() 方法是一个被垃圾回收器调用的特殊方法,用于执行对象在被回收之前的清理操作。当Java虚拟机确定某个对象没有被任何引用引用时,会将其标记为垃圾对象,接着在适当的时间由垃圾回收器回收这些对象。在回收对象之…

大数据赋能,能源企业的智慧转型之路

在数字洪流中,大数据已经成为推动产业升级的新引擎。特别是在能源行业,大数据的应用正引领着一场深刻的智慧转型。今天,我们就来探讨大数据如何在能源企业中发挥其独特的魅力,助力企业提效降本,实现绿色发展。 动态监控…

BK7231+字库+LCD显示

1、BK7231有2M flash,可以保存1个16*16汉字字库 2、驱动1个8位并口屏,将字库中的汉字中显示出来 一、将gb2312_80.bin打包到烧录镜像中。 1、bk7231u_rtt_sdk\OTAPackage\beken_packager中修改config.json文件: {"magic": "…

_note_26

1.介绍一下 MyBatis MyBatis是一个开源的持久层框架,它提供了一种简单且强大的方式来管理数据库访问。MyBatis允许开发者使用XML或注解的方式来配置SQL映射,以及提供了灵活的参数绑定和结果映射功能。它与数据库交互的方式是通过SQL语句直接与数据库进行…

2024济南艾灸设备展/山东艾草制品展/中国艾健康发展大会

艾草健康,全民共享;推动传统医学文化瑰宝,弘扬民族医药健康文化; 2024第6届中国(济南)国际艾健康产业展览会(CIWHE中国艾博会) The 6th China (Jinan) International Wormwood Heal…

有关线性表的算法题

1.回文字符串 判断一个非空字符串是否是回文。 #include <iostream> #include <string> using namespace std;bool judge(string str) {int len 0;for (int i 0; i < 100; i) {if (str[i] < 65 || str[i]>122) {break;}len;//计算字符串的大小}f…

【JAVA】基于HTML与CSS的尚品汇项目

1.代码 index.html <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><!-- 引入页签图标 --><link rel"shortcut icon"…

MySQL--索引类型详解

索引的类型 主键索引&#xff1a; PRIMARY KEY&#xff0c;当一张表的某个列是主键的时候&#xff0c;该列就是主键索引&#xff0c;一张表只允许有一个主键索引&#xff0c;主键所在的列不能为空。 创建主键索引的SQL语法&#xff1a; # 给user表中的id字段创建名为id_ind…

Linux下阻塞IO驱动实验实例二的测试

一. 简介 前面一篇文章实现了驱动代码,以实现应用程序阻塞式访问设备,以一种可以被信号打断的驱动实现方式。文章地址如下: Linux下阻塞IO驱动实验实例二-CSDN博客 本文对该驱动模块进行测试。测试按键功能是否可用,按键进程的CPU占用率是否为 0,按键进程是否可以被杀…

边界网关协议,Border Gateway Protocol 边界网关协议

边界网关协议&#xff0c;是不同自治系统AS&#xff0c;的路由器之间交换路由信息的协议&#xff0c;是一种外部网关协议。边界网关协议BGP&#xff0c;常用于互联网的网关之间。 内部网关协议主要是设法使得数据包在一个AS中&#xff0c;尽可能有效地从源站传送到目的站。 在…

【联邦学习综述:概念、技术】

出自——联邦学习综述&#xff1a;概念、技术、应用与挑战。梁天恺 1*&#xff0c;曾 碧 2&#xff0c;陈 光 1 从两个方面保护隐私数据 硬件层面 可 信 执 行 环 境 &#xff08;Trusted Execution Environment&#xff0c;TEE&#xff09;边 缘 计 算&#xff08;Edge Com…

Error attempting to get column ‘add_time‘ from result set

使用Mybatis-plus 重构项目&#xff0c;报错&#xff1a; Error attempting to get column add_time from result set 当前采用技术 1、数据库字段为 datetime 类型 2、使用了mybatis-plus 框架 3、实体类使用了 LocalDateTime 原因参考&#xff1a; Error attempting to ge…

天软特色因子看板(2024.3 第3期)

该因子看板跟踪天软特色因子A08006近一月日度买卖压力2)&#xff0c;该因子为近一个月个股每日的相对价格位置&#xff0c;用以刻画股票所受买卖压力&#xff0c;取作 个于0~1间&#xff0c;指标值越大&#xff0c;反映股票在价格相对高位停留的时间越长&#xff0c;所面临的买…

编辑器的一些碎碎念

做编辑器将近2年时间&#xff0c;越深入发现坑越多&#xff0c;社区中也没有比较好的资料&#xff0c;基本都是非常浅的资料&#xff0c;比如如何接入、API介绍之类的。 前端编辑器开源的非常多&#xff0c;至少有10 个&#xff0c;不过目前知名的主要有Slate、ProseMirror、Qu…

SSM整合项目(Vue3 + Element - Plus 创建项目基础页面)

文章目录 1.配置Vue启动端口1.修改vue.config.js2.启动 2.安装Element Plus命令行输入 npm install element-plus --save 3.修改Vue3默认样式并自定义一个组件1.修改App.vue1.删除原有结构2.启动项目查看 2.修改HomeView.vue3.删除HelloWorld.vue组件4.创建一个组件 src/compon…

PostgreSQL数据优化——死元组清理

最近遇到一个奇怪的问题&#xff0c;一个百万级的PostgreSQL表&#xff0c;只有3个索引。但是每次执行insert或update语句就要几百ms以上。经过查询发现是一个狠简单的问题&#xff0c;数据库表死元组太多了&#xff0c;需要手动清理。 在 PG 中&#xff0c;update/delete 语句…

SQL: 触发器/存储过程/游标的操作

目录 触发器存储过程创建存储过程修改存储过程删除存储过程执行存储过程 游标待续、更新中 触发器 待更新存储过程 定义 是一组TSQL语句的预编译集合&#xff0c;能实现特定的功能 是一种独立的数据库对象&#xff0c;在服务器上创建和运行 类似于编程语言中的过程或函数分类…

Redis精讲

redis持久化 RDB方式 Redis Database Backup file (redis数据备份文件), 也被叫做redis数据快照. 简单来说就是把内存中的所有数据记录到磁盘中. 快照文件称为RDB文件, 默认是保存在当前运行目录. [rootcentos-zyw ~]# docker exec -it redis redis-cli 127.0.0.1:6379> sav…