从 Icelake 到 Iceberg Rust

本文作者丁皓是Databend 研发工程师,也是 ASF Member, Apache OpenDAL PMC Chair ,主要研究领域包括存储、自动化与开源。

太长不看

Icelake 已经停止更新,请改用 iceberg-rust。 Iceberg-rust 是一个由社区驱动的项目,所有 Icelake 的贡献者都已转向该项目。它涵盖了 Icelake 之前提供的所有功能,并且是 Apache Iceberg 的官方实现版本。

引言

我将分享 icelake 和 iceberg-rust 背后的历史。这篇文章将记录一个开放社区是如何运作的:人们因共同的目标而团结,共同努力。这是开源最初的力量,也总是吸引我的地方。

Iceberg 是一种用于巨大分析表的高性能格式。它在全球范围内被广泛使用,并且几乎所有查询引擎都支持它。用户可以编写 SQL 来从存储在对象存储服务中的 Iceberg 表查询数据,无需首先将其导入数据库。 长期以来,Iceberg 缺少官方 Rust 实现,这就是我们故事开始的地方。

Icelake In Databend

我们在 Databend 内部已经讨论了很多次关于支持开放表格格式的话题,我对此非常感兴趣,尤其是 Iceberg。市面上有一些 Iceberg 的绑定存在,但都还未完全准备就绪。因此,我决定启动自己的项目叫做 Icelake。icelake 的主要理念是构建一个开放的湖仓实现方案,能够与任何表格格式兼容,包括 Iceberg、Hudi 和 Delta。

这个项目由Databend Labs赞助。我们最初将专注于支持Iceberg。

多亏了详尽的Iceberg表格规范,我用了大约一周的时间来实现Iceberg规范。在此过程中,我深入了解了表格格式是如何运作的。我已经成功地让Databend支持起了Iceberg表的读取操作!

Icelake With RisingWave

在ASF,我们常强调Community Over Code。创建了一个工作示范后,我的首要任务是找到另一位用户。幸运的是,我发现RisingWave也在开展Iceberg支持的工作。他们已经使用了Apache OpenDAL,因此我们与RisingWave有了一些联系。我直接联系他们,讨论了icelake,并邀请他们加入开发。 这就是我如何遇见Renjie的。我们俩都怀揣着用rust重写大数据生态系统的愿景。能够与他合作让我感觉非常棒。经过几次讨论后,Renjie 决定将icelake整合到RisingWave中。他和ZENOTME加入了icelake项目成为维护者,在那里他们修复了众多bug并增加了写入支持。随后,RisingWave实现了基于icelake的Iceberg sink功能。

Born of Iceberg Rust

在icelake的开发过程中,社区的一些人也认识到了为Iceberg提供原生Rust支持的必要性。Brian Olsen 发起了关于 Rust支持 的讨论。维护一个 Iceberg Rust实现的 Jan Kaul 加入讨论,并强调了icelake的存在。他还提到: It was a great timing to start a rust project in the official apache iceberg repository that we can all work on together. 随后,讨论转移到了 iceberg slack,更多的Iceberg PMC成员和提交者加入了进来。Jan Kaul邀请Renjie和我加入关于Iceberg的对话——非常感谢! 我们花了一些时间讨论仓库位置,并举行了一次在线会议。我们遇见了Jan Kual和Fokko。能够与有着相同目标的人建立联系真是太有意义了。尽管我们以前从未见过面,但共同的目标使我们能够有效地合作。这是开源社区美好的一面! 会议结束后不久,Fokko帮助我们建立了#rust Slack频道 和 iceberg-rust仓库。iceberg rust 项目正式启动,在我的生日(7月20日,考虑到时区变化)这一天。

Grow of Iceberg Rust

在建立了Iceberg Rust仓库之后,我们设定了贡献工作流程、CI操作和发布脚本,还添加了完整的规范实现和Arrow集成。 随着开发的进展,更多人加入了我们的团队,包括marvinlanhenke、sdd、viirya、odysa,以及其他30位!不到一年时间,我们吸引了43名贡献者,并进行了官方ASF发布。Renjie 被授予首位来自Iceberg Rust项目的Iceberg提交者荣誉。他还代表该项目出席了第一届Iceberg峰会:将Apache Iceberg带入Rust世界!

Sunset of Icelake

在撰写本文时,Iceberg Rust已覆盖icelake之前提供的所有功能,并现已成为Apache Iceberg的官方实现。一些主要使用icelake的用户已经或正在转向Iceberg Rust。

是时候逐步淘汰icelake项目,为Iceberg Rust让路了。我代表所有icelake提交者宣布,我们已正式结束了icelake项目。它将不再维护,所有当前用户现在应迁移到Iceberge Rust。 感谢所有参与和使用icelike的贡献者及用户;能够得到你们的支持是极大的荣幸。

Future of Iceberg Rust

目前,Iceberg Rust 社区正在开发 0.3 版本。这个版本将包括大部分用户需要用来读写 Iceberg 表的功能。我们鼓励所有对使用 Rust 操作 Iceberg 感兴趣的人尝试此版本,并为我们提供反馈。

在下一个版本中,我们将整合对 DataFusion 的原生支持,并增强与其他查询引擎连接 Iceberg 的体验,例如Databend。也许我们可以探索支持 iceberg-nodejs 或 iceberg wasm 的新领域。有许多有趣的领域等待我们去发现! 总结

就这些了。感谢大家帮助构建 iceberg-rust。我期待在这一领域做出更多贡献。如果你也感兴趣,请随时联系我;我很乐意提供帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/47163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动化创建 AWS RDS 实例告警

在管理 AWS RDS 数据库实例时,设置适当的监控和告警是至关重要的。本文将介绍如何使用 Python 和 AWS SDK (boto3) 自动化创建 RDS 实例的 CloudWatch 告警。 背景 对于大规模的 RDS 部署,手动为每个实例创建告警既耗时又容易出错。通过自动化这个过程,我们可以确保所有符…

《0基础》学习Python——第十六讲

《文件读写》 一、什么是文件读写 文件读写是指在Python程序中对文件进行读取和写入操作。通过文件读写,可以读取文件中的数据,或者向文件中写入数据。 Python提供了多种文件读写的方式,其中最常用的方式是使用open()函数打开一个文件&#…

深入理解Android中的缓存与文件存储目录

🌟 引言 在Android应用开发中,合理管理应用的数据存储至关重要。应用可能需要保存各种类型的数据,从简单的配置信息到多媒体文件,甚至是缓存数据以提高性能和用户体验。Android提供了多个内置目录来满足这些需求,但它…

kubernetes集群环境搭建(二)

kubernetes集群类型 kubernetes集群大体上分为两类:一主多从和多主多从 一主多从:一台Master节点和多台Node节点,搭建简单,但有单机故障风险,适合于测试环境部署多主多从:多台Matser节点和多台Node节点&…

MyBatis的原理?

MyBatis是一个优秀的持久层框架,它支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数及获取结果集。MyBatis可以通过简单的XML或注解来配置和映射原生类型、接口和Java的POJOs(Plain Old Java Objects)为…

linux中导出sql脚本

linux中导出sql脚本 前言: 需要将数据库xx表导出sql脚本、数据迁移、数据备份… 执行命令 1. 导出整个数据库的数据 -- username: 是数据库的用户名 -- database_name: 是要导出数据的数据库名 -- dump_file.sql: 是导出的 SQL 文件名,你可以自己定义…

策略模式原理与C++实现

定义 定义一些列算法,把他们一个个封装起来,并且使他们可以相互替换(变化)。该模式使得算法可独立于使用它的客户程序(稳定)而变化(扩展、子类化)。 C实现 在不考虑策略模式的情况…

js基础-小数计算,并转换成带两位的百分比

小数计算,并转换成带两位的百分比 1、需求说明2、执行过程2.1 计算 s12.2 计算 s2 1、需求说明 在工作中,有时需要将计算的小数转换成百分比小数,但是在js代码中,计算公式一点点的区别就会影响到最终的结果,如下面代码…

vue视频、图片自动轮播并伴随进度条

废话不多说直接上代 多余没用的部分自己看着删除 <template><div class"showImg"><el-carousel ref"carousel" trigger"hover" :autoplay"false" class"dimControl" :height"${(currenInnerWith*0.37…

极速提升性能:Laravel路由缓存的妙用

极速提升性能&#xff1a;Laravel路由缓存的妙用 引言 Laravel是一个优雅而强大的PHP Web应用框架&#xff0c;它提供了许多功能来帮助开发者创建高性能的应用。路由系统是Laravel的核心组件之一&#xff0c;负责将请求的URL映射到相应的控制器方法。然而&#xff0c;路由的注…

docker 安装 使用 ubuntu

安装 sudo apt-get update sudo apt-get install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin测试 sudo docker info 添加到用户组 # 添加docker用户组&#xff0c;一般已存在&#xff0c;不需要执行sudo groupadd docker# 将登陆…

spring框架之AOP注解方式(java代码实例)

目录 半注解形式&#xff1a; 业务层接口实现类&#xff1a; 编写切面类&#xff1a; 在配置文件里面唯一需要加的&#xff1a; 测试类&#xff1a; 全注解形式&#xff1a; 不要配置文件&#xff0c;改为配置类&#xff1a; 同样的业务层接口实现类&#xff1a; 同样的…

2024年【天津市安全员C证】免费试题及天津市安全员C证考试技巧

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 天津市安全员C证免费试题根据新天津市安全员C证考试大纲要求&#xff0c;安全生产模拟考试一点通将天津市安全员C证模拟考试试题进行汇编&#xff0c;组成一套天津市安全员C证全真模拟考试试题&#xff0c;学员可通过…

Java红娘婚恋相亲交友系统小程序源码

红娘婚恋相亲交友小程序&#xff1a;遇见爱情&#xff0c;从指尖开始&#x1f496; &#x1f4f1; 掌中红娘&#xff0c;随时待命 &#x1f48c; 在这个数字化时代&#xff0c;爱情也迎来了它的新舞台——“红娘婚恋相亲交友小程序”。只需轻轻一点&#xff0c;你的专属红娘就…

QT--控件篇四

一、对话框 在软件开发中&#xff0c;对话框&#xff08;Dialog&#xff09;是一种常见的用户界面元素&#xff0c;用于与用户进行交互和获取信息。它通常以模态或非模态的形式出现&#xff0c;模态对话框会阻止用户与应用程序的其他部分交互&#xff0c;直到对话框关闭为止&a…

Pod亲和性、Pod反亲和性、污点与容忍度、API资源对象PV和PVC和本地存储

一、Pod亲和性 pod亲和性的对象为Pod&#xff0c;目的是实现&#xff0c;新建Pod和目标Pod调度到一起&#xff0c;在同一个Node上。 示例&#xff1a; 1.部署一个nginx的pod [rootaminglinux01 ~]# cat testpod01.yaml apiVersion: v1 kind: Pod metadata:name: testpod01la…

【14】水仙花数

水仙花数 题目描述 打印出所有的“水仙花数”。 所谓“水仙花数”是指一个三位数&#xff0c;其各位数字立方和等于该数本身。 例如&#xff1a;153是“水仙花数”&#xff0c;因为&#xff1a;153 1的3次方 5的3次方 3的3次方 输入格式 无需输入输出格式 输出所有水仙…

硕博电子智能控制器、触摸显示屏在集装箱跨运车上的应用

港口跨运车&#xff0c;又称跨运车或轮胎式龙门吊(RTG)&#xff0c;专门用于集装箱码头的装卸和搬运作业&#xff0c;能够迅速完成集装箱在码头前沿、堆场区域以及仓库之间的运输和堆垛&#xff0c;大幅度缩短了装卸周期&#xff0c;提高了港口物流周转效率。 现代跨运车往往配…

Web 安全之 VAPT (漏洞评估与渗透测试)详解

目录 VAPT 的基本概念 VAPT 的重要性 VAPT 的实施步骤 小结 VAPT&#xff08;Vulnerability Assessment and Penetration Testing&#xff0c;漏洞评估与渗透测试&#xff09;是网络安全领域中的一种评估方法&#xff0c;结合了漏洞评估和渗透测试两种紧密相连但又有所区别…

java中的原子性和实现

原子性&#xff1a;不可中断的一系列指令 处理器如何实现原子性 处理器基于对总线加锁和缓存加锁的方式来实现多处理器之间的原子操作。 总线加锁&#xff1a;只有一个处理器能处理这个内存&#xff0c;其他处理器的所有请求都被阻塞&#xff0c;该处理器独占共享内存。 缓…