随着 Apache Flink 技术社区的不断成熟和发展,越来越多企业开始利用 Flink 进行流式数据处理,从而提升数据时效性价值,获取业务实时化效果。与此同时,在大数据领域数据湖架构也日益成为新的技术趋势,越来越多企业开始采用 Lakehouse 架构,基于 DataLake 构建新一代 Data Warehouse。因此,Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验,Apache Paimon 应运而生。
Apache Paimon 是一项流式数据湖存储技术,可以提供高吞吐、低延迟的数据摄入、流式订阅以及实时查询能力。Paimon 采用开放的数据格式和技术理念,可以与 Apache Flink / Spark / Trino 等诸多业界主流计算引擎对接,共同推进 Streaming Lakehouse 架构的普及和发展。
北京时间 2024 年 5 月 16 日,开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 顶级项目(TLP, Top Level Project)。(官宣|Apache Paimon 毕业成为顶级项⽬,数据湖步⼊实时新篇章!)
Streaming Lakehouse Meetup
5月16日 | 线上
为了促进 Apache Paimon 技术的交流和发展,我们将于 5 月 16 日在线举办 Streaming Lakehouse Meetup · Online 。本次活动由阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PMC 李劲松(花名:之信)作为出品人,联合业内大咖共同分享 Apache Paimon 在各场景中的最佳实践、生产经验、技术原理等。
议题1
时间:14:00-14:10
标题:湖仓一体开启全面实时化时代
讲师:王峰,花名莫问。阿里云智能开源大数据平台负责人,Apache Flink 中文社区发起人,Apache Paimon PMC Member
议题简介:
湖仓一体(Lakehouse)已经成为新一代的大数据架构演进趋势,随着 Lakehouse 架构的日益成熟和落地,越来越多企业希望能够在 Lakehouse 上更加实时的处理和分析数据,Apache Paimon 的毕业正好为业界提供了实时数据湖存储解决方案,配合实时流计算 Apache Flink,可以帮助现代企业构建出新一代的实时湖仓数据分析架构。
议题2
时间:14:10-14:40
标题:Apache Paimon 统一大数据湖存储底座
讲师:李劲松,花名之信,Apache Paimon PMC Chair, 阿里云开源大数据表存储负责人
议题简介:
- 从孵化到毕业,Paimon 的发展与场景
- 统一存储底座,Paimon 与批、流、OLAP
- 完整生态集成,Paimon 的计算引擎推荐
- 阿里巴巴实践,Paimon 数据湖战役
议题3
时间:14:40-15:10
标题:Apache Paimon 在阿里智能数据应用
讲师:王伟骏,花名鸿历,Apache Yarn && Flink Contributor,阿里巴巴智能引擎事业部技术专家
议题简介:
- 智能数据业务背景介绍
- 引入数据湖的原因和场景
- 遇到的问题及解法
- 引入后的收益
议题4
时间:15:10-15:40
标题:Apache Paimon 在蚂蚁的应用场景
讲师:闵文俊,花名愚鲤,Apache Paimon Committer,目前主要负责蚂蚁流批一体和数据湖相关工作
议题简介:
- 蚂蚁目前应用 Paimon 的场景
- 蚂蚁在 Paimon 的功能增强
- 未来规划
活动详情
时间:5月16 日 14:00
直播观看链接:
pc端(开发者社区)- https://developer.aliyun.com/live/253976
移动端直播地址 - https://gdcop.xetlk.com/sl/3pGLR6