近年来,流批一体的技术思想势头火热,即“将批处理和流处理相结合,实现更好的数据处理能力”,已成功从理论层面走进现实世界。Flink 是一款高吞吐量、低延迟的流处理引擎,具备统一接口、高性能、低延迟、容错性和可扩展性等优势,使其成为流批一体场景下的首选。
Flink 作为全球范围内被广泛使用的开源大数据计算引擎,吸引全球多家企业的应用落地。Flink Forward Asia 2023 峰会(以下简称 FFA)将于 12 月 8 - 9 日在北京望京凯悦酒店举办。作为国内规模最大的开源顶级项目技术峰会之一,FFA 致力于集结领先的行业实践与技术动态。
在本次大会上,小红书实时计算引擎团队负责人唐云、小红书数据引擎开发工程师陈宇将分别带来《小红书在流批一体与近实时数仓上的实践探索之路》、《我的 Flink 作业出了什么问题?如何做平台侧的智能诊断》的主题分享。
小红书如何通过引入 Flink 提升开发效率,如何真正统一流批处理架构?Flink 作业运行时会遇到哪些瓶颈点,我们在开源社区做了哪些工作进行智能诊断?尽在本次大会揭晓!
延续 FFA 惯例,峰会所有议题均为开放征集而来,并由专业的议题评选委员会评分筛选,确保内容代表行业领先水平,为开发者们输出更加优质的干货,并为各企业提供可借鉴的实践经验。
议题介绍
小红书在流批一体与近实时数仓上的实践探索之路
12 月 8 日 14:40-15:20 「流批一体」专题
唐云 | 小红书实时计算引擎团队负责人
Apache Flink committer
摘要:
一、Flink 作为流批一体统一接口的引擎(Flink SQL 的统一以及 DataStream API 的统一),小红书引入 Flink 在搜索推荐相关索引数据生成上,利用一套接口完成流式和批示加工的统一,大大提升了开发效率。在 Flink Batch 上积极升级版本 1.17,同时引入 Apache Celeborn,并解决了 Celeborn 在 K8S 环境部署的方式和稳定性问题,提升了 Flink Batch 的性能、稳定性与效能。
二、与小红书数据湖团队合作,利用 Flink CDC 的能力,将 ODS 层实时化,从而提升离线数仓的时效性。
三、在离线数仓的 DWD 层进一步推进近实时化,探索了数据湖 lookup join、left join、partial update 等多种方式加工的差异与特点,实现 mini-Batch join/agg 等机制来尽量降低成本,实现了 Checkpoint 的 state schema evolution 来优化数据的可迁移性,并从理论上分析了离线数仓近实时化背后的核心技术难点问题,以及根据探索经验看好基于 IVM 方式进行增量数仓加工的方式,来打破 lambda 架构,真正统一流批处理架构。
我的 Flink 作业出了什么问题?如何做平台侧的智能诊断
12 月 9 日 16:00-16:40 「生产实践」专题
陈宇 | 小红书数据引擎开发工程师
Apache Flink Contributor
摘要:
一、Flink 作业运行的基础原理以及常见的瓶颈点:处理数据慢、Checkpoint 慢、恢复慢等问题。
二、我们在 Flink 开源社区做了哪些工作帮助进行作业诊断:
2.1 一站式 JM/TM 进程级别火焰图生成 FLIP-375
2.2 Flink 调试交互上的若干优化 FLINK-29995
2.3 流图展开,方便 debug 作业流图信息 FLINK-33230
三、在此基础上,我们在小红书内部做了哪些平台侧工作:
3.1 智能前置检查:SQL 语法检测、connetor 检测
3.2 状态兼容性检查: Hook Task 部署流程,检测 SQL/JAR 任务改动对状态恢 复的影响
3.3 智能诊断:反压堆栈检测、延迟检测、数据倾斜检测、外部系统RT检测、资源使用率检测
Flink Forward 是由 Apache 官方授权的 Apache Flink 社区官方技术大会,作为最受 Apache Flink 社区开发者期盼的年度峰会之一,Flink Forward Asia 2023 将持续集结行业最佳实践以及 Flink 最新技术动态,是中国 Flink 开发者和使用者最不可错过的的技术盛宴。
FFA 2023 官网:Flink Forward 峰会 - Flink Forward Asia 2023,欢迎前往大会官网预约主会场直播。