Doris实践——票务平台的实时数仓建设

目录

前言

一、引入 Doris原因

二、基于Doris搭建数据平台

2.1 构建实时数仓

2.2 Flink CDC全库同步

三、基于Doris进行OLAP报表开发

四、未来规划


   原文大佬介绍的这篇票务平台的实时数仓建设有借鉴意义,现摘抄下来用作沉淀学习。如有侵权,请告知~

前言

     随着在线平台的发展,票务行业逐渐实现了数字化经营,企业可以通过在线销售,数字营销和数据分析方式提升运营效率与用户体验。基于此,某头部票务平台为了更好的处理和分析各剧院的票务销售,分销渠道,用户画像等数据,引入了 Apache Doris开启实时数仓构建之旅。下文详细介绍该票务平台基于Apache Doris实时数仓的搭建过程与报表开发场景下的应用实践,并分享实时数仓如何在报表开发和查询两方面提升性能,如何在系统维护和数据处理方面保持最低成本的收益成果。

一、引入 Doris原因

     考虑到剧院票务在各类演出上线后会出现订单激增的情况,实时数仓的时效性十分关键。票务平台期望数仓在报表开发和查询两方面能够提供高效性能,同时在系统维护和数据处理方面,同时在系统维护和数据处理方面保持最低成本运行。因此,对于市面上常用于报表开发的数据仓库(Apache Hive、Clickhouse、Apache Doris)进行了详细对比与分析。

    在初步了解后,首先放弃了 Apache Hive。主要是因为Hive是离线数仓,对数据进行批量处理,报表按照T+1的调度周期展示结果,无法满足实时数据更新的需求。在进一步了解后也排除了Clickhouse选项。一方面 Clickhouse 对 SQL 查询语法不够友好,虽然支持了Join语义,但在进行多表Join时表现性能低,复杂的关联查询会引起内存溢出,无法满足我们对报表查询的需求。另一方面,Clickhouse的架构复杂,对于组件依赖严重,容易出现集群稳定性的问题。在面对海量新增数据时,业务人员需要对系统进行不断进行调优,不仅增加使用成本,还会增加运维管理的难度。

     因此,在多方面了解和对比后,发现 Apache Doris 更符合票务平台的业务需求,特别是在使用方式,架构设计,数据导入与处理方面都具有极大优势,具体表现为:

  • 简单易用:Apache Doris 基于 MySQL 协议,支持标准的 SQL 查询语法,使开发人员能够快速上手使用。Doris 的架构非常精简,整体部署只有 FE 与 BE 两种角色,并且支持纯净安装,使架构无需再依赖其他组件。
  • 灵活配置监控:Doris 通过获取专门的 URL 来制定监控规则以达到优化集群状态和性能监控的目的。通过及时调整 FE、BE 角色的配置参数,始终确保数仓稳定快速的运行。
  • 数据模型丰富:通过使用 Doris 自带的三种数据模型,可以有效的加速ETL开发过程。业务人员可以基于不同的数仓分层选用合适的模型来实现高效的数据导入,也可以根据不同的业务场景选择合适的模型进行报表开发。
  • 查询性能更优:Doris 的物化视图和物化索引功能可以实现预计算结果,并在命中物化视图时实现快速响应,达到秒级或毫秒级的查询展示。此外,在进行大表Join时,Doris 还提供多种优化机制,进一步提升查询效率。

二、基于Doris搭建数据平台

2.1 构建实时数仓

    基于 Apache Doris,票务平台进行了实时数仓构建实践。票务数据主要来自Mysql业务库、埋点数据、日志数据以及其他数据,再对数据进行采集后,同步至Apache Kafka消息队列并通过 Routine Load导入至Doris数仓中。Apache Doris主要作用于数据仓库以及直接应对前端业务报表的查询。如上方架构图所示,实时数仓共分为五层:

  • ODS贴源层:主要存放未经处理的原始数据结构,与 MySQL 原系统保持一致,是数据仓库的准备区域。统一采用 Unique Key数据模型,能够有效防止数据重复采集,减少任务失败。
  • DWD明细层:存放维度建模的事实表,对生产数据进行清洗,统一格式,脱敏等,保存各业务过程中最小粒度的操作记录,同样在明细层主要采用了 Unique Key 模型,用相同的 Key进行数据覆盖实现行级的数据更新。
  • DWS汇总层:以明细层数据为基础,依据业务需求划分数据主题(如订单,用户等),将相同粒度数据进行关联合成宽表。该表使用Unique Key 和 Aggregate Key两种模型进行数据轻度汇总为后续的业务查询和OALP分析做准备。
  • ADS 应用层:基于以上三层数据存放各项指标统一结果。主要利用 Aggregate Key模型进行高度自动聚合,为满足前端人员的具体分析需求,直接提供查询展现。
  • DIM 维表层:在 DIM 层中,主要存放剧院数据,项目数据,场次数据等。在实际应用中,维度数据会结合订单明细数据来进行使用。

2.2 Flink CDC全库同步

    在数仓应用后,对数据接入进行了优化处理,采取Flink CDC进行同步,实现对新架构稳定接入,进一步减少数据维护成本。

 在业务初期,开发人员使用Datax进行外部数据源的全量和增量抽取,以实现离线数据同步,并借助Canal 解析MySQL Binlog进行实时数据的同步。然而,这种方式无法保证数据接入的稳定性。为了解决这一类问题,开发人员决定引入 Flink CDC 来执行数据同步。为了在短时间内获取业务所需报表,还采取了全库同步的方式对动态新增表进行同步,具体思路如下图所示:

  • 在mysql数据库中对表管理配置数据进行动态更新。
  • 利用 Flink,在Job任务中创建两个CDC捕获任务。其中一个数据流负责捕获变更数据,另一个广播流负责进行更新配置。
  • 在Sink端配置所有全库的表,当表新增时,会触发广播流更新配置数据。( 在 Sink 端配置所有全库的表,只配置该表,暂时不用创建对应的表。)

三、基于Doris进行OLAP报表开发

作为剧院的管理后台,票务数据平台主要利用 Apache Doris 进行报表开发,提供所需数据分析,以帮助业务人员对剧院票务进行管理,提高票务销量。针对不同的报表场景,业务分析的侧重点有所不同,主要体现在:

  • 统计报表:该报表是业务分析使用频率最高的报表,主要涉及100多家剧院的销售数据,包括分销渠道销售明细,销售员销售报表,演出明细报表,纠错报表,场次汇总报表等。
  • 敏捷报表:针对特定活动进行报表开发,业务数据主要来自商业化运营,包括日项目数据汇总、周项目数据汇总、销售额数据汇总、GMV 月报数据、平台分销渠道数据、财务结算报表等。
  • 数据分析:显示该剧院的运营情况,包括阅读会员日订单情况,销售收入情况、上座率、会员重复下单数量、用户画像分析等。
  • 数据大屏:主要用于展示订单数据趋势、巨量销售趋势、提供数据视图。

     根据以上报表场景的特点,使用范围与开发需求,选择Doris 自带的多种数据模型进行高效的报表开发。在满足开发性能需求的同时,还实现了对实时数仓的低成本运维以及低成本存储,Doris 的引入带来了以下具体应用收益:

  • Join + Rollup实现查询响应达毫秒级

    在敏捷报表开发场景中,业务人员时常需要了解活动当天的数据,并在一定周期时间内形成汇总报表对活动进行复盘分析。因此不论是对开发报表的速度,还是对前端人员查询报表时的响应速度都有极高的要求。以 GMV 月报数据为例,需要在活动当月对成交量进行统计汇总,并通过报表分析票务增速,评估活动效果。

   在前期搭建数仓 DWD 明细层时,已经利用 Unique Key 模型实现了数据行级别更新,确保GMV报表所需数据的覆盖,无需再花费时间进行开发。在这一基础上,还利用了 SQL 多表 Join 进行聚合,借助了 Doris Rollup功能创建物化索引以缩短数据扫描的时间,加速查询响应。通过两者结合的方式,报表展示从之前的十秒缩短至秒级或毫秒级,响应速度提升了数十倍

  • 持多源异构数据,导数效率大幅提升

     数据导入的效率与便捷性是衡量数据仓库最重要的因素之一。利用Doris Insert Into和丰富的内置导数方式,对本地数据,外部存储数据,kafka日志等数据源进行导入,并且在导入数据的同时还可以对其进行列映射、转换和过滤操作,有效解决了早期导数过程中数据重复采集和不同数据源导致操作复杂性的问题。同时,Doris 对接入源脚本支持了半自动化代码的功能,只需要在配置表增加表名,即可快速接入数据,不再需要手工编写脚本,大大提高了导数效率。

  • 架构链路清晰,实现低成本运维

   Doris架构简单, 只有FE和BE两个进程,扩缩容方便快捷,系统升级也非常简单,只需要替换相关的安装包即可。同时,Doris对集群配置信息和状态信息提供了便捷灵活的管理方式,可以通过获取专门的url,制定监控规则以便及时的调整各类配置参数,时刻保持 Doris 集群稳定快速地运行。以上这些功能都降低了我们在系统运维的成本和难度。

四、未来规划

   当前票务平台已经基于 Doris搭建了实时数据仓库,并全面覆盖了报表的开发与分析,帮助剧院后台实时分析销量情况。未来,将基于Doris不断探索与优化,将重点推进以下几个方面的工作:

  • 集群优化:加强指标管理体系、数据质量监控体系,对Doris集群进行性能优化升级;
  • 实时拉宽:强数仓血缘关系的管理,使准实时的数据拉宽升级为实时数据拉宽,达到数据高度一致与实时同步;
  • 扩大Doris 使用范围:逐步将实时数仓应用至票务推荐系统,基于 Doris 对用户购买行为和市场趋势推荐对应的产品,进一步提升票务销量。

参考文章:

Apache Doris 在头部票务平台的应用实践:报表开发提速数十倍、毫秒级查询响应

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/783000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在Mac系统上编写html代码,Mac系统上html环境配置

目录 前言1.代码编辑器:VScode1.1下载与安装1.2简单的工具配置2.测试用浏览器:Chroem2.1下载与安装3.JavaScript运行环境:node.js3.1下载与安装4.git工具:sourceTree+gitee4.1下载与安装结尾前言 这是一个面向新手的MAC系统Html编写的环境的说明。 相关搜索内容已经被垃圾…

【华为OD机试C++】字符串分割

《最新华为OD机试题目带答案解析》:最新华为OD机试题目带答案解析,语言包括C、C++、Python、Java、JavaScript等。订阅专栏,获取专栏内所有文章阅读权限,持续同步更新! 文章目录 描述输入描述输出描述示例代码描述 •输入一个字符串,请按长度为8拆分每个输入字符串并进行…

web前端面试题----->VUE

Vue的数据双向绑定是通过Vue的响应式系统实现的。具体原理: 1. Vue会在初始化时对数据对象进行遍历,使用Object.defineProperty方法将每个属性转化为getter、setter。这样在访问或修改数据时,Vue能够监听到数据的变化。 2. 当数据发生变化时…

Java学习31-Java 多线程Thread 线程的创建

多线程的概念: 用户想要一边听歌,一边QQ聊天,一边游戏。要求能并发执行。 program程序: 有特殊功能的一组代码process进程: 正在执行中的program,或者程序program的一次执行过程thread线程:程…

CSS实现元素边框渐变动画

前言: 边框流动动画是一种非常常见的效果,能够让网页看起来更加生动有趣。通过使用 CSS3,我们可以轻松地实现这种动画效果。本文将介绍如何使用 CSS3 实现边框流动效果,下面一起来看看吧。 示例图:边框是动画持续变化的…

前端简历:大学还没毕业,就写2年工作经验,上的啥大学呢?

我看过很多前端简历,不知道是不是被所谓简历专家和面试专家给拐带的,还没毕业就敢写2年工作经验,如果属实,大学上了个啥? 简历每天都能收到几十上百封,对于初级人才招聘,基本上看以下几点。 1、…

boost::asio 调整 io_uring 队列大小

若无必要默认情况下,适用 boost::asio 设定得默认值即可,虽然它浪费了很大得内存,但 boost::asio 设定得默认值,在绝大多数得场景上都是够用得。 但在调整 io_uring 之前,必须正确配置以令 boost::asio 启用 io_uring …

CIM搭建实现发送消息的效果

目录 背景过程1、下载代码2、进行配置3、直接启动项目4、打开管理界面5、启动web客户端实例项目6、发送消息 项目使用总结 背景 公司项目有许多需要发送即时消息的场景,之前一直采用的是传统的websocket连接,它会存在掉线严重,不可重连&…

史上最强47种行业主题小程序模板供你玩耍!赶紧收藏起来!

目录 1.KTV​编辑 2.瓷砖 3.电商女装 4.电商 5.电子产品 6.多商圈 7.发现 8.房产 9.房产建筑 10.服装 11.个人展示 12.公司主题 13.果蔬 14花店 15化妆品 16婚庆 17机械 18家居 19家具 20家政 21教育 22金融 23金属配件 24酒店 25快递 26留守儿童 2…

深入理解数据结构(3):栈和队列详解

文章主题:顺序表和链表详解🌱所属专栏:深入理解数据结构📘作者简介:更新有关深入理解数据结构知识的博主一枚,记录分享自己对数据结构的深入解读。😄个人主页:[₽]的个人主页&#x…

瑞吉外卖实战学习--7、员工信息分页查询

员工信息分页查询 前言1、配置公共分页组件2、创建接口并查看接收的参数3、使用分页构造器并添加查询条件和排序条件4、测试结果 前言 1、配置公共分页组件 package com.example.ruiji_demo.config;import com.baomidou.mybatisplus.extension.plugins.MybatisPlusInterceptor;…

sharemore少数派提示词或许需要工程,但提问一定需要智慧

Matrix 首页推荐 Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 文章代表作者个人观点,少数派仅对标题和排版略作…

代码随想录算法训练营第二十五天| 216.组合总和III,17.电话号码的字母组合

题目与题解 216.组合总和III 题目链接:216.组合总和III 代码随想录题解:216.组合总和III 视频讲解:和组合问题有啥区别?回溯算法如何剪枝?| LeetCode:216.组合总和III_哔哩哔哩_bilibili 解题思路&#xf…

数据结构和算法:图

图 图(graph)是一种非线性数据结构,由顶点(vertex)和边(edge)组成。可以将图 𝐺 抽象地表示为一组顶点 𝑉 和一组边 𝐸 的集合。 如果将顶点看作节点&#…

Mongo低版本 count操作进行$in时走了覆盖索引却仍然回表

文章目录 概要一、原因二、解决方法 概要 由于历史原因,一些老项目还在用MongoDB V3.2版本,集群为分片模式,一个客户表数量有15亿左右,昨天监控突然报很多慢查询,如下: db.info.count({domain_id:888,sta…

梦中梦中梦?(梦中梦?)

梦中梦中梦?(梦中梦?) 早上7.40左右起床上厕所(大的)开始自律的一天,上完了刷了会手机,决定再睡一会。在起和睡之间犹豫了几次还是决定睡一会,就开始了这辈子头一次梦中…

算法打卡day22

今日任务: 1)216.组合总和III 2)17.电话号码的字母组合 216.组合总和III 题目链接:216. 组合总和 III - 力扣(LeetCode) 找出所有相加之和为 n 的 k 个数的组合。组合中只允许含有 1 - 9 的正整数&#xf…

配置内网pip源

PIP源(内网) 配置windows配置: pip config set global.index-url http://192.168.102.7:8080/pypi_tsinghua/simple/ pip config set global.trusted-host"192.168.102.7" Linux配置: 编辑pip默认源 mkdir ~/.pip vim ~/.pip/pip.conf 修改内容如…

9.2-源码分析:Dubbo Remoting 层 Buffer 缓冲区

Buffer 是一种字节容器,在 Netty 等 NIO 框架中都有类似的设计,例如,Java NIO 中的ByteBuffer、Netty4 中的 ByteBuf。Dubbo 抽象出了 ChannelBuffer 接口对底层 NIO 框架中的 Buffer 设计进行统一,其子类如下图所示: …

Oracle数据库——子查询五

14.1子查询语法 子查询 (内查询) 在主查询之前一次执行完成。子查询的结果被主查询(外查询)使用 。范例一:谁的工资比 Abel 高? 第一:查询Abel的工资是多少。第二:比较大于这个工资的人数。 注意事项: 子查询要包含在括号内。将子查询放在比较条件的右侧。</