StarRocks实战——携程酒店实时数仓

目录

一、实时数仓

二、实时数仓架构介绍

2.1 Lambda架构

2.2 Kappa架构

三、携程酒店实时数仓架构

3.1 架构选型

3.2 实时计算引擎选型

3.3 OLAP选型

四、携程酒店实时订单

4.1 数据源

4.2 ETL数据处理

4.3 应用效果

4.4 总结

  原文大佬的这篇实时数仓建设案例有借鉴意义,属于数据治理范畴,这里直接摘抄下来用作学习和知识沉淀。

一、实时数仓

  当前,企业对于数据实时性的需求越来越迫切,因此需要实时数仓来满足这些需求。传统的离线数仓的数据时效性为T+1,并且调度频率以天为单位,无法支持实时场景的数据需求,即使将调度频率设置为小时,也仅能解决部分时效性要求低的场景,对于时效性要求较高的场景仍然无法优雅地支撑。因此,实时数据使用的问题必须得到有效解决。实时数仓主要用于解决传统数仓数据时效性较低的问题,通常会用实时的OLAP分析,实时数据看板、业务指标实时监控等场景。

二、实时数仓架构介绍

2.1 Lambda架构

  Lambda架构将数据分为实时数据和离线数据,并分别使用流式计算引擎(例如Flink 或者 SparkStreaming)和批量计算引擎(例如 Hive、Spark)对数据进行计算,然后,将计算结果存储在不同的存储引擎上,并对外提供数据服务。

2.2 Kappa架构

  Kappa架构将所有数据源的数据转换成流式数据,并将计算统一到流式计算引擎上,相比Lambda架构, Kappa 架构省去了离线数据流程,使得流程变得更加简单。Kappa 架构之所以流行,主要是因为kafka不仅可以作为消息队列使用,还可以保存更长时间的历史数据,以替代Lambda架构中的批处理层数据仓库。流处理引擎以更早的时间作为起点开始消费,起到了批处理的作用。

三、携程酒店实时数仓架构

3.1 架构选型

  采用的是Lambda+OLAP 变体架构。Lambda架构具有灵活性高、容错性高、成熟度高和迁移成本低的优点,但是实时数据和离线数据需要分别使用两套代码。

   OLAP变体架构:将实时计算中的聚合计算由OLAP引擎承担,从而减轻实时计算部分的聚合处理压力。这样做的优点是既可以满足数据分析师的实时自助分析需求,并且可以减轻计算引擎的处理压力,同时也减少了相应的开发和维护成本。缺点是对OLAP 引擎的数据写入性能和计算性能有更高的要求。

  3.2 实时计算引擎选型

     Flink具备Exactly-once的语义,轻量级checkpoint容错机制、低延迟、高吞吐和易用性高的特点。SparkStreaming 更适合微批处理。我们选择了使用 Flink。

3.3 OLAP选型

  我们选择 StarRocks 作为 OLAP 计算引擎。主要原因有3个:

  • StarRocks 是一种使用MPP分布式执行框架的数据库,集群查询性能强大;
  • StarRocks在高并发查询和多表关联等复杂多维分析场景中表现出色,并发能力强于clickhouse,而携程酒店的业务场景需要OLAP数据库支持每小时几万次的查询量;
  • StarRocks 提供了4种数据模型,可以更好的应对携程酒店的各种业务场景

四、携程酒店实时订单

4.1 数据源

    Mysql Binlog,通过携程自研平台 Muise接入生成 Kafka。

4.2 ETL数据处理

 问题一:如何保证消息处理的有序性?

    Muisev平台保证了Binlog消息的有序性,这里需要讨论的是ETL过程中如何保证消息的有序性。例如:一个酒店订单先在同一张表触发了两次更新操作,共计有了两条 Binlog 消息,消息1和消息2会先后进入流处理系统,如果这两个消息是在不同的Flink Task上进行处理,那么就有可能由于两个并发处理的速度不一致,先发生的消息后处理,导致最终输出的结果不对(出现乱序)

 上图是一个简化的过程,业务库流入到Kafka,Binlog 日志是顺序写入的,根据主键进行Hash分区 ,保证同一个主键的数据写入到kafka同一个分区。当Flink消费kafka时,需要设置合理的并发,保证同一个分区的数据由一个Task负责,另外尽量采取逻辑主键作为 Shuffle Key,从而保证了Flink内部的有序性。最后在写入StarRocks时,按照主键进行更新或删除操作,这样才能保证端到端的一致性。

 问题二:如何生产实时订单宽表?

   为了方便分析师和数据应用使用,我们需要生成明细订单宽表并存储在 StarRocks 上。酒店订单涉及的业务过程相对复杂,数据源来自多个数据流中,且由于酒店订单变化生命周期较长,客人可能会提前几个月甚至更久预订下单。这些都给生产实时订单宽表带来一定的困难。

   上图中生成订单宽表的sql逻辑在离线批处理场景下没有问题,但是实时场景下,这个sql会按照双流join的方式依次处理,每次只能处理一个join,所以上面代码有9个 Join 节点,Join节点会将左流的数据和右流的数据全部保存下来,最终会导致join过程中state状态存储膨胀了9倍。

   因此,我们采用了union all + group by的方式替代join;先用union all把数据错位拼接到一起,然后再最外层进行group by。这种方式相当于将 Join 关联转换成group by,不会放大 Flink的状态存储。

  还有一个问题,上面说过酒店订单的生命周期很长,用 union all 的方式,状态周期只保存了30分钟,一些订单的状态可能已经过期,当出现订单状态时,我们需要获取订单的历史状态,这样就需要一个中间层保存历史状态数据来做补充。历史数据我们选择存放在 Redis 中,第一次选择从离线数据导入,实时更新数据的同时,还更新 Redis和StarRocks。

 问题三:如何做数据校验?

   实时数据存在数据丢失或逻辑变更不及时的风险,为了保证数据的准确性,每日凌晨将实时数据和离线T-1数据做比对,如果数据校验不一致,会用离线数据更新StarRocks中对应的数据,并排查原因。

  整体流程见下图:

4.3 应用效果

  酒店实时订单表的数据量为十亿级,维表数据量有几百万,现已经在几十个数据看板和监控报表中使用,数据报表通常有二三十个维度和十几个数据指标,查询耗时99%约为3秒。

4.4 总结

   酒店实时数据具有量级大,生命周期长,业务流程多等复杂数据特征,携程酒店实时数仓选用 Lambda+OLAP 变体架构,借助 Starrocks 强大的计算性能,不仅降低了实时数仓开发成本,同时达到了支持实时的多维度数据统计、数据监控的效果,在实时库存监控以及应对紧急突发事件等项目获得了良好效果。

参考文章:

干货 | 携程酒店实时数仓架构和案例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机网络_应用层】TCP应用与相关API守护进程

需要云服务器等云产品来学习Linux的同学可以移步/–>腾讯云<–/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;优惠多多。&#xff08;联系我有折扣哦&#xff09; 文章目录 1. 相关使用接口2. 代码实现2.1 日志组件2.2 Server端2.3 Client端2.3 bug解决 3. 守…

什么是依赖注入(Dependency Injection)?它在 C++ 中是如何实现的?

什么是依赖注入&#xff08;Dependency Injection&#xff09;&#xff1f;它在 C 中是如何实现的&#xff1f; 依赖注入&#xff08;Dependency Injection&#xff0c;DI&#xff09;是一种设计模式&#xff0c;用于减少软件组件之间的耦合度&#xff0c;提高代码的可测试性、…

JVM类加载机制以及双亲委派模型的介绍

目录 1.类加载介绍 2.具体步骤 2.1加载 2.2验证 2.3准备 2.4解析 2.5初始化 3.加载过程中的策略-双亲委派模型 1.类加载介绍 类加载,指的是Java进程在运行的时候,把.class文件从硬盘读取到内存,并进行一系列校验解析的过程. .class文件>类对象.硬盘>内村 类加载…

spring-boot自定义网站头像(favicon.ico文件)

一、将ico文件存放到resources目录的static中的favicon下。 二、在application.properties文件中增加配置 spring.mvc.favicon.enabledfalse 三、如需页面引用如下&#xff1a; <link rel"icon" type"image/x-icon" ref"${request.contextPat…

智能驾驶规划控制理论学习03-基于采样的规划方法

目录 一、基于采样的规划方法概述 二、概率路图&#xff08;PRM&#xff09; 1、核心思想 2、实现流程 3、算法描述 4、节点连接处理 5、总结 三、快速搜索随机树&#xff08;RRT&#xff09; 1、核心思想 2、实现流程 3、总结 4、改进RRT算法 ①快速搜索随机图&a…

【计算机网络实践】在windows上配置Xshell和Xftp连接Ubuntu系统

hebut的课下作业&#xff0c;学习使用Xshell和Xftp连接Linux系统 1. 软件需求 Windows10/11、已安装VM虚拟机的ubuntu系统、Xshell、Xftp。 Xshell和Xftp在家庭/学校免费 - NetSarang Website (xshell.com)里面可以下载到&#xff0c;上面需要的两个软件都在&#xff0c;官网免…

运筹学_1.1.2 线性规划问题-图解法

1.1.2 线性规划问题-图解法 一、图解法求解步骤&#xff08;只适用于两个决策变量问题&#xff09;二、图解法作图实例三、图解法分析线性规划几种解的情况1、唯一最优解2、无穷多最优解3、无界解4、无解或无可行解 四、图解法的几点启示 一、图解法求解步骤&#xff08;只适用…

C++sort排序

前言&#xff1a; C语言的sort函数是一类用于数组排序的函数以下是其简单的使用&#xff1a; 1.头文件&#xff1a; #include<algorithm> 2.使用命名空间&#xff1a; using namespace std; 3.函数形式&#xff1a; sort(数组名,数组名元素个数,排序函数); 默认排…

深入浅出Redis(一):对象与数据结构

引言 Redis是一款基于键值对的数据结构存储系统&#xff0c;它的特点是基于内存操作、单线程处理命令、IO多路复用模型处理网络请求、键值对存储与简单丰富的数据结构等等 这篇文章主要围绕Redis中的对象与数据结构来详细说明键值对存储与简单丰富的数据结构这两大特点 Redi…

运筹学_1.1.4 线性规划问题-解的概念

1.1.4 线性规划问题-解的概念 一、可行解与最优解二、基的概念三、基变量、基向量&#xff1b;非基变量、非基向量&#xff1b;基解、基可行解&#xff1b;四、最优解与可行解、基可行解的关系五、用例题&#xff08;枚举法&#xff09;巩固基解、基可行解、最优解三个概念1、例…

flyway实战

flyway是一款用来管理数据库版本的工具框架 一, 添加依赖 <dependency><groupId>org.flywaydb</groupId><artifactId>flyway-core</artifactId> </dependency> <dependency><groupId>org.springframework</groupId>&l…

第十一届蓝桥杯省赛第一场C++ A组 / B组《网络分析》(c++)

1.题目说明 小明正在做一个网络实验。 他设置了 n 台电脑&#xff0c;称为节点&#xff0c;用于收发和存储数据。 初始时&#xff0c;所有节点都是独立的&#xff0c;不存在任何连接。 小明可以通过网线将两个节点连接起来&#xff0c;连接后两个节点就可以互相通信了。 两…

代码随想录算法训练营第二十五天 | 216.组合总和III 17.电话号码的字母组合

216.组合总和III https://programmercarl.com/0216.%E7%BB%84%E5%90%88%E6%80%BB%E5%92%8CIII.html#%E5%85%B6%E4%BB%96%E8%AF%AD%E8%A8%80%E7%89%88%E6%9C%AC class Solution:def combinationSum3(self, k: int, n: int) -> List[List[int]]:result [] # 存放结果集sel…

实现一个移动端焦点轮播图

HTML结构&#xff1a; 创建一个轮播图的容器&#xff0c;并在其中放置轮播图片。 <div id"carousel"> <div class"carousel-item active"> <img src"image1.jpg" alt"Image 1"> </div> <div class&q…

Docker部署ZooKeeper

在分布式系统中,ZooKeeper是一个关键的组件,用于协调和管理多个节点之间的状态。本文将详细介绍如何使用Docker安装和部署ZooKeeper,包括非集群部署和集群部署两种情况。 非集群部署 前期准备 在开始之前,请确保你已经安装了Docker,并且拥有sudo权限。 关闭防火墙和SEL…

5、DVWA代码审计(2)

一、csrf 1、csrf(low) 限制 复现 GET /vulnerabilities/csrf/?password_new123456&password_conf123456&ChangeChange HTTP/1.1 Host: ddd.com Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,…

电子电器架构 —— DoIP协议相关的介绍

电子电器架构 —— DoIP协议相关的介绍 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 没有人关注你。也无需有人关注你。你必须承认自己的价值,你不能站在他人的角度来反对自己。人生在世,最怕…

监听者的力量:探索观察者模式和spring使用

观察者模式是一种对象行为型设计模式&#xff0c;它定义了对象之间的一对多依赖关系。 观察者模式通常用于实现分布式事件处理系统、新闻代理或MVC框架的一部分。在这种模式中&#xff0c;一个对象&#xff08;称为“主题”或“可观察对象”&#xff09;维护一系列依赖于它的对…

vue3编写H5适配横竖屏

具体思路如下&#xff1a; 1、监听浏览器屏幕变化&#xff0c;通过监听屏幕宽高&#xff0c;辨别出是横屏&#xff0c;还是竖屏状态 在项目的起始根页面进行监听&#xff0c;我就是在App.vue文件下进行监听 代码如下&#xff1a; <template><RouterView /> <…

【Spring IoC】实验四:特殊值处理

个人名片&#xff1a; &#x1f43c;作者简介&#xff1a;一名大三在校生&#xff0c;喜欢AI编程&#x1f38b; &#x1f43b;‍❄️个人主页&#x1f947;&#xff1a;落798. &#x1f43c;个人WeChat&#xff1a;hmmwx53 &#x1f54a;️系列专栏&#xff1a;&#x1f5bc;️…