目录
一、架构设计与技术栈
(一)数仓架构设计
(二)所用技术栈
(三)最终效果
二、关于离线与实时的相关概念
三、实时数仓设计思路
一、架构设计与技术栈
(一)数仓架构设计
(二)所用技术栈
Hadoop 3.3.4
Zookeeper 3.7.1
Kafka 3.3.1
Hbase 2.4.11
Redis 6.0.8
Flink 1.17.0
Clickhouse
Spring
Sugar
(三)最终效果
二、关于离线与实时的相关概念
物流
业务
离线
批处理
在处理数据前,数据是固定的
处理数据量大
处理时间长
T + 1
实时
流处理
在处理数据前,数据是不确定的,在处理的过程中,数据源源不断地进来
处理数据量小
处理时间短
T + 0
数仓
采集、存储、分析
三、实时数仓设计思路
业务数据保存在mysql中,通过flink-CDC采集到kafka主题中作为ODS层;在通过flink-CDC判断ODS层的数据哪些是维度表,哪些是事实表,维度数据DIM层写到Hbase中,事实数据DWD层写到新的kafka主题中;再将DIM层数据和DWD层数据进行关联,做一个轻度聚合形成DWS层,写到OLAP数据库中,即clickhouse中,形成宽表;指标统计与统计结果通过Springboot数据接口服务写到sugar进行可视化展示,也就是ADS层。
物流实时数仓架构设计图
物流离线数仓架构设计图