实时数仓:基于数据湖的实时数仓与数据治理架构

设计一个基于数据湖的实时数仓与数据治理架构,需要围绕以下几个核心方面展开:实时数据处理、数据存储与管理、数据质量治理、数据权限管理以及数据消费。以下是一个参考架构方案:


一、架构整体概览

核心组成部分
  1. 数据源层

    • 数据来源:多样化的数据源(OLTP数据库、日志系统、IoT设备、API接口等)。
    • 数据类型:结构化、半结构化(JSON、CSV)、非结构化(图片、视频)。
  2. 数据接入层

    • 工具:使用 Flink CDCDebezium 捕获数据库变更;通过 KafkaPulsar 作为数据流传输工具。
    • 实现:实时采集和流式数据传输,支持批流融合。
  3. 数据存储层

    • 湖仓一体化存储
      • 使用 Hudi/Iceberg/Delta Lake 作为数据湖存储格式,提供流批融合的 ACID 事务支持。
      • 元数据管理工具:集成 Apache Hive MetastoreAWS Glue
      • 分层存储:
        • ODS层:原始数据按时间分区存储。
        • DWD层:清洗后数据,按主题域区分,增强列式存储优化。
        • DWS层:宽表或汇总数据,支持实时与离线分析。
        • ADS层:直接服务于BI和报表需求。
  4. 数据处理层

    • 实时处理
      • 使用 Flink Structured StreamingSpark Structured Streaming 处理实时流数据。
      • 实现基于事件驱动的实时数据加工。
    • 离线处理
      • 使用 Spark SQLHive 定期对冷数据做批量清洗和汇总。
    • 查询加速
      • Doris 提供在线分析服务,支持对实时数仓和数据湖查询加速。
  5. 数据消费层

    • BI工具:如 Apache Superset、Tableau
    • 实时监控:通过 Grafana 或自研监控平台展示实时指标。
    • 数据接口:通过 REST API 或 GraphQL 提供服务。
  6. 数据治理层

    • 数据质量:Great Expectations 或自研工具,监控数据准确性、一致性、完整性。
    • 数据权限:集成 Apache RangerAWS Lake Formation,实现细粒度权限控制。
    • 数据血缘:通过 Apache Atlas 构建血缘追踪系统。

二、架构设计细节

1. 实时数据处理架构
  • 工具选择
    • Kafka:实时数据管道,存储流数据。
    • Flink Structured Streaming:低延迟的流式处理框架。
    • Hudi/Iceberg/Delta Lake:支持实时写入与批量读取。
  • 流处理流程
    1. 事件驱动
      • 例如:电商订单事件,基于订单状态变化驱动实时处理。
    2. 时间驱动
      • 例如:按时间窗口计算销售汇总数据(1分钟/1小时)。
2. 数据湖存储架构
  • 数据按 主题域时间分区 存储:
    • ODSods/{业务域}/{表名}/{年}/{月}/{日}/{小时}
    • DWDdwd/{业务域}/{表名}/{年}/{月}/{日}
    • DWSdws/{业务域}/{汇总主题}/{年}/{月}
    • ADSads/{业务域}/{分析主题}/{年}/{月}
  • 数据湖存储格式:选择支持事务的格式(Hudi、Iceberg)。
3. 数据治理实现
  1. 数据质量管理
    • 定义质量规则:
      • Null值校验、唯一性校验、值域校验。
    • 工具:通过 Great Expectations 自动化校验规则。
  2. 数据权限管理
    • 设置访问策略:
      • 按主题域、角色分配细粒度权限。
    • 工具:使用 Apache Ranger
  3. 数据血缘管理
    • 构建数据流向:
      • 数据从 Kafka -> Flink -> Hudi -> Doris 的全链路血缘图。
    • 工具:Apache Atlas
4. 数据消费设计
  • BI报表和实时监控:
    • 将指标数据实时暴露到 Doris,供 Superset 或其他BI工具使用。
  • API服务:
    • 提供基于实时数仓的接口服务,支持企业内部应用快速访问。

三、架构优点与挑战

优点
  1. 实时性强:利用事件驱动和流处理,实时响应数据变化。
  2. 灵活扩展:湖仓一体化架构,支持高效存储和查询。
  3. 数据治理完备:实现从质量、权限到血缘的全面管理。
挑战
  1. 实时任务复杂度高:Flink流任务设计需要更高的工程能力。
  2. 数据湖性能优化:Hudi/Iceberg在查询性能上仍需精心设计分区和索引。
  3. 治理系统维护成本高:需要持续投入开发和运维力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C#中实现线程安全单例模式的多种方法

在C#中实现线程安全的单例模式通常涉及确保类的实例在多线程环境中只被创建一次,并且这个实例在应用程序的生命周期内是唯一的。以下是几种常见的方法来实现线程安全的单例模式: 1. 使用lock关键字 这是最简单和直接的方法之一。通过在创建实例时锁定一…

【HTML+CSS+JS+VUE】web前端教程-1-VScode开发者工具快捷键

VScode打开文件夹与创建文件 1、选择文件夹 2、拖拽文件夹 生成浏览器文件.html的快捷方式 ! 回车vscode常用快捷键列表 代码格式化:shift alt F 向上或向下移动一行: alt up 或者 alt down 快速复制一行代码:shift alt up 或者 sh…

C语言将点分十进制的IP字符串转成4个整数

最近在做lldp的snmp返回值时需要做这样的转换处理:C语言将点分十进制的IP字符串转成4个整数。 这里用两种方式: sscanf格式化处理用 inet_aton函数将ip字符串转成32位的整形,然后再根据bit转成对应的4个整数。 man命令可以确认下sscanf和i…

WebLogic安全基线

WebLogic安全基线 一、 用户权限1 、检查weblogic 的启动用户2 、用户权限整改3 、使用普通用户重启weblogic 二、账户共用1 、检查weblogic 控制台的账户2 、账户共用整改3 、测试登录weblogic 控制台新账户 三、 账户清理1 、检查weblogic 控制台的账户2 、帐户清理整改 四、…

Unity3D Huatuo热更环境安装与示例项目详解

前言 Unity3D作为一款强大的游戏开发引擎,广泛应用于各类游戏和应用程序的开发中。然而,随着游戏版本的迭代和功能的增加,热更新技术变得越来越重要。Huatuo是一款基于Unity3D的IL2CPP解释执行框架,可以实现对游戏代码的热更新&a…

react-quill 富文本组件编写和应用

index.tsx文件 import React, { useRef, useState } from react; import { Modal, Button } from antd; import RichEditor from ./RichEditor;const AnchorTouchHistory: React.FC () > {const editorRef useRef<any>(null);const [isModalVisible, setIsModalVis…

TDv2:一种用于离线数学表达式识别的新型树形结构解码器

TDv2:一种用于离线数学表达式识别的新型树形结构解码器 本文提出了一种针对手写数学表达式识别(HMER)任务的新型树形解码器(TDv2) ,旨在充分利用数学表达式的树结构标签进行更有效的建模和预测。相较于传统的LaTeX字符串解码器,该模型通过采用一个节点分类模块和一个分…

银行信贷管理系统flask

完整源码项目包获取→点击文章末尾名片&#xff01;

WordPress静态缓存插件WP Super Cache与 WP Fastest Cache

引言 WordPress是一款开源的内容管理系统&#xff08;CMS&#xff09;&#xff0c;最初作为博客平台开发&#xff0c;现已发展成为一个功能强大的建站工具&#xff0c;支持创建各种类型的网站&#xff0c;包括企业网站、在线商店、个人博客等。它具有用户友好的界面、丰富的插…

onLoad 生命周期函数是否执行取决于跳转的方式和小程序的页面栈管理机制

文章目录 1. 页面跳转方式2. 你的场景分析3. 页面生命周期4. 总结5. 建议 在微信小程序中&#xff0c;页面跳转时&#xff0c; onLoad 生命周期函数是否执行取决于跳转的方式和小程序的页面栈管理机制。以下是详细说明&#xff1a; 1. 页面跳转方式 微信小程序提供了多种页面…

【深度学习】通俗理解偏差(Bias)与方差(Variance)

在统计学习中&#xff0c;我们通常使用方差与偏差来衡量一个模型 1. 方差与偏差的概念 偏差(Bais)&#xff1a; 预测值和真实值之间的误差 方差(Variance)&#xff1a; 预测值之间的离散程度 低偏差低方差、高偏差低方差&#xff1a; 图中每个点表示同一个模型每次采样出不同…

生态水文研究中的机器学习与数学建模方法选择

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

Mongodb基础sqL

------------------------------------------数据库------------------------------ (2).查看所有数据库 show dbs (3).选择数据库&#xff0c;如果不存在则隐式创建这个数据库 use 数据库名 ------------------------------------------集合------------------------------ …

大风车excel:怎么把题库导入excel?题库导入excel

高效管理试题库&#xff1a;如何批量导入试题到 Excel&#xff1f; 在教育培训、学校管理以及在线学习平台中&#xff0c;试题库的管理是核心工作之一。如何快速、准确地将试题导入到 Excel 表格中&#xff0c;成为许多教育工作者和开发者的迫切需求。本文将围绕“题库导入 Ex…

【LeetCode】力扣刷题热题100道(21-25题)附源码 接雨水 合并区间 字母异位词 滑动窗口 覆盖子串(C++)

目录 1.接雨水 2.合井区间 3.找到字符串中所有字母异位词 4.滑动窗口最大值 5.最小覆盖子串 1.接雨水 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 代码如下所示&#xff1a; class Solution {…

ThreadLocal 的使用场景

在现代电商平台中&#xff0c;ThreadLocal 常用于以下场景&#xff0c;特别是与线程隔离相关的业务中&#xff0c;以提高性能和简化上下文传递。 1. 用户上下文信息管理 场景&#xff1a;在用户发起的每次请求中&#xff0c;需要携带用户 ID、角色、权限等信息&#xff0c;而这…

慧集通(DataLinkX)iPaaS集成平台-智能体(Agent)API

功能简介&#xff1a; 该功能下主要是用来管理集成平台对外开放接口得管控以及调用日志信息得查看操作&#xff0c;并支持日志得重放等操作&#xff1b;注&#xff1a;所有触发类单据得日志也可以在此查看(如使用数据触发组件自动触发流程得日志信息) 1.第三方调用接口类日志查…

如何 cURL Elasticsearch:进入 Shell

作者&#xff1a;来自 Elastic Philipp Krenn Kibana 的控制台是开始使用 Elasticsearch 的 REST API 的最简单方法 - 语法突出显示、自动完成、格式化、导出 cURL、JavaScript 或 Python。而且你不必担心正确的端点、身份验证等。但是有时&#xff0c;如果 Kibana 不可用、你…

HTB:Bank[WriteUP]

目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 提取出靶机TCP开放端口 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用curl对域名进行访问…

智能码二维码生成器zhinengma.cn如何助力生产行业进行高效管理

智能码二维码生成器zhinengma.cn可通过以下方式助力生产行业进行高效管理1&#xff1a; 设备管理 设备信息整合与查询&#xff1a;为每台生产设备生成专属二维码&#xff0c;将设备基本信息、技术参数、操作手册、历史维护记录等整合并关联到二维码上。维护人员在设备现场用手机…