数据治理实战——翼支付金融板块业务数仓建设和数据治理之路

目录

一、数据治理背景

二、数据治理建设内容

2.1 组织协同

2.2 平台建设

2.3 数据应用治理

2.4 数据规范

2.5 数据安全

三、企业级数仓建设

3.1 调研阶段

2.2 平台护航

2.3 数仓分层

2.4 维度建模

2.4.1 维度建模四步曲

2.4.2 命名规范

2.4.3 资产沉淀

2.4.4 任务保障

2.5 数据监控

四、数据治理成效

4.1 成本&时效

4.2 元数据

4.3 数据安全

4.4 指标管理

五、未来规划


  原文大佬的这篇数据治理及数仓建设案例有借鉴意义,这里摘抄下来用作学习和知识沉淀。

一、数据治理背景

   在数据仓库建设初期,翼支付主要面对以下几方面的问题:

(1)代码冗余,任务失效不稳定

    祖传代码问题严重,任务链路长,存在大量烟囱式开发。另外由于没有统筹管理,资源任意抢占,使得任务时效得不到保障。

(2)元数据信息严重缺失

   缺少元数据信息,没有明确的建表责任人,字段缺少中文备注,分区字段随意,一系列问题导致库表清理及新人上手难度大。

(3)数据安全风险高

   敏感数据未加密,数据下载入口多,大量明细数据通过Tableau (BI工具)进行处理,无下载记录,数据安全风险非常高。

(4)数据口径差异明显

   在一些整合数据口径下,由于各自整合口径来源不同,后续指标口径不一致。

这些问题突显出在整个数据仓库建设和优化过程中,需要在数据治理体系、技术架构、安全策略和运营管理等多方面进行明确规划和持续优化。

二、数据治理建设内容

 在翼支付进行数据治理时,我们首先确定了数据治理的主要内容。关键点包括:

2.1 组织协同

   确保不同部门间的配合与共同目标;建立数据治理委员会、技术架构委员会和治理实施小组,分别负责推动治理进程和解决分歧、审核信息架构以及具体实施任务。数据治理委员会需要统筹管理,并推动治理工作,各部门紧密协作,形成统一、顺畅、敏捷的组织协同链路。

2.2 平台建设

  从0到1打造数据开发平台,支撑2万+离线/实时调度及各类数据质量监控规则,打造自助 BI 平台,支持即席查询与可视化开发,构建数据资产平台,并加强元数据管理,以确保数据的整洁性和安全性。整体上形成统一的数字化和数据平台架构。

2.3 数据应用治理

  强调数据治理在应用层的实施,提高易用性,减少计算和存储成本,加快查询速度,提高数据质量,构建敏捷的商业分析模式和数据洞察能力。

2.4 数据规范

   通过规范业务生产系统数据,保障源数据的质量,构建各个方面的标准和规范,如数仓建设规范,数据分类规范,主数据和元数据管理等。

2.5 数据安全

   在数据的存储、传输和使用三个方面加强数据安全性,使企业数据符合国家数据安全合规要求。

三、企业级数仓建设

3.1 调研阶段

  翼支付数据治理早期的调研工作,可归纳为四个重点领域。

(1)首先,识别业务痛点,例如:数据获取困难、数据口径不统一、数据延迟以及数据权限审批长等。

(2)第二,进行组织架构调研,明确不同部门如市场、技术、运营的数据需求与使用模式,以确定主要需求来源及其应用偏好。这有助于指导数据治理工作的方向,优先稳固主体业务需求。

(3)第三,产品及业务流程调研,明确各个部门业务流程和产品特点,是基础建模和数据架构设计的前提。

(4)最后,技术架构调研,旨在解析产品在生产库中的 ER 关系图与库表信息。这一步可以借助元数据管理平台来完成,以便梳理出准确的技术生态图。

  通过这四步详尽的调研工作,翼支付为数据治理打下了扎实的基础,从而得以规划和推进后续的治理进程。

2.2 平台护航

    在进行数据治理时,关键环节之一是建立并优化技术平台,以支撑数据治理架构。

(1)首先,数据开发平台,提供了至关重要的调度、监控以及运维等功能。并升级了计算引擎,从 Hive 过渡到 Spark,以提升性能和可靠性。

(2)第二,自助BI平台,包括两部分,一是即席查询平台,提供数据探查和管理数据下载等功能,致力于提升数据查询效率和加强数据安全管理,在数据产出的各个环节实施了紧密的安全控制。例如数据下载需通过审批流程,分为自动审批和领导审批,不同等级的数据对应不同的审批等级。另一部分是自研报表平台,提供可视化界面,推动国产化进程。

(3)第三,元数据管理平台,对于规范和整合基础的元数据信息至关重要,包括建表、数据地图、血缘分析以及数据的安全分类和生命周期管理。

(4)第四,指标管理平台,处理指标业务口径和技术口径,存放于特定的数据表,并提供基础信息,以实现标签和其他数据资产的有效管理。

    在完成调研和技术平台的搭建后,下一步是数仓的具体建设工作。数仓建设前必须确立清晰的规范,避免烟囱式开发,确保数据治理的统一性和效率。这一系列构建和完善的平台为数据治理的细致工作打下了坚实的基础。

2.3 数仓分层

     数据仓库建设遵循互联网公司常见的分层架构,主要包括操作数据存储(ODS)层、明细数据(DWD)层、汇总数据(DWS)层、公共数据集市(DWM)层、个性数据集市(DM)层和应用(APP)层。

   在ODS 层,数据从业务库同步,基本保持和业务库数据一致。DWD数据明细层进一步处理明细数据,进行敏感数据加密、数据质量处理以及命名规范化,并关联常用的维度和维度退化。DIM 层专注于存储维度数据。DWS 层则包含明细宽表和汇总数据,明细宽表一般为在不改变原有粒度的多数据域中拉宽的明细数据,汇总数据则是基于统一统计粒度,同一统计周期的指标计算,生成供多种应用场景使用的公共汇总数据。DM 层与 DWS 内容基本差不多,区别在于一些个性化指标加工不具有复用性,DM 层指标可以根据DWS的指标集进行不同需要的整合。

     所有的数据输出都必须通过 APP 层以确保数据的一致性,且 APP 层不做复杂指标的计算,只做简单的指标拉宽、union 及简单的计算,通过这种方法,翼支付确保了数据架构的整洁性和可维护性。

    在完成产品调研、业务流程和技术库表的梳理后,现在翼支付专注于制定规范并进行数据建模,这是数据仓库建设的下一个重要步骤。

2.4 维度建模

2.4.1 维度建模四步曲

     维度建模的核心步骤包括:①选择业务过程,例如选择金融产品中授信、放款、还款等用户需要经历的业务相关的过程,并通过总线矩阵划分到相应的数据域②声明粒度,指找出需要建模表的业务主键(一般自增主键 ID 是无意义的,除非具备业务含义可以关联),描述数据的详细程度。③确认维度,确立分析中需要包含的各个维度,如省份、城市和渠道等;④确认事实,确定核心的业务度量,例如授信金额、放款金额及还款金额。

   维度建模为分析场景提供了重要的维度支持,并通过设置清晰的模型密度,避免了因为不合适的聚合层级导致模型复杂化和数据准确性下降。

2.4.2 命名规范

    作为数据仓库建设中的一部分,建立规范是至关重要的。重要的规范包括命名规范,涵盖表命名、字段命名和代码命名

    表命名应反映数据的层级(如 DWD、DWS)、数据域(数据抽象化)、产品线、业务过程以及刷新/增全量标识,如:dws_trade_lxp_loan_order_detail_df。产品线通过公司市场的产品规划采用缩写进行区分。除此之外,还有自定义缩写、数据刷新标识和增量标识的规范。字段命名则遵循词根组规范,例如,“人数”使用“num”,“次数”使用“cnt”,避免混淆。此外,派生指标的命名应注意不要与原子指标混淆,如:授信人数(原子指标) crdt_num,近一天成功授信人数(派生指标) succe_crdt_num_1d,不可以在已命名好的原子指标中间穿插修饰词(crdt_succe_num)。

    总体上,这些命名规范确保了数据元素在整个数据仓库中的一致性和可理解性,对后续的数据处理和分析至关重要。

2.4.3 资产沉淀

    在数据仓库建设中,资产沉淀是确保信息完整性和便于管理的关键步骤。数仓建设时需规范的记录表的基础信息(如库名、表名、责任人)、描述、表的生命周期,并设立分区保留策略,以确定分区的保留期限。此外,为促进数据的查找与分类,需构建数据地图,标签化各个表,明确其属于明细层、汇总层,还是其他层及产品线。同时,在表的建立阶段,要对表的分类和字段级别进行规范。总之,建表时需妥善规划并完成资产的沉淀,避免为求速度而忽略长期要求,保障数据仓库的可持续管理和利用。

2.4.4 任务保障

    在数据仓库的操作流程中,数据开发任务的上线是关键环节。首先,完成表的构建和代码编写后,通过开发平台的测试与审核,数据任务就可部署至生产环境。接着,与代码和表关联的指标也会被开发,并在指标管理平台注册。

    通过数据基线SLA 保证任务在离线高峰期能有足够的并发度及计算资源按时完成任务的数据质量也需监测包括数据的唯一性、枚举的有效性以及数值检查从而避免不合理的数据波动。最后,要进行任务调度的监控,确保任务稳定执行且在预定时间内完成,以保证数据的及时产出。

   整个流程从数仓模型构建到数据产出,其中包括规范、编码、任务上线、指标制定和任务监控等方面。

2.5 数据监控

    作为数据监控的关键,数据质量的监控包括完整性、一致性、及时性等维度;监控不仅限于事前,更重要的是事后全方位的审视,例如管理成千上万的任务,以及计算成本和存储成本。在数据存储过程中,监控数据存储以便优化成本,通过审查数据的生命周期来决策数据清理策略。同时,安全监控检查敏感数据是否加密以及防止数据泄露,确保数据下载的安全审计。数据监控旨在保持数据治理的完善性,这是一个长期的过程,而不是一次性的事件。

四、数据治理成效

     数据治理实施的成效主要体现在成本削减和时效提升两方面。当前端到端的全链路数据治理模式涵盖了从ODS 层到数据可视化的整个数据流程

4.1 成本&时效

     在 2023 年,全公司前台事业部的所有任务已经完成了重构和迁移,这不仅减少了平台高达 86% 的资源消耗,同时也显著降低了计算成本,年均节约成本近千万,平均时效提升4.72h。

4.2 元数据

    保障了完整的元数据信息、血缘关系、表生命周期、冷热数据标识。元数据信息的完整性对后续监控和二次治理也至关重要,它大幅降低了人力和物理资源的投资。 

4.3 数据安全

    敏感数据已经完成分类分级,并通过加密以及下载审批且留存记录等措施,实现了数据安全,目前L3及以上数据已经100%加密。

4.4 指标管理

    指标管理平台从0-1建设,通过原子指标、统计粒度、业务限定、统计周期四要素来定义管理指标。 后续计划中,指标管理将与调度平台整合,实现资源消耗的优化和指标加工的简化,使数据资产得到更有效地管理和运用。

五、未来规划

未来数据仓库的规划聚焦于以下几个核心领域。

(1)是建设数仓驾驶舱,整合零散的监控体系,建立一个统一的、全面的监控平台。该平台允许管理者每日通过邮件向相关群组发出需要优化和整改的任务。

(2)是推进资产管理系统的建设,将目前整个数据平台健康情况通过大屏的方式展示出来,具体包含:调度平台任务情况、存储情况、资源消耗情况、小文件情况、数据安全情况、各类服务接口情况等。

(3)是优化指标管理,通过原子指标、统计粒度、业务限定、统计周期四要素生成数据,减少指标重复加工。

(4)最后,拓展数据赋能,通过数据服务如标签管理平台、FTP 下发和数据接口等增加数据的应用价值,从而在多种应用场景中实现数据的有效利用,使数据能够产生更大的商业价值。

参考文章:

金融行业在数仓建设与数据治理的最佳实践

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

百度智能云发布专用向量数据库 VDB 1.0,全新设计内核开启性能狂飙

1 专用向量数据库应对未来业务挑战 向量数据库 向量检索 数据库 向量数据库大致可以分为 2 部分:向量数据的检索,以及向量数据的存储和管理。 向量数据库的性能,比如高 QPS、低延时等,使得业务能够更快的响应用户的查询请求…

2024 AI 辅助研发的新纪年

随着人工智能技术的持续发展与突破,2024年AI辅助研发正成为科技界和工业界瞩目的焦点。从医药研发到汽车设计,从软件开发到材料科学,AI正逐渐渗透到研发的各个环节,变革着传统的研发模式。在这一背景下,AI辅助研发不仅…

【kubernetes】关于k8s集群中的ingress规则案例

目录 一、k8s 对外服务之 Ingress 1.1什么是ingress 1.2外部的应用能够访问集群内的服务有哪些方案? 1.3Ingress 组成 1.4Ingress-Nginx 工作原理 1.5ingress 暴露服务的方式 二、实操ingress暴露服务 前期.部署 nginx-ingress-controller 2.1基于host网络…

RabbitMQ的Windows版安装教程

文章目录 前言一、Windows安装RabbitMQ总结 前言 曾经写过一篇关于RabbitMQ的Ubuntu安装教程(http://t.csdnimg.cn/5CYfC),当时使用的是Docker将RabbitMQ安装到虚拟机上,但是有很多小伙伴问Windows上如何进行安装RabbitMQ&#x…

flink重温笔记(十二): flink 高级特性和新特性(1)——End-to-End Exactly-Once(端到端精确一致性语义)

Flink学习笔记 前言:今天是学习 flink 的第 12 天啦!学习了 flink 高级特性和新特性之 End-to-End Exactly-Once(端到端精确一致性语义),主要是解决大数据领域数据从数据源到数据落点的一致性,不会容易造成…

官宣!百度智能云千帆产品发布会3月21日北京见!

回望2023大模型狂奔的一年,百度智能云千帆大模型平台无疑是浓墨重彩的一笔。自2023年3月27日正式问世后,百度智能云千帆大模型平台以突飞猛进的速度持续发展。从模型、应用到生态,“千帆”书写着自身在大模型时代的答卷。 作为全球首个一站式…

指针的学习5

目录 sizeof和strlen的区别 sizeof strlen 数组和指针笔试题解析 一维数组 字符数组 二维数组 指针运算笔试题解析 题目1: 题目2: 题目3: 题目4: 题目5: 题目6: 题目7: sizeof和…

Jmeter二次开发实现rsa加密

jmeter函数助手提供了大量的函数,像 counter、digest、random、split、strLen,这些函数在接口测试、性能测试中大量被使用,但是大家在实际工作,形形色色的测试需求不同,导致jmeter自带或者扩展插件给我们提供的函数无法…

Redis中的SCAN渐进式扫描底层原理

Scan渐进式扫描原理 概述 由于Redis是单线程再处理用户的命令,而Keys命令会一次性遍历所有key,于是在命令执行过程中,无法执行其他命令。这就导致如果Redis中的key比较多,那么Keys命令执行时间就会比较长,从而阻塞Re…

即插即用篇 | YOLOv8 引入 ParNetAttention 注意力机制 | 《NON-DEEP NETWORKS》

论文名称:《NON-DEEP NETWORKS》 论文地址:https://arxiv.org/pdf/2110.07641.pdf 代码地址:https://github.com/imankgoyal/NonDeepNetworks 文章目录 1 原理2 源代码3 添加方式4 模型 yaml 文件template-backbone.yamltemplate-small.yamltemplate-large.yaml

程序员常用的几种算法

程序员常用的几种算法 一、程序员算法汇总二、程序员常用的几种算法1.选择排序算法1.1 选择排序算法解析:1.2 示例代码: 2.插入排序算法2.1 插入排序算法解析:2.2 示例代码: 3.冒泡排序算法3.1 冒泡排序算法解析:3.2 示…

【PyTorch】进阶学习:探索BCEWithLogitsLoss的正确使用---二元分类问题中的logits与标签形状问题

【PyTorch】进阶学习:探索BCEWithLogitsLoss的正确使用—二元分类问题中的logits与标签形状问题 🌈 个人主页:高斯小哥 🔥 高质量专栏:Matplotlib之旅:零基础精通数据可视化、Python基础【高质量合集】、Py…

微服务架构 | 多级缓存

INDEX 通用设计概述2 优势3 最佳实践 通用设计概述 通用设计思路如下图 内容分发网络(CDN) 可以理解为一些服务器的副本,这些副本服务器可以广泛的部署在服务器提供服务的区域内,并存有服务器中的一些数据。 用户访问原始服务器…

(未解决)macOS matplotlib 中文是方框

reference: Mac OS系统下实现python matplotlib包绘图显示中文(亲测有效)_mac plt 中文值-CSDN博客 module ‘matplotlib.font_manager‘ has no attribute ‘_rebuild‘解决方法_font_manager未解析-CSDN博客 # 问题描述(笑死 显而易见 # solve 找到…

【Linux】 yum —— Linux 的软件包管理器

Linux 的软件包管理器 yum yum 是什么什么是软件包查看软件包 yum 命令行工具yum 配置文件yum 凭什么可以支持下载呢?yum 生态yum 社区yum 的故障排除和资源支持yum 的持续集成和持续交付 yum 是什么 Yum(Yellowdog Updater Modified)是一个…

【PCIe】TLP结构与配置空间

🔥博客主页:PannLZ 文章目录 PCIe TLP结构PCIe配置空间和地址空间 PCIe TLP结构 TLP 主要由3个部分组成: Header 、 数据(可选,取决于具体的TLP 类 型 ) 和 ECRC (End to End CRC, 可选)。TLP 都始于发送端的事务层,终…

物联网,智慧城市的数字化转型引擎

随着科技的飞速发展,物联网(IoT)已成为推动智慧城市建设的关键力量。物联网技术通过连接各种设备和系统,实现数据的实时采集、传输和处理,为城市的智能化管理提供了强大的支持。在数字化转型的浪潮中,物联网…

【操作系统概念】 第8章:内存管理

文章目录 0.前言8.1 背景8.1.1 基本硬件8.1.2 地址绑定8.1.3 逻辑地址空间和物理地址空间8.1.4 动态加载(dynamic loading)8.1.5 动态链接(dynamically linking)与共享库 8.3 连续内存分配(contiguous memory allocati…

【linuxC语言】dup、dup2函数

文章目录 前言一、dup函数二、dup2函数三、将标准输出重定向到文件总结 前言 在Linux环境下,dup、dup2以及原子操作都是用于文件描述符管理和处理的重要工具。这些功能提供了对文件描述符进行复制和原子操作的能力,使得在多线程或多进程环境中更加安全和…

10大主流压力/负载/性能测试工具推荐

在移动应用和Web服务正式发布之前,除了进行必要的功能测试和安全测试,为了保证互联网产品的服务交付质量,往往还需要做压力/负载/性能测试。然而很多传统企业在试水互联网的过程中,往往由于资源或产品迭代速度等原因忽视了这一块工…