(笔记)如何评价一个数仓的好坏

如何评价一个数仓的好坏

  • 1数据质量
    • 产生原因
    • 评估方法
    • 流程
  • 2模型建设
    • 产生问题原因
    • 评估方法
    • 流程
  • 3数据安全
    • 产生问题原因
    • 评估方法
    • 流程
  • 4成本/性能
    • 产生问题原因
    • 评估方法
    • 流程
  • 5 用户用数体验
    • 产生问题原因
    • 评估方法
    • 流程
  • 6数据资产覆盖
    • 产生问题原因
    • 评估方法
    • 流程

数仓评价好坏是对数仓全流程机制是否健全的评价,
从技术方面,数据仓库应该具有成本、质量、效率要求,安全方向方面的能力,
从业务方面,数据仓库应该支撑业务建设,覆盖尽可能多的业务场景,需要数据时能够及时取到,能满足业务数据化需求

1数据质量

产生原因

技术
缺少流程制定
数据模型设计存在问题
数据源本身存在问题
数据清洗加工疏忽

业务
业务理解不到位
业务流程变更
数据输入不规范
业务系统烟囱林立

管理
人才缺乏
流程管理不完善
奖惩机制不明确

评估方法

准确性:描述数据和客观实体特征是否一致-DQC
1是否基础DQC覆盖全链路:表不为空,主键(联合主键)唯一,字段不为空,表行数波动。
2核心表业务DQC是否配置:业务DQC: 文本类(字段不为空或空串,json中key不为空,字段是否脱敏),数值(数值在区间范围,字段不能为O),枚举值(枚举值类型是否正常,枚举值波动,枚举值占比),日期(字段不为空,日期小于当天)
3DQC历史趋势:历史触发情况,强弱DQC触发次数。

及时性:描述从业务数据能够被使用的及时程度
是否有基线/sla(核心与较核心业务)配置,
基线/sla破线次数,
未按时交付数据次数(被业务方发现投诉),
基线sla覆盖度,
是否具备快恢能力(当数据未产出时候,迅速定位还原)。

一致性:描述同一个信息主体在不同数据集中的数据是否相同
数据收口:核心指标沉淀到核心聚合模型,统一收口
指标中心建设:保障指标统一:指标录入、指标复用、指标展示、指标口径查询有处可循

流程完整性:
1数据质量长期跟踪监测体系:
收集问题(问题/缺陷上报平台,文档记录)
解决/防止复发问题(解决问题,对问题进行规则化制定,对问题长期监控,直到问题彻底解决)
2数据质量问题报告:数据问题趋势,数据问题分类,本期解决数,本期新增数,重点问题解决数,数据问题贡献榜
3流程制定:任务上线流程,指标变更/下线流程

流程

事前,预防
制定质量管理机制,开发/变更/上线流程
工具/代码监控
dqc全链路基础配置
核心数据稳定产出
培训值班内容/明确数据问题如何定位

事后,复盘完善
归因->解决方案->方法论、流程
完善dqc规则
问题上报监测
保障数据统一收口,指标统一口径维护标准
完善数据问题定位步骤

2模型建设

产生问题原因

技术:无数据标准制定,缺乏模型建设复用/扩展想法
业务:对业务流程,环节理解不够
管理:团队模型建设指导不足,无模型评审机制

评估方法

规范度:
是否制定命名规范
是否具有建设规范(模型5要素,模型分层具体操作内容)
是否有模型评审流程
主题域归属

完善度-元数据补充:
(owner清晰,表中文名+使用说明,每个模型的颗粒度,每个模型的主键(联合主键),字段解释)

**复用度:**模型被下游引用程度,是否是无效模型

**稳定性:**运行时长,是香数据倾斜,对产出的影响

**扩展性:**模型内容划分合理性(基础字段,指标),冗余低

**合理性:**新增模型与老模型是否出现冲突,分层情况(保障模型引用合理),跨层引用率,ods穿透率

流程

事前,预防:
制定模型开发规范((开发思路,模型合规),
制定数据标准(命名、内容、代码等),
培训指导模型建设开设模型评审会,
梳理业务流程

事后,复盘完善:完善数据标准,加强模型建设意识,模型评价打分

3数据安全

产生问题原因

技术:数据安全意识薄弱,未设立安全管控

业务:各部门/业务对数据安全权限把控度不同

管理:未做风险管理,离职回收,有共担记录

评估方法

角色权限是否划分
权限管控制定:(下载权限,数据使用权限申请,数据使用申请时卡点负责人/组,闲置的权限是否定期回收)
数据表是否分级
对外数据是否脱敏
可视化展示是否分级展示内容

流程

事前,预防:角色权限分级,数据表权限管控(表/字段),核心/对外数据脱敏,可视化展示内容把控,全数据表分级
事后,复盘完善:补充隐藏数据风险,制定跨bu/业务数据把控范围,定期对安全权限扫描

4成本/性能

产生问题原因

技术:运行时间过长运行报错,重复建设,数据倾斜,数据价值与资源消耗不匹配
管理:资源成本急剧上升,维护成本越来越大,数据之间的关系变得复杂,数据模型的复用性低,烟囱建设

评估方法

无用/无效表是否及时下线:无下游任务的表,无上游任务的表,x天未被访问的表
表生命周期是否合理
数据倾斜任务数
运行超过xxxxh任务数
是否存在空跑任务
小文件过多数据表
是否有数据成本的量化管理

流程

事前,预防:代码审核,检查代码是否需要优化,试用完对临时表,无用表及时下线,任务试验跑检查运行时间,前置小文件合并操作
事后,复盘完善:定期扫描无效表,定期下线空跑任务,数据治理前任务/表量化,定期扫描模型生命周期,每日/周推送top榜(消耗、资源存储top榜)

5 用户用数体验

产生问题原因

业务:找数难,用数难,查询难,自助分析难,无法统一内容

评估方法

数据服务:
是否具备资产门户方便下游找寻业务表,
是否整合one id/one service完成数据输出统一收口,
是否具备策略/指标平台,方便下游了解,保障口径统一,
是否具备标签/画像/指标分析工具,使得下游自助查询,解放数仓资源

流程

事前,了解: 了解下游对数据使用习惯,了解各业务方缺少那些应用缺陷
事后,完善数据服务内容: 补充数据平台建设

6数据资产覆盖

产生问题原因

业务:数据资产无法满足下游应用场景,指标分散

评估方法

数据资产支持:是否完善用户画像/用户360资产,各场景数据资产是否能全面支持,零散指标/标签是否有专题整合

流程

事前,了解: 前置完成用户画像等常用场景数据资产沉淀
事后,完善数据服务内容: 完善全业务场景数据资产补充,补充专项应用数据标签/指标模型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/21160.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

红队内网攻防渗透:内网渗透之windows内网权限提升技术:数据库篇

红队内网攻防渗透 1. 内网权限提升技术1.1 数据库权限提升技术1.1.1 数据库提权流程1.1.1.1 先获取到数据库用户密码1.1.1.2 利用数据库提权工具进行连接1.1.1.3 利用建立代理解决不支持外联1.1.1.4 利用数据库提权的条件及技术1.1.2 Web到Win-数据库提权-MSSQL1.1.3 Web到Win-…

[SWPUCTF 2023 秋季新生赛]Junk Code

方法一:手动去除 将所有E9修改为90即可 方法二:花指令去除脚本 start_addr 0x0000000140001454 end_addr 0x00000001400015C7 print(start_addr) print(end_addr) for i in range(start_addr,end_addr):if get_wide_byte(i) 0xE9:patch_byte(i,0x9…

自定义类型:结构体类型

在学习完指针相关的知识后将进入到c语言中又一大重点——自定义类型,在之前学习操作符以及指针时我们对自定义类型中的结构体类型有了初步的了解,学习了结构体类型的创建以及如何创建结构体变量,还有结构体成员操作符的使用,现在我…

win+mac通用的SpringBoot+H2数据库集成过程。

有小部分大学的小部分老师多毛病,喜欢用些晦涩难搞的数据库来折腾学生,我不理解,但大受震撼。按我的理解,这种数据库看着好像本地快速测试代码很舒服,但依赖和数据库限制的很死板,对不上就是用不了&#xf…

Linux基础之进程等待

目录 一、进程等待的基本概念 二、进程等待的重要性 三、进程等待的方法 四、获取子进程status 五、options选项 一、进程等待的基本概念 进程等待是指一个进程在执行过程中暂时停止,并等待某个条件满足后再继续执行的状态。这种等待通常是由于某些事件需要发生…

【深度学习】plt.xlabel ‘str‘ object is not callable

ref: https://stackoverflow.com/questions/24120023/strange-error-with-matplotlib-axes-labels 画图的时候手欠写成了: plt.xlabel x实际上应该是 plt.xlabel(x)因为已经将plt.xlable 赋值为了 ‘x‘ 字符串,所以自然就’str’ object …

qt按钮的autoRepeat属性和default属性

autoRepeat属性:按住按钮不松,表示一直在点击按钮 default属性:点击Enter键表示在点击按钮

【代码随想录训练营】【Day 36】【贪心-3】| Leetcode 1005, 134, 135

【代码随想录训练营】【Day 36】【贪心-3】| Leetcode 1005, 134, 135 需强化知识点 题目 1005. K 次取反后最大化的数组和 贪心:翻转绝对值最小的数思路:将数组按绝对值降序排序后,从左向右遍历数组,如果遇到小于0的数并且还…

AI技术的未来展望:重塑人类社会的智能革命

一、引言 随着技术的飞速发展,人工智能(AI)已经不再是科幻小说中的概念,而是成为了我们生活中不可或缺的一部分。从简单的智能助手到复杂的自动化生产线,AI技术正在以前所未有的速度改变着世界。本文将对AI技术的未来…

无缝接入GPT-4o:智创聚合API平台的创新与实践

在2024年5月13日,美国开放人工智能研究中心(OpenAI)发布了最新版本的ChatGPT——GPT-4o。这一更新标志着人工智能领域的又一重大进步,引起了全球科技界的广泛关注。GPT-4o的“o”代表“omni”(全能)&#x…

动态规划算法:背包问题

背包问题概述 背包问题 (Knapsack problem) 是⼀种组合优化的 NP完全问题 。 问题可以描述为:给定⼀组物品,每种物品都有⾃⼰的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最⾼。 根据物品的个…

【刷题】初探递归算法 —— 消除恐惧

送给大家一句话: 有两种东西, 我对它们的思考越是深沉和持久, 它们在我心灵中唤起的惊奇和敬畏就会日新月异, 不断增长, 这就是我头上的星空和心中的道德定律。 -- 康德 《实践理性批判》 初探递归算法 1 递归算…

AI预测体彩排3采取888=3策略+和值012路一缩定乾坤测试6月2日预测第9弹

今天继续基于8883的大底进行测试,今天继续测试,好了,直接上结果吧~ 首先,888定位如下: 百位:5,4,7,3,2,9,1,0 十位:4,6,5,7,2,9,1,0 个位:3,4,2,5,…

车流量智能监测识别摄像机

车流量智能监测识别摄像机是一项革命性的技术,正在为城市交通管理带来巨大改变。这种摄像机利用先进的人工智能和图像识别技术,能够实时监测道路上的车流量,并对车辆进行智能识别和分类,从而实现对交通流量的精准监测和管理。 与传…

Day02 设计首页导航条

设计首页导航条 导航条的样式,主要是从Material DesignThemes UI 拷贝过来修改的,项目用了这个UI组件库。就看项目需要什么,就去源码拷过来使用。 直接下载源码,编译运行就可以看到Demo 了 下载后且正常编译成功了,是能正常跑起来…

iOS——类与对象底层探索

类和对象的本质 当我们使用OC创建一个testClass类并在main函数创建它的实例对象的时候,OC的底层到底是什么样的呢? 首先,我们要了解OC对象的底层结构,那么我们就得知道:OC本质底层实现转化其实都是C/C代码。 使用下面…

“can not run elasticsearch as root“如何解决

这个错误信息表明 Elasticsearch 在尝试启动时遇到了问题,具体是因为它不能以 root 用户身份运行。Elasticsearch 设计为不应该以 root 用户运行,因为这可能会带来安全风险。以 root 用户运行可能会导致 Elasticsearch 进程拥有过多的权限,从…

Caliburn.Micro框架学习笔记——IOC配置

如果我们想要自己写的程序更加模块化,这个时候就需要考虑IOC容器注入的思维。在使用Caliburn.Micro时该如何配置?其基本步骤如下—— 安装 Caliburn.Micro 包。创建并配置 AppBootstrapper 类。配置 App.xaml 以使用 AppBootstrapper 启动应用程序。创建…

spoon工具的常用基础操作

一些常用转换工具 1、emp表输入->excel表输出 emp表输入,可以进行预览查看数据有没有过来excel表输出 成功执行后,可以到保存的excel位置进行查看。 2、excel输入->表输出 运行转换后可以在oracle进行查看是否有成功创建这个表 3、对部门最高…

【人工智能003】图像识别算法模型实战及经验总结(最近更新中)

1.熟悉、梳理、总结数据分析实战中的AI图像识别等实战研发知识体系,这块领域很大,需要耗费很多精力,逐步总结、更新到位,,, 2.欢迎点赞、关注、批评、指正,互三走起来,小手动起来&am…