浅谈数据仓库运营

一、背景

        企业每天都会产生大量的数据,随着时间增长,数据会呈现几何增长,尤其在系统基建基础好的公司。好的数据仓库需要提前规划和好的运营,才能支持企业的发展,为企业提供数据分析基础。

二、目标

        提高数据仓库存储性能和开发质量以及数据质量

三、数据运营指标

3.1 开发质量

表名规范性:检验数据库表名是否按照数仓表名规范,表名是否按照词根翻译

字段名规范性:检验表字段名是否按照词根中文进行翻译

字段类型规范性:检验表字段类型是否按照数据标准设立

表引用次数:根据表引用次数进行排名,重点关注引用次数高的和次数低的,次数高的定期优化,确保任务执行失败,次数低的考虑数据架构是否合理,如果存在次数为0的说明未使用(很多业务调整但是表还没有拿掉,会存在很多僵尸表)。

表循环依赖:检查数据库表是否存在循环写入(A->B,B->C,C->A),很多公司不存在数据架构师,往往为了实现报表需求,直接拿已经做好的指标,可能会存在循环写入的情况(A表用B表指标1,B表用A表指标2)

表层级依赖:数仓规范会要求ODS只能写入DWD层,DWD层只能写入DWS层。

SQL编写规范性:在sql中我们会要求sql编写规范,不写 select *, 字段后带有注释,字段前有表别名,每个表必须重命名,字段换行等等

3.2 ETL任务

任务失败次数:查看任务失败次数排名,重点关注容易出错的任务

任务执行时长:优化长时间执行任务,降低资源使用

任务读取数据量:查看任务读取数据量大小,大数据量访问的数据库做好性能支撑

任务执行时间点分布:查看任务集中时间点,将任务均匀分布,避免任务集中执行

任务类型分布:查看执行任务类型分布,针对不同类型任务分配资源

3.3 数据质量

一致性:数据值在数据集之间和数据集内之间表达的相符程度

完整性:引用完整性或数据集内部的一致性

准确性:数据模式符合预期程度

及时性:数据更新是否及时

唯一性:数据集的任何实体不会重复出现

有效性:数据值与定义的域值一致

四、实施步骤

定规范:制定数据仓库开发规范,建立词根库,制定数据标准。

定流程:将开发最佳实践落地成流程,做好人岗匹配。

规范落地监控:根据规范开发规范规则监控,识别违法规范行为。

奖罚措施:奖励优秀的开发,惩罚违法开发规范的行为。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/580308.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024 Android保活总结

本文介绍的方案都是无需用户主动开启权限的。如果需要用户主动开启权限或者加白名单之类的话保活的意义就不大了,毕竟用户不大可能主动原因让app一直在后台运行 常规的方案 OnePixelActivity 1,监听SCREEN_OFF启动一个像素的Activity,灭屏…

前端发展趋势:WebAssembly、PWA 和响应式设计

目录 前言 WebAssembly:超越JavaScript的性能 渐进式Web应用(PWA):离线可用和更好的用户体验 响应式设计:适应多种设备 总结 作者简介: 懒大王敲代码,计算机专业应届生 今天给大家聊聊前端…

软件测试面试题——如果保证测试用例覆盖率

如何提高测试用例覆盖率? 在项目的初期,我们参与到需求评审中 1. 覆盖显性需求 需求文档或原型图上已经标注清楚的功能一定要全部覆盖,通过思维导图工具进行梳理一般都能保证。 2. 获取隐含需求 隐含需求的获取是一大难点,但需求就…

iOS - 钥匙串(keychain)中的证书没有右三角,无法导出p12文件

如下图,证书左侧没有小三角形,无法导出 .p12文件 我遇到的问题是,因为CSR文件有问题,只需要重新在钥匙串上重新导出一个CSR文件,然后再重新制作证书即可

SQL使用从入门到优化:目录

一、基础篇 SQL基础:SQL 介绍和数据库基础 SQL基础:操作环境搭建 SQL基础:表的增删改 SQL基础:记录的增删改查 SQL基础:查询的基本使用 SQL基础:范围查询 SQL基础:章节小结 二、进阶篇 …

力扣69. x 的平方根

二分查找 思路: 设置 left 指针为 0,right 指针为 x;如果 mid (right - left) / 2 left 的平方小于或等于 x,此时移动 left mid 1,并缓存当前 mid 值,可能这个 mid 就是结果,或者 x 的平方…

web前端html笔记2

新增状态标签<meter><progress> <meter> 属性 值 描述 high 数值 规定高值 low 数值 规定低值 max 数值 规定最大值 min 数值 规定最小值 optimum 数值 规定最优值 value 数值 规定当前值 <body> <meter high"50" …

Mongodb中一个有趣的数值查询案例

Mongodb集合中并没有强制所有文档具有统一的结构和字段类型。这样宽松的文档结构管理方法&#xff0c;给新数据的插入和以有数据的修改带来了极大的便利。但数据类型的频繁修改&#xff0c;可能参数查询和处理上的问题。 数值类型的变化&#xff0c; 是mongodb面临的一个问题之…

论文降重隐藏字符怎么识别 papergpt

大家好&#xff0c;今天来聊聊论文降重隐藏字符怎么识别&#xff0c;希望能给大家提供一点参考。 以下是针对论文重复率高的情况&#xff0c;提供一些修改建议和技巧&#xff0c;可以借助此类工具&#xff1a; 论文降重隐藏字符的识别方法 一、引言 在论文降重过程中&#xff…

创建ROS的软件包服务器

创建ROS的软件包服务器 前提 1台有公网ip的服务器, 最好有域名 服务器配置 连接到服务器 ssh root域名或ip创建要存放包的路径 mkdir -p /var/ros/ubuntu安装必要的软件 sudo apt update sudo apt install nginx dpkg-dev gnupg在自己的主机编译好ros包, 具体可以看使用自定…

实战10 角色管理

目录 1、角色后端接口 2、角色列表查询 2.1 效果图 2.2页面原型代码 2.3 角色api代码 role.js 2.4 查询角色列表代码 4、 新增和编辑角色 5、删除角色 6、分配权限 6.1 分配权限思路 6.2 分配权限回显接口 6.3 分配权限回显前端实现 6.4分配权限后端接口 6.4.1 R…

重定向和转发的区别

重定向 1、定义 用户通过浏览器发送一个请求&#xff0c;Tomcat服务器接收这个请求&#xff0c;会给浏览器发送一个状态码302&#xff0c;并设置一个重定向的路径&#xff0c;浏览器如果接收到了这个302的状态码以后&#xff0c;就会去自动加载服务器设置的路径 一个页面跳转…

矢量(向量)数据库 Top 5

矢量数据库的前景&#xff08;图片来源&#xff09; 在人工智能领域&#xff0c;大量的数据需要有效的处理和处理。随着我们深入研究更高级的人工智能应用&#xff0c;如图像识别、语音搜索或推荐引擎&#xff0c;数据的性质变得更加复杂。这就是矢量数据库发挥作用的地方。与…

Pandas 高级教程——数据可视化

Python Pandas 高级教程&#xff1a;数据可视化 Pandas 提供了强大的数据可视化工具&#xff0c;可以帮助你更好地理解数据、发现模式和进行探索性数据分析。本篇博客将深入介绍 Pandas 中的数据可视化功能&#xff0c;并通过实例演示如何创建各种图表和图形。 1. 安装 Panda…

nginx-docker 搭建websocket反向代理

下载镜像 docker pull nginx复制出配置文件 将/etc/nginx/nginx.conf和/etc/nginx/conf.d/default.conf复制到本机 nginx.conf文件内容 user nginx; worker_processes auto;error_log /var/log/nginx/error.log notice; pid /var/run/nginx.pid;events {worker_c…

〖运维路不弯〗kubernetes(k8s)部署metrics及hpa-example示例

本例以kubernetes v1.26.0 为例&#xff0c;metrics-server版本为v.06.3&#xff0c;拉取源为阿里云提供 metrics yaml apiVersion: v1 kind: ServiceAccount metadata:labels:k8s-app: metrics-servername: metrics-servernamespace: kube-system --- apiVersion: rbac.auth…

深入探索Spring Boot的核心功能:快速构建原生程序响应式处理数据(文末送书)

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏:《linux深造日志》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! ⛳️ 写在前面参与规则 ✅参与方式&#xff1a;关注博主、点赞、收藏、评论&#xff0c;任意评论&#xff08;每人最多评论…

【MYSQL】MYSQL 的学习教程(八)之 12 种慢 SQL 查询原因

日常开发中&#xff0c;我们经常会遇到数据库慢查询。那么导致数据慢查询都有哪些常见的原因呢&#xff1f;今天就跟大家聊聊导致 MySQL 慢查询的 12 个常见原因&#xff0c;以及对应的解决方法&#xff1a; SQL 没加索引SQL 索引失效limit 深分页问题单表数据量太大join 或者…

PHP对数据库的操作

连接数据库 要在PHP中连接数据库&#xff0c;你需要使用PHP内置的mysqli或PDO扩展。以下是使用mysqli扩展连接MySQL数据库的示例代码&#xff1a; <?php $servername "localhost"; $username "your_username"; $password "your_password&quo…

Python缩写词

缩写词是由一个短语中每个单词的第一个字母组成&#xff0c;均为大写。例如&#xff0c;CPU是短语“central processing unit”的缩写。 函数接口定义&#xff1a; acronym(phrase); phrase是短语参数&#xff0c;返回短语的缩写词裁判测试程序样例&#xff1a; /* 请在这里填…