数据治理内容

https://space.bilibili.com/405479587 文章内容来源b站up主,语兴呀

数据治理内容
一.模型:
由于早期业务快速扩张,对元数据把控不到位,导致成熟期出现大量不合规模型
解决:数据标准:元数据补充
建设管控:大的需求进行模型评审
定期扫描:不规范的模型分层引用、模型跨ods层依赖,空表、未更新表等
烟囱模型及时下线:烟囱表及时切换/下线,提升核心数据模型复用率

二、资源
存储:
业务发展中,存在大量无用待下线的数据表,及生命周期设定过长的数据表,未做整治,梳理出长期未被使用/引用模型,及生命周期不符合当前标准模型,未分区,空表,文件数,文件格式等(通过数据血缘模型或平台捞出)

	方案:设置合理的表周期长期未引用、使用表下线压缩、存储格式优化:ods使用zlib压缩、dwd, 使用parquet+snappy dm准备由parquet+snappy 转为parquet+zstd定期扫描:空表:表格式、未设置生命周期、未设置分区切换数据格式计算:梳理出数据倾斜,消耗大,运行时间过长,空跑等任务(通过meta模型或平台捞出)1.根据梳理的存储,下线相对应的计算任务2.运行时长过长、资源消耗大任务找原因3.针对任务调度时间规划不合理,导致凌晨时间段资源消耗较高任务,提前/延后任务调度时间,做到资源合理分配利用4、对于数据价值较低/烟囱开发/无效监控项任务,需要及时下线或将字段迁移至核心表5、规划核心任务 并分配任务执行优先级 把非核心的任务靠后运行6、小文件治理 :spark3、定期扫描、合并

如何评价一个数仓的好坏
从技术方面,数据仓库应该具有成本、质量、效率要求,安全方向方面的能力,从业务方面,数据仓库应该支撑业务建设,覆盖尽可能多的业务场景,需要数据时能够及时取到,能满足业务数据化需求

1.数据质量评估方法:准确性、及时性、一致性、流程完整性流程:事前预防:监控。事后复盘:完善dqc规则和告警
2.模型建设评估方法:规范度、元数据完善度、复用度、稳定性、扩展性、合理性
3.数据安全评估方法:角色权限是否划分、权限管控、数据表是否分级、对外数据是否脱敏
4.成本、性能评估方法:无用表、任务是否及时下线、表生命周期是否合理、数据倾斜任务数、运行时长过长任务数、空跑任务、小文件过多数据表、成本管理
5.用户用数体验
6.数据资产覆盖

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/31304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于长短期神经网络LSTM时间序列回归分析

​目录 背影 摘要 LSTM的基本定义 LSTM实现的步骤 基于长短期神经网络LSTM的回归分析 MATALB代码:基于长短期神经网络的回归分析,基于LSTM的回归预测资源-CSDN文库 https://download.csdn.net/download/abc991835105/88184633 效果图 结果分析 展望 参考论文 背影 LSTM神经…

AutoDL服务器的镜像版本太高,配置python3.7 tensorflow1.15版本的框架的步骤

1.选择一个实例,进入后端界面 2. 更新bashrc中的环境变量 conda init bash && source /root/.bashrc查看虚拟环境 conda info --envs可以看到此时有一个base的虚拟环境 但是它的python版本为3.8.10,无法安装tensorflow1.15,所以我们要创建一个…

PHP面向对象面试题

1、简述面对对象六大设计原则 ? 面向对象六大设计原则是一组指导软件设计的原则,它们有助于提高代码的可维护性、可扩展性和可重用性。这些原则是: 单一职责原则(Single Responsibility Principle,SRP)&a…

Ctfshow web入门 SSTI 模板注入篇 web361-web372 详细题解 全

CTFshow SSTI web361 笔记分享 一、代码块 变量块 {{}} 用于将表达式打印到模板输出 注释块 {##} 注释 控制块 {%%} 可以声明变量,也可以执行语句 {% for i in .__class__.__mro__[1].__subclasses__() %}{% if i.__name___wrap_close %}{% print i.__init__.…

Nacos服务治理—负载均衡

引入负载均衡 在消费方引入负载均衡机制&#xff0c;同时简化获取服务提供者信息的流程 Spring Cloud引入组件LoadBalance实现负载均衡 添加依赖 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-web<…

高等数学:圆周率的计算方法

文章目录 1 割圆术2 无穷级数2.1 拉马努金(Ramanujan)圆周率公式2.2 Chudnovsky圆周率公式2.3 BBP公式2.4 其他级数(1) 自然数倒数偶次方和(2) 泰勒展开(3) 无穷乘积 3 微积分4 概率学(Monte Carlo)5 连分数6 总结 本文将对圆周率 π \color{red}{\pi} π的计算方法作简单整理&…

js 正则表达式

js 正则表达式 http://tool.oschina.net/regex https://developer.mozilla.org/zh-CN/docs/Web/JavaScript/Guide/Regular_Expressions 11 22 333

学习pytorch 3 tensorboard的使用

tensorboard的使用 1. 安装2. add_scalar 查看函数图形3. 查看结果4. add_image() 查看训练步骤中间结果的图片 1. 安装 pytorch conda环境 pip install tensorboard pip install opencv-python2. add_scalar 查看函数图形 常用来查看 train val loss等函数图形 from torch…

解决:Unexpected ‘debugger‘ statement.eslint(no-debugger) (即:页面中的 debugger 标红)的问题

1、问题描述&#xff1a; 其一、报错为&#xff1a; Unexpected debugger statement.eslint(no-debugger) 中文为&#xff1a; 意外的“调试器”语句.eslint&#xff08;无调试器&#xff09; 其二、问题描述为&#xff1a; 在正常的 vue 项目中使用 debugger 的调试过程…

Android上的基于协程的存储框架

在Android上&#xff0c;经常会需要持久化本地数据&#xff0c;比如我们需要缓存用户的配置信息、用户的数据、缓存数据、离线缓存数据等等。我们通常使用的工具为SharePreference、MMKV、DataStore、Room、文件等等。通过使用现有的存储框架&#xff0c;结合协程&#xff0c;我…

十分钟python入门 正则表达式

正则常见的三种功能&#xff0c;它们分别是&#xff1a;校验数据的有效性、查找符合要求的文本以及对文本进行切割和替换等操作。 1.元字符 所谓元字符就是指那些在正则表达式中具有特殊意义的专用字符 元字符大致分成这几类&#xff1a;表示单个特殊字符的&#xff0c;表示…

hbuiderx 连接mumu12

原文地址&#xff1a;HbuilderX 如何使用MUMU模拟器调试--详细配 HbuilderX 如何使用MUMU模拟器调试--详细配置&#xff01;_hbuilderx mumu_一只大黑洋的博客-CSDN博客

Python-OpenCV中的图像处理-图像平滑

Python-OpenCV中的图像处理-图像平滑 图像平滑平均滤波高斯模糊中值模糊双边滤波 图像平滑 使用低通滤波器可以达到图像模糊的目的。这对与去除噪音很有帮助。其实就是去除图像中的高频成分&#xff08;比如&#xff1a;噪音&#xff0c;边界&#xff09;。所以边界也会被模糊…

K8s实战入门(三)

文章目录 3. 实战入门3.1 Namespace3.1.1 测试两个不同的名称空间之间的 Pod 是否连通性 3.2 Pod3.3 Label3.4 Deployment3.5 Service 3. 实战入门 本章节将介绍如何在kubernetes集群中部署一个nginx服务&#xff0c;并且能够对其进行访问。 3.1 Namespace Namespace是kuber…

ROS入门-第 1 章 ROS概述与环境搭建

目录 第 1 章 ROS概述与环境搭建 1.1 ROS简介 1.1.1 ROS概念 1.1.2 ROS设计目标 1.1.3 ROS发展历程 1.3 ROS快速体验 1.3.1 HelloWorld实现简介 1.3.2 HelloWorld&#xff08;C版&#xff09; 步骤 1&#xff1a;创建工作空间 步骤 2&#xff1a;创建发布者节点 步骤…

缓存平均的两种算法

引言 线边库存物料的合理性问题是物流仿真中研究的重要问题之一,如果线边库存量过多,则会对生产现场的布局产生负面影响,增加成本,降低效益。 写在前面 仿真分析后对线边Buffer的使用情况进行合理的评估就是一个非常重要的事情。比较关心的参数包括:缓存位最大值…

Hugging Face 的文本生成和大语言模型的开源生态

[更新于 2023 年 7 月 23 日: 添加 Llama 2。] 文本生成和对话技术已经出现多年了。早期的挑战在于通过设置参数和分辨偏差&#xff0c;同时控制好文本忠实性和多样性。更忠实的输出一般更缺少创造性&#xff0c;并且和原始训练数据更加接近&#xff0c;也更不像人话。最近的研…

火车站售票管理系统设计与实现

摘 要 一个大型的计算机管理系统必须有一个正确的设计指导思想,通过合理的选择数据结构,操作系统以及开发环境,构成一个完善的网络系统,才能充分发挥计算机信息管理优势。现代化的车站售票是集预定车票、售票 、退票、车次查询、报表及其他各种服务,车站售票组织庞大,…

C++:堆排序

堆排序 输入一个长度为n的整数数列&#xff0c;从小到大输出前m小的数 输入格式 第一行包含整数n和m 第二行包含n个整数&#xff0c;表示整数数列 输出格式 共一行&#xff0c;包含m个整数&#xff0c;表示整数数列中前m小的数 数据范围 1 ≤ m ≤ n ≤ 1 0 5 1\le m\le …

16通道AD采集FMC子卡推荐哪些?

FMC149是一款16通道65MHz采样率14位直流耦合AD采集FMC子卡&#xff0c;符合VITA57.1规范&#xff0c;可以作为一个理想的IO模块耦合至FPGA前端&#xff0c;16通道AD通过FMC连接器&#xff08;HPC&#xff09;连接至FPGA从而大大降低了系统信号延迟。 该板卡支持板上可编程采样…