DataWorks数据质量监控方案

背景

日常的调度监控,可以查看实例任务的运行情况,对运行失败的实例进行告警,但是却无法对运行成功的实例进行数据质量的判断。而有些情况下,即使实例任务运行成功了,数据也仍然存在问题,这时候就需要对数据进行质量监控,配置数据质量规则进行判断和告警,以便及时发现数据质量的问题。

实际例子:监控某表每日分区的数据异常,可以明显看到24/25/27/28四日数据明显异常

方案

Dataworks数据质量

Dataworks提供了数据质量模块,帮助第一时间感知源端数据的变更与ETL(Extract Transformation Load)中产生的脏数据,自动拦截问题任务,有效阻断脏数据向下游蔓延。避免任务产出不符合预期的问题数据,影响正常使用和业务决策。同时也能显著降低问题处理的时间成本,避免任务重新运行带来的资源费用浪费。

步骤一、配置数据质量规则

1.进入数据质量模块,点击按表配置

2.搜索需要监控的表,点击监控配置

3.新建质量监控视角旁的+,新建监控视角

4.设置基本配置:质量监控名称、数据范围

5.添加运行设置,设置为在调度结束后自动运行

6.设置完毕后,点击保存

7.新建质量数据规则:点击新建规则

8.选择需要使用的系统规则模板,设置具体的规则信息:比较方式、监控域值、重要程度等,系统会自动添加至质量监控,点击确认(需要根据实际情况设置)

此时质量规则监控已配置完毕,并且已经启动,每次任务调度结束就会自动进行规则判定。

步骤二、验证数据质量规则

1.点击测试运行

2.设置需要测试等调度时间,点击测试运行,这里可以手动测试运行多个日期,例如测试08-22到08-30

3.测试完毕点击查看详情

4.点击历史运行记录,可以看到刚测试运行的所有日期数据

5.验证数据质量规则是否准确:查看该表分区可以看到,08-24、08-25、08-27、08-28为异常日期,通过此规则,此四天的数据都被判定为数据异常,其他则为正常,说明此规则准确。

步骤三、设置告警

1.点击规则列表,选择设置的数据质量规则,点击告警订阅

2.设置订阅方式和接受对象,点击保存,点击关闭

附录

1、波动率计算公式:波动率 = (样本 - 基准值) / 基准值

  • 样本:当天采集的具体的样本的值。例如对于SQL任务表行数,1天波动检测,则样本是当天分区的表行数。

  • 基准值:历史样本的对比值

7天波动率:以七天前单日数据作为基准

7天平均值波动率:以近七天数据平均值作为基准

说明

  • 如果规则是SQL任务表行数,1天波动率检测,则基准值是前一天分区产生的表行数。

  • 如果规则是SQL任务表行数,7天平均值波动率检测,则基准值是前7天的表行数据的平均值。

2、方差波动计算公式:(当次样本 - 历史N天平均值) / 标准差

说明 BIGINTDOUBLE等数值类型可以使用方差。

参考文档

数据质量

配置数据质量规则

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/53242.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多线程——线程安全

线程安全问题 同时满足以下两个条件时: 多个线程在操作共享的数据。操作共享数据的线程代码有多条。 当一个线程在执行操作共享数据的多条代码过程中,其他线程参与了运算,就会导致线程安全问题的产生。 解决这样的问题就是线程同步的方式来…

揭秘Taboola原生广告:欧美流量变现联盟营销金牌策略

揭秘Taboola原生广告:欧美流量变现的金牌策略 在数字营销日益精进的今天,如何高效地将网站流量转化为实际收益成为了众多欧美网站主关注的焦点。Taboola,作为原生广告领域的佼佼者,凭借其独特的广告展示方式与强大的数据驱动能力…

判断两个yaw角度之差是否超过了90度

一. 判断两个yaw角度之差是否超过了90度 要判断两个 yaw 角度之差是否超过 90 度,你可以通过计算这两个角度的差值,并将其归一化为 [-180, 180] 的范围内。接着,只需判断该差值的绝对值是否大于 90 度。 实现步骤: 计算角度差&…

上海晋名室外危化品暂存柜助力新能源行业发展

近日又有一个SAVEST室外危化品暂存柜项目成功验收交付使用。 用户在日常经营活动中涉及到气瓶和硅粉的室外安全暂存问题,4月下旬在网上看到上海晋名室外暂存柜系列很感兴趣,联系到了销售部钟经理,双方对晋名的室外暂存柜进行了高效的沟通&am…

无人机+应用综合实训室解决方案

随着无人机技术的飞速发展,其在航拍、农业、环境监测、物流运输等多个领域展现出巨大的应用潜力。为了满足职业院校及企业对无人机应用技术型人才的培养需求,唯众紧跟市场趋势,推出了全面且详尽的《无人机应用综合实训室解决方案》。本方案旨…

MACOS安装配置前端开发环境

官网下载安装Mac版本的谷歌浏览器以及VS code代码编辑器,还有在App Store中直接安装Xcode(里面自带git); node.js版本管理器nvm的下载安装如下: 参考B站:https://www.bilibili.com/video/BV1M54y1N7fx/?sp…

【学习AI-相关路程-工具使用-自我学习-jetson模型训练-图片识别-使用模型检测图片-基础样例 (5)】

【学习AI-相关路程-工具使用-自我学习-jetson&模型训练-图片识别-使用模型检测图片-基础样例 (5)】 1 -前言2 -环境说明3 -先行了解(1)整理流程了解(2)了解模型-MobileNet1、MobileNetV2 的主要特性&am…

python源码 PBOCMaster MAC的计算函数及计算过程 2des

注意最后一步要用整个key加密 计算过程: MAC: PBOC-MAC DES算法 密钥 长度16(0x10)字节 57 75 20 4D 69 61 6F 6A 75 6E 40 47 26 44 43 11 初始向量 长度8(0x08)字节 00 00 00 00 00 00 00 00 数据 长度74(0x4A)字节 43 48 45 4E 48 41 4F 2D 50 43 7…

Python股票接口实现量化交易的优势是什么

炒股自动化:申请官方API接口,散户也可以 python炒股自动化(0),申请券商API接口 python炒股自动化(1),量化交易接口区别 Python炒股自动化(2):获取…

MSP430F149实现1.8寸TFT_LCD真彩屏显示

目录 一、功能实现 二、设备准备 三、接线表设计 四、代码实现 五、实现效果 六、代码链接 一、功能实现 实现1.8寸TFT_LCD真彩屏显示。显示数字、图片、字符串等。 二、设备准备 1.TFT_LCD真彩屏(1.8寸) 该真彩屏使用SPI通信。 2.MSP430F149开…

CSRF,SSRF和重放攻击的区别

CSRF是跨站请求伪造攻击,由客户端发起 SSRF是服务器端请求伪造,由服务器发起 重放攻击时将截获的数据包进行重放,达到身份认证等目的 三种是不同的网络安全攻击方式,他们在攻击方式,目标,影响以及防御策略…

微服务CI/CD实践(五)Jenkins Docker 自动化构建部署Node服务

微服务CI/CD实践系列: 微服务CI/CD实践(一)环境准备及虚拟机创建 微服务CI/CD实践(二)服务器先决准备 微服务CI/CD实践(三)gitlab部署及nexus3部署 微服务CI/CD实践(四&#xff09…

【软件设计】常用设计模式--策略模式

软件设计模式(三) 策略模式(Strategy Pattern)1. 概念2. 模式结构3. UML 类图4. 实现方式C# 示例步骤1:定义策略接口步骤2:实现具体策略类步骤3:实现上下文类步骤4:使用策略模式 Jav…

.NET/C#⾯试题汇总系列:基础语法

1. 字符串中string strnull和string str""和string strstring.Empty的区别? string str null;:这种方式声明了一个字符串变量str,并将其初始化为null。这意味着str不指向任何实际的字符串对象。如果你试图访问str的属性或方法&…

HTTPS SEO优势

搜索引擎优化(SEO)是提高网站在搜索引擎结果页(SERP)中的排名以吸引更多访问者的过程。HTTPS作为网站安全的标准,对SEO有着直接和间接的优势: 1. HTTPS作为排名信号 2014年,Google宣布HTTPS成…

穿越机的应用行业!!!

1. 军事领域 侦察与目标搜索:穿越机能够快速穿越危险区域,执行侦察任务,实时获取战场信息,对敌方目标进行精确搜索和定位。其灵活性和机动性使其成为战场上的重要侦察工具。 目标摧毁:经过改装的穿越机可挂载火箭弹或…

华三防火墙第-安全策略02

一 安全策略的图解 安全策略是一种根据报文的属性信息对报文进行精细化转发控制的智能安全防护措施。它 融合了多维度精确报文识别、深度报文检测、安全动作执行、智能策略分析、应用风险调 优等多种安全防护功能,为网络的安全性提供全方位保障。 安全策略运行原理 安全策略对…

CSS实现文字环绕圆形展示

展示区域 代码区域 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><s…

ubuntu20.04搭建kubernetes1.28.13集群配置calico网络插件

写在前面 这里是我在搭建过程中从某站找到的教学视频,搭载的都是最新的,大家可以参考一下 搭建kubernetes集群学习视频: 视频链接。最后面会有我遇见报错信息的所有连接和解决方案,自行查看 不说废话,直接开搭 搭建集群大纲 一、三台虚拟机的初始化 二、三台虚拟机连接…

[240905] 如何使用 JAX 和 Equinox 构建图卷积网络 | Cascadia 字体家族迎来新成员

目录 如何使用 JAX 和 Equinox 构建图卷积网络1 使用邻接矩阵1.1 邻接矩阵表示法1.2 图卷积层实现1.3 计算过程解释 2 使用边列表2.1 边列表表示法2.2 图卷积层实现2.3 代码解析&#xff1a;jax.ops.segment_sum2.4 计算节点度数示例2.5 边列表表示法的优势 3 模型训练3.1 任务…