【华为数据之道学习笔记】8-3异常数据监控

        质量控制是通过监控质量形成过程,消除全过程中引起不合格或不满意效果的因素,以达到质量要求而采用的各种质量作业技术和活动。要保证最终交付质量,必须对过程进行质量控制,通常是在过程中设置关键质量控制点。例如,可以在数据录入阶段设置规则程序,从源头避免不可接受的数据进入系统。

        数据质量控制的目的是致力于满足数据质量要求,消除或减少异常数据。数据质量控制可以在数据的生命周期内的不同时点被应用,来测试数据的质量和其是否适合于其所在的系统。

        华为通过数据质量监控平台,以异常数据管理为核心,实施数据质量控制。

        1. 识别监控对象范围,确定监控内容

        数据质量控制从明确业务需求开始,根据业务规划和数据相关方的需求,阶段性确定数据质量控制范围。

        从定性、定量两个维度识别关键数据,定性维度参考以下原则。

        (1)重要性原则

  • 关键主数据和基础数据:公司级、领域级主数据,如产品、客户、供应商、组织、人·关键的事务数据:主交易流的核心事务数据,如客户合同、BOQ、工程服务采购PR、S&OP计划、采购PO。

  • 痛点问题:领域业务运营痛点问题、公司级变革、攻关项目、业务核心KPI等涉及的对象纳入度量,如产品Item。

        (2)成本效益原则

  • 运作成熟且质量较高的数据,或度量成本很高但预期的改进很少的数据,可不优先考虑。

  • 数据管家也可通过收集业务需求、数据质量问题等其他途径从中筛选当前需监控的数据。

        2. 数据源剖析

        在着手设计数据质量规则前,需对数据进行快速数据剖析,目的是分析数据源的内容、质量和结构,同时发现和分析数据源中的所有数据不规范问题和使数据项目处于危险中的隐藏数据问题。

        摘要视图包含属性的可视化表示形式。

        1)数据源内容:如从上述数据源剖析结果的摘要视图中,我们可以了解到此表包含员工工号、姓名等内容,即列信息等。

        2)数据源结构:包括技术结构和业务结构。技术结构指空值频率、相异值频率、值范围(最大值、最小值)、模式、长度、数据类型。业务结构如组织结构存储是平面结构还是树状结构。

        3)数据源质量:根据数据标准分析剖析结果的数据质量,例如必填字段是否有空值存储,有允许值列表中的值个数与相异值频率是否一致等。

        数据剖析可以更好地识别需要监控数据的质量要素。

        3. 设计和配置监控规则,自动监测异常数据

        目前华为数据质量监控平台已实现质量规则的可配置、数字化、快速部署、自动监控识别异常数据等能力,并可随时间推移,制定周期性监控计划,监视数据质量的进展情况,并通过虚拟化的方式快速、灵活发布监控结果。

        可利用自助分析工具开发在线数据质量分析报告,通过前端工具不仅能够查看监控结果汇总数据,而且能够通过钻取功能查看异常明细数据,以便业务人员准确定位业务系统的异常数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/586925.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Dockerfile学习文档

Dockerfile详解 Dockerfile是一个组合映像命令的文本;可以使用在命令行中调用任何命令;Docker通过dockerfile中的指令自动生成镜像。 通过docker build -t repository:tag ./ 即可构建,要求:./下存在Dockerfile文件 之前我们聊的…

SpringMVC源码解析——DispatcherServlet的逻辑处理

DispatcherServlet类相关的结构图如下: 其中jakarta.servlet.http.HttpServlet的父类是jakarta.servlet.GenericServlet,实现接口jakarta.servlet.Servlet。我们先看一下jakarta.servlet.Servlet接口的源码如下: /*** 定义所有servlet必须实…

PHP8的JIT(Just-In-Time)编译器是什么?

PHP8的JIT(Just-In-Time)编译器是什么? PHP8是最新的PHP版本,引入了JIT(Just-In-Time)编译器,以进一步提高性能和执行速度。 JIT编译器是一种在运行时将解释性语言转化为机器码的技术。在过去…

【网络安全】网络隔离设备

一、网络和终端隔离产品 网络和终端隔离产品分为终端隔离产品和网络隔离产品两大类。终端隔离产品一般指隔离卡或者隔离计算机。网络隔离产品根据产品形态和功能上的不同,该类产品可以分为协议转换产品、网闸和网络单向导入产品三种。 图1为终端隔离产品的一个典型…

2022-2023年度广东省职业院校学生专业技能大赛“软件测试”赛项性能测试题目-Jmeter

性能测试-JM 1、脚本添加: 脚本文件名称:SuppAndComp,测试计划名称:SuppAndComp。测试计划下添加两个线程组: (1)线程组一操作内容:系统管理员登录、进行新增供应商操作。 线程组名称SuppAdd。具体要求如下: 登录操作存放到仅一次控制器中,供应商名称前4位为固定…

dash 中的模式匹配回调函数Pattern-Matching Callbacks 8

模式匹配 模式匹配回调选择器 MATCH、ALL 和 ALLSMALLER 允许您编写可以响应或更新任意或动态数量组件的回调函数。 此示例呈现任意数量的 dcc. Dropdown 元素,并且只要任何 dcc. Dropdown 元素发生更改,就会触发回调。尝试添加几个下拉菜单并选择它们的…

Grafana增加仪表盘

1.Grafana介绍 grafana 是一款采用Go语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。 Grafana下载地址:https://grafana.com/g…

burpsuite的安装与介绍

安装(挑一个你喜欢的版本安装就行) 编程环境安装指南:Java、Python 和 Burp Suite抓包工具_burpsuite和java-CSDN博客 简介 Burp Suite是一个用于攻击Web应用程序的集成平台。它集成了多种渗透测试组件,能够帮助我们更好地完成对Web应用的渗透测试和攻击,无论是自动化还…

基于CNN神经网络的手写字符识别实验报告

作业要求 具体实验内容根据实际情况自拟,可以是传统的BP神经网络,Hopfield神经网络,也可以是深度学习相关内容。 数据集自选,可以是自建数据集,或MNIST,CIFAR10等公开数据集。 实验报告内容包括但不限于&am…

nodejs+vue+微信小程序+python+PHP的会议管理系统-计算机毕业设计推荐

会议管理系统可以为公司领导提供会议记录管理功能,公司领导也就是系统的管理员,具有员工管理、公告管理、会议室管理、会议资料管理、会议投票管理、意见收集管理等管理的权限,添加或者删除用户基本信息。管理员需要先进行登录,获…

[C#]opencvsharp进行图像拼接普通拼接stitch算法拼接

介绍: opencvsharp进行图像拼一般有2种方式:一种是传统方法将2个图片上下或者左右拼接,还有一个方法就是融合拼接,stitch拼接就是一种非常好的算法。opencv里面已经有stitch拼接算法因此我们很容易进行拼接。 效果: …

PayPal账户被封是因为什么?如何解决?

Paypal作为跨境出海玩家最常用的付款工具之一,同时也是最容易出现冻结封号现象。保障PP账号安全非常重要,只有支付渠道安全,才不会“白费力气”,那么最重要的就是要了解它的封号原因以做好规避。 一、Paypal账号被封原因 1、账号…

FreeRTOS列表与列表项相关知识总结以及列表项的插入与删除实战

1.列表与列表项概念及结构体介绍 1.1列表项简介 列表相当于链表,列表项相当于节点,FreeRTOS 中的列表是一个双向环形链表 1.2 列表、列表项、迷你列表项结构体 1)列表结构体 typedef struct xLIST { listFIRST_LIST_INTEGRITY_CHECK_VAL…

List常见方法和遍历操作

List集合的特点 有序: 存和取的元素顺序一致有索引:可以通过索引操作元素可重复:存储的元素可以重复 List集合的特有方法 Collection的方法List都继承了List集合因为有索引,所以有了很多操作索引的方法 ublic static void main…

SpringBoot如何优雅的处理免登录接口

在项目开发过程中,会有很多API接口不需要登录就能直接访问,比如公开数据查询之类的 ~ 常规处理方法基本是 使用拦截器或过滤器,拦截需要认证的请求路径。在拦截器中判断session或token信息,如果存在则放行,否则跳转到…

挑战 ChatGPT 和 Google Bard 的防御

到目前为止,科学家已经创建了基于人工智能的聊天机器人,可以帮助内容生成。我们还看到人工智能被用来创建像 WormGPT 这样的恶意软件,尽管地下社区对此并不满意。但现在正在创建聊天机器人,可以使用生成人工智能通过即时注入活动来…

编程笔记 html5cssjs 014 网页布局框架

编程笔记 html5&css&js 014 网页布局框架 一、Bootstrap简介二、使用Bootstrap布局 网页布局不只用HTML,还要用CSS和JAVASCRIPT等技术完成,这里暂时简单了解一下Bootstrap。 一、Bootstrap简介 这是一个开源的前端框架,由Twitter的前端工程师Ma…

OpenHarmony之分布式软总线

背景概述 从之前的文档(OpenHarmony之内核层)可知 分布式软总线是多设备终端的统一基座,为设备间的无缝互联提供了统一的分布式通信能力,能够快速发现并连接设备,高效地传输任务和数据。 分布式软总线实现近场设备间统一的分布式通信管理能…

代码随想录刷题第三十四天| 1005.K次取反后最大化的数组和 ● 134. 加油站 ● 135. 分发糖果

代码随想录刷题第三十四天 K次取反后最大化的数组和 (LC 1005) 题目思路: 代码实现: class Solution:def largestSumAfterKNegations(self, nums: List[int], k: int) -> int:nums.sort(keylambda x: abs(x), reverseTrue)for i in range(len(nums…

Mongodb聚合操作$isNumber

又是mongodb集合的不强制文档具有相同一致的结构产生的问题。Mongodb这种特点,确实带来了灵活强大的优势,但Mongodb的一些操作符和特性看起来在为这种灵活的结构买单。 这次有两个问题。某一个气温监控系统,采用了不同的传感器厂家生产的系统…