读数据质量管理:数据可靠性与数据质量问题解决之道03数据目录

1. 同步数据

1.1. 不同的数据仓库和数据湖通过数据集成层来进行桥接

1.2. AWS Glue、Fivetran和Matillion等数据集成工具从不同来源收集数据,统一这些数据,并将其转换为上游来源

1.3. 数据集成的一个典型用例是收集数据湖的数据并以结构化格式将其加载到数据仓库中

1.4. ETL是数据集成中一个众所周知的过程

  • 1.4.1. ETL通常描述集成的步骤,其中首先从一个或多个数据存储库中提取数据,转换为新的结构或格式,最后加载到目标数据存储库中

2. 收集数据质量指标

2.1. 你无法修复你无法测量的东西

  • 2.1.1. 如果没有数据质量指标,你就无法获得数据质量

2.2. 数据宕机的时间(也就是你的数据不完整、有错误、出现缺失或者其他不准确的时间段)来度量数据质量

  • 2.2.1. 公司会仔细度量宕机时间,并投入大量资源来避免发生服务中断的情况

2.3. 问题列表

  • 2.3.1. 数据是最新的吗?

  • 2.3.2. 数据是完整的吗?

  • 2.3.3. 字段是否在预期的范围内?

  • 2.3.4. 空值率是否高于或低于应有的水平?

  • 2.3.5. 模式是否已经更改?

2.4. 可扩展性

  • 2.4.1. 跟踪大量的表和大数据集可能会非常棘手

2.5. 监控栈的其他部分

  • 2.5.1. 构建真正可靠的数据管道并实现数据可观测性需要的远不只是收集指标这么简单

2.6. Snowflake

  • 2.6.1. Snowflake是最流行的云数据仓库工具之一,其设计从一开始就优先考虑了数据质量和数据完整性

  • 2.6.2. 映射清单

  • 2.6.3. 监控数据的新鲜度和容量

    • 2.6.3.1. 度量视图的新鲜度和容量并不简单,因为这是底层查询指令中包含的表的函数
  • 2.6.4. 建立你的查询历史记录

    • 2.6.4.1. 拥有在Snowflake环境中运行的所有查询的可靠历史记录是解决问题时非常有用的工具,它可以让你准确了解最近一次写入表的方式和时间
  • 2.6.5. 健康检查

2.7. 数据仓库最重要的功能之一就是能够直接从其中提取数据质量指标并将其可视化以便进行简单的分析

2.8. 为跟踪数据质量指标而提取的信息需要随时能够提供给团队中的其他成员使用,特别是当事情发生变化或你正处于对数据管道进行根因分析的痛苦之中时

3. 查询日志

3.1. 问题

  • 3.1.1. 谁在访问这些数据?

  • 3.1.2. 来自上游的哪里?

  • 3.1.3. 来自上游的哪里?

  • 3.1.4. 平均多久执行一次特定的转换?

  • 3.1.5. 有多少行会受到影响?

3.2. 查询日志表通常仅存储某些天数的查询历史记录,且其中所包含的信息比数据质量计划所需要的多得多

3.3. 一个处理数据质量指标查询日志的健壮的解决方案需要具有前瞻性,并将所需的指标和聚合存储在一个更为永久的位置

4. 数据目录

4.1. 数据栈中的另一个关键元素是数据目录,它在理解数据质量方面起着重要的作用

  • 4.1.1. 数据目录作为元数据清单,为投资者提供了评估数据可访问性、健康状况和位置所需的信息

  • 4.1.2. 不仅可以监测数据,还可以与机器学习和自动化相集成,让数据更易于被发现、更具协作性,并且更符合当前组织、行业甚至政府的相关规则

4.2. 由于数据目录提供了有关公司数据源的单一真相来源,因此你可以很容易地利用数据目录来管理管道中的数据

  • 4.2.1. 数据目录可以用来存储元数据,让利益相关方更好地了解特定来源的沿袭,从而增强对数据本身的信任

  • 4.2.2. 数据目录可以方便地记录个人身份信息的存放位置和下游蔓延位置,以及组织中谁有权通过管道来访问这些信息

4.3. 问题

  • 4.3.1. 应该在哪里查找数据?

  • 4.3.2. 这些数据重要吗?

  • 4.3.3. 这些数据代表了什么?

  • 4.3.4. 这些数据的相关性和重要性如何?

  • 4.3.5. 该如何使用这些数据?

4.4. 传统上使用Excel来解决数据编目问题的方式

  • 4.4.1. 自动化能够让数据工程师和分析师腾出时间来专注于真正能取得进展的项目

4.5. 当前存储的大部分数据都是非结构化且高度流动的

  • 4.5.1. 人们越来越需要根据数据的意图和目的来理解数据,而不是简单地描述消费者访问和使用的数据

  • 4.5.2. 数据编目可以发现并组织恰当的元数据来解释你的数据管道

4.6. 构建数据目录

  • 4.6.1. 在构建或投资数据目录之前,你需要与运营和分析团队的下游利益相关方一起合作,了解哪些数据对业务最为重要,从而需要进行记录和编目

  • 4.6.2. 最基本的,数据目录是元数据集合,可提供对数据位置、所有权和潜在用例的背景信息和洞察

  • 4.6.3. Sqlparse、ANTLR、Apache Calcite和MySQL的SQL Parser都是流行的开源SQL解析解决方案

  • 4.6.4. GraphQL、REST和Cube.js等开源查询语言工具将允许你在数据库中查询SQL并将其呈现在编目可视化服务中

  • 4.6.5. Amundsen、Apache Atlas、DataHub或CKAN

  • 4.6.6. 当你拥有严格的模型时,数据目录的效果很好,但随着数据管道变得越来越复杂,非结构化数据开始成为黄金标准,我们对数据的理解(数据做什么、谁在使用它、如何使用它)并不能反映现实情况

  • 4.6.7. 下一代数据目录将具有学习、理解和推断数据的能力,让用户能够以自助式服务的方式利用其洞察力

    • 4.6.7.1. 数据目录将支持自动数据发现和主动元数据
  • 4.6.8. 数据管理策略还必须包含数据发现,这是一种实时了解分布式数据资产健康状况的新方法

    • 4.6.8.1. 数据发现借鉴了Zhamak Dehghani和Thoughtworks的数据网格模型提出的面向领域的分布式架构,认为不同的数据所有者都应对其数据产品负责,并推动不同位置的分布式数据之间的通信

    • 4.6.8.2. 一旦数据被提供给某一特定领域并在该领域转换后,该领域数据的所有者就可以利用这些数据来满足其自身的运营或分析需求

  • 4.6.9. 数据发现取代了对数据目录的需要,它根据一组特定消费者如何摄取、存储、聚合和使用数据,提供了对特定领域数据的动态解读

    • 4.6.9.1. 数据治理的标准和工具同样是跨领域联合的,以支持更高的可访问性和互操作性

    • 4.6.9.2. 数据发现可以实时了解数据的当前状态,而不是其理想状态或“编目”状态

4.7. 以数据质量为优先的数据目录

  • 4.7.1. 自助式服务的数据发现与自动化

    • 4.7.1.1. 即使没有专门的支持团队,数据团队也应该能轻松利用其数据目录

    • 4.7.1.2. 自助式服务、自动化和工作流编排等数据工具消除了数据管道各阶段之间及其过程中产生的孤岛,让数据变得更容易理解和访问

    • 4.7.1.3. 更高的可访问性自然会提高数据的采用率,从而减轻数据工程团队的负担

  • 4.7.2. 随数据演变的可扩展性

    • 4.7.2.1. 随着公司接收越来越多的数据且非结构化数据开始成为常态,通过扩展来满足这些需求的能力对于数据计划的成功将变得至关重要
  • 4.7.3. 用于分布式数据发现的数据沿袭

    • 4.7.3.1. 数据发现严重依赖自动化表格和字段级的沿袭来映射数据资产之间的上下游依赖关系

    • 4.7.3.2. 数据发现让数据团队能够相信团队对数据的假设与现实相符,从而在不考虑领域的前提下,在数据基础设施中实现动态发现和高度的可靠性

    • 4.7.3.3. 你的团队可能已经以某种方式在数据发现方面进行了投资,无论是通过团队为验证数据而正在进行的手动工作,还是通过工程师编写的自定义验证规则,或者仅仅是基于损坏的数据或未被察觉的隐性错误所做出的决策成本

4.8. 要获得真正可发现的数据,很重要的一点在于数据不仅要“编目”​,而且从摄取到利用这一过程要准确、干净且完全可观测

  • 4.8.1. 要可靠

  • 4.8.2. 只有了解你的数据及其状态,以及在其生命周期的所有阶段和跨领域的使用方式,我们才能开始信任它

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/885975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据库】数据库迁移的注意事项有哪些?

数据库迁移是一个复杂且关键的过程,需要谨慎处理以确保数据的完整性和应用程序的正常运行。以下是一些数据库迁移时需要注意的事项: 1. 充分的前期准备 1.1 评估迁移需求 明确目标:确定迁移的具体目标,例如添加新字段、修改现…

LabVIEW开发相机与显微镜自动对焦功能

自动对焦是显微成像系统中的关键功能,通常由显微镜的电动调焦模块或特定的镜头系统提供,而工业相机则主要用于高分辨率图像的采集,不具备独立的自动对焦功能。以下是自动对焦的工作原理、实现方式及实际应用案例。 1. 自动对焦的工作原理 &a…

ReactPress与WordPress:两大开源发布平台的对比与选择

ReactPress与WordPress:两大开源发布平台的对比与选择 在当今数字化时代,内容管理系统(CMS)已成为各类网站和应用的核心组成部分。两款备受欢迎的开源发布平台——ReactPress和WordPress,各自拥有独特的优势和特点&am…

京东商品详情,Python爬虫的“闪电战”

在这个数字化的时代,我们每天都在和数据打交道,尤其是电商数据。想象一下,你是一名侦探,需要快速获取京东上某个商品的详细信息,但是没有超能力,怎么办?别担心,Python爬虫来帮忙&…

np.zeros_like奇怪的bug

import numpy as np aa np.array([[1,2,3],[2,3,3]]) cc np.random.randn(2,3) print(aa) print(cc)bb np.zeros_like(aa) print(bb)for i in range(bb.shape[0]):for j in range(bb.shape[1]):bb[i,j] cc[i,j]print(bb)结果如下 这里发现这个bb的结果是没有赋值的 正确做…

【时间之外】IT人求职和创业应知【34】-人和机器人,机器人更可靠

目录 新闻一:人形机器人产业持续高速增长,2026年中国市场规模将突破200亿元 新闻二:AI技术驱动设备厂商格局变化,部分厂商市占率快速提升 新闻三:华为与江淮汽车携手打造超高端品牌“尊界”,计划于明年春…

连接实验室服务器并创建虚拟环境,从本地上传文件到linux服务器,使用requirement.txt安装环境需要的依赖的方法及下载缓慢的解决方法(Linux)

文章目录 一、连接实验室服务器并创建虚拟环境二、从本地上传文件到linux服务器三、使用requirement.txt安装环境需要的依赖的方法及下载缓慢的解决方法(Linux)四、查看虚拟环境中安装包位置五、Linux scp命令复制文件报错: not a regular file六、pycharm远程ssh连…

WebSocket和HTTP协议的性能比较与选择

WebSocket和HTTP协议的性能比较与选择 引言: 在web应用开发中,无论是实时聊天应用、多人在线游戏还是实时数据传输,网络连接的稳定性和传输效率都是关键要素之一。目前,WebSocket和HTTP是两种常用的网络传输协议,它们…

Prompt Engineering 提示工程

一、什么是提示工程(Prompt Engineering) Prompt 就是发给大模型的指令,比如讲个笑话、用 Python 编个贪吃蛇游戏等;大模型只接受一种输入,那就是 prompt。本质上,所有大模型相关的工程工作,都是…

智慧水利综合解决方案

1. 引言 智慧水利综合解决方案集成了先进的信息技术与水利专业知识,旨在提升水资源管理与防洪减灾能力,实现水利管理的智能化与高效化。 2. 数字孪生技术 方案利用数字孪生技术构建流域数字模型,通过高精度模拟仿真,为水资源调度…

网络安全工程师要考什么证书

在当今数字化时代,网络安全已成为各行各业不可忽视的重要领域。随着网络攻击手段的不断升级,企业对网络安全人才的需求也日益迫切。网络安全工程师作为这一领域的专业人才,承担着保护企业信息安全、防范网络威胁的重要职责。那么,…

Python在数据科学中的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 Python在数据科学中的应用 Python在数据科学中的应用 Python在数据科学中的应用 引言 Python 概述 定义与特点 发展历程 Python…

机器学习:决策树——ID3算法、C4.5算法、CART算法

决策树是一种常用于分类和回归问题的机器学习模型。它通过一系列的“决策”来对数据进行分类或预测。在决策树中,每个内部节点表示一个特征的测试,每个分支代表特征测试的结果,而每个叶节点则表示分类结果或回归值。 决策树工作原理 根节点&…

大数据-221 离线数仓 - 数仓 数据集市 建模方法 数仓分层 ODS DW ADS

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

aws中AcmClient.describeCertificate返回值中没有ResourceRecord

我有一个需求,就是让用户自己把自己的域名绑定我们的提供的AWS服务器。 AWS需要验证证书 上一篇文章中我用php的AcmClient中的requestCertificate方法申请到了证书。 $acmClient new AcmClient([region > us-east-1,version > 2015-12-08,credentials>[/…

C++20 概念与约束(2)—— 初识概念与约束

《C20 概念与约束(1)—— SFINAE》 ●《C20 概念与约束(2)—— 初识概念与约束》 《C20 概念与约束(3)—— 约束的进阶用法》 1、概念 C20 中引入新的编译期关键字 concept 用于创建概念。个人认为将其…

拦截器实现http请求访问本地图片

本文来记录下拦截器实现http请求访问本地图片 文章目录 概述代码实现本文小结 概述 如下图,本机(服务器)存储的图片想要在浏览器上通过Url地址访问: 浏览器直接访问 代码实现 烂机器实现文件真实地址和物理地址之间的映射 Slf4j Configuration public cl…

Python技巧:查询模块的版本号的方法

1,pycharm里面的 Python interpreter 或者 Python package 2,通过 __version_info__ import matplotlib print(matplotlib.__version_info__) 3,查看目录里面的 _version.py 文件

计算机网络——HTTP篇

基础篇 IOS七层网络模型 TCP/IP四层模型? 应⽤层:位于传输层之上,主要提供两个终端设备上的应⽤程序之间的通信,它定义了信息交换的格式,消息会交给下⼀层传输层来传输。 传输层的主要任务就是负责向两台设备进程之间…

Unity插件NodeCanvas之行为树的详细教程

文章目录 前言叶节点 Leafs1、行为 Action2、判断 Condition控制组件 Composites1、顺序执行器 Sequencer2、选择执行器 Selector3、概率选择执行器 Probability Selector4、权重选择执行器 Priority Selector5、平行执行器 Parallel6、轮流选择器 Flip Selector7、完整执行器 …