10分钟了解数据质量管理-奥斯汀格里芬 Apache Griffin

在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治理在很多企业的全面开展与落地,数据质量的问题开始引起重视。

1.Griffin简介

Griffin是一个开源的大数据数据质量解决方案,由eBay开源,它支持批处理和流模式两种数据质量检测方式,是一个基于Hadoop和Spark建立的数据质量服务平台 (DQSP)。它提供了一个全面的框架来处理不同的任务,例如定义数据质量模型、执行数据质量测量、自动化数据分析和验证,以及跨多个数据系统的统一数据质量可视化。

Griffin于2016年12月进入Apache孵化器,Apache软件基金会2018年12月12日正式宣布Apache Griffin毕业成为Apache顶级项目。

Griffin官网地址:https://griffin.apache.org/

Github地址:https://github.com/apache/griffin

Apache Giffin目前的数据源包括HIVE, CUSTOM, AVRO, KAFKA。Mysql和其他关系型数据库的扩展根据需要进行扩展。

各部分的职责如下:

Define:主要负责定义数据质量统计的维度,比如数据质量统计的时间跨度、统计的目标(源端和目标端的数据数量是否一致,数据源里某一字段的非空的数量、不重复值的数量、最大值、最小值、top5的值数量等)

Measure:主要负责执行统计任务,生成统计结果

Analyze:主要负责保存与展示统计结果

注册数据,把想要检测数据质量的数据源注册到griffin。

配置度量模型,可以从数据质量维度来定义模型,如:精确度、完整性、及时性、唯一性等。

配置定时任务提交spark集群,定时检查数据。

在门户界面上查看指标,分析数据质量校验结果

项目有提供Restful 服务来完成 Apache Griffin 的所有功能,例如探索数据集、创建数据质量度量、发布指标、检索指标、添加订阅等。因此,开发人员可以基于这些 Web 开发自己的用户界面服务。

Griffin 系统分为:数据收集处理层(Data Collection&Processing Layer)、后端服务层(Backend Service Layer)和用户界面(User Interface)

数据收集处理层

模型引擎(Model Engine)是核心,Griffin 是模型驱动的解决方案。基于目标数据集,可以选择不同的数据质量维度执行目标数据质量验证。

内置的程序库能 batch 和 streaming 两种类型的数据源:

  • 对于 batch 数据,通过数据连接器从 Hadoop 平台收集数据。
  • 对于 streaming 数据,可以连接到消息系统(kafka)做近似实时数据分析。

在拿到数据之后,模型引擎将在 spark 集群中计算数据质量。

后端服务层

服务层有三个关键组件:

  • 核心服务:管理元数据,如:模型定义、订阅管理和用户定制等
  • 作业调度:根据模型的定义创建并调度作业,触发模型引擎的运行并取得度量值结果,然后存储度量值,在检测到数据质量问题时发送电子邮件通知。
  • 接口服务:提供 REST 接口服务,如:注册数据资产,创建数据质量模型,度量发布,度量检索,添加订阅等等。可以基于这些接口服务开发自己的用户界面。

用户界面

Griffin 有一个内置的可视化工具,基于 AngularJS 和 eCharts 开发的。

Griffin 代码结构,可对照上面的三层划分

  • griffin-doc 管理文档
  • measure 执行统计任务,通过 Livy 提交任务到 Spark。模型定义。
  • service 服务层,提供管理接口
  • ui 内置的展示层

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4734.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue--关于v-model指令

语法糖 v-model即可以作用于表单元素,又可作用于自定义组件,无论是哪一种情况,它都是一个语法糖,最终会生成一个属性和一个事件。 当其作用于表单元素时,vue会根据作用的表单元素类型而生成合适的属性和事件。例如&a…

Vue2中实现聊天界面滚动条自动滑动到最底部

背景: 实现一个类似于 chatGpt 的聊天界面,发送消息后页面滚动条会自动滑动到底部,如图: 百度了一波方法 : 但是不知为何,我在项目里使用此方法不生效? 我甚至尝试了使用类名获取方式 &#x…

代谢组数据分析六:其他分析

Other Analysis {#OtherAnalysis} 除了常见的功能分析,还有其他的功能分析方法或R包。本章节主要介绍其他功能分析的方法以及结果解析。 所需要的数据:链接: https://pan.baidu.com/s/1xezhpZRebCsct0AtlDpSHg 提取码: 2djy FELLA: an R package to enrich metabolomics d…

Pycharm配深度学习环境所遇到的部分问题

问题1:Anaconda prompt界面安装CUDA出现的问题: 不管是:conda install pytorch torchvision torchaudio cudatoolkit11.3 -c pytorch 还是:pip ****什么的 问题描述:EnvironmentNotWritableError: The current user does not have write p…

html 中 meta 标签的属性详解

html 中 meta 标签的属性详解 \<meta> 标签是什么\<meta> 标签常用属性\<meta> 标签非常用属性 <meta> 标签是什么 <meta> 标签是 HTML 中用于描述网页元信息的元素。它位于 <head> 部分&#xff0c;不会显示在页面内容中&#xff0c;但对…

技术团队的管理方法和日常总结建议

管理学家德鲁克有言“管理是一种实践&#xff0c;其本质不在于知&#xff0c;而在于行&#xff0c;其验证不在于逻辑&#xff0c;而在于成果&#xff0c;其唯一的权威就是成就” &#xff0c;因此管理重实践看效果&#xff0c;但如果管理实践有理论依凭&#xff0c;那么实践起来…

android 如何显示网络地址对应的图片

1.android 如何显示网络地址对应的图片 在Android中显示网络地址对应的图片&#xff0c;通常有多种方法可以实现。以下是几种常见的方法&#xff1a; 1. 使用ImageView和Picasso库 Picasso是一个强大的图片加载库&#xff0c;它可以方便地加载网络图片并显示到ImageView中。 …

JS新语法let

使用let 定义变量 首先看到个有意思的问题&#xff0c;为什么let要叫letWhy was the name ‘let’ chosen for block-scoped variable declarations in JavaScript? 一、let可以定义作用在块级作用域的变量 //语法 let var1 [ value1] [, var2 [ value2]] [, ..., varN [ v…

Docker | 入门:安装与配置

Docker | 入门&#xff1a;安装与配置 Docker 和传统虚拟机区别 对于传统虚拟机&#xff1a; 虚拟出一套硬件&#xff0c;运行一个完整的操作系统&#xff0c;并在这个操作系统上安装和运行软件。 对于 Docker: 将一个个容器隔离开。 容器内的应用直接运行在宿主机的内容&am…

党建3d互动虚拟现实网上展厅有何优势?

在数字化浪潮席卷全球的今天&#xff0c;企业如何迅速踏上虚拟世界的征程&#xff0c;开启元宇宙之旅?答案就是——3D虚拟云展。这一创新平台&#xff0c;华锐视点以虚拟现实技术和3D数字建模为基石提供3D云展搭建服务&#xff0c;助力企业轻松搭建起虚拟数字基础设施&#xf…

基于微信小程序的旅游系统的设计与实现

基于微信小程序的旅游系统的设计与实现 Design and Implementation of a Tourism System based on WeChat Mini Program 完整下载链接:基于微信小程序的旅游系统的设计与实现 文章目录 基于微信小程序的旅游系统的设计与实现摘要第一章 绪论1.1 研究背景与意义1.2 国内外研究…

C语言阶段的题目解析

前言 我们C语言已经学习的差不多了&#xff0c;但是C语言之中存在的一些问题与难点我们还不一定能够又快又好地解决&#xff0c;为了夯实我们的基础&#xff0c;我们来练习几道稍微有点难度的C语言习题吧 例题一 题目 int main(void) {unsigned char i 7;int j 0;for (; i…

2024最新华为OD机试试题库全 -【找单词】- C卷

1. 🌈题目详情 1.1 ⚠️题目 给一个字符串和一个二维字符数组,如果该字符串存在于该数组中,则按字符串的字符顺序输出字符串每个字符所在单元格的位置下标字符串,如果找不到返回字符串“N”。 1.需要按照字符串的字符组成顺序搜索,且搜索到的位置必须是相邻单元格,其…

stm32程序死机怎么回事

STM32程序死机可能由多种因素导致&#xff0c;以下是一些常见的原因及解决方法&#xff1a; 供电问题&#xff1a;供电电压不稳定或不在正常工作电压范围内&#xff0c;电源纹波大小过大&#xff0c;都可能导致STM32死机。此外&#xff0c;供电电源中的干扰杂讯也可能对单片机…

Docker-05 Docker容器命令

一、查看容器 查看正在运行的容器: docker ps属性说明CONTAINER ID容器 IDIMAGE所属镜像COMMAND启动容器时运行的命令CREATED创建时间STATUS容器状态PORTS端口NAMES容器名称查看停止的容器: docker ps -f status=exited查看所有容器(包括运行和停止): docker ps -a查看…

Android如何使用XML自定义属性

1、定义 在res/values文件下定义一个attrs.xml文件&#xff0c;代码如下: 2、使用 在布局中使用&#xff0c; 示例代码如下&#xff1a; 3、获取 最终来到这里&#xff1a;

【计算机网络】成功解决 ARP项添加失败:请求的操作需要提升

最近在用Wireshark做实验时候&#xff0c;需要清空本机ARP表和DNS缓存&#xff0c;所以在cmd窗口输入以下命令&#xff0c; 结果发生了错误&#xff1a;ARP项添加失败&#xff1a;请求的操作需要提升 一开始我还以为是操作的命令升级了&#xff0c;但是后面发现其实只是给的权…

vsftpd常见错误代码比对(转载)

一&#xff1a;500错误 1、500 Internal Server Error 内部服务错误&#xff1a;顾名思义500错误一般是服务器遇到意外情况&#xff0c;而无法完成请求。 2、500出错的可能性&#xff1a; a、编程语言语法错误&#xff0c;web脚本错误 b、并发高时&#xff0c;因为系统资源限制…

C++:string 类

在C中定义一个 std::string 字符串可以采用以下几种方式&#xff1a; 1.使用字符串字面量初始化&#xff1a; std::string str "Hello, world!"; 2.使用构造函数初始化&#xff1a; std::string szStringB("Hello wolven"); 3.使用重复字符初始化&am…

FTP 文件传输协议

FTP 文件传输协议 作用 用来传输文件的 FTP协议采用的是TCP作为传输协议&#xff0c; 21号端口用来传输FTP控制命令的&#xff0c; 20号端口用来传输文件数据的 FTP传输模式&#xff1a; 主动模式&#xff1a; FTP服务端接收下载控制命令后&#xff0c;会主动从tcp/20号端口…