第十二章元数据管理10分

Q:元数据是数据资产目录
A:错,资源目录。

【元数据管理原则:应规尽规,应收尽收】

12.1 引言

元数据最常见的定义是“关于数据的数据”。这个定义非常简单,但也容易引起误解。可以归类为元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。 【相当于图书馆的目录卡片】 如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据。
与其他数据一样,元数据需要管理。

12.1.2 目标和原则

【元数据最终目标:查询、分析】

12.1.3 基本概念

1.元数据与数据如在简介中所述,元数据也是一种数据,应该用数据管理的方式进行管理。

2.元数据的类型

元数据通常分为三种类型:业务元数据、技术元数据和操作元数据。
【不是描述元数据、结构元数据、管理元数据——这是图书馆类别】

(1)业务元数据
业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
业务元数据的示例包括:
1)数据集、表和字段的 定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据溯源和数据血缘。
7)数据标准。
8)特定的数据元素记录系统。
9)有效值约束。
10)利益相关方联系信息(如数据所有者、数据管理专员)。
11)数据的安全/隐私级别。
12)已知的数据问题。
13)数据使用说明。
(2)技术元数据
技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
技术元数据示例包括:
1)物理 数据库表名和字段名。
2)字段属性。
3)数据库对象的属性。
4)访问权限。
5)数据 CRUD(增、删、改、查)规则。
6)物理数据模型,包括数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL 作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。
(3)操作元数据
操作元数据(Operational Metadata)描述了处理和访问数据的细节,
例如:1)批处理程序的作业执行 日志
2)抽取历史和结果。
3)调度异常处理。
4)审计、平衡、控制度量的结果。
5)错误日志。
6)报表和查询的访问模式、频率和执行时间。
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
8)备份、保留、创建日期、灾备恢复预案。
9)服务水平协议(SLA)要求和规定。
10)容量和使用模式。
11)数据归档、保留规则和相关归档文件。
12)清洗标准。
13)数据共享规则和协议。
14)技术人员的角色、职责和联系信息。

3.ISO/IEC 11179 元数据注册标准

ISO 的元数据注册标准 ISO/IEC 11179 中提供了用于 定义元数据 注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。该标准由以下几部分组成:
第 1 部分:数据元素生成和标准化框架。
第 2 部分:数据元数据分类。
第 3 部分:数据元素的基本属性。
第 4 部分:数据定义的形成规则和指南。
第 5 部分:数据元素的命名和识别原则。
第 6 部分:数据元素的注册。

4.非结构化数据的元数据

【数据湖】

5.元数据来源

(1)应用程序中元数据存储库
(2)业务术语表
业务术语表(Business Glossary)的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。业务词汇表应用程序的构建需满足三个核心用户的功能需求:
1)业务用户(Business users)。数据分析师、研究分析师、管理人员和使用业务术语表来理解术语和数据的其他人员。
2)数据管理专员(Data Stewards)。数据管理专员使用业务术语表管理和定义术语的生命周期,并通过将数据资产与术语表相关联增强企业知识,如将术语与业务指标、报告、数据质量分析或技术组件相关联。数据管理员收集术语和使用中的问题,以帮助解决整个组织的认识差异。
3)技术用户(Technical users)。技术用户使用业务术语表设计架构、设计系统和开发决策,并进行影响分析。
(3)商务智能工具
(4)配置管理工具

(5)数据字典
【90%元数据信息来自数据字典,数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。】
(6)数据集成工具
(7)数据库管理和系统目录
(8)数据映射管理工具
(9)数据质量工具
(10)字典和目录
(11)事件消息工具
(12)建模工具和存储库
(13)参考数据库
(14)服务注册
(15)其他元数据存储

6.元数据架构的类型

(1)集中式元数据架构
(2)分布式元数据架构
(3)联邦式元数据架构

12.2.3 定义元数据架构

1.创建元模型

元模型是存储元数据的数据模型

12.4 方法

12.4.1 数据血缘和影响分析

【数据血缘:由下到上,影响分析:由上到下】

12.4.2 应用于大数据采集的元数据

大数据管理采集、收集、应用最重要的是元数据管理
元数据管理对数据湖管理至关重要

12.6 元数据治理

12.6.4 度量指标

元数据管理环境的建议指标包括:
1)元数据存储库完整性。
将企业元数据(范围内的所有产品和实例)的理想覆盖率与实际覆盖率进行比较。参照元数据管理范围定义的策略。
2)元数据管理成熟度。
根据能力成熟度模型(CMM-DMM)的成熟度评估方法,开发用于判断企业元数据成熟度的指标(参见第 15 章)。
3)专职人员配备。
通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
4)元数据使用情况。
可以通过存储库的访问次数衡量用户对元数据存储库的使用情况和接受程度。在业务实践中,用户引用元数据是一个很难跟踪的指标,可能需要定性的调研措施获取评估结果。
5)业务术语活动。
使用、更新、定义解析、覆盖范围。
6)主数据服务数据遵从性。
显示 SOA 解决方案中数据的重用情况。主数据服务上的元数据帮助开发人员决定新的开发任务可以使用哪些现有服务。
7)元数据文档质量。
一个质量指标是通过自动和手动两种方式评估元数据文档的质量。自动评估方式包括对两个源执行冲突逻辑的比对、测量二者匹配的程度以及随时间推移的变化趋势。另一个度量指标是度量具有定义的属性的百分比,以及随着时间的推移而发生变化的趋势。手动评估方式包括基于企业质量定义进行随机或完整的调查。质量度量表明存储库中元数据的完整性、可靠性、通用性等。
8)元数据存储库可用性。正常运行时间、处理时间(批处理和查询)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/186.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

golang 迷宫回溯算法(递归)

// Author sunwenbo // 2024/4/14 20:13 package mainimport "fmt"// 编程一个函数,完成老鼠找出路 // myMap *[8][7]int 地图,保证是同一个地图,因此是引用类型 // i,j表示对地图的哪个点进行测试 func SetWay(myMap *[8][7]int, …

网络基础-基于TCP协议的Socket通讯

一、Socket通讯基于TCP协议流程图 UDP 的 Socket 编程相对简单些不在介绍。 二、 服务端程序启动 服务端程序要先跑起来,然后等待客户端的连接和数据。 服务端程序首先调用 socket() 函数,创建网络协议为 IPv4,以及传输协议为 TCP 的…

基于XML配置bean(二)

文章目录 1.工厂中获取bean1.静态工厂1.MyStaticFactory.java2.beans.xml3.测试 2.实例工厂1.MyInstanceFactory.java2.beans.xml3.测试 3.FactoryBean(重点)1.MyFactoryBean.java2.beans.xml3.测试 2.bean配置信息重用继承抽象bean1.beans.xml2.测试 3.…

HarmonyOS实战开发-如何实现一个简单的健康生活应用

功能概述 成就页面展示用户可以获取的所有勋章,当用户满足一定的条件时,将点亮本页面对应的勋章,没有得到的成就勋章处于熄灭状态。共有六种勋章,当用户连续完成任务打卡3天、7天、30天、50天、73天、99天时,可以获得…

SpringBoot框架——8.MybatisPlus常见用法(常用注解+内置方法+分页查询)

1.MybatisPlus常用注解: 1.1 当数据库、表名和字段名和实体类完全一致时无需加注解,不一致时: TableName指定库名 TableId指定表名 TableField指定字段名 1.2 自增主键: TableId(typeIdType.AUTO) private Long id; 1.3 实体类中属…

2000-2022年各省人力资本水平数据(含原始数据+计算过程+计算结果)(无缺失)

2000-2022年各省人力资本水平数据(含原始数据计算过程计算结果) 1、时间:2000-2022年 2、来源:国家统计局 3、指标:普通高等学校在校学生数(万人)、年末常住人口(万人)、人力资本水平 4、范…

CTFshow-PWN-前置基础(pwn20)

提交ctfshow{【.got表与.got.plt是否可写(可写为1,不可写为0)】,【.got的地址】,【.got.plt的地址】 前置基础知识: .got 和 .got.plt 是 ELF(Executable and Linkable Format,可执行和可链接格式)二进制文件中的两个…

(四)qt中使用ffmpeg播放视频,可暂停恢复

一、在qt中添加ffmpeg库及头文件 INCLUDEPATH /usr/local/ffmpeg/include LIBS -L/usr/local/lib -lavutil -lavcodec -lavformat -lswscale 二、详细代码 FFempegVideoDecode 视频解码类(放入线程中) ffmpegvideodecode.h #ifndef FFMPEGVIDEODE…

Qt | 自定义事件第三节

Qt | 事件第一节Qt | 事件第二节书接上回 六、自定义事件与事件的发送 1、发送事件由以下两个函数完成 static void QCoreApplication::postEvent (QObject* receiver, QEvent* event, int priority=Qt::NormalEventPriority);

RHCE作业二

一.配置server主机要求如下: 1.server主机的主机名称为 ntp_server.example.com 2.server主机的IP为: 172.25.254.100 3.server主机的时间为1984-11-11 11:11:11 4.配置server主机的时间同步服务要求可以被所有人使用 二.设定cli…

C++高级特性:可变长模板参数和折叠表达式(八)

1、可变长参数模板 可变长参数是C类模板编程中非常重要的一个东西,也是C11引入的新特性,通过使用…来表示参数长度不固定 可以通过sizeof…(args)获取传入参数的个数数量 &&表示万能引用,需要注意的是如果不使用万能引用&#xff0…

JVM基础面试题第一篇

目录 内存区域面试与分析 1.运行时数据区是什么 2.Java虚拟机栈的作用 3.本地方法栈的作用 4.堆的作用 5.方法区作用 6.运行时常量池的作用 7.直接内存是什么 8.内存溢出和内存泄漏的区别 9.栈溢出的原因 10.方法区溢出的原因 垃圾回收器与内存分配策略-面试与分析 …

LeetCode 49.字母异位词分组

目录 题目描述 方法一 思路: 代码: 题目描述 给你一个字符串数组,请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", &qu…

Http 请求偶发400错误

1. 背景 生产环境偶发400请求错误,发生概率万分之一,异常信息如下: 1) 从异常信息可以看到,skywalking的sw8 header解析失效导致异常信息。 2) 0x0d0x0a 作为回车换行符号,没有被正确处理&#…

OpenGL:图元

OpenGL的图元 点 GL_POINTS: 将顶点绘制成单个的点 线 GL_LINES:将顶点用于创建线段,2个点成为一条单独的线段。如果顶点个数是奇数,则忽略最后一个。 顶点:v0, v1, v2, v3, … , vn,线段:v0-v1, v2-v3, v4-v5, … , vn-1 - vn GL_LINE_STRIP:将顶点用于创建线段,…

谈谈Python中的分布式计算和大数据处理

谈谈Python中的分布式计算和大数据处理 Python作为一种通用、解释型的高级编程语言,因其简洁易读、强大的库支持和广泛的应用领域,近年来在分布式计算和大数据处理领域也获得了显著的关注和应用。 分布式计算是一种计算方法,它将大型问题划…

学习笔记(4月18日)vector底层模拟实现(1)

1.迭代器 vector实际上是由迭代器进行维护的,关于迭代器是什么,为什么要叫这个名字,后面的学习会逐渐了解,现在先将迭代器是作为指针即可。 vector底层有三个迭代器,用来起到容量、数组头、元素个数的作用。 同时为…

带头节点的单链表练习(写加注释花了5小时,已废)

目录 1.test.c 2.LinList.c 3.LinList.h 1.test.c 单链表的操作 #include "LinList.h" //head->a0(头节点)->a1->...->ai->...->an int main() {SLNode* head;int i;DataType x, y;ListInitiate(&head);//初始化链表for (i 1; i < 11;…

基于XML配置bean(一)

文章目录 1.获取bean的两种方式1.通过id获取bean&#xff08;前面用过&#xff09;2.通过类型获取bean&#xff08;单例时使用&#xff09;1.案例2.代码1.beans.xml2.SpringBeanTest.java3.结果 3.注意事项 2.三种基本依赖注入方式1.通过属性配置bean&#xff08;前面用过&…

DDoS攻击趋势分析及防御建议:网络安全新挑战与应对策略

在数字化日益普及的今天&#xff0c;网络安全问题日益凸显。其中&#xff0c;分布式拒绝服务&#xff08;DDoS&#xff09;攻击以其巨大的破坏力和难以防范的特性&#xff0c;发起简单、效果显著、难以追踪等特点&#xff0c;因此被黑客广泛使用&#xff0c;已经成为网络安全领…