13(第十二章,元数据管理)

目录

概述

业务驱动因素

目标和原则

基本概念

元数据与数据

元数据的类型

业务元数据

技术元数据

操作元数据

元数据注册标准

元数据来源

元数据架构类型

集中式元数据架构

分布式元数据架构

混合式元数据架构

双向元数据架构

方法

数据血缘和影响分析

度量指标

扩展

定义辨析

一些核心元数据的展示

数据资源目录核心元数据

元数据管理系统功能


概述

元数据,之前文章其实说过这个,是一个技术概念,从业务上来讲,其实叫做数据资源目录。

元数据最常见的定义是“关于数据的数据”,即“目录卡片”。

如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据

与其他数据一样,元数据也需要管理。

元数据的用途有两个,查询和分析。

业务驱动因素

数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于

  • 1)通过提供上下文语境和执行数据质量检查提高数据的可信度
  • 2)通过扩展用途增加战略信息 (如主数据)的价值
  • 3)通过识别冗余数据和流程提高运营效率
  • 4)防止使用过时或不正确的数据。
  • 5)减少数据的研究时间。
  • 6)改善数据使用者和IT 专业人员之间的沟通
  • 7) 创建准确的影响分析,从而降低项目失败的风险
  • 8)通过缩短系统开发生命周期时间缩短产品上市时间
  • 9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
  • 10)满足监管合规

元数据管理不善容易导致以下问题:

  • 1)元余的数据和数据管理流程
  • 2) 重复和冗余的字典、存储库和其他元数据存储
  • 3)不一致的数据元素定义和与数据滥用的相关风险
  • 4)元数据的不同版本相矛盾且有冲突,降低了数据使用者的信心。
  • 5)怀疑数据和数据的可靠性。

良好的元数据管理工作,可以确保对数据资源的一致理解和更加高效的跨组织开发使用。

目标和原则

与数据质量的应该从重点数据开始相反,元数据应该应归尽归、应收尽收,要完整。

基本概念

元数据与数据

元数据也是一种数据,应该用数据管理的方式进行管理。

元数据的类型

元数据通常分为三种类型:业务元数据、技术元数据、操作元数据。

业务元数据

这种元数据,基本都是什么什么定义,什么什么描述。

技术元数据

这种元数据,基本都是物理什么什么。

操作元数据

这种元数据,基本都是什么什么日志。

元数据注册标准

ISO的元数据注册标准是ISO/IEC 11179。

元数据来源

  1. 应用程序中元数据存储库
  2. 业务术语表
  3. 数据字典:数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序、数据仓库。
  4. 数据集成工具
  5. 数据库管理和系统目录
  6. 数据映射管理工具
  7. 数据质量工具
  8. 字典和目录
  9. 事件消息工具
  10. 建模工具和存储库
  11. 参考数据库
  12. 服务注册
  13. 其他元数据存储

元数据架构类型

集中式元数据架构

集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本。IT 资源有限的组织或者那些追求尽可能实现自动化的组织,可能会选择避免使用此架构选项。在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据架构中受益。
集中式存储库的优点有:

  1. 高可用性,因为它独立于源系统。
  2. 快速的元数据检索,因为存储库和查询功能在一起。
  3. 解决了数据库结构问题,使其不受第三方或商业系统特有属性的影响。
  4. 抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。

集中式存储库的缺点有:

  1. 必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。
  2. 维护集中式存储库的成本可能很高。
  3. 元数据的抽取可能需要自定义模块或中间件。
  4. 验证和维护自定义代码会增加对内部 IT 人员和软件供应商的要求。

分布式元数据架构

一个完全分布式的架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库。在这种架构中,元数据管理环境维护必要的源系统目录和查找信息,以有效处理用户查询和搜索。可通过公共对象请求代理或类似的中间件协议访问这些源系统。
分布式元数据架构的优点包括:

  1. 元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的2)查询是分布式的,可能会提高响应和处理的效率
  2. 来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量。
  3. 自动化元数据查询处理的开发可能更简单,只需要很少的人工干预5)减少了批处理,没有元数据复制或同步过程。

分布式元数据架构的缺点包括:

  1. 无法支持用户定义或手动插人的元数据项,因为没有存储库可以放置这些添加项2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据。
  2. 查询功能受源系统可用性的影响
  3. 元数据的质量完全取决于源系统。

混合式元数据架构

结合了分布式和集中式元数据架构。

双向元数据架构

方法

数据血缘和影响分析

数据血缘是从下到上。

影响分析是从上到下。

度量指标

  1. 元数据存储卡完整性
  2. 元数据管理成熟度
  3. 专职人员配备
  4. 元数据使用情况
  5. 业务术语活动
  6. 主数据服务数据遵从性
  7. 元数据文档质量
  8. 元数据存储库可用性

扩展

定义辨析

这里截图几张有一篇文章中的内容:

  • 1、数据元就是”个人所得税记录表“中的字段,比如示例中的”个人所得税金额“,注意,数据元既有描述内容,也是数据的一部分,最小单元而已,图中蓝色虚框包含的部分就是数据元。
  • 2、数据模型就是”个人所得税记录表“这张表本身,它是现实世界的一个抽象,见图中黑色虚框包含的部分。
  • 3、”个人所得税金额“的元数据是对”个人所得税金额“这个字段的描述,见图中红色虚框部分,可见它不包含数据。
  • 4、”个人所得税记录表“的元数据是对”个人所得税记录表“这张表的描述,见图中咖啡虚框部分。
  • 5、数据字典就是针对表,字段等数据库对象元数据的一种重新组织形式,示意如上。
  • 6、有了对数据模型的理解再看元模型,元模型是模型的模型,定义了描述某一模型的规范,具体来说就是组成模型的元素和元素之间的关系,如上图对实体和实体间的1:1依赖关系做了定义,对实体的属性做了name、field定义,元模型实例化就成了模型和元数据。

数据元:是通过定义、标识、表示以及允许值等一系列属性描述的数据单元,数据元的相关信息也是元数据的一部分,数据元=单元数据+基本描述(元数据子集)

元数据:关于数据的数据,但元数据无法涵盖理解数据元所要表示的数据所必需的所有信息,元数据=对于数据元有缺失的描述

数据字典:用户可以访问的一种信息集合的目录,是元数据的子集和应用,数据字典=元数据的一种特殊应用

数据模型:是数据特征的抽象,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型,数据模型=若干数据元组合

元模型:对模型的元素和元素之间关系的规范,元模型=数据模型和元数据的抽象规范

一些核心元数据的展示

数据资源目录核心元数据

A.1数据资源目录编号
内部标识符:SJZYML0001
中文名称:数据资源目录编号
中文拼音:shu-ju-zi-yuan-mu-lu-bian-hao
标识符:SJZYMLBH
版本:1.0
同义词:
说明描述:数据资源目录编号,由系统生成
对象类词:数据资源目录
特性词:编号
表示词:号码
数据类型:字符型
表示格式:c..128
值域:
关系:
计量单位:
状态:标准
提交机构:公安部科技信息化局
主要起草人:
批准日期:2019年X月X日
备注:编码规则如下:

数据资源目录编号一经生成后不允许修改(可以删除),且不能复用。当前段代码发生变化时,后五位流水号从1开始重新顺序编码,业务号码代码参照警种代码表。

元数据管理系统功能

最后放一点我们元数据关系系统一般包含哪些系统功能,就能知道一般做些什么了。

元数据元数据采集元数据是描述数据的数据,元数据采集则是元数据管理的基础和前提,系统根据CWM元模型规范,支持对关系型、MPP、大数据平台、文件服务器等数据源的元数据的自动化采集,支持灵活的采集任务调度策略配置和采集进度详情查看。
元数据维护元数据管理作为数据治理中一项重要的管理活动职能,能够对采集或用户自定义添加的元数据进行全面管控,帮助数据中心管理员对各业务系统、数据中心的技术元数据变更情况进行全面掌握,了解元数据的变更路径,以及变更对后续业务的影响。在发现问题时,便于进行溯源,排查问题产生的原因
元数据定版元数据定版功能是通过对库级元数据进行定版操作,用户将2个版本进行对比,发现元数据的在不同时期的变更情况。系统支持对元数据定版、版本的管理、和对比,并且支持变更详情的导出。
元数据分析对于已采集的元数据,系统支持模糊查询、高级查询等操作进行检索,帮助用户快速、精准的查找到所需的元数据,同时也支持以可视化视角展示系统各个数据库间元数据全链路图,并支持下钻查看具体的表、字段等血缘、影响分析,帮助用户以统一视角概览系统血缘关系全貌,便于问题数据的追根溯源和领导决策分析。
1)支持元数据检索、元数据详情查看;
2)支持元数据统计情况展示,可查看元数据重要程度排名、元数据稽核合格率排名、元数据分类咱比等详情;
3)支持元数据血缘关系的展示,并支持下钻.
元数据解析元数据解析通过对已有历史脚本(SQL、存储过程等)在线解析,自动形成血缘关系,帮助将线下复杂错乱的元数据关系解析成可视化元数据血缘关系图进行分析.
元模型管理元模型管理提供基于CWM标准的元模型统一管理;
支持对技术元模型和业务元模型的统一定义和管理;
支持根据需要自定义元模型。
元模型码表元模型码表提供对元模型下拉码表的管理功能,
支持维护列表码表和树形码表的新增、修改、删除管理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3406.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java操作 elasticsearch 8.1,如何实现索引的重建?

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

U盘无法正常格式化?教你一个强力的办法

前言 电脑格式化U盘或者移动硬盘的操作,相信各位小伙伴都是有一定经历的。 如果设备正常,那么进入到【此电脑】,在对应的分区点击【鼠标右键】-【格式化】就可以把对应的存储设备恢复到初始状态。 但凡事都会有例外,比如在格式化…

【openLooKeng-1.10.0集群环境安装部署】

openLooKeng-1.10.0集群环境安装部署 一、摘要二、正文1. 环境说明2. 集群拓扑图3. 安装过程(以root用户安装)3.1 在Coordinator和Worker两个节点都需要安装jdk1.8+3.2 在Coordinator上安装配置openLooKeng3.3 在Worker节点上进行配置openLooKeng3.4 在Coordinator节点上先启…

施耐德EOCR-2CT-300/5电流互感器 50HZ 5VA

EOCR主要产品有电子式电动机保护继电器,电子式过电流继电器,电子式欠电流继电器,电子式欠电压继电器,其它保护和监视装置,电流互感器。 施耐德EOCR-2CT-300/5电流互感器 EOCR-2CT系列型号: EOCR 2CT 100…

本地安装mysql并用python访问它

数据还是放在数据库中比较好,于是决定在本机安装个mysql服务。 环境:windows 10,python3.8.10 安装前首先要注意一点: 设置-系统-关于-设备(电脑)名称:为英文 一、进入mysql官网下载GPL免费版…

C++概念、头文件与c区别、变量、const关键字以及enum枚举

C概念 C最主要的就是:C是面向对象的编程思想,而C是面向过程的编程思想。C编写出来的效率比其他语言高的多。 C思想:万物皆对象 C语言的主要特点表现在两个方面,一是尽量兼容C,二是支持面向对象的方法。首先,C的确是一…

SNETCracker--超级弱口令检查工具简介

一、简介 SNETCracker 超级弱口令检查工具是一款Windows平台的弱口令审计工具,支持批量多线程检查,可快速发现弱密码、弱口令账号,密码支持和用户名结合进行检查,大大提高成功率,支持自定义服务端口和字典。 二、SNE…

Java集成结巴中文分词器、Springboot项目整合jieba分词,实现语句最精确的切分、自定义拆词

文章目录 一、jieba介绍二、集成三、原理四、自定义拆词4.1、方式一:在源码的dict.txt中修改然后重新打包(推荐)4.2、新建文件自定义拆词 五、其他问题 一、jieba介绍 jieba是一个分词器,可以实现智能拆词,最早是提供了python包,…

迪拜之行回顾:CESS 的 DePIN 创新之旅

迪拜最近是一个关键热词,成为了一系列 Web3 和加密活动的中心,吸引了行业领导者、创新者和爱好者,探索区块链和去中心化技术的最新发展。从 4 月中旬,一系列行业会议和活动陆续举行,吸引了一众与会者。然而暴雨积水又成…

2023平航杯——手机取证复现

手机最近连接的wifi"只有红茶可以吗"的密码是?【标准格式:ABCabc123!#】 手机上安装了某个运动软件,它的包名是?【标准格式:com.baidu.gpt】 com.dizhisoft.changdongli 该运动软件中最近一次运动记录的起点…

NodeJS操作符空格漏洞

Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境,它使得 JavaScript 可以脱离浏览器在服务器端运行。Node.js 利用事件驱动、非阻塞 I/O 模型等技术提高了性能,从而在开发领域得到广泛应用,比如Web服务应用(尤其是非阻塞…

Python+Appium实现自动化测试

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 一、环境准备 1.脚本语言:Python3.x IDE&#x…

Yolov5 export.py实现onnx模型的导出

查了很多资料,很多用python代码写的,只需要这个库那个库的,最后都没成功。 不如直接使用Yolov5里面的 export.py实现模型的转换。 一:安装依赖 因为yolov5里面的requirments.txt是将这些转换模型的都注释掉了 所以需要解除注释…

SAP如何批量标记生产订单的TECO状态

声明:本文仅代表作者观点和立场,不代表任何公司!仅用于SAP软件应用学习参考。 SAP/ERP系统生产订单完工后,在进行结算之前,需要进行技术性完成操作,即将生产订单批量标记TECO,标记上TECO表示生…

独立站运营教程:站外引流如何做?

在当今全球化的商业环境中,跨境电商已经成为一个蓬勃发展的行业。对于跨境电商独立站来说,站外引流是非常关键的一环,它可以帮助独立站吸引更多潜在客户,提升品牌知名度,促进销售增长。本文将深入探讨如何实现跨境电商…

eNSP学习——静态路由及默认路由基本配置

目录 知识背景 实验目的 实验步骤 实验内容 实验拓扑 实验编址 实验前期准备 实验步骤 1、基本配置(按照实验编址设置好对应的IP地址) 2、是实现主机之间的通信 3、实现全网全通来增强网络的可靠性 4、使用默认路由实现简单的网络优化 需要各…

【静态分析】静态分析笔记07 - 指针分析基础

参考: 【课程笔记】南大软件分析课程7——指针分析基础(课时9/10) - 简书 -------------------------------------------------------------- 1. 指针分析规则 规则:采用推导形式,横线上面是条件,横线下…

MySQL--表的操作

目录 创建表 查看表结构 修改表 新增列 修改列类型 修改列名 修改表名: 删除列 删除表 创建表 语法: CREATE TABLE table_name ( field1 datatype, field2 datatype, field3 datatype ) character set 字符集 collate 校验规则 engine 存储引…

【论文阅读】Self-DC:何时检索,何时生成?

对于RAG来说,什么时候利用外部检索,什么时候使用大模型产生已知的知识,以回答当前的问题?这是一个非常有趣的话题。 《Self-DC: When to retrieve and When to generate? Self Divide-and-Conquer for Compositional Unknown Questions》这…

MySQL尾部空格处理与哪些设置有关? 字符集PAD SPACE与NO PAD属性的区别、MySQL字段尾部有空格为什么也能查询出来?

文章目录 一、问题背景二、字符集PAD_ATTRIBUTE属性(补齐属性)2.2、PAD SPACE与NO PAD的具体意义 三、CHAR类型尾部空格的处理四、其他问题4.1、在PAD SPACE属性时如何实现精准查询 五、总结 以下内容基于MySQL8.0进行讲解 一、问题背景 一次查询中发现…