Q:元数据是数据资产目录
A:错,资源目录。
【元数据管理原则:应规尽规,应收尽收】
12.1 引言
元数据最常见的定义是“关于数据的数据”。这个定义非常简单,但也容易引起误解。可以归类为元数据的信息范围很广,不仅包括技术和业务流程、数据规则和约束,还包括逻辑数据结构与物理数据结构等。它描述了数据本身(如数据库、数据元素、数据模型),数据表示的概念(如业务流程、应用系统、软件代码、技术基础设施),数据与概念之间的联系(关系)。 【相当于图书馆的目录卡片】 如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据。
与其他数据一样,元数据需要管理。
12.1.2 目标和原则
【元数据最终目标:查询、分析】
12.1.3 基本概念
1.元数据与数据如在简介中所述,元数据也是一种数据,应该用数据管理的方式进行管理。
2.元数据的类型
元数据通常分为三种类型:业务元数据、技术元数据和操作元数据。
【不是描述元数据、结构元数据、管理元数据——这是图书馆类别】
(1)业务元数据
业务元数据(Business Metadata)主要关注数据的内容和条件,另包括与数据治理相关的详细信息。业务元数据包括主题域、概念、实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的域值及其定义。
业务元数据的示例包括:
1)数据集、表和字段的 定义和描述。
2)业务规则、转换规则、计算公式和推导公式。
3)数据模型。
4)数据质量规则和检核结果。
5)数据的更新计划。
6)数据溯源和数据血缘。
7)数据标准。
8)特定的数据元素记录系统。
9)有效值约束。
10)利益相关方联系信息(如数据所有者、数据管理专员)。
11)数据的安全/隐私级别。
12)已知的数据问题。
13)数据使用说明。
(2)技术元数据
技术元数据(Technical Metadata)提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。
技术元数据示例包括:
1)物理 数据库表名和字段名。
2)字段属性。
3)数据库对象的属性。
4)访问权限。
5)数据 CRUD(增、删、改、查)规则。
6)物理数据模型,包括数据表名、键和索引。
7)记录数据模型与实物资产之间的关系。
8)ETL 作业详细信息。
9)文件格式模式定义。
10)源到目标的映射文档。
11)数据血缘文档,包括上游和下游变更影响的信息。
12)程序和应用的名称和描述。
13)周期作业(内容更新)的调度计划和依赖。
14)恢复和备份规则。
15)数据访问的权限、组、角色。
(3)操作元数据
操作元数据(Operational Metadata)描述了处理和访问数据的细节,
例如:1)批处理程序的作业执行 日志。
2)抽取历史和结果。
3)调度异常处理。
4)审计、平衡、控制度量的结果。
5)错误日志。
6)报表和查询的访问模式、频率和执行时间。
7)补丁和版本的维护计划和执行情况,以及当前的补丁级别。
8)备份、保留、创建日期、灾备恢复预案。
9)服务水平协议(SLA)要求和规定。
10)容量和使用模式。
11)数据归档、保留规则和相关归档文件。
12)清洗标准。
13)数据共享规则和协议。
14)技术人员的角色、职责和联系信息。
3.ISO/IEC 11179 元数据注册标准
ISO 的元数据注册标准 ISO/IEC 11179 中提供了用于 定义元数据 注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。该标准由以下几部分组成:
第 1 部分:数据元素生成和标准化框架。
第 2 部分:数据元数据分类。
第 3 部分:数据元素的基本属性。
第 4 部分:数据定义的形成规则和指南。
第 5 部分:数据元素的命名和识别原则。
第 6 部分:数据元素的注册。
4.非结构化数据的元数据
【数据湖】
5.元数据来源
(1)应用程序中元数据存储库
(2)业务术语表
业务术语表(Business Glossary)的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系。业务词汇表应用程序的构建需满足三个核心用户的功能需求:
1)业务用户(Business users)。数据分析师、研究分析师、管理人员和使用业务术语表来理解术语和数据的其他人员。
2)数据管理专员(Data Stewards)。数据管理专员使用业务术语表管理和定义术语的生命周期,并通过将数据资产与术语表相关联增强企业知识,如将术语与业务指标、报告、数据质量分析或技术组件相关联。数据管理员收集术语和使用中的问题,以帮助解决整个组织的认识差异。
3)技术用户(Technical users)。技术用户使用业务术语表设计架构、设计系统和开发决策,并进行影响分析。
(3)商务智能工具
(4)配置管理工具
(5)数据字典
【90%元数据信息来自数据字典,数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库。】
(6)数据集成工具
(7)数据库管理和系统目录
(8)数据映射管理工具
(9)数据质量工具
(10)字典和目录
(11)事件消息工具
(12)建模工具和存储库
(13)参考数据库
(14)服务注册
(15)其他元数据存储
6.元数据架构的类型
(1)集中式元数据架构
(2)分布式元数据架构
(3)联邦式元数据架构
12.2.3 定义元数据架构
1.创建元模型
元模型是存储元数据的数据模型
12.4 方法
12.4.1 数据血缘和影响分析
【数据血缘:由下到上,影响分析:由上到下】
12.4.2 应用于大数据采集的元数据
大数据管理采集、收集、应用最重要的是元数据管理
元数据管理对数据湖管理至关重要
12.6 元数据治理
12.6.4 度量指标
元数据管理环境的建议指标包括:
1)元数据存储库完整性。
将企业元数据(范围内的所有产品和实例)的理想覆盖率与实际覆盖率进行比较。参照元数据管理范围定义的策略。
2)元数据管理成熟度。
根据能力成熟度模型(CMM-DMM)的成熟度评估方法,开发用于判断企业元数据成熟度的指标(参见第 15 章)。
3)专职人员配备。
通过专职人员的任命情况、整个企业的专职人员覆盖范围,以及职位描述中的角色定义说明,来评估的组织对元数据的承诺。
4)元数据使用情况。
可以通过存储库的访问次数衡量用户对元数据存储库的使用情况和接受程度。在业务实践中,用户引用元数据是一个很难跟踪的指标,可能需要定性的调研措施获取评估结果。
5)业务术语活动。
使用、更新、定义解析、覆盖范围。
6)主数据服务数据遵从性。
显示 SOA 解决方案中数据的重用情况。主数据服务上的元数据帮助开发人员决定新的开发任务可以使用哪些现有服务。
7)元数据文档质量。
一个质量指标是通过自动和手动两种方式评估元数据文档的质量。自动评估方式包括对两个源执行冲突逻辑的比对、测量二者匹配的程度以及随时间推移的变化趋势。另一个度量指标是度量具有定义的属性的百分比,以及随着时间的推移而发生变化的趋势。手动评估方式包括基于企业质量定义进行随机或完整的调查。质量度量表明存储库中元数据的完整性、可靠性、通用性等。
8)元数据存储库可用性。正常运行时间、处理时间(批处理和查询)。