概念
元数据是关于数据的数据,元数据对于数据管理和数据使用来说是必不可少的。所有大型组织都会产生和使用大量的数据,在整个组织中,不同的人拥有不同层面的数据知识,但没有人知道关于数据的一切。因此,必须将这些信息记录,否则组织可能会丢失关于自身的宝贵知识,元数据管理提供了获取和管理组织数据的主要方法。如果没有元数据,组织可能根本无法管理其数据。要实现数据驱动,组织必须先实现元数据驱动。
元数据管理的目标包括
- 记录和管理与数据相关的业务术语的知识体系,以确保人们理解和使用数据内容的一致性;
- 收集和整合来自不同来源的元数据,以确保人们了解来自组织不同部门的数据之间的相似和差异;
- 确保元数据的质量、一致性、及时性和安全;
- 提供标准途径,使元数据使用者可以访问元数据;
- 推广或强制使用技术元数据标准,以实现数据交换。
元数据管理的原则
- 组织承诺
- 战略
- 企业视角
- 潜移默化
- 访问
- 质量
- 审计
- 改进
元数据的类型
元数据通常有三种类型:业务元数据、技术元数据和操作元数据;
- 业务元数据是实体、属性的非技术名称和定义、属性的数据类型和其他特征,如范围描述、计算公式、算法和业务规则、有效的阈值及其定义;其中包括业务规则、转换规则、计算公式和推导公式;数据质量规则和检核结果;数据的更新计划;数据溯源和数据血缘;数据的安全/隐私级别
- 技术元数据提供有关数据的技术细节、存储数据的系统以及在系统内和系统之间数据流转过程的信息。技术元数据包括:物理数据库表名和字段名,访问权限,数据CRUD规则,物理数据模型,包括数据表名、键和索引,ETL作业详细信息,源到目标的映射文档;数据学院文档;程序和应用的名称和描述;恢复和备份规则;
- 操作元数据描述了处理和访问数据的细节;其中包括批处理程序的作业执行日志,操作日志;备份、保留、创建日期、灾备恢复预案、数据归档、保留规则和相关归档文件、清洗标准、数据共享规则和协议。
ISO/IEC 11179元数据注册标准
ISO的元数据注册标准ISO/IEC 11179提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。
业务术语表
业务术语表的作用是记录和存储组织的业务概念、术语、定义以及这些术语之间的关系,业务术语表应用程序的构建需要满足三个核心用户的功能需求;
- 业务用户
- 数据管理专员
- 技术用户
数据字典
数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序或数据仓库,在数据模型的开发过程中,会解释许多关键业务流程、关系和术语。数据字典可以帮助组织确保此信息不会完全丢失,以及在生产部署之后逻辑模型与物理模型保持一致。
元数据的架构形式
集中式元数据架构、分布式元数据架构、混合式元数据架构。
集中式元数据架构优点是:
- 高可用性,因为它独立于元系统;
- 快速的元数据检索,因为存储库和查询功能在一起;
- 解决了数据库结构的问题,使其不受第三方或商业系统特有属性的影响;
- 抽取元数据可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量;
集中式元数据架构缺点是:
- 必须使用复杂的流程确保元数据源头的更改能够快速同步到存储库中;
- 维护集中式存储库的成本可能很高;
- 元数据的抽取可能需要自定义模块或中间件;
- 验证和维护自定义代码会增加内部IT人员和软件供应商要求;
分布式元数据架构优点是:
- 元数据总是尽可能保持最新且有效;
- 查询是分布式的,可能会提高相应和处理的效率;
- 来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量;
- 自动化元数据查询处理的开发可能更简单,只需要很少的人工干预;
- 减少了批处理,没有元数据复制或同步过程;
分布式元数据架构缺点是:
- 无法支持用户定义或手动插入的元数据项,因为没有存储库可以放置这些添加项
- 需要通过统一的,标准化的展示方式呈现来自不同系统的元数据;
- 查询功能受源系统可用性的影响;
- 元数据的质量完全取决于源系统。
混合元数据架构结合了集中式和分布式架构的特性,元数据仍然直接从源系统移动到集中式存储库,但存储库设计仅考虑用户添加的元数据、重要的标准化的元数据以及通过自手工来源添加的元数据。
元数据综合解决方案由以下功能需求点组成;
- 更新频率;
- 同步情况;
- 历史信息;
- 访问权限;
- 存储结构;
- 集成要求;
- 运维要求;
- 管理要求;
- 质量要求;
- 安全要求;
元数据的质量控制活动
- 质量保证;
- 数据更新频率;
- 缺失元数据报告;
- 未更新的元数据报告;
元数据管理的几个一般原则描述了管理元数据质量的方法
- 责任,认识到元数据通常通过现有流程产生,因此流程的执行者对元数据的质量负责;
- 标准,制定、执行和审计元数据标准,简化集成过程,并且适用;
- 改进,建立反馈机制保障用户可以将不准确的或已过时的元数据通知元数据管理团队