目录
概述
业务驱动因素
目标和原则
基本概念
元数据与数据
元数据的类型
业务元数据
技术元数据
操作元数据
元数据注册标准
元数据来源
元数据架构类型
集中式元数据架构
分布式元数据架构
混合式元数据架构
双向元数据架构
方法
数据血缘和影响分析
度量指标
扩展
定义辨析
一些核心元数据的展示
数据资源目录核心元数据
元数据管理系统功能
概述
元数据,之前文章其实说过这个,是一个技术概念,从业务上来讲,其实叫做数据资源目录。
元数据最常见的定义是“关于数据的数据”,即“目录卡片”。
如果没有可靠的元数据,组织就不知道它拥有什么数据、数据表示什么、数据来自何处、它如何在系统中流转,谁有权访问它,或者对于数据保持高质量的意义。如果没有元数据,组织就不能将其数据作为资产进行管理。实际上,如果没有元数据,组织可能根本无法管理其数据。
与其他数据一样,元数据也需要管理。
元数据的用途有两个,查询和分析。
业务驱动因素
数据管理需要元数据,元数据本身也需要管理,可靠且良好管理元数据有助于:
- 1)通过提供上下文语境和执行数据质量检查提高数据的可信度
- 2)通过扩展用途增加战略信息 (如主数据)的价值
- 3)通过识别冗余数据和流程提高运营效率
- 4)防止使用过时或不正确的数据。
- 5)减少数据的研究时间。
- 6)改善数据使用者和IT 专业人员之间的沟通
- 7) 创建准确的影响分析,从而降低项目失败的风险
- 8)通过缩短系统开发生命周期时间缩短产品上市时间
- 9)通过全面记录数据背景、历史和来源降低培训成本和员工流动的影响。
- 10)满足监管合规
元数据管理不善容易导致以下问题:
- 1)元余的数据和数据管理流程
- 2) 重复和冗余的字典、存储库和其他元数据存储
- 3)不一致的数据元素定义和与数据滥用的相关风险
- 4)元数据的不同版本相矛盾且有冲突,降低了数据使用者的信心。
- 5)怀疑数据和数据的可靠性。
良好的元数据管理工作,可以确保对数据资源的一致理解和更加高效的跨组织开发使用。
目标和原则
与数据质量的应该从重点数据开始相反,元数据应该应归尽归、应收尽收,要完整。
基本概念
元数据与数据
元数据也是一种数据,应该用数据管理的方式进行管理。
元数据的类型
元数据通常分为三种类型:业务元数据、技术元数据、操作元数据。
业务元数据
这种元数据,基本都是什么什么定义,什么什么描述。
技术元数据
这种元数据,基本都是物理什么什么。
操作元数据
这种元数据,基本都是什么什么日志。
元数据注册标准
ISO的元数据注册标准是ISO/IEC 11179。
元数据来源
- 应用程序中元数据存储库
- 业务术语表
- 数据字典:数据字典定义数据集的结构和内容,通常用于单个数据库、应用程序、数据仓库。
- 数据集成工具
- 数据库管理和系统目录
- 数据映射管理工具
- 数据质量工具
- 字典和目录
- 事件消息工具
- 建模工具和存储库
- 参考数据库
- 服务注册
- 其他元数据存储
元数据架构类型
集中式元数据架构
集中式元数据架构由单一的元数据存储库组成,包含来自各种不同源的元数据副本。IT 资源有限的组织或者那些追求尽可能实现自动化的组织,可能会选择避免使用此架构选项。在公共元数据存储库中寻求高度一致性的组织,可以从集中式元数据架构中受益。
集中式存储库的优点有:
- 高可用性,因为它独立于源系统。
- 快速的元数据检索,因为存储库和查询功能在一起。
- 解决了数据库结构问题,使其不受第三方或商业系统特有属性的影响。
- 抽取元数据时可进行转换、自定义或使用其他源系统中的元数据进行补充,提高了元数据的质量。
集中式存储库的缺点有:
- 必须使用复杂的流程确保元数据源头中的更改能够快速同步到存储库中。
- 维护集中式存储库的成本可能很高。
- 元数据的抽取可能需要自定义模块或中间件。
- 验证和维护自定义代码会增加对内部 IT 人员和软件供应商的要求。
分布式元数据架构
一个完全分布式的架构中维护了一个单一的接入点。元数据检索引擎通过实时从源系统检索数据来响应用户请求;分布式元数据架构没有持久化的存储库。在这种架构中,元数据管理环境维护必要的源系统目录和查找信息,以有效处理用户查询和搜索。可通过公共对象请求代理或类似的中间件协议访问这些源系统。
分布式元数据架构的优点包括:
- 元数据总是尽可能保持最新且有效,因为它是从其数据源中直接检索的2)查询是分布式的,可能会提高响应和处理的效率
- 来自专有系统的元数据请求仅限于查询处理,而不需要详细了解专有数据结构,因此最大限度地减少了实施和维护所需的工作量。
- 自动化元数据查询处理的开发可能更简单,只需要很少的人工干预5)减少了批处理,没有元数据复制或同步过程。
分布式元数据架构的缺点包括:
- 无法支持用户定义或手动插人的元数据项,因为没有存储库可以放置这些添加项2)需要通过统一的、标准化的展示方式呈现来自不同系统的元数据。
- 查询功能受源系统可用性的影响
- 元数据的质量完全取决于源系统。
混合式元数据架构
结合了分布式和集中式元数据架构。
双向元数据架构
方法
数据血缘和影响分析
数据血缘是从下到上。
影响分析是从上到下。
度量指标
- 元数据存储卡完整性
- 元数据管理成熟度
- 专职人员配备
- 元数据使用情况
- 业务术语活动
- 主数据服务数据遵从性
- 元数据文档质量
- 元数据存储库可用性
扩展
定义辨析
这里截图几张有一篇文章中的内容:
- 1、数据元就是”个人所得税记录表“中的字段,比如示例中的”个人所得税金额“,注意,数据元既有描述内容,也是数据的一部分,最小单元而已,图中蓝色虚框包含的部分就是数据元。
- 2、数据模型就是”个人所得税记录表“这张表本身,它是现实世界的一个抽象,见图中黑色虚框包含的部分。
- 3、”个人所得税金额“的元数据是对”个人所得税金额“这个字段的描述,见图中红色虚框部分,可见它不包含数据。
- 4、”个人所得税记录表“的元数据是对”个人所得税记录表“这张表的描述,见图中咖啡虚框部分。
- 5、数据字典就是针对表,字段等数据库对象元数据的一种重新组织形式,示意如上。
- 6、有了对数据模型的理解再看元模型,元模型是模型的模型,定义了描述某一模型的规范,具体来说就是组成模型的元素和元素之间的关系,如上图对实体和实体间的1:1依赖关系做了定义,对实体的属性做了name、field定义,元模型实例化就成了模型和元数据。
数据元:是通过定义、标识、表示以及允许值等一系列属性描述的数据单元,数据元的相关信息也是元数据的一部分,数据元=单元数据+基本描述(元数据子集)
元数据:关于数据的数据,但元数据无法涵盖理解数据元所要表示的数据所必需的所有信息,元数据=对于数据元有缺失的描述
数据字典:用户可以访问的一种信息集合的目录,是元数据的子集和应用,数据字典=元数据的一种特殊应用
数据模型:是数据特征的抽象,将若干具有相关性的数据元按一定的次序组成一个整体结构即为数据模型,数据模型=若干数据元组合
元模型:对模型的元素和元素之间关系的规范,元模型=数据模型和元数据的抽象规范
一些核心元数据的展示
数据资源目录核心元数据
A.1数据资源目录编号
内部标识符:SJZYML0001
中文名称:数据资源目录编号
中文拼音:shu-ju-zi-yuan-mu-lu-bian-hao
标识符:SJZYMLBH
版本:1.0
同义词:
说明描述:数据资源目录编号,由系统生成
对象类词:数据资源目录
特性词:编号
表示词:号码
数据类型:字符型
表示格式:c..128
值域:
关系:
计量单位:
状态:标准
提交机构:公安部科技信息化局
主要起草人:
批准日期:2019年X月X日
备注:编码规则如下:
数据资源目录编号一经生成后不允许修改(可以删除),且不能复用。当前段代码发生变化时,后五位流水号从1开始重新顺序编码,业务号码代码参照警种代码表。
元数据管理系统功能
最后放一点我们元数据关系系统一般包含哪些系统功能,就能知道一般做些什么了。
元数据 | 元数据采集 | 元数据是描述数据的数据,元数据采集则是元数据管理的基础和前提,系统根据CWM元模型规范,支持对关系型、MPP、大数据平台、文件服务器等数据源的元数据的自动化采集,支持灵活的采集任务调度策略配置和采集进度详情查看。 |
元数据维护 | 元数据管理作为数据治理中一项重要的管理活动职能,能够对采集或用户自定义添加的元数据进行全面管控,帮助数据中心管理员对各业务系统、数据中心的技术元数据变更情况进行全面掌握,了解元数据的变更路径,以及变更对后续业务的影响。在发现问题时,便于进行溯源,排查问题产生的原因 | |
元数据定版 | 元数据定版功能是通过对库级元数据进行定版操作,用户将2个版本进行对比,发现元数据的在不同时期的变更情况。系统支持对元数据定版、版本的管理、和对比,并且支持变更详情的导出。 | |
元数据分析 | 对于已采集的元数据,系统支持模糊查询、高级查询等操作进行检索,帮助用户快速、精准的查找到所需的元数据,同时也支持以可视化视角展示系统各个数据库间元数据全链路图,并支持下钻查看具体的表、字段等血缘、影响分析,帮助用户以统一视角概览系统血缘关系全貌,便于问题数据的追根溯源和领导决策分析。 1)支持元数据检索、元数据详情查看; 2)支持元数据统计情况展示,可查看元数据重要程度排名、元数据稽核合格率排名、元数据分类咱比等详情; 3)支持元数据血缘关系的展示,并支持下钻. | |
元数据解析 | 元数据解析通过对已有历史脚本(SQL、存储过程等)在线解析,自动形成血缘关系,帮助将线下复杂错乱的元数据关系解析成可视化元数据血缘关系图进行分析. | |
元模型管理 | 元模型管理提供基于CWM标准的元模型统一管理; 支持对技术元模型和业务元模型的统一定义和管理; 支持根据需要自定义元模型。 | |
元模型码表 | 元模型码表提供对元模型下拉码表的管理功能, 支持维护列表码表和树形码表的新增、修改、删除管理。 |