元数据的分类和标准有哪些?
一、元数据的分类
元数据可以根据其描述的对象和属性不同,被分为不同的类型。以下是几种常见的元数据分类方法:
基于数据的类型:根据数据的类型,元数据可以被分为结构化元数据、非结构化元数据、半结构化元数据等。
基于数据的来源:根据数据的来源,元数据可以被分为内部元数据和外部元数据。内部元数据来自于组织内部的业务系统和数据仓库,而外部元数据则来自于外部的数据源,如政府公开数据、第三方数据等。
基于元数据的应用场景:根据元数据的应用场景,元数据可以被分为电子商务元数据、社交媒体元数据、金融服务元数据等。
二、元数据的标准
为了更好地管理和控制元数据,需要建立统一的元数据标准。元数据标准化的目的是为了实现不同系统之间的数据共享和互操作,提高数据处理效率和质量。以下是几种常见的元数据标准:
ISO/IEC 11179:ISO/IEC 11179是一种国际标准的元数据规范,它定义了元数据的概念、属性、关系和规则。ISO/IEC 11179包括三个部分:元数据的规范、元数据的注册和元数据的交换。
Dublin Core:Dublin Core是一种用于描述网络资源的元数据标准,它包括15个核心元素,如标题、描述、创作者、发布日期等。Dublin Core被广泛应用于数字图书馆、数字遗产、数字出版等领域。
EDIMA:EDIMA是一种用于电子数据交换的元数据标准,它定义了电子单据的结构和内容。EDIMA包括三个部分:EDI对象模型、EDI元数据规范和EDI报文规范。
JSON LD:JSON LD是一种用于描述网络资源的轻量级元数据标准,它可以将JSON格式的数据映射为RDF格式的数据。JSON LD被广泛应用于语义网、知识图谱等领域。
总之,元数据的分类和标准是元数据管理的重要基础。通过对元数据进行分类和标准化,可以更好地描述和理解数据的属性、特征和关系,促进不同系统之间的数据共享和互操作,提高数据处理效率和质量。
同时,为了更好地管理和控制元数据,还需要引入元数据管理平台。元数据管理平台可以帮助组织统一管理元数据,包括元数据的采集、清洗、存储、查询、分析和可视化等。通过元数据管理平台,可以更好地保证元数据的准确性、完整性和一致性,提高数据处理的质量和效率。
数据标准的管理
2024年全国数据工作会议,国家数据局局长刘烈宏表示,将建立健全国家数据标准化体制机制,研究成立全国数据标准化技术委员会,统筹指导我国数据标准化工作,加快研究制定一批数据领域国家和行业标准。
将加强标准引领,印发国家数据标准体系建设指南,指导发布数据要素流通标准化白皮书。
数据标准是企业在提升数据质量过程中不可或缺的要素。
数据标准涉及对数据的命名、定义、结构和取值的规范,为数据的内外部使用和交换提供一致性和准确性的保障。
数据标准的定义
数据标准的权威定义可以参考一些国际标准组织和权威机构的定义,以下是两个常用的权威定义:
1、ISO/IEC 11179
ISO/IEC 11179 是一个关于元数据注册的国际标准。根据该标准,数据标准被定义为:
“数据标准是关于数据的内容、格式和结构的规则和指南,用于确保数据的一致性、准确性和完整性。”
2、DAMA(数据管理协会)定义
DAMA是一个权威的数据管理专业组织,根据 DAMA 数据管理知识体系(DAMA-DMBOK),数据标准被定义为:
“数据标准是用于定义、管理和控制数据的一致性和质量的规范、指南和规则。这些标准包括数据定义、数据格式、数据命名和数据编码等方面。”
数据标准的维度分类
数据标准的构成维度涵盖标识、定义、关系、表示和附加等类别。
数据标准的重要性
数据标准统一了数据的命名、定义和格式,使数据更加规范和实用。
增强数据的一致性和准确性:数据标准化确保了数据在不同系统和应用中的一致性,减少了由于数据歧义导致的错误。
促进数据的共享和交换:通过标准化的数据格式和定义,数据可以在不同部门和系统之间无缝流动,提高数据利用率。
提高数据管理效率:标准化的数据管理使数据的维护和更新更加高效,降低了管理成本。
增强数据的安全性和合规性:数据标准包括对数据敏感性和版本控制的管理,确保数据在使用和保护方面符合相关法规和政策。
统一基础数据:便于业务数据的汇总、报送、分析应用。
数据标准建立的要求
制度保障先行:应在制度中明确各个角色以及定义相应的分工界面,固化管理流程,为制定数据标准、管理数据标准提供指导性意见。
归口部门发挥牵头作用:归口管理部门需积极发挥带头作用,推动和监督标准管理流程的执行。通过激励和问责考核体系,推进数据标准工作的制定与执行落地。
自上而下、自下而上:制定过程中一方面需要自下而上梳理信息系统中的数据情况,同时也需要自上而下定义数据主题、细化分类,两者结合才能实现全面整体的数据视图,形成有效的数据规范要求。
实际需求为根本:需要明确以需求为根本,根据业务实际个性化的制定数据标准,避免造成难以落地的情况。
ISO/IEC 11179元数据注册标准
提供了用于定义元数据注册的框架,旨在基于数据的精确定义,从数据元素开始,实现元数据驱动的数据交换。(尝试着在网上找11179这套标准的详细内容,没有找到)
元数据项类型:在对元数据进行管理维护时,则存在被管理的元数据项。一般常见管理的元数据项分为分类模式、概念域、数据元概念、数据元、值域、表示类型等。在GB/T 18391 / ISO/IEC 11179中规定了列出部分元管理项的类型(见图1),同时也支持以附件类型进行添加和扩展。
元数据模型:用来描述元数据的模型通常称为元模型,改为:是指人们对描述元数据以及元数据之间关系理解的表达,也称为概念模型。如在进行数据元的管理维护时,通用使用GB/T18391 / ISO/IEC 11179中推荐的数据元的元数据模型(见图2)。该模型由概念层和表示层两部分组成,概念层包括数据元概念类和概念域类,都表示概念;表示层包括数据元类、值域类,都表示数据值的容器。
什么是数据元?
在GB/T 18391(ISO/IEC 11179)中,有一组属性规定其定义、标识、表示和允许值的数据单元,也称为数据元素。在一定语境下,构建一个语义正确、独立且无歧义的特定概念语义的信息单元,同时可理解为数据的基本单元。一个数据元由数据元概念和表示组成。
数据元概念:数据概念是能以一个数据元的形式表示的概念,其描述与任何特定表示法无关。一个数据元概念由以下两部分组成:
a. 对象类:可以对其界限和含义进行明确的标识,且特性和行为遵循相同规则的观念、抽象概念或现实世界中事物的集合;
b. 特性:一个对象类所有成员所共有的特性,
表示:由值域、数据类型、计量单位(如何需要)、表示类型(可选)组成。
我国卫生信息元数据相关标准
我国卫生信息领域的元数据相关标准也都是在参考GB/T 18391 / ISO/IEC 11179《信息技术 元数据注册系统》的基础之上,结合卫生信息领域的元数据特性进行针对性扩展。目前已发布的元数据项类型有:数据元、值域、数据集、统计指标。
1、数据元
我国卫生信息数据元目录标准17个部分,包括1份总则和16份不同类别的数据元内容。已发布的数据元相关标准清单如下:
该标准规范中,将数据元的允许值分为可枚举和不可枚举两种类型:
可枚举值域:由允许值列表规定的值域,每个允许值的值和值含义成对表示,分为可选值较少的、可选值较多的两种。
a. 可选值较少的(如3个或以下):在数据元属性中直接列举;
b. 可选值较多的(如3个以上):在数据元属性中写出所引用的值域代码,若为外部标准,则注明标准号;
不可枚举值域:由描述规范的值域,且在数据元属性中准确描述该值域的允许值;
2、值域代码
我国卫生信息数据元值域代码标准分为17个部分,包括1份总则、1份标识规则和15份不同类别的值域代码内容。已发布的值域代码相关标准清单如下:
3、数据集
我国卫生信息领域中,为了满足各业务信息系统规范化建设和领域内部以及领域间数据交换与共享需求,设计归纳的各个子系统(或者功能模块)所包含的最小数据元素的集合,即基本数据集。
目前,我国卫生信息基本数据集分为基本信息、卫生服务、卫生管理、卫生综合四大类,其中卫生服务又分为儿童保健、妇女保健、疾病控制、疾病管理、医疗服务五小类;每个分类下包括多个数据集,如卫生综合分类下包括1份居民健康档案基本数据集和17份电子病历基本数据集。已发布的基本数据集相关标准清单如下:
我国卫生信息卫生统计指标标准分为9个部分,包括1份总则和8份不同类别的卫生统计指标内容。已发布的统计指标相关标准清单如下:
引用: