【形而上学】数据治理之元数据——用数据的数据管理数据
- 一、都柏林核心元数据元素集
- 二、元数据
- 2.1 什么是元数据
- 2.2 元数据类型
- 2.3 实现元数据的技术
- 三、元数据相关标准
一、都柏林核心元数据元素集
1995年3月,NCSA与OCLC共同在俄亥俄州都柏林市举行了一次仅有受邀者才能参加的研讨会,主题就是探讨网络元数据。
研讨会的目标之一是,就“用于描述联网资源的核心元数据元素集合
”达成一致意见。我们处于互联网时代,你所看到的任何资源应该都属于描述联网资源的。
源自俄亥俄州都柏林市的核心元数据元素集就是这样诞生的。
都柏林核心元数据元素集从设计上来说简要精练、成本低廉、易于学习、便于使用。其目的在于借此达到广泛采用的目的,并且最终渗透到网络的每个角落。
都柏林核心元数据元素集经过了几年的时间才最终达到稳定的状态。最终,15
个元素成为核心元素
需要注意的一点是,开发都柏林核心元数据元素集是为了描述在线资源,但是“格式”元素所指的是“资源的文件格式、物理介质或维度”。显而易见,物理媒介或维度都不适用于数字资源。但是从描述网络上存在的任何事物到描述世界上存在的任何事物之间只有一步之遥,事实就是这样。随着都柏林核心元数据元素集不断进化,“格式”元素不久以后就开始拓展并纳入了实体描述。
二、元数据
2.1 什么是元数据
元数据是对潜在信息对象的陈述。
2.2 元数据类型
- 技术元数据
技术性元数据会记录关于资源特点的信息,这与描述性元数据之间存在相当大的重叠,例如文件的大小与类型在不同情形下既可以被视为是描述性元数据,也可以是技术性元数据。然而,技术性元数据所记录的资源特点是不需要人为判断即可识别的数据,正是为此我们才能用软件来自动搜集技术性元数据。
- 结构性数据
该类数据记录了关于某一资源如何组织的信息。一条非常简单的元数据记录可以描述一本书,提供关于每章每节顺序的信息。MPEG-21记录提供关于多媒体文件的类似信息,即以什么样的顺序播放哪些数字项,哪些音轨必须与哪些视频项共同播放,等等。 - 溯源元数据
这些溯源模式拥有许多共同的特征:都由多个元素集构成、元素集可识别资源的特点以及影响资源的实体,并且都对资源和实体之间的关系进行了分类。
- 保存元数据
存储库支持数字保存过程需要用到的几类信息,包括持久生存能力(viability)、可呈现能力(renderability)、可理解性(understandability)、真实性(authenticity)以及可识别性(identity)。换句话说,存储库必须确保一个数字对象在一段时间内可以存续,在此期间可以显示并使用这一对象,并且能将其原始或权威版本与拷贝或更改后的版本区分开来。
-权限元数据
RightsDeclarationMD拥有三个顶层元素:权限声明(rightsDeclaration,与资源关联的权限)、权限持有者(rightsHolder,某个个人或组织)和上下文(context,对权限持有者拥有哪些权限以及在什么样的情形下拥有这些权限进行描述)。每个顶层元素都有多个属性,例如,权限类别(rightsCategory)是权限声明的属性之一,其值可以来自较小的受控词汇表,其中包括受版权保护的(copyrighted)、已获授权的(licensed)、公有领域(PublicDomain)等。“上下文”元素相当复杂,包含多个属性与子属性。“上下文”的子属性之一“许可”(permissions)同样关联着一个较小的受控词汇表,包括发现(discover)、展示(display)、复制(copy)、修改(modify)和删除(delete)。
2.3 实现元数据的技术
- 结构化数据
- 描述性框架
RDF,即资源描述框架,是用于描述资源的框架。 - DCMI抽象模型
采用了一种我们比较熟悉的方法来确定元数据模式的本体。被描述资源是RDF三元组的主题。
- 可扩展标记语言
- 文档类型定义
三、元数据相关标准
国内元数据管理方面有很多标准。
- 《数据中台 元数据规范》是由浙江省标准化研究院支撑、杭州玳数科技有限公司牵头起草的全国首个 《数据中台 元数据规范》团体标准正式批准发布,该标准作为我国数据中台领域第一个团体标准,填补了国内数据中台元数据的标准空白。
- 物联网 信息交换和共享 第3部分:元数据
- 等,可自行查看