数据治理——元数据管理实施步骤

一、元数据管理概述

1.1 数据管理面临的问题

     数据治理的概念是对数据数据管理的管理,在数据管理的过程中遇到的问题有:

1.1.1 数据不可理解

    海量数据,标准不统一,各系统、各部门对统一指标和概念的解释不一致,统计口径存在差异

1.1.2 数据不可信赖

   数据在加工、转换过程中,由于技术和人为因素造成偏差;环节过多,失真程度严重。    

1.1.3 数据不可追溯

   数据加工过程复杂,且来源众多,无法找到数据源,无法展现加工规则。

1.1.4 数据不可管控

   数据权限不清,流程不清、责任人不清,造成业务部门和数据需求响应缓慢,处理搁置。

1.2 元数据定义

       元数据是关于数据的数据,主要包括业务元数据、技术元数据、操作元数据、管理元数据。在DAMA领域当中,元数据被列为十大管理领域中的重要一项,是做好数据治理的最基础活动。

 元数据治理的目标主要包括:

  • 提供数据使用方、数据提供方、数据管理方对数据资源一致的可理解的业务定义;
  • 采集多源元数据并整合元数据,形成统一元数据中心;
  • 提供元数据访问使用的标准方法;
  • 保障元数据的质量与安全;
  • 开展元数据应用建设,如数据地图、血缘分析等。

 元数据治理工作涉及的环节:

  • 元数据摸查:元数据要素盘点
  • 元数据采集:配置元数据采集任务
  • 元数据清洗:元数据清洗转换
  • 元数据质量:元数据质量检查及改进
  • 元数据应用:数据地图,数据资产,数据血缘

二、元数据摸查/调研

      元数据摸查阶段由开发人员对各单位业务系统的元数据、数据中台产生的元数据开展梳理和盘点,形成元数据摸查清单,为后续元数据接入和清洗转换工作提供元数据要素。

    介于数据治理环境的特殊性,元数据的调研建议按照两个方向去调研,一是内部数据的元数据信息,二是数源单位的元数据信息。主要包括:

序号

元数据类型

元数据

描述

1

数源单位元数据

部门

各业务单位,包括部门名称、编码、职能、地址、接口人等信息

2

系统

各业务部门自建系统,包括系统名称、编码、类型、在用状态、建设厂家等信息

3

数据库

包括数据库类型、名称、所属系统、在用状态、版本、IP地址等信息

4

库表

包括库表英文名称、中文名称、描述、所属数据库、创建人等信息

5

字段

包括字段英文名称、中文名称、描述、类型、长度、值阈、索引、主外键等

6

数据中台元数据

数据分层

数据中台数据资源库的分层信息,如ODS\DWD等

7

主题域

数据中台数据资源库的主题域信息,如组织域/车辆域/事件域等

9

库表

数据中台通过如数据关联、融合等数据治理动作形成的数据资源信息,包括表英文名称、中文名称、描述等

10

字段

数据中台通过如数据关联、融合等数据治理动作形成的数据资源所包括字段信息,包括表英文名称、中文名称、描述等

11

指标

数据中台通过关联/分析创建和管理的指标信息,包括指标英文名称、中文名称、类目、编码、事实表、口径等

12

接口(API)

数据中台创建和管理的用于对外数据开放接口(API)信息,包括API名称、编码、表、创建人、状态等

13

治理规则

数据中台用于对表模型开展数据治理的规则信息,包括质量规则、安全规则、清单规则、转换规则,包括规则名称、类型、编码、所属表、属性字段、规则、描述等

14

数据共享

数据中台的数据共享任务信息,包括共享任务名称、编码、表、共享对象等

15

数据开放

数据中台的数据共享任务信息,包括共享任务名称、编码、表、开放对象等

16

ETL任务

数据中台ETL任务信息,包括任务类目、名称、编码、状态等

   通过元数据摸查及调研,形成元数据摸排清单,为后续元数据采集提供基础。

二、元数据采集

 根据元数据摸查结果,由开发实施人员在开发或配置元数据采集任务,将元数据采集至元数据管理库,元数据采集的详细信息如下表所示。

序号

元数据类型

元数据

采集方式

采集频率

1

数源单位元数据

部门

手工填报

一次性采集

2

系统

3

数据库

数据库采集

T+1

4

库表

T+1

5

字段

T+1

6

数据中台元数据

数据分层

手工填报

一次性采集

7

主题域

9

库表

数据库采集

T+1

10

字段

T+1

11

指标

T+1

12

接口(API)

T+1

13

治理规则

手工填报

一次性采集

14

数据共享

数据库采集

T+1

15

数据开放

T+1

16

ETL任务

T+1

三、元数据清洗

     通过定制元数据清洗和转换规则,利用开发平台对采集的元数据开展清洗和转换操作,标准化元数据属性信息,保障元数据质量,元数据清洗转环节包括:

元数据类型

元数据

清洗内容

1

数源单位元数据

部门

1.部门名称:根据各部门标准名称进行标准化处理;

2.部门编码、上级部门编码:根据编码规范进行标准化处理;

3.对接联系人:剔除空格字、数字、英文字等特殊字符;

4.对接联系电话:根据ITU-T  E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理;

2

系统

1.系统名称:根据交通厅各部门业务系统名称进行标准化处理;

2.系统编码:根据编码规范进行标准化处理;

3.系统类型:根据系统类型字典进行标准化处理;

4.建设时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理。

5.厂商联系人:剔除空格字符、数字、英文字等特殊字符;

6.厂商联系方式:根据ITU-T  E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理;

3

数据库

1.主机IP、服务IP:IP地址统一采取网络字节序的无符号整型标准化处理;

2.管理者、开发者、运维者:姓名剔除空格字符、数字、英文字等特殊字符;电话号码根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理;

4

库表

1.所属系统编码:根据编码规范进行标准化处理;

2.模型英文名称:剔除空格字符等特殊字符;

3.更新频度:根据更新频度字典进行标准化处理;

4.数据偏移量:根据数据偏移量字典进行标准化处理;

5. 开发者、运维负责人:剔除空格字符、数字、英文字等特殊字符;

5

字段

1.字段英文名称:剔除空格字符等特殊字符;

2.是否主键:根据是否主键字典进行标准化处理;

3.是否允许空值:根据是否允许空值字典进行标准化处理;

6

数据中台元数据

数据分层

1.分层编码:根据编码规范进行标准化处理;

2.分层名称:剔除空格字符等特殊字符;

7

主题域

1.域编码:根据编码规范进行标准化处理;

2.域名称:剔除空格字符等特殊字符;

9

库表

1.主机IP、服务IP:IP地址统一采取网络字节序的无符号整型标准化处理;

2.管理者、开发者、运维者:姓名剔除空格字符、数字、英文字等特殊字符;电话号码根据ITU-T E.164建议书的规定及我国工信部的规定,我国移动电话号码的组成标准为11位0-9数字结构组成,数据清洗过程中需要进行标准化处理;

10

字段

1.字段英文名称:剔除空格字符等特殊字符;

2.是否主键:根据是否主键字典进行标准化处理;

3.是否允许空值:根据是否允许空值字典进行标准化处理;

11

指标

1.指标状态:根据状态主键字典进行标准化处理;

2.创建人员名称、更新人员名称:剔除空格字符、数字、英文字等特殊字符;

3.创建时间、更新时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理;

12

接口(API)

1.  API编码:根据编码规范进行标准化处理;

2.服务状态:根据服务状态字典进行标准化处理;

3.接口类型:根据接口类型字典进行标准化处理;

4.请求方式:根据请求方式字典进行标准化处理;

5.创建时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理;

6.创建人员名称、更新人员名称:剔除空格字符、数字、英文字等特殊字符;

13

治理规则

1.规则编码:根据编码规范进行标准化处理;

2.规则名称:剔除空格字符等特殊字符;

14

数据共享

1.任务名称:剔除空格字符等特殊字符;

2.任务编码:根据编码规范进行标准化处理;

15

数据开放

1.任务名称:剔除空格字符等特殊字符;

2.任务编码:根据编码规范进行标准化处理;

16

ETL任务

1.任务名称:剔除空格字符等特殊字符;

2.系统编码、任务编码:根据编码规范进行标准化处理;

3.任务类型、状态:根据字典进行标准化处理;

4.更新时间、任务触发时间、计划结束时间、更新时间、创建时间:时间类型数据统一依据《GB/T 7408-2005 数据元和交换格式 信息交换 日期和时间表示法》标准,按照“YYYY-MM-DD hh:mi:ss”格式进行标准化处理;

5.创建人姓名、更新人姓名:剔除空格字符、数字、英文字等特殊字符;

3.1 清洗规则任务化

  将数据清洗规则形成数据清洗脚本或任务

3.2 清洗任务周期调度

    将数据清洗任务发布上线,并根据元数据的更新周期进行周期任务调度;若发现周期任务中产出的清洗结果数据不满足规则要求预期,则进入问题库,若清洗结果数据满足规则要求预期,则形成标准数据;

3.3  问题数据处置

     对进入问题库数据,由数据中台人员进行问题数据处置后,形成标准数据,并将数据写入标准数据层。

3.4 形成标准数据

    数据清洗完成后,形成标准数据,并将数据写入标准数据层。

四、元数据质量

    元数据质量检查及改造环节对清洗转换后的元数据开展质量检核,发现元数据质量问题,并处置元数据质量问题,形成常态化的质量检查和改造业务闭环。

五、元数据应用

5.1 数据地图       

   数据地图工具是在统一元数据中心基础上提供的元数据检索分析工具,包括数据检索和数据血缘二个模块,数据检索支持根据元数据中英文搜索和元数据详情;数据血缘基于ETL任务脚本等数据解析出表、字段、API之间的血缘关系,并用图形直观展示。

    数据地图工具从宏观层面组织信息,力求以用户视角对信息资产进行归并、整理,提供资产的宏观信息,有效挖掘信息的潜在价值,帮助更好地查找、理解和使用数据。

5.2 血缘分析

   数据血缘分析主要解决“数据之间有什么关系”的问题,包括血缘分析和影响性分析。

   血缘分析指的是取到数据的血缘关系,以历史事实的方式记录数据的来源,处理过程等。数据血缘分析对于用户具有重要的价值,如:当在数据分析中发现问题数据的时候,可以依赖血缘关系,追根溯源,快速地定位到问题数据的来源和加工流程,减少分析的时间和难度

    影响性分析是能分析出数据的下游流向。当系统进行升级改造的时候,如果修改了数据结构、ETL程序等元数据信息,依赖数据的影响性分析,可以快速定位出元数据修改会影响到哪些下游系统,从而减少系统升级改造带来的风险。从上面的描述可以知道:数据影响性分析和血缘分析正好相反,血缘分析指向数据的上游来源,影响性分析指向数据的下游。

参考文章:

元数据管理之——浅谈元数据管理实施步骤(附实施模板)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/821615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python机器学习库中Scikit-learn和TensorFlow如何选择?

在Python机器学习库中,Scikit-learn和TensorFlow是两个非常流行的选择,但它们各自有不同的特点和适用场景。以下是根据搜索结果的一些考虑因素,帮助你做出选择: 1. 项目需求: 如果你的项目主要涉及传统的机器学习算…

OpenCV基本图像处理操作(三)——图像轮廓

轮廓 cv2.findContours(img,mode,method) mode:轮廓检索模式 RETR_EXTERNAL :只检索最外面的轮廓;RETR_LIST:检索所有的轮廓,并将其保存到一条链表当中;RETR_CCOMP:检索所有的轮廓,并将他们组…

魔方网表 存在 mailupdate.jsp接口 任意文件上传漏洞

声明: 本文仅用于技术交流,请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。 简介 魔方网表mailupdate.jsp接口存在任意文件上传漏洞 …

数据仓库—维度建模—事实表设计

事实表 事实表是数据仓库中的核心表,用于记录与业务过程相关的事实信息,是进行数据分析和挖掘的主要数据来源。 在ER模型中抽象出了有实体、关系、属性三种类别,在现实世界中,每一个操作型事件,基本都是发生在实体之间的,伴随着这种操作事件的发生,会产生可度量的值,…

ChatGPT深度科研应用、数据分析及机器学习、AI绘图与高效论文撰写教程

原文链接:ChatGPT深度科研应用、数据分析及机器学习、AI绘图与高效论文撰写https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247601506&idx2&sn5dae3fdc3e188e81b8a6142c5ab8c994&chksmfa820c85cdf58593356482880998fc6eb98e6889b261bf621e1d…

Git 实用技巧2——新建空白分支 | 重命名分支 | 回退到历史 commit

git version 2.39.2.windows 1. 新建空白分支 参考:Git - git-switch Documentation: https://git-scm.com/docs/git-switch/zh_HANS-CN 使用 --orphan 参数,创建一条不基于任何现有提交的空白分支。其初始提交(即 HEAD)不指向任…

箭头函数多个函数体

当箭头函数需要多个语句组成函数体时,需要使用花括号 {} 将多个语句包裹起来,并且需要显式地使用 return 关键字返回值。下面是一个包含多个函数体语句的箭头函数示例:‘ var greet name > { var greeting "Hello, "; …

了解在 Docker 和 Kubernetes 中运行Go程序的影响

根据 2021 年对 Go 开发人员的调查,使用 Go 编写服务是最常见的用途。同时,Kubernetes 是部署这些服务的最广泛使用的平台。了解在 Docker 和 Kubernets 中运行 Go 的含义非常重要,可防止出现 CPU 节流等常见情况。 GOMAXPROCS 变量定义了负责同时执行用户级代码的操作系统线…

python生成二维码

要在Python中生成二维码,可以使用第三方库qrcode。首先,确保已经安装了qrcode库: pip install qrcode然后,使用以下代码生成二维码: import qrcodedata "https://mp.csdn.net/mp_blog/creation/editor?spm100…

c++ std::map 介绍

在 C 中,字典通常指的是 std::map,它是一个关联容器,用于存储键-值对,并且按照键的顺序进行排序。除了 std::map,C 标准库还提供了其他一些类似字典的容器,比如 std::unordered_map(无序字典&am…

Kafka服务端(含Zookeeper)一键自启软件

1. 前言 本文介绍了一款集成图形化界面配置和一键自启功能的Kafka与Zookeeper服务管理软件。该软件通过直观易用的图形界面,使用户能够轻松完成Kafka和Zookeeper的配置工作,有效避免了手动编辑配置文件可能带来的错误和不便。同时,软件还提供…

【附gpt4.0升级秘笈】百度智能云万源全新一代智能计算操作系统发布:引领AI新纪元

在科技日新月异的今天,人工智能(AI)作为引领未来发展的关键技术,正逐步渗透到社会的每一个角落。百度,作为中国AI领域的领军企业,始终站在技术创新的前沿,不断推出引领行业的重磅产品。今日&…

SRTP + RTCP + SCTP

SRTP(Secure Real-time Transport Protocol) 主要功能:SRTP 是 RTP 的一个扩展,提供额外的安全特性,如加密、完整性校验和认证。它旨在保护实时传输的音频和视频流不被窃听或篡改。加密传输:SRTP 使用强加密…

论文略读:SWE-bench: Can Language Models Resolve Real-world Github Issues?

iclr 2024 oral reviewer评分 5668 现有的语言模型(LMs)的基准测试已经饱和,无法捕捉到最先进的语言模型能做什么和不能做什么的前沿。 ——>要具有挑战性的基准测试论文引入了SWE-bench 在现实软件工程环境中评估语言模型的基准测试 ​​…

使用 code-server 搭建在线的 VS Code 编辑器

文章目录 前言安装体验后记 前言 VS Code 是一个非常流行的代码编辑器,安装各种拓展下也可以当作全功能的IDE使用。VS Code本身是基于Web方案构建的,完全可以搭建服务器,然后通过浏览器访问。事实上官方就是这么设计的。现在打开任何一个Git…

(Talk-Bot,ichat助手,ChatK,DGAL,NextChat,FreeGPT,动点原版chatgpt)分享7个好用ChatGPT

目录 目录 1、Talk-Bot 2、ichat助手 3、ChatK 4、DGAI 5、NextChat 6、Chkzh-Aink

【数据分享】历次人口普查数据(一普到七普)

国之情,民之意,查人口,定大计。 第七次人口普查已经结束,那么,为了方便大家把七普数据与之前的数据做对比,地理遥感生态网整理了从一普到七普人口数据,并且把第七次人口普查的数据也一并分享给…

RISC-V微架构验证

对于RISC-V处理器因其灵活性和可扩展性而受到广泛关注,但如果没有高效验证策略,错误的设计实现可能会影响RISC-V的继续推广。 在RISC-V出现之前,对于大多数半导体公司来说,处理器验证几乎成为一门屠龙之技。专业知识被浓缩到少数几…

文献速递:深度学习肝脏肿瘤诊断---基于深度学习的表型分类重新划分联合肝细胞胆管癌

Title 题目 Deep learning-based phenotyping reclassifies combined hepatocellular cholangiocarcinoma 基于深度学习的表型分类重新划分联合肝细胞胆管癌 01文献速递介绍 Primary liver cancer arises either from hepatocytic or biliary lineage cells, giving rise to…

2024中国内燃机展-北京汽车发动机零部件展

2024第二十三届中国国际内燃机与零部件展览会 由中国内燃机工业协会主办、中国机床专用技术设备有限公司、汽车工艺装备成套开发集团协办的2024中国国际内燃机及动力装备博览会(简称“动博会”)将于2024年10月11日-13日在亦创国际会展中心隆重举办。本届…