【精选】数据治理项目实施(合集)06——数据标准在数据治理中的落地实践

导读

本文对数据标准管理进行了深入探讨。重点介绍了数据标准的定义,实施路线和具体标准定义的内容,并总结了企业开展数据标准管理面临的常见问题,由于编写的水平和时间有限, 难免有所纸漏, 欢迎大家批评指正。

        在现实生活中,标准与我们生活息息相关,食品需要满足标准才能实用,汽车需要满足安全标准才能上路行驶,电子产品需要满足标准才能互联互通。那么在 数据治理领域,标准同样很重要,我们数据治理的一个目标就是将各类不同来源的数据进行标准化管理,从而提升数据资产的使用和价值。这篇文章将从数据标准的定义、执行步骤、活动内容等方面阐述数据标准的实践方式。

01 什么是数据标准

        数据标准是什么,到底包括哪些内容,这个从概念角度而言有好几个出处:

    数据标准data standard:数据的命名、定义、结构和取值的规则。——GB\T 36073-2018 数据管理能力成熟度评估模型。

    数据标准 (Data Standards) :是保障数据的内外部使用和交换的一致性和准确性的规范性约束。——大数据技术标准委员会《数据标准管理实践白皮书1.0》数据标准:并非是一个专有名词,而是一系列“规范性约束”的抽象。但是,    数据标准的具体形态通常是一个或多个数据元的集合,即数据元是数据标准的基本单元。——大数据技术标准委员会《数据资产管理实践白皮书6.0》

    数据标准管理的目标是通过制定和发布由数据利益相关方确认的数据标准,结合制度约束、过程管控、技术工具等手段,推动数据的标准化,进一步提升数据质量。——大数据技术标准委员会《数据资产管理实践白皮书6.0》

    标准是指为了在一定的范围内获得最佳秩序,经协商一致制定并由公认机构批准,共同使用的和重复使用的一种规范性文件。数据标准是指对数据的表达、格式及定义的一致约定,包括数据业务属性、 技术属性和 管理属性的统一定义。业务属性包括中文名称、业务定义、业务规则等,技术属性包括数据类型、数据格式等,管理属性包括数据定义者、数据管理者等。——JR/T0105-2014银行数据标准定义规范。

   那么数据标准的实质内容是什么,我们具体要对哪些活动做标准,可以看下面这张图:

        这里可以看出,国标对数据标准的定义包含业务术语、主数据、参考数据、数据元和指标数据。在DAMA体系当中,没有将数据标准作为一个独立的活动来管理,这其实就意味着,数据标准普遍存在于我们数据治理的各项活动当中,是通过制定一套由管理制度、管控流程、技术工具共同组成的体系,通过对活动、流程、定义来统一规范,以保障不同业务系统之间可以做到对同样的数据理解统一和使用统一。比如下面这张图,从数据要素角度定义的数据标准又是另外一个维度,所以标准没有边界,但凡涉及到治理的活动、流程、内容,都需要依赖标准来约束。

 当然,也并不是所有的内容都需要定标准,应为标准的范围实在是太大了,这就取决于怎么来判断标准的范围,落标的程度。所以在做数据标注之前有三个问题需要考虑:

  •     问题1. 什么数据需要制定哪些标准?

    并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。如:基础通用型数据(国家标准、行业标准、企业标准)、主数据类数据、类型和维度数据(分类码、维度码)、报送类(指标、标签)

  •     问题2.什么系统落什么标准?

    核心业务系统、重点业务系统,通过试点逐步推进标准建设,也可反推源头标准化改造。

  •     问题3.什么人与什么时间执行?

    可以参考下面这个表格

02 数据标准的实施路线图

    数据标准同样也是需要做到规划先行,总体执行步骤分六个阶段:

标准规划阶段:对当前的数据标准进行调研,了解各厂家、各来源数据的标准情况,收集诸如数据字典、模型设计等信息。同时了解当前业务领域,国家、行业、的相关权威标准,定义出数据标准框架和实施路线图,以及数据标准的整理表格。

    数据标准制定阶段:标准制定是指在完成标准分类规划的基础上,定义数据标准及相关规则。数据标准的定义主要指数据元及其属性的确定。随着企业业务和标准需求的不断发展延伸,需要科学合理地开展数据标准定义工作,确保数据标准的可持续性发展。

    标准发布阶段:数据标准的评审发布工作是保证数据标准可用性、 易用性的关键环节。在数据标准定义工作初步完成后,数据标准定义需要征询数据管理部门 、 数据标准部门以及相关业务部门的意见,在完成意见分析和标准修订后,进行标准发布。标准评审发布主要流程包括意见征询、 数据标准审议、 数据标准发布等三个过程。

    数据标准维护阶段:数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。

    数据标准化评估阶段:数据标准化评估是为了验证各类标准的落标情况,对落标的效果进行评估,从而能够看出标准的执行效果,并发现新的落标内容。

03 数据标准规划需要做的事儿

数据标准规划包括数据标准调研、数据标准梳理、数据标准框架定义、数据标准模板定义。

【数据标准调研】

    数据标准调研应从业务运行和管理层面、国家和行业相关数据标准规定层面、信息和业务系统数据现状三个方面开展,同时需要考虑现有定义、使用习惯、问题梳理、现状分析、参考文档等。可以通过调查问卷、安排现场访谈、收集文档资料等手段,针对不同的业务系统选用合适的调研方式,对现有定义、使用习惯、数据分布、数据流向、业务规则、服务部门等开展相关调研工作。调研内容包括现有的数据业务含义、数据标准分类、数据元定义、数据项属性规则以及相关国际标准、国家标准、地方标准和行业数据标准等。

    这里顺便补充一下常用的标准查询网址:

【数据标准梳理】

    数据标准梳理是将前期调研的数据标准以及当前数据内容进行梳理,整理出数据标准清单。数据标准的数量可以引用BOR法进行,依据所要构建的数据标准覆盖的业务范围,梳理这些活动中涉及到的全部Objects(主体或对象),以及Objects之间的关联关系。构建数据标准的过程,就是定义Objects和Bussinse的组成要素(政府叫数据元,有些叫信息项,在技术层面统称为元数据)。根据每个业务活动,比如说销售的活动,那就会提炼出销售业务相关的数据对象;比如说客户、销售的产品、销售订单,这些都是相应的实体数据。实体的数据都有相应的属性信息,需要把它的每一项属性信息从三个角度,业务角度、技术角度、管理角度,进行统一的梳理,最后归纳出来与实体之间的关系,形成数据的整体模型。

        首先构建数据标准的主题域,厘清数据主题域之间的逻辑关系;再逐级分解,定义各个主题域下的重要实体和实体间关系;最后定义每个实体中的标准信息项,包括业务含义、质量规则、安全级别、值域范围、代码集等内容。

(数据标准梳理清单)

【数据标准框架定义】

    数据标准框架一般分为基础数据标准和指标数据标准。

    基础类数据标准:为了统一企业所有业务活动相关数据的一致性和准确性解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准。

(1)业务标准

业务标准规范,一般包括业务的定义,标准的名称,标准的分类等。对于业务人员而言,数据标准化建设,可以提升业务的规范性,提升自己的工作效率;同时,保障了数据含义的一致性,降低了沟通成本,给业务的数据分析,挖掘,信息共享提供了便利。

(2)技术标准

技术标准规范,是从技术角度,看待数据标准包括了数据的类型,长度,格式,编码规则等。对于技术人员来说,有了数据标准规范,工作效率可以大幅度提升,降低系统的出错率,有助于提升数据质量。

(3)管理标准

管理标准规范,是从管理角度,看待数据标准。比如数据标准的管理者是谁,如何增添,如何删减,访问标准条件等,都是一个数据规范要求。对于管理人员来说,数据标准建设,保证了数据的完整,准确,为数据安全,经营决策都提供了支持和保障。

  指标类数据标准:1、基础指标具有特定业务和经济含义,且仅能通过基础类数据加工获得。2、计算指标通常由两个以上基础指标计算得出。并非所有基础类数据和指标类数据都应纳入数据标准的管辖范围。

【数据标准实施模板定义】

        数据标准实施模板主要是为了辅助数据标准实施定义的一系列流程模板,其中包括数据标准工作详细计划、调研规范、分析报告、参考物清单、标准评审报告、数据字典清单、业务术语清单等文档,能够贯穿标准从规划到执行评价整体工序的文档。

04 数据标准制定的内容

数据标准制定是指在完成标准分类规划的基础上,定义数据标准及相关规则。数据标准的定义主要包括模型数据标准、主数据和参考数据标准、业务术语表及数据元的确定,随着业务和标准需求的不断延伸,需要合理规划标准定义工作,确保数据标准的可持续发展。

【数据模型标准】

     模型数据标准是为了统一业务活动相关数据的一致性和准确性,解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准,模型数据标准也是元数据管理的主要内容之一。

        在定义模型数据标准的时候,需要通过规范表名称、字段名称及数据类型来指导数据架构设计,形成数据治理的延续。使用同-规范巩固和形成持续的数据治理机制。

【主数据和参考数据标准】

    主数据和参考数据是对数据标准要求最严格的活动,涉及到标准定义的主要有两部分,一是主数据自身的标准定义,也就是主数据包含的元数据信息,包括数据格式、同义词约定、字段名称、值域范围等内容。

        另外一个就是关于参考数据的标准定义,主数据统一各数据对象的定义肯定会涉及到多源数据标准的整合,如参考数据,到底引用哪个源头的字典进行定义是需要后期多方进行评审的,在这个背景下,如果有国标、行标的前提,可以进行优先引用。参考数据标准如下图所示:

【数据元标准】

    数据元(Data element):又称数据类型,通过定义、标识、表示以及允许值等一系列属性描述的数据单元。在特定的语义环境中被认为是不可再分的最小数据单元。也就是说数据标准最小粒度也就是数据源标准的定义,数据元是基础类数据标准的具象化体现,也是数据标准管理的核心。

    完整的数据元应当由三部分组成,对象类、特性及表示只有当对象类及其特性绑定了表示时,才能由数据元概念转变为真正的数据元。

    对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义,并且特性和其行为遵循同样的规则而能够加以标识;,如:车、人、订单等;

    特性类:对象类的所有个体所共有的某种性质,如颜色、性别、年龄、价格等;

    表示类:值域、数据类型的组合,必要时也包括度量单位或字符集,如:格式、值域、长度等;

    在理解了数据元的含义后,如何去制定数据元呢?我们可参考GB/T18391标准的第1~6部分,有兴趣的朋友可以去了解下。对于数据元的规范,国家和行业都有很多标准,所以在定义数据元标准的时候,需要更多的去关注这些标准,在制定数据元时,可以从6个方面描述数据元的基本属性:标识类属性、定义类属性、关系类属性、表示类属性、管理类属性、附加类属性。

(数据元标准样例)

【业务术语标准】

    业务术语是数据在多方应用场景的统一语言表达,同样业务数据内容也是需要在前期调研环节收集的内容,并结合官方的权威定义对业务术语进行标准化定义和完善,业务术语的目标主要有以下几点:

    1)对核心业务概念和术语有共同的理解。

    2)降低由于对业务概念理解不一致而导致数据误用风险。

    3)改进技术资产(包括技术命名规范)与业务组织之间的一致性。

    4)最大限度地提高搜索能力,并能够获得记录在案的组织知识。

【指标标准】

   指标类数据标准一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标具有特定业务和经济含义,且仅能通过基础类数据加工获得,计算指标通常由两个以上基础指标计算得出。

05 数据标准的发布

        数据标准的评审发布工作是保证数据标准可用性、易用性的关键环节。在数据标准定义工作初步完成后,数据标准定义需要征询数据管理部门、数据标准部门以及相关业务部门的意见,在完成意见分析和标准修订后,进行标准发布。标准评审发布主要流程包括意见征询、数据标准审议、数据标准发布等三个过程。

06 数据标准执行和检查(贯标)

        数据标准执行主要分两部分,第一部分是正在进行数据治理的各个阶段进行应用,第二部分是新建系统和历史存在的业务系统的应用。新建系统的贯标必须严格按照发布的标准进行设计,通过使用平台提供的模型设计产品进行管控。正在运行系统的标准可以通过探查、智能识别的手段建立映射关系,包括模型的引用,字典的引用,或者通过数据清洗转换进行映射处理。

         在数据标准执行的过程当中,为了检查标准的执行情况,我们也可以依靠各类数据质量规则、数据安全规则进行相关标准的检测工作,来验证标准的执行情况。

07 数据标准的维护

        数据标准并非一成不变,而是会随着业务的发展变化以及数据标准执行效果而不断更新和完善。

    在数据标准维护的初期,首先需要完成需求收集 、 需求评审、 变更评审、发布等多项工作, 并对所有的修订进行版本管理, 以使数据标准 “有迹可循 ”,便于数据标准体系和框架维护的一致性。其次, 应制定数据标准运营 维护路线图,遵循数据标准管理工作的组织结构与策略流程,各部门共同配合实现数据标准的运营维护。

    在数据标准维护的中期, 主要完成数据标准日常维护工作与数据标准定期维护工作。日常维护是指根据业务的变化,常态化开展数据标准维护工作,比如当企业拓展新业务时,应及时增加相应数据标准;当企业业务范围或规则发生变化时,应及时变更相应数据标准;当数据标准无应用对象时,应废止相应数据标准。定期维护是指对已定义发布的数据标准定期进行标准审查,以确保数据标准的持续实用性。通常来说,定期维护的周期一般为 一年或两年。

    在数据标准维护的后期,应重新制定数据标准在各业务部门 、 各系统的落地方案,并制定相应的落地计划。在数据标准体系下,由于增加或更改数据标准分类而使数据标准体系发生变化的,或在同一数据标准分类下,因业务拓展而新增加的数据标准,应遵循数据标准编制、 审核 、 发布的相关规定。

08 数据标准执行的常见问题

        这里举几个比较典型的数据标准执行的常见问题:

1、存量数据标准落标

  •     存量系统先管理好数据模型和字典,这作为未来统一数据标准的基础。

  •     摸清模型存量系统不符标准的情况,如标准代码,编码规则,存储格式等严重影响数据指标和拉通汇集的情况。

  •     根据非标问题的影响程度,制定未来的落标计划,选择合适的时机进行逐项的落标。

  •     未落标前,可以先落标ODS层或ADS层,这样可以纠正后期应用的标准化问题。

2、多套标准并行的场景

  • 对标准进行有效范围的定义,以明确每套标准的用途,比如原系统的标准作为地方标准,数仓的作为国家标准。

  • 建立标准之间的映射管理,做好数据拉通的依据解决。这样设计标准的维护和变更就可以重点选择哪里进行新增,以及如何进行统一等。

3、其他问题举例


 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

———— 数据治理行业资料及实施模板获取请加入获取————

———— 星球资料部分内容————

 数据治理实施交付物合集


 

 

  数据治理行业合集


 

 

   数据治理方案合集


 

 

           ———— 更多资讯请添加公众号————

  ———— 欢迎加入社区讨论数据治理————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/36228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis-关联查询的对象是集合的处理

用户和角色之间是多对多的关系,也就是说,一个用户可以有多个角色与之绑定,所以在User对象中,角色的属性就必须是一个集合Set或者List,这里我们就用List集合在做例子: 1.怎么在Mybatis中实现关联的List集合对…

k8s流控平台apiserver详解

一、简单理解认识apiserver 1.主要功能 认证 鉴权 准入 mutating validating admission 限流 2.概念 apiserver保护etcd,缓存机制,有缓存直接返回,没缓存再去查看etcd,apiserver是担任和其他平台同信并认证 3.访问控制概览…

精益生产KPI指标分析与管理系统,助力企业挖掘数据黄金焕发第二生命线

智慧工厂精益生产追求以越来越少的投入获取越来越多的产出,通过消除浪费、提高效率来实现生产效益的最大化。精益生产强调量化管理,通过与KPI的结合,可以将生产过程中的关键数据进行量化和分析,推动企业各部门更加关注运营效率&am…

嵌入式Linux的浮点运算能力测试

嵌入式Linux的浮点运算能力测试 今天需要对一款ARM CPU的浮点数运算能力进行测试,采用了台式机上常用的SuperPI相同的原理:计算一定小数位数的圆周率来测试硬件的浮点数计算能力和稳定性。 首先下载计算软件的源代码,可以使用下面命令&#…

Excel 宏录制与VBA编程 —— 12、文本字符串类型相关(转换、拆分、分割、连接、替换、查找、“Like“)

字符串分割,文末示例(文末代码3附有源码) 代码1 - 基础字符串 代码2 - 字符串拆分 代码3 - 字符串分割 Option ExplicitSub WorkbooksClear()Dim DataRange As RangeSet DataRange Range("C2:E12")DataRange.Clear End SubSub Wo…

NetSuite 隐藏功能之Memorized Transactions记忆交易

本周功课结束,想说说Memorized Transactions这个有时会被忽略的功能,顾名思义,记忆交易就是可以将一个原始的Transaction在创建后进行“记忆”,以保证后续可以在固定日期(周期性日期或者自定义日期)产生“被…

CISCN--西南半决赛--pwn

1.vuln 这是主函数,数一下就发现可以溢出最后的0x4008d0 然后会执行到这里,逻辑就是在v0上写shellcode,不过执行写0x10,不够sh,很明显要先read。 以下是exp: from pwn import * context.archamd64 ioprocess(./vuln)…

一大波客户感谢信来袭,感谢认可!

“自美的置业数据中台项目启动以来,贵公司实施团队与服务运营始终以专业、敬业、合作的态度扎根用户、服务用户、与用户共成长。在此,我司表示由衷的感谢!” 这是携手美的置业以来,我们收到的第二封客户感谢信。 △ 以上为美的置…

Windwos +vs 2022 编译openssl 1.0.2 库

一 前言 先说 结论&#xff0c;编译64位报错&#xff0c;查了一圈没找到解决方案&#xff0c;最后换了32位的。 使用qt访问web接口&#xff0c;因为是https&#xff0c;没有openssl库会报错 QNetworkReply* reply qobject_cast<QNetworkReply*>(sender());if (reply){…

《数据仓库与数据挖掘》 总复习

试卷组成 第一章图 第二章图 第三章图 第四章图 第五章图 第六章图 第九章图 第一章 DW与DM概述 &#xff08;特点、特性&#xff09; DB到DW 主要特征 &#xff08;1&#xff09;数据太多&#xff0c;信息贫乏&#xff08;Data Rich&#xff0c; Information Poor)。 &a…

2024最新美区TikTok选品全流程指南

打造TikTok爆款&#xff0c;3分靠运营&#xff0c;7分靠选品。 选择适合TikTok推广的商品至关重要&#xff0c;针对TikTok美区如何选品&#xff1f;怎么定价&#xff1f;SKU定多少&#xff1f; 本文总结出独家「美区TikTok选品全流程指南」方法论&#xff0c;说清楚选品最重要…

【项目一】全场景工业互联设备管理系统解决方案(PC上位机+中控+多传感器) 文章汇总

全场景工业互联设备管理系统解决方案(PC上位机中控多传感器) 配套硬件及资料 配套资料&#xff1a;https://pan.baidu.com/s/109e9Cr5nl-BWpct24Q6zOw?pwdroot 密码&#xff1a;root 交流论坛&#xff1a;https://forums.100ask.net/c/specialc/85 QQ交流群&#xff1a;865…

深入理解 XML 和 HTML 之间的区别

在现代网络技术的世界中&#xff0c;XML&#xff08;可扩展标记语言&#xff09;和 HTML&#xff08;超文本标记语言&#xff09; 是两个非常重要的技术。尽管它们都使用标签和属性的格式来描述数据&#xff0c;但它们在形式和用途上有显著的区别。 概述 什么是 XML&#xff…

告别 “屎山” 代码,务必掌握这14 个 SpringBoot 优化小妙招

插&#xff1a; AI时代&#xff0c;程序员或多或少要了解些人工智能&#xff0c;前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家(前言 – 人工智能教程 ) 坚持不懈&#xff0c;越努力越幸运&#xff0c;大家…

【论文阅读 Validation Free and Replication Robust Volume-based Data Valuation】

论文题目 免验证的对于复制鲁棒性的基于量的数据估值 1. 本文具体贡献 通过数据的体积形式化了数据多样性的度量&#xff0c;并在理论上和实证上证明了体积对数据估值的适用性&#xff1b;形式化了复制鲁棒性的概念&#xff0c;并设计了一种基于稳健体积&#xff08;RV&…

分布式服务测试各节点调用第三方服务连通性

背景&#xff1a;分布式部署 一个主节点往各个节点下发任务&#xff08;调用第三方服务&#xff09;&#xff0c;目的是为了测试各节点与第三方的连通性 思路&#xff1a; 主节点实现 创建Spring Boot项目&#xff1a;作为主节点的后端服务。 集成Eureka客户端&#xff1a;在…

Android 遥控器

遥控器源码 import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import android.graphics.Path; import android.graphics.RadialGradient; import android.graphics.Region; import android.g…

个微API二次开发

通过 E云API 可以实现 个性化微信功能 &#xff08;例&#xff1a;营销系统、云发单助手、社群管家webot、客服系统等&#xff09;&#xff0c;用来自动管理微信消息。 可开发的功能包括但不限于&#xff1a; 好友管理&#xff1a; 添加好友、删除好友、修改备注、创建标签、获…

云动态摘要 2024-06-28

给您带来云厂商的最新动态&#xff0c;最新产品资讯和最新优惠更新。 最新优惠与活动 [新客专享]WeData 限时特惠 腾讯云 2024-06-21 数据分类分级管理&#xff0c;构建数据安全屏障 &#xff0c;仅需9.9元&#xff01; 云服务器ECS试用产品续用 阿里云 2024-04-14 云服务器…

VMware虚拟机三种网络模式设置 - Host-Only(仅主机模式)

一、前言 在之前的《Bridged&#xff08;桥接模式&#xff09;》、《NAT&#xff08;网络地址转换模式&#xff09;》中&#xff0c;我详细介绍了虚拟机网络模式设置中的桥接模式与网络地址转换模式。今天详细讲解一下Host-Only&#xff08;仅主机模式&#xff09;。 在VMware虚…