数据治理之参考数据与主数据管理

简介:最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。

一、参考数据与主数据

最近凑巧参与了一次某行业的业务共创会议,期间讨论到了主数据系统,还有我们该如何参与主数据系统建设的话题。说实话,我一直以为我不会有机会参与到主数据与参考数据系统的话题中去,所以,又去把DAMA的书籍翻了翻。顺便也重新思考了一下主数据与参考数据这个数据治理的课题。

1. 基本定义

在DAMA指南中对主数据和参考数据的基本定义如下:

参考数据和主数据管理是对参考数据和主数据进行持续的协调一致和维护工作。

参考数据管理是对定义的数据域值(也称为词汇、术语)进行控制,包括对标准化术语、代码值和其他唯一标识符一级每个取值的业务定义的控制,和对数据域值列表内部和跨不同列表之间的业务关系的控制;并且对准确、及时和相关参考数据值的一致、共享使用进行控制,以进行数据分类和目录整编。

主数据管理对主数据值进行控制,以时序跨系统的一致、共享、上下文相关地使用主数据,以及对核心业务实体的真实情况的最准确、集市和相关的版本进行控制。

这段话,大部分人其实看了有点懵。换个简单的说法:主数据管理就是管理交易系统中的各种核心活动对象实体(常见的对象有组织、个人、产品等)在一个大型组织内部的一致性,参考数据管理就是管理交易系统中各种实体的属性的定义(代码值或者枚举值)的一致性。

2. 简明定义

在DAMS中国数据智能管理峰会的官网一篇文章中这样简明的描述了主数据管理和参考数据管理,内容如下(引用文章地址在本文最后)。

主数据--企业黄金数据记录

主数据(master data)主要是指经实例化的企业关键数据。

如上图,我们在上面设计完成数据模型设计的“城市表”中填写了相应的城市数据,例如,北京、上海、广州、南宁等等。这些在城市表中填充的数据,正是组织中国地理协会的主数据,因为这些数据是中国地理协会这个组织的关键业务实体,它为组织的业务开展提供关联环境,而且它可能在企业业务开展过程中被反复引用。针对这些核心关键数据,组织和企业无论从数据的质量、一致性、可用性、管理规范等方面都应该有着最严格的数据要求。

那么一般而言,以下涉及企业经营的人、财、物的数据最有可能纳入企业主数据管理的范畴,例如:

企业产品及其相关信息:包括企业相关产品、服务、版本、价格、标准操作等等;

企业财务信息:包括业务、预算、利润、合同、财务科目等等 ;

企业相关利益相关者:如客户、供应商、合作伙伴、竞争对手等;

企业组织架构:如员工、部门等;

可见,主数据就是企业被不同运营场合反复引用关键的状态数据,它需要在企业范围内保持高度一致。它可以随着企业的经营活动而改变,例如,客户的增加,组织架构的调整,产品下线等;但是,主数据的变化频率应该是较低的。所以,企业运营过程产生过程数据,如生产过程产生各种如订购记录、消费记录等,一般不会纳入主数据的范围。当然,在不同行业,不同企业对主数据有不同的看法和做法,正如我们与国内大型航空企业的实施相关数据项目时,也在为航班动态是不是主数据而纠结不已。

因此,有鉴于主数据对于企业的重要性,企业和组织需要对其主数据进行有效的管理:包括理解主数据应用需求,识别主数据来源及源头,梳理主数据上下游关系,数据整合和发布,提升主数据的数据质量等。

参考数据-数据的字典

在本文引用的假设案例中,我们将会注意到刚才填写的地市这类数据有些列,如省份、城市类型等。如果没有缺少上下文的环境,我们是无法理解其具体含义,这时候我们往往引入参考数据(reference data)加以解释和理解,如下图红色标注所示。

参考数据是增加数据可读性、可维护性以及后续应用的重要数据。例如,你看到“性别”的这个字段,很可能是1代表男性、2代表女性。在许多企业中有这样的约定俗成,而更多的参考数据可能记录在开发人员和运营人员的大脑当中。但问题是一旦这些人离开,您系统里面的数据就成了一堆没有注释的天书。

大家可能觉得,这所谓参考数据不就是数据字典吗?对,我们在很多系统里面都会有这样和那样的数据字典。但是正是由于这些数据字典局仅限于个别系统而没有统一标准,从一个侧面间接造就了大量的数据孤岛。企业为了进行更有效率的数据整合、数据共享和数据分析应用,开始尝试对参考数据进行企业或者部门层面的整合和管理,利用参考数据集记录系统尝试为范围内的IT系统中的数据库提供统一的参考数据。

小结

主数据则是真实的企业业务数据,是企业的关键业务数据。

参考数据则是对数据的解释,针对一些数据范围和取值的数据解释,让人们容易读取相关的数据。

3. 驱动因素

在任何组织中,都存在一些需要跨业务领域、跨系统使用的数据。如果这些数据实现了共享,所有的业务部门就可以访问相同的客户清单、地理位置代码、业务不么清单、交付选项、部件清单、成本核算中心代码、政府税收代码以及用于运营业务的其他数据,那么整个组织及其客户都会从中受益。数据使用者在看到不一致的数据之前,通常会建设这些数据在整个组织中具有一定的一致性。

在大数据多组织中,系统和数据的变化速度比数据管理专业人员所希望的要快。特别是大型组织中,各种项目和方案、合并和收购以及其他商业活动导致存在多套在本质上作业相同的系统,它们相互隔离,无法沟通。以上这些情况不可避免地导致了系统间数据结构和数据值的不一致,从而增加了成本和风险。组织可以通过对参考数据和主数据进行管理来降低成本和风险。

参考数据管理和主数据管理都是专门的数据质量改进规划,依赖有效的数据管理制度和数据治理活动。是一项持续的质量改进计划才能获得成功,不可能毕其功于一役。

参考数据和主数据质量改进计划的成本和复杂性由业务驱动决定,常见的业务驱动因素是:

a) 跨数据源、应用和技术的条件下提升数据治理和整合度。

b) 对于重要的业务相关方、角色和产品提供综合的360度视图,特别是提供更有效的报表和分析。

参考数据和主数据管理的目标包括:

a) 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。

b) 促使企业在各个业务单元和各个应用系统之间共享参考数据和主数据。

c) 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本及复杂性。

二、与其他系统关系

1. 现实情况

理论上在联机事物处理(OLTP)系统和数据仓库及商务智能系统都存在参考数据和主数据管理。理论上组织内所有的联机事物处理(OLTP)系统都使用相同的黄金记录和数据值,实际上在所有的大型企业内部跨交易系统环境中都存在不一致的参考数据和主数据。这不仅需要数据仓库系统来确认最真实的记录系统,同时还有确定最准确的参考数据和主数据。数据仓库构建构成中要花很大的代码用于清晰和整合不同来源的主数据,或者在数据仓库和商务智能环境中使用维度表维护主数据和参考数据,而不是在主操作系统数据库中维护并复制到其他业务数据库和数据仓库中。

如上所述,理论上参考数据和主数据管理是在联机事物处理(OLTP)系统层面需要去治理和解决的问题,但是实际上很多时候在数据仓库与决策分析系统使用数据的时候才会花很大的代价去解决。

如下所述,这是《数据仓库》一书中对数据转换和集成复杂性的描述。这些多源不一致的描述在数据仓库中去解决并不是从根本上解决了不一致的问题,只是利用这个整合的平台进行了一次表面上的掩盖,并未真实从源头解决主数据和参考数据的一致性与质量问题。

转换和集成的复杂性

a) 存在多个输入数据源。在某些情况下数据仓库中数据项的来源是一个文件,而在另外一些情况下,则为另外一个文件。逻辑上必须分清楚,以便由适当的数据源提供正确条件下的数据。

b) 当存在多个输入文件时,进行文件合并之前要首先进行键码解析。这意味着如果不同的输入文件使用不同的键码结构。那么,完成文件合并的程序必须提供键码解析功能。

c) 当存在多个输入文件时,这些文件的顺序可能不相同甚至互不相容。在这种情况下这些输入文件需要进行重新排序。当有许多记录需要进行重新排序时可能有些困难,但可惜的是,通常都是这种情况。

d) 存在多个输入数据源。在某些情况下数据仓库中数据项的来源是一个文件,而在另外一些情况下,则为另外一个文件。逻辑上必须分清楚,以便由适当的数据源提供正确条件下的数据。

e) 当存在多个输入文件时,进行文件合并之前要首先进行键码解析。这意味着如果不同的输入文件使用不同的键码结构。那么,完成文件合并的程序必须提供键码解析功能。

f) 当存在多个输入文件时,这些文件的顺序可能不相同甚至互不相容。在这种情况下这些输入文件需要进行重新排序。当有许多记录需要进行重新排序时可能有些困难,但可惜的是,通常都是这种情况。

2. 层次关系

从上一部分的介绍可以了解到,参考数据和主数据管理是涵盖数据产生的“联机事物处理(OLTP)系统”和“数据仓库及商务智能系统”的。但是应该是在“联机事物处理(OLTP)系统”这个层次去解决,并把标准化的数据同步给“数据仓库及商务智能系统”去使用。

作为一个做数据仓库的数据研发人员,我其实一直都认为参考数据和主数据管理是“联机事物处理(OLTP)系统”(业务系统)范围内的事情,而不是分析型系统需要去实施的。很多时候如果所服务的企业内部有参考数据和主数据管理系统,做了参考数据和主数据管理,对于我的“数据仓库及商务智能系统”工作来说是大大有益的。虽然很多时候这个主数据和参考数据的识别和标准化的工作,会被带到数据仓库与商务智能环境中来解决,但是从数据使用者的角度来看还是希望在底层解决。

之前服务过的某银行在08年实施了“统一客户管理系统”,实现了银行间多个业务系统的唯一客户识别,并对不同系统的遗留客户的归一做了识别。这是我接触过的一个主数据识别的业务系统,这个系统解决了银行之前个贷、理财、基金等多个业务系统的客户唯一识别。但是,后来我还是遇到了一个个人信息是以个贷的个人信息为准还是信用卡的个人信息为准的主数据识别的问题。是组合着来还是以某个为准,真是难以入目。个贷的数据是一个历史数据,都是在办理贷款业务的时候录入的,这个信息相对要准确真实,但是如果这是一笔10年前的贷款,这些数据可能早就不能使用了。信用卡的数据一般比较新,更新也相对频繁一点,但是信用卡的数据质量可能不太好,可信度要低一些。这是数据仓库能解决的问题么?同一个信息不一致的情况下,不管使用哪个数据都是猜的。我本人看了一些业务人员给的规则计算后的结果,只能说凑合着用吧,也没得选(我的选择最后就变成了数据仓库中的用户主数据信息)。这也是参考数据和主数据系统建设的重要意义,如果从源头解决这个问题,何必这么为难。

主数据的问题其实非常广泛。在税务领域,我们遇到了不同企业在异地注册的识别问题。多地注册企业是否一个企业的问题,在缺乏主数据系统的情况下这个问题回答的极为艰难。在公共安全领域,不同个人使用不同证件在多个不同场合,如何识别是同一个个人的问题,也是非常有挑战。所以,在业务系统这层做好主数据系统,真是非常的必须。

3. 与中台关系

数据中台概念和阿里提出ONEID概念后,突然间整个数据治理的事情都是阿里中台化的革命使命了。所以,我们在越来越多的项目中遇到了参考数据和主数据管理的事情。

谈到阿里的主数据管理,一定会提到ONEID的概念。阿里的ONEID是给阿里系的诸多APP识别同一个用户的一套个人身份识别的规则算法,如果对应在主数据管理系统中应该是对应“匹配规则”这个概念。在《DAMA数据管理知识体系指南》8.2.7章节中指出“主数据管理在未来面临的最大挑战是在多个系统中对于通一个人、群组和事物的数据进行匹配、合并、连接”。ONEID的实现与纯在交易型系统去解决主数据问题有一些形式上的区别:第一,ONEID是根据实际业务需求提出的主数据数据治理的一个小应用,而不是主数据管理系统,其覆盖的范围是传统主数据管理的“客户数据”。第二,ONEID的实现利用了数据仓库和机器学习与算法规则,是一种相对交易规则更加复杂的规则算法,是一种事后(数据仓库和商务智能)与事前(联机事物处理(OLTP)系统)共用的相对弱规则。

从数据中台和业务中台拆分的角度来看,主要从事数据中台工作的我对主数据和参考数据管理这个领域的划分还是在业务中台,不是自己的日常工作范围。因为业务中台的概念提出后,就提出了业务中心的概念。像“用户中心”、“产品中心”、“参数中心”这种中心化的业务系统全局设计,已经可以从根本上解决了主数据的企业级标准化的问题。

但是从实现的角度来说,只有少量大型企业能把全局的业务系统全部重构一遍?大多是渐进式和改造式。何况很多大型企业还有很多收购公司与关联公司,很难做到覆盖全面的管控。所以,主数据管理和参考数据管理,还是我们眼前大型企业必备核心数据治理工作。只是我们是否能利用当前技术上的更多的进步,来改善我们的治理工作实施方法和治理效果。

从另外一个角度来看,数据仓库或者数据中台所面临的数据整合的问题其实也是主数据和参考数据的问题。我们在数据仓库中构建了全局一致的业务模型,实现了数据中台中数据仓库级别的主数据和参考数据识别,并以此向下游的数据集市发布了数据仓库中甄别的主数据和参考数据。很多参考数据和主数据系统本身就有数据模型管理、数据采集、实体解析、数据共享等工作,其实很多时候也是利用数据仓库平台来实现的(或者自己构建了一个小型数据平台)。只是从最终服务对象上来说,服务的系统是主数据和参考数据管理系统。

看了两个传统的MDM系统供应商,STIBO SYSTEMS(思迪博)和IBM。从这两个公司对MDM系统的介绍来看STIBO SYSTEMS(思迪博)似乎在行业能力上更加领先,介绍也更加传统第一眼看到的是其涉及多领域的能力。IBM似乎更注重宣传功能,介绍诸如自助访问、更深入的洞察、同意管理、使用直观的仪表板来更主动地管理数据。总的来说,感觉落地一套这种系统从交付角度来说难度会非常有挑战,需要非常厚的行业沉淀,需要日积月累的持续的协调推进这个数据治理活动。我一直记得曾经坐在我对面的一个负责数据治理的同事,好像一年搞的事情就是几张代码表,我也不知道她最后搞完了没有。对于做这个事情的同事,我觉得心态一定要平稳,做好持续推进的运营计划,不用想着一次性解决问题,这样才能把事情做成。

三、参考文档

1.什么是数据、元数据、主数据和参考数据?

什么是数据、元数据、主数据和参考数据?_大数据架构师Evan的博客-CSDN博客

2. 一幅图读懂元数据、主数据与参考数据

一幅图读懂元数据、主数据与参考数据 | DAMS-数据智能管理峰会

3.DAMA知识体系解读(8)参考数据和主数据管理

DAMA知识体系解读(8)参考数据和主数据管理 - 知乎

4.数据中台的OneID是个什么鬼,主数据它不香吗?

数据中台的OneID是个什么鬼,主数据它不香吗?_云 祁的博客-CSDN博客

5.主数据管理(Master Data Management)基础

主数据管理(Master Data Management)基础 - 知乎

6.主数据管理

https://wiki.mbalib.com/wiki/%E4%B8%BB%E6%95%B0%E6%8D%AE%E7%AE%A1%E7%90%86

7. 《数据仓库》(原书中文第四版)

第3章-设计数据仓库 3.10转换和集成的复杂性

8. 《DAMA数据管理知识体系指南》

第8章-参考数据和主数据管理

9. STIBO SYSTEMS(思迪博)

Master Data Management | Enterprise MDM solutions | Stibo Systems

10.IBM

主数据管理工具和解决方案 | IBM

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510917.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在云端重塑内容生产?来看这场虚拟人主持的发布会

简介:「智能媒体生产」产品全新升级 3月30日,阿里云视频云在线上举行了一场由虚拟人助力主持的「智能媒体生产」产品升级发布会,活动围绕产品能力的展现、视频生产流程的革新、高效生产背后的技术先进性,阐释了企业如何在云端重塑…

阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend

简介:近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。为了解决这一问题,阿里云机器学习PAI平台开源了稀疏模型高性能同步训练…

Serverless 遇到 FinOps,云成本问题有解了!

Key Takeaways:1. 尽管 Serverless 的迅猛发展吸引了广泛深入的关注,Serverless 函数总成本的事先估计仍缺乏有效的理论指导。本文基于 FunctionGraph 在 Serverless 领域的 FinOps 探索和实践,提出业界首个 Serverless 函数总成本估计模型。…

Apsara Stack 技术百科 | 联结良性生态,筑千行百业的数字基石

简介:作为现今IT领域最重要的课题:基础设施云化,离不开与伙伴的携手合作,如何让云上解决方案能充分释放价值的同时形成一个相互依存的自循环生态系统,混合云君来跟你聊聊~ 生态系统这个词在维基百科上的定义是&#xf…

用户留存建模实践

简介:在流量分析型产品的用户分析模块中,留存、互访、新老客构成等数据都是有效衡量用户粘性与促活召回的关键性指标;但是,我们发现在很多流量运营的业务场景中,留存分析建模都显著存在着设计和计算上的诸多问题。本文…

ACK One 构建应用系统的两地三中心容灾方案

简介:本文侧重介绍了通过 ACK One 的多集群应用分发功能,可以帮助企业管理多集群环境,通过多集群主控示例提供的统一的应用下发入口,实现应用的多集群分发,差异化配置,工作流管理等分发策略。结合 GTM 全局…

英特尔On技术创新峰会:助力开发者解决当前和未来的挑战

第二届英特尔On技术创新峰会于2022年9月27日在美国加利福尼亚州圣何塞市开幕。在本届峰会上,英特尔向齐聚一堂的软硬件开发者们分享了在构建以开放、选择和信任为原则的生态系统方面的最新进展——从推动开放标准以使“芯片系统”(systems of chips&…

你不知道的 HTTPS 压测

简介:随着互联网安全规范的普及,使用 HTTPS 技术进行通信加密,实现网站和 APP 的可信访问,已经成为公认的安全标准。本文将介绍针对 HTTPS 协议做压力测试的关注点,以及使用 PTS 做 HTTPS 压测的技术优势和最佳实践。 …

数据湖—Delta Lake

简介:Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为…

2022杭州云栖大会定档11月3日至5日:技术产品发布+超4万平科技展

9月28日消息,记者从云栖大会组委会获悉,2022杭州云栖大会将于11月3日至5日在杭州云栖小镇举办。今年云栖大会以“计算进化未来”为主题,在3天内设置两场主论坛,70多场数字技术、产业和生态分论坛,以及4万平米智能科技全…

阿里云RemoteShuffleService 新功能:AQE 和流控

简介:阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/Remot…

如何使用Delta Lake构建批流一体数据仓库

简介:Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大…

中国峰会|下一代云基础架构,赋能企业云上发展

点击上方入口立即【自由构建 探索无限】一起共赴年度科技盛宴!马上点击“阅读原文”了解更多亚马逊云科技中国峰会让我们共同见证亚马逊的一小步云计算的一大步扫码【立即报名】直通大咖云集的亚马逊云科技中国峰会!

Delta Lake基础介绍(商业版)

简介:介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。 作者:李洁杏,Databrick资深软…

云原生数仓如何破解大规模集群的关联查询性能问题?

简介:AnalyticDB for PostgreSQL(以下简称ADB PG)是一款PB级的MPP架构云原生数据仓库。本文从ADB PG架构设计的角度出发,探讨Runtime Filter在ADB PG中的实现方案,并介绍了基于Bloom Filter的ADB PG Dynamic Join Filter功能技术细节。 作者 …

独家对话Python之父:人类大脑才是软件开发效率的天花板

【CSDN 编者按】十五年前,《程序员》杂志曾专访过 Python 之父 Guido van Rossum,一起探讨了 Python 3.0 的较为明显的新特性,即增加了对中文( Unicode )的支持。十五年过去,Python 的版本号只前进了一个数字,但是 Pyt…

淘系用户平台技术团队单元测试建设

简介:单元测试是工程交付前质量保障的第一环,也无疑是软件工程质量保障的重要基石,有效的单元测试能够提前发现90%以上的代码Bug问题,同时也能防止代码的腐化,在工程重构演进时起到至关重要的作用。 作者 | 问元 来源 …

阿里云弹性计算对视觉计算的思考与实践

简介:利用人类已有和将有的技术加之商业手段,实现对人类感官体验进行全方位升级。 4月21日,“2022英伟达数字孪生技术应用论坛”上,阿里云弹性计算产品专家张新涛为大家带来了题为《阿里云弹性计算在XR业务上的应用实践》的主题分…

游戏行业弹性计算最佳实践

简介:本篇主要介绍三大游戏场景:游戏服务、大数据运营、云游戏的架构特点,以及基于这些场景下的阿里云游戏行业计算基础设施选型与部署方案。 文丨寻野,阿里云弹性计算产品解决方案架构师 摘要:游戏一直以来是互联网…

三大特性,多个场景,Serverless 应用引擎 SAE 全面升级

简介:Serverless 应用引擎 SAE 凭借着天然技术优势,已经帮助成千上万家企业实现容器和微服务技术转型。近日,SAE不仅进一步提供了全套微服务能力,更为传统 Job 和 PHP 用户提供了全新的,更高效、更经济且可平滑迁移的解…