顺丰科技数据治理实践

01

顺丰数据治理体系演进路线

顺丰做数据治理十多年,数据治理体系的模块是逐步来建设的。十年前,我们就已经建了数仓,同步做了元数据管理,数据质量管理,以及数据安全的管理。顺丰数据治理的演进路线分 3 个阶段。

第一阶段:

2020 年前,我们主要在进行数据平台的搭建,关键领域能力的建设。关键领域能力建设方面,包括元数据管理、主数据管理、数据质量管理、数据安全。

第二阶段:

2020、2021 及 2022 年上半年,在加强领域能力建设的同时,我们更多的把数据治理的工作和业务更紧密的结合在一起,我们发现,在数据治理体系建设的过程中,如果没有业务的参与,该工作就变成了一个纯科技的工作,难以得到有效的落地。因此,在 2020 到 2021 年,我们成立了专职的数据治理团队,进行数据治理体系能力的建设。这个专职的团队,有科技方和业务方共同参与,业务方包含了顺丰科技各条业务线上的业务、财务、采购、人资、市场人员等。

第三阶段:

2022 年下半年及以后,顺丰科技在深层次的进行着整个数据治理体系的完善。这个阶段,工作聚焦在资产管理、数据标准建设、还有主数据 OneID 的打通。组织建设上,我们成立了集团层面即顺丰数运层面的数据治理委员会,来统筹运作数据治理体系的建设。

我们建设数据治理体系的目标是:

一,构建长治久安的数据治理体系,实现数据安全便捷共享。

二,整合沉淀公司的公共数据资产。

三,快速响应,便捷支持业务、支持前台研发的数据需求。

02

顺丰数据治理整体框架

顺丰数据治理的整体框架中,最顶层的设计战略主要是政策规范。顺丰有顺丰集团的数据治理总纲,基于总纲,还制定了主数据管理规范、指标口径管理规范、数据安全管理政策等各类政策规范。

数据治理领域主要包含元数据管理、主数据管理、交易数据管理、指标数据管理、以及数据安全、数据质量、数据标准。我之前参与过华润、华为、碧桂园的数据治理工作,在数据治理领域方面,各公司大同小异,有些公司不包含交易数据,有些公司会包含数据服务,数据模型管理等。在顺丰主要关注元数据、主数据、交易数据、指标数据的安全、质量和标准的管理。

在数据治理组织层面,我们有顺丰的数据治理委员会和专职的数据治理工作组,也有相应的业务方和平台方。

在平台工具层面,我们有主数据管理平台、元数据管理平台、数据质量管理工具和数据市场。这些和其他的公司基本类似。

1. 政策规范

顺丰数据治理总纲是数据治理体系的纲领文件,顺丰数据治理体系的相应的规范政策都是在数据治理体系总纲的指导下,来进行编写的,包括主数据的管理规范,数据安全的管理制度,数据质量的管理要求,数据标准的管理办法,及指标口径的管理规范。 

如主数据的管理规范,基于顺丰集团主数据管理规范的要求,针对每一类主数据,我们制定了相应的主数据管理办法:如客户主数据管理办法、供应商主数据管理办法、人资主数据管理办法、财务主数据管理办法,用户主数据管理办法等。管理办法涉及主数据管理的目的、管理组织、管理的属性标准等,我们以此来构建主数据管理规范的内容。

2. 治理组织建设

我们成立了集团层的数据治理委员会

首先它包含了业务侧的治理工作组,科技侧的治理工作组。这是两个虚拟组织,各由其业务领域的业务专家,各科技研发中心的技术专家组成。同样它包含 3 个实体组织:业务数据 Owner、业务科技 Owner、平台方。业务数据 Owner 参考了我们的 GPO(流程 Owner)的概念,业务部门的核心领导就是业务数据 Owner,业务数据 Owner 来承载业务数据的定义、分类、保护、使用及授权。业务科技 Owner 是业务数据 Owner 对应的科技研发中心。比如供应商数据的业务数据 Owner 是集团采购供应链中心,业务科技 Owner 是采购与综合解决方案研发中心。平台方由大数据平台研发中心的专职人员组成,主要是负责协助业务数据 Owner,业务科技 Owner 来做数据治理体系的整体的建设。

这是我们在组织层面做的事情。这么做是因为,关于数据治理的很多建设工作,包括标准的制定,如果仅仅是科技侧来制定这个标准,标准有时会慢慢的变形;同样,数据质量想要达到闭环,从业务走到科技,从科技再回到业务,实现质量的闭环,需要多方的参与,否则数据质量问题就会重复的出现;更重要的一个原因是,建设数据治理体系,我们需要一个组织,有一个一把手来统筹运作,规划指引。

顺丰数据治理委员会的主任是顺丰集团的 CIO,它的成员包括顺丰科技各条线的业务领导,科技领导,我们成立了这样一个组织,来推进数据治理体系的工作。

03

数据治理各领域能力介绍

1. 主数据管理平台

主数据管理平台,从 2019 年开始,经过 3 年的建设。平台的定位在于主数据标准的管理,主数据线上化管理,统一标准的主数据服务。主数据标准管理用于管理制定的各类主数据的标准。IT 数字化建设过程中会存在一些没有源头,没有 Owner 的主数据,均需要做线上化管理。目前已有 100 多个主题纳入主数据管理平台,包含了 2700 多个安全属性,服务对接给下游 400 多个系统,分发服务大概 2400 多万次/天,查询服务大概 5000 多万次/天。

2. 数据质量管理平台

数据质量管理平台,主要的功能包括数据质量问题的管理、问题分析、问题处理、规则管理、规则配置、监控告警管理、质量分析报告等。

监控规则区分了强依赖和弱依赖。质量平台的监控规则和调度的作业完全绑定在一起,质量平台会监控关键作业的运行情况。平台可对关键作业产生的表的数据波动,数据置信,进行平衡性校验,唯一性校验,空值校验等。在质量管理平台上可配置监控作业,系统配置的监控作业进行监控并出具报告。如果监控作业触碰强依赖的规则,系统就会对作业进行阻断,否则只是触碰弱依赖的规则,系统不做干预,作业将继续执行。这是一个数据质量平台监控系统和调度管理以及元数据管理的血缘分析和影响分析结合的一个应用。

质量平台还提供了个人定制的数据质量专题看板。平台支持用户根据个人关心的作业进行个性化的配置,并查看实时、日、周、月等时间维度的监控结果数据。 

3. 数据市场

顺丰科技的数据市场,在其他公司称为数据字典、或数据地图。这是一个数据资产线上化的工作。我们把公司所有的数据(含源系统来的 ODS 数据),指标、模型、报表,按照数据治理架构从主题域、主题、业务对象、实体、属性,进行划分并展示,即对技术元数据和业务元数据进行整合展示。该系统在顺丰的应用情况很好,科技侧的同事用该系统来查看模型数据、表数据,业务方的同事可用来查询指标数据,指标的业务分类、规范命名、数据口径、数据源表,结果呈现的报表,用途等。

可以参考示例。指标板块可以看到指标分类、技术负责人、业务负责人、指标口径、分析维度等。点开详情,可以看到指标的业务属性、技术属性,管理属性三部分。报表板块可以看到其归属组织、技术负责人、业务负责人、使用情况等。模型表板块偏科技侧,可以看表的创建人,使用情况,包含字段,可以进行详情查询。系统将模型表上下游的血缘分析,即关联的表都显示出来。报表和模型表板块,支持用户申请权限。数据市场涉及的用户非常的广,科技侧的用户和业务用户,他们正需要一些跨业务领域的数据共享,数据市场提供了数据共享和权限申请的功能。

4. 数据安全—数据分类分级管理规范制定与落地

在数据安全视角,把数据分为两类,个人数据和业务数据。

个人数据完全遵循个人隐私保护条例和个人数据安全保护法的规定。个人数据安全级别分为 C1、C2、C3、C4。敏感个人数据对应 C4 级别、商业联系个人数据、一般个人数据对应 C3 级别。其中个人身份信息、个人政治面貌,政治倾向、个人生理上的一些信息,个人联系信息、个人位置信息均属于敏感个人信息对应 C4 级别,会得到严格的管控。

业务数据从财务影响、营运影响、声誉影响 3 个方面进行划分,同样分为 C1、C2、C3、C4 级别。业务数据的安全级可以升降调整。业务数据 Owner 负责以数据的安全为目的根据数据的标准制定相应的级别以及安全的管控策略,对数据进行有效的安全管理。

以上是对顺丰科技数据治理体系框架的介绍,以及数据治理各领域能力的介绍,以下是数据治理实践分享。

04

数据治理工作的关键要素

1. 数据治理工作的关键要素

以下介绍顺丰数据治理的实践。顺丰科技数据治理工作进行多年,我们踩过坑,走过弯路,有了些心得和总结,跟大家做一下分享。首先介绍数据治理工作进行的关键要素。

基于我们的经验,结合了美的、华为、阿里和腾讯的一些数据治理专家的访谈资料,参考《华为数据治理之道》《DAMA 数据管理知识体系指南》等一些文献,结合了顺丰科技多年的数据治理工作实践,我们将数据治理工作开展和推进的关键要素,总结为 4 点:

第一,高层领导的支持特别关键。整个数据治理体系的建设,要想有效的落地,得到很好的推进,必须有公司高层领导的持续关注和支持。在顺丰,数据治理委员会的主任由顺丰集团的 CIO 担任。 

第二,比较关键的是运营组织保障常态化治理,包含业务和技术。虽然数据治理的一些产品, 数据质量、元数据、数据安全等是偏科技的,但是实际上要想数据治理工作有效推进,就要有业务的参与。 

第三,要考核与激励双结合。针对数据质量,顺丰有数据质量健康度的考核。针对各个主题域的数据质量,顺丰都进行了健康度的评价打分,并对结果进行晾晒。

第四,长短结合,综合推进,分阶段实施。

以上是我们认为的四大关键要素,接下来分享顺丰数据治理工作的组织领导机制。

2. 数据治理工作的关键要素:组织领导机制

第一,一把手工程,需要得到高层领导的参与。

第二,数据确权,意思是要明确数据的责任主体。在顺丰,数据的 Owner最开始是科技侧,现在是业务方。接下来要明确“谁产生数据,谁为质量负责”。这句话喊了多年,直到最近才逐步落地和得到尊崇。产生数据的业务部门并不使用数据,而是下游在使用数据。下游使用数据的时候,会真正的关心数据的质量,会发现数据质量没办法闭环的情况。因此,就产生了“谁产生数据,谁为质量负责”的口号。

第三,业务侧与科技侧协同。以上提到了“长短结合,综合推进”。顺丰也是这样做的。

3. 数据治理工作的关键要素:治理的方式和切入点

第一,自下而上,解决数据领域的问题。首先从实际的解决数据应用过程中的数据质量问题入手,然后去看它具体属于数据治理领域当中的哪些问题,识别其属于数据标准的问题、或者是元数据、数据服务,亦或主数据管理的问题。这样自下而上解决实际的数据问题,来推进顺丰数据治理各个领域能力的建设。

第二,自上而下,统筹规划数据治理体系建设。单纯的自下而上,数据治理工作便成了构建解决数据问题的产品,各个产品间应用的关联度不高。因此,需要自上而下的统筹规划的工作模式。 

05

顺丰主数据治理分享

顺丰在主数据管理方面做的工作,主要做了 4 步:

第一,识别主数据,明确主数据的业务数据 Owner, 业务科技 Owner, 确定权责。

第二,梳理主数据的属性,制定主数据的属性标准。

第三,确定可信的业务源系统,客户主数据在顺丰叫 CDM,合同主数据在顺丰叫 CMDM,供应商主数据在顺丰叫 SRM。

第四,我们对业务源系统中标准的落地、信息录入的管控、数据服务的提供,进行质量监控。同时,质量平台针对相应的数据做系统级的质量监控。

基本上做完这 4 步之后,主数据的质量就能得到显著的提升。

顺丰的主数据治理:

1. 主数据的识别视角和管理范围

要确定主数据的 Owner,首先要识别主数据的范围。顺丰从业务视角、管控视角、技术视角,三个视角来识别顺丰集团的主数据。

从技术视角参考 IBM 提出的企业数据管理模型,即从参与方、协议、条件、位置、分类、产品等方面确定企业数据划分的主题域。

从管控视角指从人、财、物的管控三个方面来确定企业数据划分的主题域。人的管控如有哪些人员哪些组织,财的管控如成本中心会计科目等,物的管控指提供哪些产品、有哪些物料、提供了哪些服务。

从业务视角看指从公司的多个业务领域的价值链来确定主题域。顺丰有多个 BU,如物流领域业务价值链,基于其基本活动收件、分拣、运输、派件和售后等,以及相应的辅助活动人资、IT、采购、法务等确定主数据。另一个价值链,如商业服务价值链,基于商业活动的开发、采购、仓储、门店、配送、营销等来确定主数据及主题域。

用以上 3 个视角穷举公司的主数据,识别出顺丰的主数据。伙伴类的主数据:客户、供应商等;管理类的主数据:员工、利润中心、成本中心、会计科目等;业务类的主数据:包装材料、BOM、辅料、商品、产品服务等,以及其他类的主数据,用户、资产、项目系统等。

2. 主数据 Owner 及职责分工

我们针对这些主数据来进行业务 Owner 的确定,如图中基于主数据分类,确定其业务数据 Owner 和业务科技 Owner,明确工作的标准和职责。

3. 主数据的管控模式设计

在主数据管理划分职责之后,对主数据的管控模式进行设计。在顺丰,主数据的管控模式,主要是注册发布式,和共同控制式两种。注册发布式,用于有唯一的业务源系统的主数据的管理。像客户、员工数据,有唯一的业务源系统。客户主数据有 CDM 系统、员工主数据有HR系统,在业务源系统把数据的标准定好落地,数据先提供给 MDM,再给到主数据管理平台,之后给到下游 400 多家的系统使用。共同控制式,用于有多个业务源系统的主数据的管理。像合同数据,我们有销售类合同、非销售类合同、成本类的合同、销售类的合同等,合同分散在不同的系统中,它在主数据管理平台上,首先进行统一标准的整合和标准的 Mapping,然后再提供给下游的系统使用。顺丰目前主要使用以上两种模式。除了这两种模式外,常用的还有集中管理式、数据合并式。如华润万家的门店主数据管理使用了集中管理式。

4. 主数据的管理成熟度评估

针对主数据的管理成熟度评估,从数据标准管理、质量管理、数据安全、数据流量、数据确权 5 个方面进行。如标准管理包含标准制定、标准管理、标准查询、标准引用,质量管理包含质量评估、影响分析等。评估即基于评价体系,对某个主数据在这 5 个方面各部分的完成情况打分。比如客户主数据,有明确的业务数据 Owner,有业务科技 Owner,有平台方,做了主数据属性的安全分级和隐私保护,也做了数据质量评估。主数据成熟度评估之后, 公司会做一个整体的晾晒排名。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/25764.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】移除链表元素-图文解析(单链表OJ题)

LeetCode链接:203. 移除链表元素 - 力扣(LeetCode) 本文导航 💭做题思路 🎨画图更好理解: ✍️代码实现 🗂️分情况讨论: ❄️极端情况: 💭做题思路 遍历链表…

Git报错合集

本文记录了笔者在使用 github 过程中遇到的问题,仅供个人使用。 目录 Could not resolve hostlocal changes to the following files would be overwritten by mergeTLS connection was non-properly terminatedUpdates were rejected because the remote contains …

普及100Hz高刷+1ms响应 微星发布27寸显示器:仅售799元

不论办公还是游戏,高刷及低响应时间都很重要,微星现在推出了一款27寸显示器PRO MP273A, 售价只有799元,但支持100Hz高刷、1ms响应时间,还有FreeSync技术减少撕裂。 PRO MP273A的100Hz高刷新率是其最大的卖点之一&#…

scala连接mysql数据库

scala中通常是通过JDBC组件来连接Mysql。JDBC, 全称为Java DataBase Connectivity standard。 加载依赖 其中包含 JDBC driver <dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>8.0.29&l…

eclipse Java Code_Style Code_Templates

Preferences - Java - Code Style - Code Templates Eclipse [Java_Code_Style_Code_Templates_ZengWenFeng] 2023.08.07.xml 创建一个新的工程&#xff0c;不然有时候不生效&#xff0c;旧项目可能要重新导入eclipse 创建一个测试类试一试 所有的设置都生效了

Java8实战-总结11

Java8实战-总结11 Lambda表达式方法引用管中窥豹如何构建方法引用 构造函数引用 Lambda表达式 方法引用 方法引用让你可以重复使用现有的方法定义&#xff0c;并像Lambda一样传递它们。在一些情况下&#xff0c;比起使用Lambda表达式&#xff0c;它们似乎更易读&#xff0c;感…

篇十四:观察者模式:对象间的通知与更新

篇十四&#xff1a;“观察者模式&#xff1a;对象间的通知与更新” 设计模式是软件开发中的重要知识&#xff0c;观察者模式&#xff08;Observer Pattern&#xff09;是一种行为型设计模式&#xff0c;用于在对象间建立一种一对多的依赖关系&#xff0c;当一个对象的状态发生…

算法竞赛入门【码蹄集新手村600题】(MT1120-1140)C语言

算法竞赛入门【码蹄集新手村600题】(MT1120-1140&#xff09;C语言 目录MT1121 小码哥考完咯MT1122阶梯IF-ELSEMT1123 元音MT1124 罗马数字MT1125 几月份MT1126 十二生肖MT1127 小码哥的属相MT1128 骰子的反面MT1129 小码哥玩骰子MT1130 骰子里面的数学MT1131 字符判断MT1132 人…

SciencePub学术 | 算法类重点SCIEEI征稿中

SciencePub学术 (www.sciencepub.cn) 刊源推荐: 算法类重点SCIE&EI征稿中&#xff01;2区闭源好刊&#xff0c;对国人非常友好。信息如下&#xff0c;录满为止&#xff1a; 一、期刊概况&#xff1a; 算法类重点SCIE&EI 【期刊简介】IF&#xff1a;6.0-6.5&#xff0…

Acwing.876 快速幂求逆元

题目 给定n组ai ,pi&#xff0c;其中p;是质数,求α;模p;的乘法逆元&#xff0c;若逆元不存在则输出impossible。 输入格式 第一行包含整数n。 接下来n行&#xff0c;每行包含一个数组ai, pi&#xff0c;数据保证p;是质数。 输出格式 输出共n行&#xff0c;每组数据输出一…

钉钉对接打通金蝶云星空获取流程实例列表详情(宜搭)接口与其他应收单接口

钉钉对接打通金蝶云星空获取流程实例列表详情&#xff08;宜搭&#xff09;接口与其他应收单接口 对接系统钉钉 钉钉&#xff08;DingTalk&#xff09;是阿里巴巴集团专为中国企业打造的免费沟通和协同的多端平台&#xff0c;提供PC版&#xff0c;Web版和手机版&#xff0c;有考…

pytorch学习——卷积神经网络——以LeNet为例

目录 一.什么是卷积&#xff1f; 二.卷积神经网络的组成 三.卷积网络基本元素介绍 3.1卷积 3.2填充和步幅 3.2.1填充&#xff08;Padding&#xff09; 填充是指在输入数据周围添加额外的边界值&#xff08;通常是零&#xff09;&#xff0c;以扩展输入的尺寸。填充可以在卷…

Git工具安装

Git 工具安装 1. 下载Git安装包2. 安装Git工具3. 简单的使用配置用户名 1. 下载Git安装包 打开官网 https://git-scm.com/downloads点击下载 2. 安装Git工具 右击以管理员身份运行 ![在这里插入图片描述](https://img-blog.csdnimg.cn/9a99a73d54824800bc87db64f71f7602.png…

分布式 - 服务器Nginx:一小时入门系列之Nginx环境准备

文章目录 1. Nginx 环境准备2. Nginx 安装和启动3. Nginx 常用命令4. Nginx 使用systemctl启动、停止、重新加载5. Nginx 配置文件6. Nginx 配置文件结构 1. Nginx 环境准备 虚拟机镜像&#xff0c;基于Centos7&#xff0c;网盘链接: https://pan.baidu.com/s/1NmCR-vdAcZLouR…

避免安装这5种软件,手机广告频繁弹窗且性能下降

在我们使用手机的日常生活中&#xff0c;选择合适的应用软件对于保持良好的使用体验至关重要。然而&#xff0c;有些软件可能会给我们带来不必要的麻烦和困扰。特别是那些频繁弹窗广告、导致手机性能下降的应用程序&#xff0c;我们应该尽量避免安装它们。 首先第一种&#xf…

Python-面向对象:面向对象、成员方法 、类和对象、构造方法、魔术方法、封装、继承、类型注解、多态(抽象类(接口))

版本说明 当前版本号[20230806]。 版本修改说明20230806初版 目录 文章目录 版本说明目录知识总览图面向对象初识对象生活中数据的组织程序中数据的组织使用对象组织数据 成员方法类的定义和使用成员变量和成员方法成员方法的定义语法注意事项 类和对象现实世界的事物和类使…

快速开发平台 WebBuilder 9 发布

WebBuilder 是一款强大&#xff0c;全面和高效的应用开发和运行平台。基于浏览器的集成开发环境&#xff0c;智能化的设计&#xff0c;能轻松完成常规桌面应用和面向手机等的移动应用开发。高效、稳定和可扩展的特点&#xff0c;适合复杂企业级应用的运行。跨平台、数据库和浏览…

ppt使用笔记

文章目录 如何让文档好看纯文字绝对不可行多用流程图和效果图切换动画母版音乐视频 作品渐变星空放大镜随机抽奖 其他快捷键 作为一个开发&#xff0c;对这种表现类型的软件一直不太上心&#xff0c;但有些场景要用到ppt&#xff0c;例如述职和项目案例分享。 很直观的体验就是…

Springboot实现简单JWT登录鉴权

登录为啥需要鉴权&#xff1f; 登录需要鉴权是为了保护系统的安全性和用户的隐私。在一个 Web 应用中&#xff0c;用户需要提供一定的身份信息&#xff08;例如用户名和密码&#xff09;进行登录&#xff0c;登录后系统会为用户生成一个身份令牌&#xff08;例如 JWT Token&am…

使用 Python 获取 CPU 数量

CPU 可以包含单核或多核。 单核只处理一个进程&#xff0c;而多核同时处理多个进程。 本篇文章将介绍使用 Python 程序查找 CPU 内核总数的不同方法。 使用 multiprocessing 模块获取 Python 中的 CPU 数量 multiprocessing 模块中的 cpu_count() 函数获取系统中的 CPU 总数。…