大数据时代,数据治理

一、大数据时代还需要数据治理吗?

数据平台发展过程中随处可见的数据问题

大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人。而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间。

在这20年的时间里,国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见,是出了名的脏活累活。

可以说,忽视数据治理给数据平台建设带来了不少问题。随处可见的数据不统一,难以提升的数据质量,难以完成的数据模型梳理等源源不断的基础性数据问题,限制了数据平台发展,导致数据应用不能在商业上快速展示效果。

举一个典型商业智能应用的例子,管理驾驶舱可能大家都听说过,很多企业建设了管理驾驶舱,但是建设完之后往往成为摆设,只有当领导需要看的时候,大家才去拼命改数据。

为什么数据平台的建设遇到这么多“坎”,而且难以真正发挥其商业价值?其实核心问题还是数据本身不统一,数据内容准确度不高。

数据治理逐渐受到各行业认识

我国最早意识到数据治理重要性的行业银行是金融行业。由于对数据的强依赖,金融业一直非常重视数据平台的建设,经过几代数据平台的验证,发现数据治理是平台建设的主要限制因素,而且随着投资和建设的投入增加,对数据治理的重要性的认识也越来越深刻。

央行与银监会也非常重视数据治理,早在2008年开始,在全国银行业推行统一的数据标准,控制行业的数据质量。工行、建行、国开等大型银行,对数据治理都非常重视,下图是某大型银行针对数据全生命周期的数据管控。

现阶段各领域都开始了大数据平台的搭建,期望运用大数据的能力,来实现数字化转型。大数据平台的搭建实际上还是数据信息的搭建,传统型数据平台遇到的全部难题大数据平台都会有可能遇到,鉴于数据信息量级的发生变化,大数据平台必定还会出现新的难题。

大数据时代下需用新一代的数据治理能力

现阶段大数据平台的重要难题具体体现在下列四个方面:

数据信息不可知:用户不了解大数据平台中有什么数据信息,也不知道这一些数据信息和业务的关联性有哪些,尽管认识到大数据的重要性,但平台中是否有能化解自个所面对业务难题的关键数据信息?该到哪里寻找这一些数据信息?

数据信息不可控:数据信息不可控是在传统型数据平台开端就一直存在的不足,在大数据时代体现得更加显著。并没有统一的数据标准致使数据信息很难集成和统一,并没有质量控制致使大量数据因质量过低而很难被运用,并没有能有效的管控整体大数据平台的流程管理。

数据信息不可取:用户即便 知道自个业务所需用的是那些数据信息,也无法方便自助式地取得数据信息,反之,获取数据需用较长的研发过程,致使业务剖析的需求很难被迅速满足需要,而在大数据时代,业务寻求的是针对于特定业务难题的迅速剖析,这类漫长的需求处理速度是很难满足需要业务需求的。

数据信息不可联:大数据时代,企业有着着大量数据,但企业数据知识相互间的关联性还较为弱,并没有把数据信息和知识结构关联性起来,企业员工很难作到数据信息与知识相互间的迅速转换,无法对数据信息开展自助式的的探索和挖掘,数据信息的深层次价值很难体现。

通过剖析上述四种难题,能够发现传统型数据平台面对的难题,在大数据时代不但并没有消失,还不断涌现而出更新的难题,传统型的数据治理需用提升能力,来化解大数据平台搭建过程中的这一些难题。

在传统型数据平台阶段,数据治理的目标主要是做管控,为数据信息部门创建1个的治理办公环境,涉及范畴、质量等。

在大数据平台阶段,用户对数据信息的需求持续上升,用户范畴从数据信息部门拓展到全企业,数据治理无法再仅仅面向数据信息部门了,需用变为面向全企业用户的办公环境,需用以全企业用户为中心,从给用户提供服务的角度,管控好数据信息的同时为用户提供自助式获得大数据的能力,幫助企业实现数字化转型。

二、如何面向用户开展大数据治理?

面向用户的大数据治理实践案例

很多企业经过一段时间的摸索,已经看到了用户对大数据治理的这种需求,大数据治理也持续在各行业的大数据平台建设中得到关注。

以某公司数据治理平台建设为例,该公司以元数据为基础,实现了贯穿数据设计、产生、存储、迁移、使用、归档等环节的数据全生命周期管理,以及数据从源端到数据中心,再到应用端的全过程的管理,做到了以用户为中心,通过大数据治理,为用户提供了更便捷、更灵活、更准确地获得企业大数据资产的能力。

该公司的大数据治理的起点是先以元数据为基础,构建数据资产管理体系。从用户的视角说明白企业数据有哪些,哪些用户能够使用。在该公司的数据资产定义过程中,选择了贴近业务用户的数据分类方案,梳理和识别企业运营数据资源。

基于第一步形成的数据分类管理体系框架,梳理、整合各级各类数据资源,建立了数据资产树,按照不同数据细类制定相应的工作模板,对指标数据和明细数据进行梳理和归并。

所有资产梳理和控制的最终目标都是为了用户能够使用数据,通过L0–L1–L2三个层次的定义,以业务驱动为导向提高数据查询的实用性。

L0:按照公司行业业务域–业务主题–业务活动的结构化方法,对查询进行分类导航。

L1:依据业务和数据源中数据资源情况,按业务主题对数据进行预处理和定义。

L2:将数据库表字段等技术元数据转换为业务人员可以理解的业务元数据。

通过梳理数据、管理数据、提供数据、关联业务,形成了一整套以用户为中心的大数据治理能力,最终为用户直接使用数据提供了帮助,从而使数据治理完成了从以管控为中心到以业务为中心的转变。

面向用户的大数据治理的四个阶段

面向用户的大数据治理该如何做,总结为以下四个阶段:

(1)第一阶段:全面梳理企业信息,自动化构建企业的数据资产库

在第一阶段,主要是对企业大数据的梳理,从而全面掌握企业大数据的情况,主要有以下三个方面。

梳理全企业数据架构,对企业的数据模型、数据关系、数据处理有清晰化的认识。

对数据资产形成统一的自动化管理,形成企业的元数据库。

对企业数据资产形成多种视图,使数据资产能够让不同用户,有不同视角的展示。

(2)第二阶段:建立管理流程,落地数据标准,提升数据质量

在第二阶段,需要建立大数据管控能力,包括从业务的角度梳理企业数据质量问题,形成质量控制能力,形成核心数据标准,并抓标准落地。针对关键问题,建立数据的管理流程,少而精,控制核心问题。

在这个阶段主要是为数据部门形成一套管理大数据的能力,同时为数据部门形成数据管理的工作环境。

(3)第三阶段:直接为用户提供价值,向用户提供数据微服务

通过前两个阶段,企业能够建立基本的数据治理的能力,在此基础上,还需要以用户为中心,为用户提供直接获取数据的能力。

第三阶段依赖于前两个阶段能力的建设,在这个阶段的目标是向用户提供自助化的数据服务,使用户能够自助地获取和使用数据,并且在用户的使用过程中再反过去进一步落地标准、控制质量。

(4)第四阶段:智能化企业知识图谱,为全企业提供数据价值

最后一个阶段是将数据沉淀成为知识,形成企业的知识图谱,提供从“关系”的角度去分析问题的能力。

一般来说,数据搜索是通过业务术语(知识)来搜索的,而知识之间是有相互联系的,例如水果和西红柿是上下位关系(后者是前者的具体体现),好的搜索除了要列出直接结果,还需要显示与之关联的知识,这就要建立知识图谱。

简单说知识图谱就是概念、属性以及概念之间的关联关系,这个关系可以手工建立,也能通过自然语言处理等方法,对政策、法规、需求、数据库comments、界面等多种来源进行分析,自动化建立起企业知识图谱。从而使数据治理成为整个企业的数据工作环境,强化企业数据与知识体系之间的关联,加快企业员工数据与知识之间的转换效率,让数据的深层价值得以体现。

通过这四个阶段的建设,使数据治理平台由数据部门的工作环境,转变成为全企业的数据工作环境,以用户为中心,让用户能够直接使用大数据,并通过用户的使用来管理数据,持续优化数据质量,在达到治理数据目标的同时,也最大限度发挥了数据的价值。

三、面向用户的自服务大数据治理架构

自服务大数据治理架构

以用户为中心的自服务大数据治理技术架构包括5部分:数据资产管理、数据监控管理、数据准备平台、数据服务总线,消息与流数据管理。

整个平台分为5块核心能力:数据资产、数据准备、数据服务总线、消息&流数据管理、数据监控管理。

数据资产管理是对企业数据信息统一管理也是整个平台的基础,数据准备平台是资产服务化的加工厂,它不但能将原始数据通过服务形式以用户能看懂的方式提供,也可以通过在线数据模型设计实现最终数据产品的发布,起到承上启下的作用。

数据服务总线和消息&流数据管理的价值层次是一致的,只是从数据时效性上面对数据进行了区分,去适应用户不同的管理和应用诉求。起到数据通道和安全管理两个核心内容。

数据监控管理有别于大数据中的数据节点管理,而是从数据管理的视角切入对数据的结构的变化、关系的变化进行管理和控制,它是数据持续发挥价值的监管者。

自服务大数据治理的关键技术

(1)人工智能的知识图谱构建

知识图谱的构建,主要有以下三个步骤:

a、基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤,实现知识提取。

b、以本体形式表示和存储知识,自动构建成起资产知识图谱。

c、通过知识图谱关系,利用智能搜索、关联查询手段,为最终用户提供更加精确的数据。

(2)细粒度的敏感信息控制

数据内容安全管理包括对IT系统和数据进行敏感度等级划分的定义、浏览、检核,辅助安全规则在业务、技术领域的应用。

从功能上包括数据敏感性分级、系统敏感性分级,数据安全策略定义管理,安全策略输出,安全管理报告,数据安全检核,敏感数据角色管理,敏感数据权鉴管理及相关电子审批流程。

(3)自助化的大数据服务生产线

这里有4个关键点:

a、自助的查询到想要的数据。

b、自动的生成数据服务。

c、及时稳定的获得数据通道。

d、数据安全有保证。

通过自助化的数据生产线,数据使用方(业务人员)大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。

(4)多维度实时的数据资产信息的展示

数据治理平台提供实时、全面的数据监控,不仅能从作业、模型、物理资源等各方面进行全面的数据资产盘点,还能对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

(5)以业务元模型为核心的数据微服务

数据需要以服务的形式提供给最终用户,在服务的提供上不能再采用传统的方式,而需要用微服务的方式提供,每个单独数据微服务自己对所提供数据做缓存,在其中利用元数据能力,把知识(业务模型)与技术(数据模型)相结合,从而向最终数据用户提供多种数据能力,使用户能够以多种方式使用数据。

最后在整个大数据治理平台的构建中还需要满足一系列原则,包括元数据、数据标准和数据质量,总结起来一共12个原则。

四、总结

大数据时代,企业急需建立以用户为中心的自服务大数据治理,信息梳理、数据管控、连接用户、智能化是实现自服务大数据治理的四个主要阶段,掌握一系列关键技术和技术原则,是实现自服务大数据治理的重要基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/87923.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 自动化部署(保姆级教程)

Docker 自动化部署 1. jenkins 介绍1.1 参考链接:1.2 jenkins 概述1.3 jenkins部署项目的流程 2. jenkins 安装2.1 基于docker 镜像2.2 启动 jenkins 后端服务2.3 登录 jenkins 服务后端 3. jenkins自动化部署开始3.1 下载需要的插件3.2 创建任务3.2.1 描述3.2.2 配…

使用bash脚本编译Qt工程

最近在搭建Qt工程的编译服务器,需要通过shell脚本执行工程的编译过程,写在这里,总结最近的工作。 1. 构建过程 以Windows为例,在QtCreator中左侧选择“项目”便可以看到编译的指令和参数,这些操作也会在我们点击“构建…

CAN总线数据链路层

CAN报文帧种类: 数据帧:用于发送节点向接收节点传送数据,是使用最多的帧类型远程帧:用于接收节点向某个发送节点请求数据错误帧:用于当某节点检测出错误时向其他节点通知错误的帧过载帧:用于接收节点向发送节点通知自身接收能力的帧帧间隔:将数据帧或远程帧与前面的帧分…

ElementUI之首页导航与左侧菜单

目录 一、Mock 1.1 什么是Mock.js 1.2 安装与配置 1.2.1 安装mock.js 1.2.2 引入mock.js 1.3 mock.js使用 1.3.1 定义测试数据文件 1.3.2 mock拦截Ajax请求 1.3.3 界面代码优化 二、总线 2.1 定义 2.2 类型分类 2.3 前期准备 2.4 配置组件与路由关系 2.4.1 配置…

Vue Mock.js介绍和使用与首页导航栏左侧菜单搭建

前言: 因为使用Vue开发,组件写的太多,组件与组件之间的传递数据复杂,所以要用到Mock和Bus事件 一,关于Mock 1.1.什么是Mock.js Mock.js是一个模拟数据的生成器,用来帮助前端调试开发、进行前后端的原型分离…

upload-labs靶场未知后缀名解析漏洞

upload-labs靶场未知后缀名解析漏洞 版本影响: phpstudy 版本:5.2.17 ​ 1 环境搭建 1.1 在线靶场下载,解压到phpstudy的www目录下,即可使用 https://github.com/c0ny1/upload-labs1.2 已启动:访问端口9000&…

似然和概率

前言 高斯在处理正态分布的首次提出似然,后来英国物理学家,费歇尔 概率是抛硬币之前,根据环境推断概率 似然则相反,根据结果推论环境 P是关于x的函数,比如x为正面朝上的结果,或者反面朝上的结果&#xf…

数据大爆炸:大数据分析如何改变我们的世界

文章目录 大数据分析的基本概念数据的三个V大数据分析的技术 大数据分析在商业中的应用1. 个性化营销2. 风险管理3. 供应链优化4. 客户服务 大数据分析在医疗保健中的应用1. 疾病预测2. 患者治疗3. 医疗设备监控 大数据分析在科学研究中的应用1. 天文学2. 生物学3. 气象学 大数…

pycharm中配置torch

在控制台cmd中安装好torch后,在pycharm中使用torch,需要进行简单设置即可。 在pycharm中新建一个工程,在file文件中打开setting 在setting中找到project interpreter编译器 找到conda environment的环境配置,设置好相应的目录 新…

2023年蓝帽杯取证复现

案件介绍 2021 年 5 月,公安机关侦破了一起投资理财诈骗类案件,受害人陈昊民向公安机关报案称其在微信上认识一名昵称 为 yang88 的网友,在其诱导下通过一款名为维斯塔斯的 APP ,进行投资理财,被诈骗 6 万余万元。接警…

华为OD机考算法题:篮球比赛

目录 题目部分 解读与分析 代码实现 题目部分 题目篮球比赛难度难题目说明篮球(5V5)比赛中,每个球员拥有一个战斗力,每个队伍的所有球员战斗力之和为该队伍的总体战斗力。现有 10 个球员准备分为两队进行训练赛,教练希望 2 个队伍的战斗力…

Java深入理解线程的三大特性

目录 1 CPU缓存导致可见性问题2 线程切换导致原子性问题3 性能优化导致有序性问题4 JMM(Java Memory Model)5 volatile6 synchronized 1 CPU缓存导致可见性问题 线程的三大特性: 可见性:Visibility有序性:Ordering原子性:Atomic…

谈谈最近招人的感受!

最近折腾新的项目,面试了很多实习生小伙伴,我说说我的一些「面试」感受, 虽然是一个老生常谈的话题,但是依然提一下。 准时很重要:提前一点时间,踩个点,别迟到,面试的过程中由于每个…

2023年前端流行什么技术和框架了?

Web前端三大主流框架有React、Vue.js和Angular,由于接触过Vue.js,接下来主讲最新的Vue3.0! Vue3.0作为最新版本的Vue.js框架,拥有更强大的性能和更丰富的功能,为低代码开发平台注入了全新的活力。而JNPF快速开发平台作…

浅谈xss

XSS 简介 XSS,全称Cross Site Scripting,即跨站脚本攻击,是最普遍的Web应用安全漏洞。这类漏洞能够使得攻击者嵌入恶意脚本代码到正常用户会访问到的页面中,当正常用户访问该页面时,则可导致嵌入的恶意脚本代码的执行,从而达到恶意攻击用户的目的。需要强调的是,XSS不仅…

使用ElementUI结合Mock完成主页的搭建

目录 一、Mock ( 1 ) 讲述 ( 2 ) 作用 二、引用 三、主页搭建 学习后带来的收获 一、Mock ( 1 ) 讲述 Mock.js是一个用于前端开发中模拟数据的库。它可以帮助开发人员在前端开发过程中模拟接口返回的数据,从而实现前后端分离开发。Mock.js提供了一套简单易…

Python和Scrapy构建可扩展的框架

构建一个可扩展的网络爬虫框架是利用Python和Scrapy实现高效数据采集的重要技能。在本文中,我将为您介绍如何使用Python和Scrapy搭建一个强大灵活的网络爬虫框架。我们将按照以下步骤展开: 1. 安装Scrapy: 首先,确保您已经安装了…

如何计算3种卷积之后的尺寸(普通卷积,转置卷积,空洞卷积)

文章目录 前言一、普通卷积二、转置卷积三、空洞卷积 前言 三种卷积之后的feature map的尺寸如何计算。包括普通卷积,转置卷积,空洞卷积。可以在下面这个链接看到三种卷积的动态图。 卷积动态图 一、普通卷积 普通卷积比较简单了,其计算方式…

【python爬虫】爬虫所需要的爬虫代理ip是什么?

目录 前言 一、什么是爬虫代理 IP 二、代理 IP 的分类 1.透明代理 2.匿名代理 3.高匿代理 三、如何获取代理 IP 1.免费代理网站 2.付费代理服务 四、如何使用代理 IP 1.使用 requests 库 2.使用 scrapy 库 五、代理 IP 的注意事项 1.代理 IP 可能存在不稳定性 2…

DC电源模块的过热保护功能

BOSHIDA DC电源模块的过热保护功能 DC电源模块的过热保护功能是为了防止电源模块因长时间工作或外部环境因素导致的过热而损坏。在使用DC电源模块时,电源模块内部的电子元件会产生一定的热量,如果超过了元件所能承受的温度范围,就可能会发生…