数据治理基础知识

文章目录

    • 基本概念
    • 相关名词术语
    • 数据治理对象

基本概念

1)从管理者视角看数据治理

数据治理是企业发展战略的组成部分,是指导整个集团进行数字化变革的基石,要将数据治理纳入企业的顶 层规划,各分/子公司、各业务部门都需要按照企业的顶层战略要求进行工作部署,以实现企业数字驱动的转型的目标。

2)从业务人员视角看数据治理

这个痛点需求恰好击中了数据治理的三大要害:

  • 第一,要定义数据,让抽象的数据变成可读、可理解的信息;
  • 第二,要有一个完整的数据地图或数据资源目录,盘活企业的数据资产,
    方便用户随时找到想要的数据;
  • 第三,要做好数据质量管理,提升数据质量并提升数据的使用率。

3)从技术人员视角看数据治理

数据治理应包含三部分:

  • 一是ETL,即数据的抽取、转换、加载,保障数据仓库内有数据可用;
  • 二是对数据的处理、转换和融合,保障数据仓库内的数据准确、可用;
  • 三是元数据管理,保障数据仓库内的数据可进行血统溯源和影响分析。

企业数据治理的重点是对数据源中数据的治理,也就是需要对业务系统实施治理,而数据仓库只是数据的应用端,只有业务系统的数据质量高了,数据仓库才能获得高质量的数据,进而获得高质量的洞察。

数据治理还得看数据湖的,从源头治理虽然好,但是操作起来太复杂,周期长,成本高。而我们在数据湖中治理就不一样了,我们的数据湖已经接入企业90%以上的数据,数据统一在”湖“中管理。所有的用数需求都需要通过数据湖调取,因此我们只需要将数据湖中的数据治理好,就什么问题都没有了。

国际数据管理协会(DAMA)给出的定义是:数据治理是对数据资产管理行使权力和控制的活动集合。

国际数据治理研究所(DGI)给出的定义是:数据治理是一个通过一系列与信息相关的过程来实现决策权和职责分工的系统,这些过程按照达成共识的模型来执行,该模型描述了谁(Who)能根据什么信息,在什么时间(When)和情况(Where)下,用什么方法(How),采取什么行动(What)。

所有为提高数据质量而展开的技术、业务和管理活动都属于数据治理范畴。数据治理的最终目标是提升数据利用率和数据价值,通过有效的数据资源管控手段,实现数据的看得见、找得到、管得住、用得好,提升数据质量和数据价值。

相关名词术语

1)数据元

数据元:一组属性描述定义、标识、表示和允许值的数据单元。数据元由对象、特性和表示三部分组成。数据元是组成实体数据的最小单元,或称原子数据。如性别为数据元,“男”和“女”为数据元的值。

作为最小颗粒度的数据,数据元是对数据进行标准化定义的基础,也是构建统一、集成、稳定的行业数据模型的基础。

2)元数据

元数据:描述数据的数据或关于数据的结构化数据。通过元数据管理和检索我们想要的“书”。可见元数据是用来描述数据的数据,让数据更容易理解、查找、管理和使用。

3) 主数据

主数据:企业内需要在多个部门、多个信息系统之间共享的数据,如客 户、供应商、组织、人员、项目、物料等。主数据是企业开展业务的基础,只有得到正确维护,才能保证业务系统的参照完整性。

主数据具有3大特性、4个超越。

  • 3大特性:高价值性、高共享性、相对稳定性。
  • 4个超越:超越业务,超越部门,超越系统,超越技术。

主数据用来解决企业异构系统之间核心数据不一致、不正确、不完整等问题。主数据是信息系统建设和大数据分析的基础,被认为是企业数字化转型的基石。

4)业务数据

业务数据是业务活动过程或系统自动产生的既定事实的数据,也称交易数据。业务数据来自三个方面。

  • 业务交易过程中产生的数据,例如计划单、销售单、生产单、采购单等,这类数据多数是手动生成的。
  • 系统产生的数据,包括硬件运行状况、软件运行状况、资源消耗状况、应用使用状况、接口调用状况、服务健康状况等。
  • 自动化设备所产生的数据,如各类物联网设备的运行数据、生产采集数据等。

业务数据的共同特点是:时效性强,数据量大。

业务数据主要面向应用,为业务应用提供服务,例如生产、销售、采购、设备管理、系统管理等。

5)主题数据

主题数据是根据数据分析的需要,按照业务主题对数据所做的一种组织和管理方式,其本质是为了进行面向主题的分析或加速主题应用的数据。主题数据是分析型数据,是按照一定的业务主题域组织的,服务于人们在决策时所关心的重点方面。一个主题数据可以由多个主数据和交易数据组成。主题数据一般是汇总的、不可更新的、用于读的数据。

主题数据是按照一定的业务主题域组织的,服务于各种数据分析或应用开发。如某生产制造企业 定义了12大主题数据,包括综合服务、人力资源、财务管理、质量管理、生产 管理、工艺管理、库存管理、销售管理、采购管理、设备管理、能源管理和安 全环保。

6)数据仓库

数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定 的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,需要容纳更加 庞大的数据集。本质上,数据仓库与数据库并没有什么区别。

数据仓库是为企业所有级别的决策制定过程提供所有类型数据支撑的战略集合,有以下三个主要作用。

  1. 数据仓库是对企业数据的汇聚和集成,数据仓库内的数据来源于不同的业务处理系统,包含主数据和业务数据。数据仓库的作用就是帮助我们利用这些宝贵的数据做出最明智的商业决策。
  2. 数据仓库支持多维分析。多维分析通过把一个实体的属性定义成维度,使用户能方便地从多个维度汇总、计算数据,增强了用户的数据分析处理能力,而通过对不同维度数据的比较和分析,用户的数据处理能力得到进一步增强。
  3. 数据仓库是数据挖掘技术的关键和基础。数据挖掘技术是在已有数据的基础上,帮助用户理解现有的信息,并对未来的企业状况做出预测。在数据仓库的基础上进行数据挖掘,可以对整个企业的发展状况和未来前景做出较为完整、合理、准确的分析和预测。

数据仓库是数据分析和数据可视化的基础,通过将来自不同业务系统的数据汇集到一起,并按照一定的主题进行编号、归类、分组,方便用户快速定位数据源,为数据分析提供支撑。

为了提升数据仓库的数据质量,确保数据分析的准确性,数据仓库的建设需要实施数据治理的策略。很多企业的数据治理项目实施的动因都是解决数据仓库中的数据质量问题,以便获得更准确的分析决策。

7)数据湖

数据湖是一个以原始格式存储数据的存储库或系统。它按原样存储数据,而无须事先对数据进行结构化处理。数据湖可以存储结构化数据(如关系型数据库中的表)、半结构化数据(如CSV、日志、 XML、JSON)、非结构化数据(如电子邮件、文档、PDF)和二进制数据(如 图形、音频、视频)。

数据湖可以更方便、以更低的成本解决不同数据结构的统一存储问题,同时还能够为机器学习提供全局数据。我们可以将数据湖理解为一个融合了大数据集成、存储、处理、机器学习、数据挖掘的解决方案。

数据仓库与数据湖的区别:

image

数据治理对象

数据治理的对象必须是重要的数据资源,是关乎企业商业利益的数据资源,这样的数据资源方可称为“数据资产”。

资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。”其中,“由企业拥有或者控制”是指企业享有某种资源的拥有权或者控制权,“预期会给企业带来经济利益”是指直接或者间接导致现金和现金等价物流入企业的潜力。

数据资产是指企业过去的交易或者事项形成的,由企业拥有或者控制的,预期会给企业带来经济利益的数据资源,并且其价值和成本是可计量的。

数据要成为资产,首先要具备可利用性,这样才能给企业带来可预期的经济收益,否则就不是资产。另外,如果数据的获取、管理和维护成本大于其实际产生的收益,或者企业无法通过自用或外部商业化对数据进行有效的变现,那么这些数据也不能视为资产。

成本或价值可衡量。数据成本一般包括采集、存储和计算的费用(人工费用、IT设备等直接费 用和间接费用等)以及运维费用(业务操作费、技术操作费等),这是相对容 易计量的。数据价值主要从数据资产的分类、使用频次、使用对象、使用效果 和共享流通等维度计量。

数据资产的利益相关方包括以下几类:

  • 数据的生产者,即通过业务交易或事项产生数据的人或组织。
  • 数据的拥有者或控制者,生产数据的人不一定拥有数据。
  • 数据价值和经济利益的受益者。

数据治理就是对数据生产者、拥有者或控制者、数据价值受益者进行规范
和协调,让数据能够规范化、高质量输出。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/19900.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考高级系统规划与管理师适合什么人考?有什么优势?

系统规划与管理师适合什么人考? 适合以下几类人群: 1. 信息技术服务规划人员:从事信息技术服务规划工作,负责制定和优化IT服务规划的人 2. 信息系统运行维护管理人员:负责信息系统日常运行维护、确保系统稳定性和可…

【前端】Mac安装node14教程

在macOS上安装Node.js版本14.x的步骤如下: 打开终端。 使用Node Version Manager (nvm)安装Node.js。如果你还没有安装nvm,可以使用以下命令安装: curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.39.1/install.sh | bash 然后关…

变压器励磁涌流MATLAB仿真模型

微❤关注“电气仔推送”获得资料(专享优惠) 变压器励磁涌流的产生机理 1、变压器是电力系统的关键部分,在实际的 运行中,变压器需要进行相应的充电,而在充电的过 程中,就需要进行开合闸作业。在开合闸作业…

【Linux】磁盘结构文件系统软硬链接动静态库

目录 一.磁盘结构 1、磁盘的物理结构 2、磁盘的存储结构 3、磁盘的逻辑结构 二.文件系统 1、对IO单位的优化 2、磁盘分区与分组 3、对分组的具体管理方法 4、文件操作 三.软硬链接 1、理解硬链接 2、理解软连接 3、理解.和.. 四、动静态库 1、什么是动静态库 2、…

Flutter基础 -- Dart 语言 -- 基础类型

目录 0. 配置 1. 变量 1.1 弱类型 var Object dynamic 1.2 强类型 1.3 使用场景 var 简化定义变量 查询参数定义 返回的实例对象 2. 常量 final 和 const 2.1 相同点 类型声明可以省略 初始后不能再赋值 不能和 var 同时使用 2.2 不同点 const 需要确定的值 …

线性代数|机器学习-P1课程简介

文章目录 1. 书籍下载2. 正文 1. 书籍下载 链接:https://pan.baidu.com/s/1QbK0enLh0x4nU1c4Tqwlkw 提取码:r7ft 本课程回顾线性代数在概率论、统计学、优化和深度学习中的应用。是GILBERT STRANG教授的有一个经典的课程。课程将线性代数分为如下部分&a…

利用“记忆化搜索“解斐波那契数

一、题目描述 求第 n 个斐波那契数。 二、 利用"记忆化搜索"解斐波那契数 什么是记忆化搜索?记忆化搜索就是带有备忘录的递归。 我们先来看一下使用递归来解斐波那契数的这个过程,假设求第5个斐波那契数F(5)。 由图可见,要重复计…

Android加固多渠道打包和签名工具

简介 基于腾讯VasDolly最新版本3.0.6的图形界面衍生版本,同时增加了签名功能,旨在更好的帮助开发者构建多渠道包 使用说明 下载并解压最新工具包,找到Startup脚本并双击启动图形界面(注意:需本地安装java环境&#…

手机定制开发_基于天玑900的5G安卓手机定制方案

手机定制方案基于联发科天玑900强劲旗舰八核2.4GHz处理器。这款处理器采用了6nm先进制程工艺,为用户带来了痛快淋漓的性能体验。不论是进行游戏还是日常娱乐,用户都能轻松驾驭。手机搭载了最新的Android 13操作系统,提高了数据读取的准确性&a…

小数第n位【蓝桥杯】

小数第n位 模拟 思路&#xff1a;arr数组用来记录已经出现过的a&#xff0c;在循环时及时退出。易知题目的3位即a%a后的第n-1,n,n1位。该代码非常巧妙&#xff0c;num记录3位的输出状况。 #include<iostream> #include<map> using namespace std; typedef long l…

vulnhub靶场之FunBox-9

一.环境搭建 1.靶场描述 Its a box for beginners, but not easy. Gather careful !!! Hint: Dont waste your time ! Every BruteForce-Attack at all ports can be stopped after 1500 trys per account. Enjoy the game and WYSIWYG ! This works better with VirtualBox…

博士毕业论文/CTEX/LATEX

LATEX环境安装 CTEX 安装 &#xff08;垃圾&#xff0c;不要装&#xff09; 运行 clean.batcomp.bat 缺少字体 Couldn’t find Adobe Heiti S.cfg’ miktex-maketfm: No creation rule for font “Adobe Heiti Std”.解决方法&#xff1a;其实就是下载这四个字体之后&…

【大比武10】行业垂直大模型应用在档案管理中的探索

关注我们 - 数字罗塞塔计划 - # 大比武2024 本篇是参加“华夏伟业”杯第二届档案信息化公司业务与技术实力大比武&#xff08;简称“大比武 2024”&#xff09;的投稿文章&#xff0c;来自广州龙建达电子股份有限公司&#xff0c;作者&#xff1a;陶宣任。 在这个人工智能技…

深入理解flask规则构建与动态变量应用

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、引言 二、Flask规则基础 1. 静态规则与动态规则 2. 规则语法与结构 三、动态变量应用…

CISCN 2022 初赛 ez_usb

还是从第一个 URB向后看 发现 同时 存在 2.8.1 2.10.1 2.4.1 但是显然 2.4.1 是7个字节 不满足 usb流量要求 只考虑 2.8.1 和 2.10.1 tshark -r ez_usb.pcapng -T json -Y "usb.src \"2.8.1\"" -e usbhid.data > 281.json 正常取数据即可 import js…

【vue】v-for只显示前几个数据,超出显示查看更多

v-for只显示前几个数据&#xff0c;超出显示查看更多 如图 <div v-for"(item,index) in list.slice(0,3)" :key"index"><div class"degreeNo" :class"index0?noOne:index1?noTwo:index2?noThree:"> NO{{index1}}:<…

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述

读《Diffusion Models: A Comprehensive Survey of Methods and Applications》综述 关于此文&#xff0c;我的一个见解想法&#xff0c;重点关注他怎么描述 「Diffusion Model」的引用的&#xff0c;以及未来方向就好了。当然从这篇文章可以知道 「Diffusion Model」的一个基石…

HR人才测评,企业人才综合素质测评?

HR企业人才综合素质测评是一种评估企业人才综合素质的方法。该测评方法通过对人才的综合能力、专业技能、沟通协调能力、团队合作能力、领导管理能力等方面进行评估&#xff0c;以期为企业提供更全面、更客观、更科学的人才选拔和管理的依据。 点击这里了解&#xff1a;『企业…

强化学习的应用场景:何时使用强化学习?

RL 强化学习的应用场景&#xff1a;何时使用强化学习&#xff1f;强化学习的基本原理适用场景1. 连续决策过程2. 不完全信息3. 动态环境4. 长期回报优化5. 无明确监督信号 实际案例游戏AI机器人控制自主驾驶金融交易推荐系统 结论 强化学习的应用场景&#xff1a;何时使用强化学…

免费生物蛋白质的类chatgpt工具助手copilot:小分子、蛋白的折叠、对接

参考: https://310.ai/copilot 可以通过自然语言通话晚上蛋白质的相关处理:生成序列、折叠等 应该是agent技术调用不同工具实现 从UniProt数据库中搜索和加载蛋白质。使用ESM Fold方法折叠蛋白质。使用310.ai基础模型设计新蛋白质。使用TM-Align方法比较蛋白质。利用Protei…