数据资产管理:数据目录怎么搞?

         经过了站在业务视角的自上而下的数据梳理,以及站在IT视角的自下而上的数据盘点,一套“热腾腾”的数据资产清单终于新鲜出炉了。

         通过数据资产盘点,企业终于知道他们拥有哪些数据、如何使用数据、是否安全以及数据在哪里。 然而,据笔者观察,业内大多数的数据资产盘点工作是通过手工作业的方式进行的,使用Excel工具进行记录。请不要小瞧这种方式,Excel手工盘点数据资产的方式之所以是主流,证明其简单易用、方便灵活、协作敏捷的特点是被广泛认可的。这里要提醒广大的数据产品经理们注意了:如果你能涉及出一款比Excel还灵活、好用的数据盘点工具,一定会大受欢迎!可能有人要问,数据梳理的再好,盘点的再清晰,那输出的也只不过是一堆Excel,对企业没有什么价值啊?

       是的。这个时候就需要“数据资产目录”来发挥他的作用了!

01 数据资产目录是什么?

        我经常将书的目录与数据目录进行类比,翻开一本书的目录,它会告诉你这本书写了啥、内容结构、作者的写作思路等,如果你对某一章节感兴趣,通过目录就可以快速找到这想看的内容。图书目录起到提纲挈领,纲举目张的作用。

        数据资产目录也一样,它也有都有“字典”的作用,能够帮助企业相关业务和技术人员快速定位数据,解释数据,找到数据,并从中提取业务价值。

1、数据资产目录的本质

      数据资产目录本质上就是一个元数据的存储库,它提供特定范围内所有数据资产的清单,无论其位置或来源如何。数据目录包括有关数据资产的关键属性信息,例如:名称、业务含义、类型、大小、模式和其他相关属性。

      数据资产目录支持数据治理,包括:数据的分类分级,数据权限的管理,识别冗余和不一致的数据并为数据血缘分析和影响分析奠定了基础。

2、数据资产目录与数据目录

       数据资产目录和数据目录本质上是一样的,都是元数据管理。

       在项目实践中,数据目录也叫数据资源目录,一般是指通过元数据管理工具,对相关数据源(业务系统数据库、数据仓库、数据湖等)的元数据进行采集,而形成的数据目录。由于直接采集过来的基本都是数据库表结构、数据流、ETL脚本、数据库操作日志等技术元数据,所以数据目录要有一定的技术基础才能看懂,而且它的定位就是给技术人员看的。

       而数据资产目录是数据目录的子集,更多是站在业务的视角,以利益相关者的数据需求为目标对那些预期能够为企业带来价值的数据进行分类分级,业务元数据定义、打标签,授权等。请参考:《数据资产管理:企业的数据资产怎么盘?》

02 数据资产目录为何如此重要?

        数据驱动是企业数字化转型的重要手段,而这一目标的需要业务人员能够快速定位、充分理解和有效利用数据。随着企业数据体量的不断增多和数据结构复杂度的增加,数据资产目录在企业数字化转型过程中,将发挥越来越大的作用。

1、数据资产目录对业务人员至关重要

        通常情况下,说到管理数据、准备数据、分析数据,那都是IT的事,业务用户对 IT 的技术语言和工具感到困惑。然而,只有让业务人员能够随时找到和理解了数据,才能将其转化为有用的信息和有价值的业务洞察力,以便指导业务实施改进。如果跨部门的关键业务决策者不能信任数据,如果他们无法理解数据,如果他们找不到数据,那么他们就无法利用数据来发现他们的业务问题,优化他们的业务。

       数据资产目录是一个有组织的数据资产清单,他不仅包含了IT人员擅长的数据库表、数据结构、数据流等技术元数据,还包含了数据的数据定义、同义词、使用方式、存储位置、数据所有者、数据管理者、数据上架时间等关键业务属性。数据资产目录为业务人员提供了一个理解数据、集中定位数据、快速访问和评估数据的入口,以便更快、更有效地进行数据洞察和分析。

        数据资产目录通过识别数据所有者、管理者和主题专家来实现跨部门协作,因此业务人员在遇到紧急的数据问题时知道该去哪里找。数据资产目录屏蔽了底层技术复杂性,提供了数据血缘的查询能力,使业务用户能够了解其数据的来源以及数据流转和加工的全链路,而无需或不必了解底层的数据采集、加工算法和过程。借助数据资产目录,业务用户可以轻松沟通并确保他们使用正确的数据,以便在正确的时间以正确使用获得最大的结果。

2、数据资产目录不只服务于业务人员

       除了业务人员,数据资产目录的用户还包括数据分析师、数据工程师、数据科学家、数据管理员和CDO等用户,他们无不希望能够轻松访问到可靠的数据。

       数据分析师可以通过数据资产目录了解和分析现有数据,例如:数据结构、数据安全性和数据质量,极大地增强了数据分析建模能力。

        数据科学家可以通过数据资产目录进行相关数据的探索,通过利用不同的数据集并构建和评估更复杂的数据模型和算法,从数据中获取更多的洞察力。

        数据工程师可以通过数据资产目录盘查数据链路中的相关问题,判断某个数据的更改将对整个系统产生哪些影响,分析不同数据集的数据结构,建立业务元数据和物理库表字段的映射等。

        数据管理员可以通过数据资产目录实时查看数据状态,监控数据的质量,控制数据访问权限,对关键数据定义数据标准,并监测贯标情况等。

        对于数据所有者,CDO等角色,数据资产目录可以帮助提高运营效率并降低成本。

       最后,数据资产目录为每个用户提供了授权和访问控制机制,让每个人都在其可访问的级别更轻松地在整个企业中查找和发现数据。

03 数据资产目录有哪些功能?

       数据资产目录不是一个单独的系统,它是数据资产管理的重要组成功能,数据资产目录需要配合其他数据管理工具使用,才能发挥其重要的价值。根据笔者的实践和观察,一个优秀的数据资产目录,可能与数据管理组件都相关。

1、元数据采集

        数据资产目录支持连接多个数据源,从不同结构的数据源中提取元数据,包括:本地部署的数据源,云中的数据源,物联网IoT数据源,非结构化数据源等。自动化元数据采集能够帮助用户了解整个企业的数据结构和关系,使企业能够自动分析和发现不哪些不易发现,但却蕴含价值的数据。

2、元数据管理

       数据资产目录应支持分类分级、关联映射,打标签,用户自定义注释,敏感字段识别等形式,对采集的元数据进行管理,以便让用户更容易理解和查找数据。这里的元数据包括了技术元数据和业务元数据。技术元数据描述了数据的详细的存储位置和结构,例如数据库、字段和列信息,使IT人员能够了解数据的物理存储。业务元数据为用户提供清晰的业务上下文,包括数据定义、同义词和业务属性,帮助用户了解数据与其他数据集的关系以及发现数据的流动和依赖关系。

3、数据血缘

        数据血缘反义了数据在整个企业中的端到端流动情况,作为数据资产目录的一部分,它在数据整个生命周期中提供跟踪和追溯,以了解数据的来源、转换情况以及谁在使用它。通常,数据血缘是元数据管理的重要功能之一,记录并展示了系统、表、视图、字段等之间的关系,并采用DAG(有向无环图)的模式进行可视化展现。简单地说就是可视化地展示这个数据是怎么来的,经过了哪些过程和阶段。

4、数据标准

        一个数据要从数据资源转化为数据资产必须要对其进行标准化定义,一个典型的实践是“业务术语表”。通过数据资产目录,建立数据标准与技术元数据的关联映射,是实现数据标准贯标的重要手段。

5、数据发现

        数据资产目录支持自助服务,允许用户轻松访问和理解他们的数据,而无需依赖 IT 的支持。通过自动化的数据标记、分类和关系映射,用户可以使用关键字、过滤器、 查询条件等进行数据搜索,以定位、访问和查询数据。数据发现还提供对数据当前状态的实时可见性,例如:数据是如何被采集、整合和使用的,是最新的数据、还是过时的数据。

6、数据申请/审批

        数据资产目录为用户提供了一个基于元数据的数据资产清单,但是并不是所有用户都对这个清单拥有全局权限。每一个数据资产都是需要经过确权认责后才能纳入数据资产目录的,只有权限范围内的用户才能访问相关数据。数据资产目录支持申请/审批功能,为用户提供了一个访问更多数据的机会,以提升数据资产的利用率。

7、数据API服务

       用户通过数据资产目录可以找到所需的数据,数据资产目录不仅是告诉你:数据是什么(定义),它在哪里(位置)以及该如何访问它(所有者),一般还会提供一个基于数据目录生成数据服务API的功能,以帮助用户实现数据的集成共享。

8、数据资产监控

       提供数据资产监控功能,以热力图的形式展示哪些数据应用价值高,通过使用次数、使用对象、使用效果评价等指标对数据资产应用情况进行评估。根据数据资产使用情况,对数据资产目录进行重新组织,最大化释放数据资产价值。

04 数据资产目录的建设步骤

第 1 步:数据资产盘点

        数据资产盘点是使用科学的数据盘点方法,以“摸清家底”为目标,对企业的数据资源进行统筹规划,全面梳理。一方面,从业务视角对数据资源进行梳理和规划,包括:制度文件的解读、流程表单梳理、关键数据的识别等,并定义数据的分类体系和数据资产的业务属性。另一方面,从技术视角对系统数据进行盘点,包括:数据关系、数据结构、数据存量、数据增量、存储方式等,梳理数据资产的技术属性。

       数据资产盘点的方法和步骤在《数据资产管理:企业的数据资产怎么盘?》有详细的描述,此处不再赘述。

第 2 步:数据资产登记

        根据数据盘点结果,在数据资产目录完成数据资产概要信息的登记。数据资产登记主要包含三个方面信息:第一,业务方面,例如:数据资产名称,所属数据域,所属数据分类、数据资产描述等;第二,技术方面,数据资产位置(哪个系统,那张表),数据资产类型(结构化数据/非结构化数据),数据资产方式(数据库/文件/API接口)等;第三,管理方面,数据资产所有者(归口部门),数据资产管理员,数据资产上架时间,

         数据资产共享条件等。数据资产登记可以采用人工方式(据笔者观察目前大多数是采用这种方式)或者基于AI的数据资产识别。

第 3 步:采集元数据

        在登记完数据资产基本信息后,接下来关键一步是采集数据资产的元数据。数据资产目录使用元数据来识别数据表、文件和数据库。元数据采集爬取公司的数据库并将元数据(不是实际数据)带到数据资产目录中。由于数据资产分布在不同的位置,元数据采集的范围包括:

  • 关系数据库 - Oracle、SQL Server、MySQL、DB2 等。

  • 数据仓库 - Teradata、Creenplum等。

  • 存储对象的元数据。

  • 云平台 - 阿里云、微软 Azure Data Lake、AWS 的Athena 和 Red Shift。

  • 非关系/NoSQL 数据库 - Cassandra、MongoDB。

  • Hadoop大数据平台的相关元数据采集。

  • BI平台,Tableau、Power BI、国产BI软件等。

  • ETL工具,Kettle、DataStage、Informatic等。

第 4 步:标记数据关系

       标记关系是管理数据资产的一个重要步骤,通过这一步,用户可以跨多个数据库发现相关数据。例如,分析师可能需要整合的客户信息。通过数据资产目录,发现五个不同系统中的都有客户数据。有了数据目录的帮助,可以构建一个实验区域,在那里可以连接所有数据,清理数据,然后使用合并的客户数据来实现业务目标。

为表“Accounts”标记的关系示例如下:

第 5 步:建立血缘关系

      标记关系后,数据目录会构建血缘,。数据血缘的可视化表示有助于跟踪从源到目的地的数据,它解释了数据流中涉及的不同过程。数据分析师能够根据数据血缘追溯分析中错误的根本原因。通常,ETL(Extract、Transfer、Load)工具用于从源数据库中提取数据、转换和清洗数据并将其加载到目标数据库中。

一些可以解析血缘关系的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。

第 6 步:数据资产组织

        采集过来的元数据以技术格式排列,缺少表、列的中文注释,不利于业务人员理解数据。这时候需要基于这些技术元数据构建语义层,对相关数据表、列进行中文标记,以便业务人员能够发现、访问和理解它们。

  • 标记——创建数据语义层

  • 按使用量组织——数据资产热力图

  • 按特定用户使用情况进行组织——推送至用户的数据门户

  • 自动化组织,可以高级算法来组织数据

写在最后:数据治理与数据资产目录

        数据治理定义了数据管理的总体策略,规定了数据管理的组织、制度和流程,明确了数据的权属,定义了数据标准,为数据资产管理指明方向。数据资产目录是数据治理策略的具体执行,以业务友好的方式展示企业的数据资产和位置,帮助用户更好地找到、理解和使用他们的数据。

        数据资产目录的建设是数据治理中重要的一环,创建可访问的数据资产目录允许非技术人员定位和利用整个企业的数据,并自动发现企业系统中的数据源,包括业务、技术和流程的数据血缘提供了完整的数据透明度,因此用户可以了解数据的来源、流程和依赖关系,以及数据从源头到完成和消费的流向。因此,用户可以快速发现数据的影响,使其适合企业业务流程并做出更明智的数据决策。

       数据资产目录的构建是实现自助数据准备,自助数据分析的前提。基于数据资产目录,业务数据分析师可以企业有哪些可用数据资源或已更新的数据资产,知道谁是数据所有者,以及这些数据资产位于哪里、如何处理它。最重要的是,基于数据资产目录可以提高定位和查询数据的速度和效率,以推动数据的使用,从数据中获得洞察力,增强企业竞争力。

参考文献:

https://www.icode9.com/content-4-960194.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/74748.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TortoiseGit设置作者信息和用户名、密码存储

前言 Git 客户端每次与服务器交互,都需要输入密码,但是我们可以配置保存密码,只需要输入一次,就不再需要输入密码。 操作说明 在任意文件夹下,空白处,鼠标右键点击 在弹出菜单中按照下图点击 依次点击下…

【数据结构】二叉树基础入门

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …

makefile之目标文件生成

目标文件:源码经过编译还没有链接那些中间文件.linux .o文件 gcc $(CFLAGS) -c xxx.c -o xx.o include Makefile.config SRC : $(wildcard *.c wildcard ./audio_module/*.c) SRC_OBJ $(patsubst %.c,%.o,$(SRC))all:$(SRC_OBJ) $(info contents $(SRC))$(info objfiles $(SR…

获取板块分类并展示

板块分类也会变动,偶尔看下,利于总体分析大盘 https:dapanyuntu.com/ 该网站含有板块信息 分析接口 搜素关键字 拷贝curl到curl解析工具,去掉无用的参数,生成requests代码 尝试nginx反代接口 server {listen 443;loca…

数据结构算法-分而治之算法

引言 在茫茫人海中找寻那个特定的身影,犹如在浩瀚的星海中寻找那一颗独特的星辰。小森,一个平凡而真实的男孩,此时正在人群中寻找他的朋友,温迪。 小森运用了一种“分而治之”的算法策略,将周围的人群分成两组&#…

算法通关村第十九关——动态规划是怎么回事(青铜)

算法通关村第十九关——动态规划是怎么回事(青铜) 前言1 什么是动态规划2 动态规划的解题步骤3 简单入门3.1 组合总和3.2 最小路径和3.3 三角形最小路径和 4 理解动态规划 前言 动态规划是一种解决复杂问题的算法思想,它将一个大问题分解为多…

Spring Boot 中使用 Poi-tl 渲染数据并生成 Word 文档

本文 Demo 已收录到 demo-for-all-in-java 项目中,欢迎大家 star 支持!后续将持续更新! 前言 产品经理急冲冲地走了过来。「现在需要将按这些数据生成一个 Word 报告文档,你来安排下」 项目中有这么一个需求,需要将用户…

【JavaEE】_CSS引入方式与选择器

目录 1. 基本语法格式 2. 引入方式 2.1 内部样式 2.2 内联样式 2.3 外部样式 3. 基础选择器 3.1 标签选择器 3.2 类选择器 3.3 ID选择器 4. 复合选择器 4.1 后代选择器 4.2 子选择器 4.3 并集选择器 4.4 伪类选择器 1. 基本语法格式 选择器若干属性声明 2. 引入…

【数据结构】AVL树的插入与验证

文章目录 一、基本概念1.发展背景2.性质 二、实现原理①插入操作1.平衡因子1.1平衡因子的更新1.1.1树的高度变化1.1.2树的高度不变 2. 旋转2.1左旋2.2右旋2.3右左双旋2.4 左右双旋 ②验证1.求二叉树高度2. 判断是否为AVL树 源码总结 一、基本概念 1.发展背景 普通的二叉搜索树…

el-form表单动态校验(场景: 输入框根据单选项来动态校验表单 没有选中的选项就不用校验)

el-form表单动态校验 el-form常规校验方式: // 结构部分 <el-form ref"form" :model"form" :rules"rules"><el-form-item label"活动名称: " prop"name" required><el-input v-model"form.name" /…

2023 最新 Git 分布式版本控制系统介绍和下载安装使用教程

Git 基本概述 Git 是一个开源的分布式版本控制系统&#xff0c;用于敏捷高效地处理任何或大或小的项目。 集中式和分布式的区别&#xff1f; 最常见的集中式版本控制系统是SVN&#xff0c;版本库是集中放在中央处理器中的&#xff0c;而干活的时候&#xff0c;用的都是自己电…

第15章_瑞萨MCU零基础入门系列教程之Common I2C总线模块

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板 进行编写&#xff0c;需要的同学可以在这里获取&#xff1a; https://item.taobao.com/item.htm?id728461040949 配套资料获取&#xff1a;https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总&#xff1a; ht…

postman和node.js的使用

一 nodejs下载 下载链接&#xff1a; nodejs官网&#xff1a; https://nodejs.org/zh-cn/download 我使用的windows .msi安装方式&#xff0c;双击一直下一步就行 当前安装完成后的版本&#xff1a;1.下载 2.安装步骤 下载完成后&#xff0c;双击安装包&#xff0c;开始安装&…

win10自带wifi共享功能

1、按下【wini】组合键打开windows设置&#xff0c;点击【网络和internet】&#xff1b; 2、按照下图&#xff0c;打开个移动热点&#xff0c;设置名称、密码。

appium+jenkins实例构建

自动化测试平台 Jenkins简介 是一个开源软件项目&#xff0c;是基于java开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;旨在提供一个开放易用的软件平台&#xff0c;使软件的持续集成变成可能。 前面我们已经开完测试脚本&#xff0c;也使用bat 批处…

hadoop伪分布模式配置

1、修改/usr/local/hadoop/etc/hadoop/core-site.xml和/usr/local/hadoop/etc/hadoop/hdfs-site.xml文件 core-site.xml内容 <configuration><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><descr…

OpenCV(三十三):计算轮廓面积与轮廓长度

1.介绍轮廓面积与轮廓长度 轮廓面积&#xff08;Contour Area&#xff09;是指轮廓所包围的区域的总面积。通常情况下&#xff0c;轮廓面积的单位是像素的平方。 轮廓长度&#xff08;Contour Length&#xff09;又称周长&#xff08;Perimeter&#xff09;&#xff0c;表示轮廓…

C++this指针

本文旨在讲解C中this关键字&#xff0c;以及其相关作用&#xff01; 定义 this 是 C 中的一个关键字&#xff0c;也是一个 const 指针&#xff0c;它指向当前对象&#xff0c;通过它可以访问当前对象的所有成员。 this的介绍 下面来看一下关于this这个关键字的实例&#xff0…

个人能做股票期权吗?个人期权交易开户条件新规

个人投资者是可以交易股票期权的&#xff0c;不过期权交易通常需要投资者具备一定的投资经验和风险承受能力&#xff0c;因为期权交易涉及较高的风险和复杂性&#xff0c;下文为大家介绍个人能做股票期权吗&#xff1f;个人期权交易开户条件新规的内容。本文来自&#xff1a;期…

新版edge浏览器读取谷歌浏览器上的历史记录

上一篇&#xff1a;(3条消息) 新版edge浏览器读取谷歌浏览器上的历史记录_learningbilibili的博客-CSDN博客https://blog.csdn.net/learningbilibili/article/details/123662218 关于上次的读取历史记录的问题是现在的edge浏览器最近的版本更新后出现了每次启动时从 Google Chr…