数据湖治理最佳实践

如果没有最佳实践,存储可能会变得无法维护。自动化数据质量、生命周期和隐私功能可持续清理/移动数据湖中的数据。

数据湖正成为企业从大数据中提取价值的一种日益可行的解决方案,对于早期采用者和新用户来说都是合理的下一步。在独立的逻辑区域中随时可用的结构化、非结构化和历史数据所具备的灵活性、敏捷性和安全性,为企业带来了大量变革性能力。然而,许多潜在用户未能理解的是,可用的数据湖是如何定义的。通常,大数据新手,甚至经验丰富的 Hadoop 老手,都会尝试搭建一些集群,并使用不同的脚本、工具和第三方供应商将它们拼凑在一起;这既不经济高效也不可持续。在本文中,我们将阐述数据湖远不止是几台服务器的简单拼凑:构建一个有效的数据湖需要规划、规范和治理。

区域

在数据湖中,区域允许对数据进行逻辑和 / 或物理分离,从而使环境安全、有序且敏捷。通常,鼓励使用 3 到 4 个区域,但也可以采用更少或更多的区域。一个通用的 4 区域系统可能包括以下内容:

  • 临时区域 —— 用于存放临时数据,如临时副本、流式暂存数据或其他在被摄取之前的短期数据。
  • 原始区域 —— 原始数据将在此区域中保存。这也是敏感数据必须进行加密、标记化或其他安全处理的区域。
  • 可信区域 —— 在对原始区域中的数据进行数据质量检查、验证或其他处理后,该区域的数据就成为下游系统的 “事实来源”。
  • 精炼区域 —— 经过处理和丰富的数据保存在此区域。这用于存储 Hive 等工具或写入数据湖的外部工具的输出结果。

这种安排可根据企业的规模、成熟度和独特用例进行调整,但会通过专用服务器 / 集群实现物理分离,通过精心构建目录和访问权限实现逻辑分离,或者两者结合使用。从视觉上看,这种架构类似于如下所示。
请添加图片描述
建立和维护定义明确的区域是创建健康数据湖的最重要活动,并有助于本文中其他概念的定义。同时,重要的是要明白区域不能提供什么 —— 即区域并非灾难恢复或数据冗余策略。尽管在灾难恢复中可能会考虑分区域,但建设可靠的基础架构以确保冗余和弹性仍然很重要。

血缘关系

随着新数据源的添加以及现有数据源的更新或修改,维护数据集内部和之间关系的记录变得愈发重要。这些关系可能像列的重命名一样简单,也可能像连接来自不同来源的多个表一样复杂,而每个表本身可能又有多个上游转换。在这种情况下,血缘关系有助于提供可追溯性以了解字段或数据集的来源,并提供审计跟踪以了解更改发生的位置、时间和原因。这听起来可能很简单,但即使使用当今部署的一些专用软件,在数据流经数据湖时捕获其详细信息也极其困难。跟踪血缘关系的整个过程涉及在事务级别(谁访问了数据以及他们做了什么?)和结构或文件系统级别(数据集和字段之间的关系是什么?)汇总日志。在数据湖的背景下,这将包括任何接触数据的批处理和流式工具(如 MapReduce 和 Spark),以及任何可能操作数据的外部系统,如关系数据库管理系统。这是一项艰巨的任务,但即使是部分血缘关系图也能填补传统系统的空白,尤其是随着《通用数据保护条例》(GDPR)等新法规的出现;灵活性和可扩展性是应对未来变化的关键。

数据质量

在数据湖中,所有数据都可被接纳,但并非所有数据都同等重要。因此,定义数据的来源以及如何管理和使用数据至关重要。对于需要合规性、大量终端用户使用或可审计性的数据,可能需要应用严格的清洗和数据质量规则。另一方面,清洗社交媒体数据或来自各种物联网设备的数据可能收效甚微。也可以考虑在使用端而非获取端应用数据质量检查。因此,单一的数据质量架构可能并不适用于所有类型的数据。必须注意,如果对数据进行 “清洗”,用于分析的结果可能会受到影响。修复数据集中值的字段级数据质量规则可能会影响预测模型的结果,因为这些修复可能会影响异常值。在这种情况下,通过比较 “数据集的预期与实际大小” 或 “空值阈值” 来衡量数据集可用性的数据质量规则可能更合适。通常,所需验证的级别受现有遗留限制或内部流程的影响,因此在制定新规则之前评估公司的现有流程是个好办法。

隐私 / 安全

健康数据湖的一个关键组成部分是隐私和安全,包括基于角色的访问控制、身份验证、授权以及静态和动态数据加密等主题。从纯粹的数据湖和数据管理角度来看,主要主题往往是数据混淆,包括数据标记化和屏蔽。这两个概念应用于帮助数据本身遵循最小权限的安全概念。限制数据访问对许多寻求遵守其行业的国家和国际法规的企业也有法律影响。限制访问有多种形式;最明显的是在存储层大量使用区域。简而言之,可以配置存储层的权限,使得对最原始格式数据的访问极为有限。随着数据随后通过标记化和屏蔽(即隐藏个人可识别信息数据)进行转换,对后续区域数据的访问可以扩展到更大的用户群体。

数据生命周期管理(DLM)

企业必须努力将数据管理策略的重点放在更有效地保护、保存和服务其数字资产上。这涉及投入时间和资源来全面制定生命周期管理策略,并确定是使用扁平结构还是利用分层保护。传统的数据生命周期管理前提是基于数据被创建、使用然后归档的事实。如今,对于某些事务性数据,这一前提可能仍然适用,但现在许多数据源从读取角度来看仍然处于活动状态,无论是持续的还是在可半预测的时间间隔内。了解并理解其信息、数据和存储介质之间的异同,并能够利用这种理解来最大限度地利用不同存储层级的企业,可以在降低复杂性和成本的同时释放价值。

总结

就像关系数据库在其发展初期一样,近年来 Hadoop 的一些应用也因缺乏最佳实践而受到困扰。在考虑将 Hadoop 用作数据湖时,有许多最佳实践需要考虑。将区域和适当的授权作为数据工作流框架的一部分,可为数据转换提供高度可扩展且并行的系统。
个人拙见,欢迎留下评论一起讨论!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/889386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《Vue进阶教程》第六课:computed()函数详解(上)

往期内容: 《Vue零基础入门教程》合集(完结) 《Vue进阶教程》第一课:什么是组合式API 《Vue进阶教程》第二课:为什么提出组合式API 《Vue进阶教程》第三课:Vue响应式原理 《Vue进阶教程》第四课&#…

根据PDF模板单个PDF导出到浏览器和多个PDF打包ZIP导出到浏览器

一、单个PDF导出到浏览器 /*** * param templatePath 模板路径* param fileName 文件名称* param data 填充文本* param images 填充图片* param response* throws IOException*/public static void generateTempPDF(String templatePath, String fileName, Map<String, S…

ssd202d-badblock-坏块检测

这边文章讲述的是坏快检测功能 思路&#xff1a; 1.第一次烧录固件会实现跳坏块&#xff0c;但是后续使用会导致坏块的产生&#xff1b; 于是我在uboot环境变量添加了两个变量来控制坏快 lb_badnum //坏块个数 lb_badoff //坏块所在位置 2.第一次开机会根据lb_badnum是否…

Tornado 异步编程全解析

一、Tornado 异步基础 核心概念 IOLoop&#xff1a; 是 Tornado 的核心事件循环&#xff0c;负责处理网络 I/O、定时器等事件。它不断地循环监听事件&#xff0c;一旦有事件就绪就调用相应的回调函数。可以在一个进程中创建多个 IOLoop&#xff0c;但通常一个应用使用一个主 IO…

Windows桌面系统管理2:VMware Workstation使用和管理

Windows桌面系统管理0:总目录-CSDN博客 Windows桌面系统管理1:计算机硬件组成及组装-CSDN博客 Windows桌面系统管理2:VMware Workstation使用和管理 Windows桌面系统管理3:Windows 10操作系统部署与使用-CSDN博客 Windows桌面系统管理4:Windows 10操作系统运维管理-…

鸿蒙ArkTS如何实现数据可视化:饼状图/柱状图/折线图

鸿蒙数据可视化系列 在我们鸿蒙APP开发中&#xff0c;经常需要使用到一些图表的开发&#xff0c;本文主要介绍使用 McCharts 框架绘制柱状图的方法 配套指导视频地址&#xff1a;鸿蒙数据可视化系列-McCharts使用介绍_哔哩哔哩_bilibili 1. 第三方库介绍 1.1. McCharts Mc…

基于go语言的开源调度系统整理

pink https://github.com/busgo/pink 通过Web界面管理操作简单方便&#xff0c;支持各种任务 高可用可以部署 n 台调度集群节点&#xff0c;保证没有单点故障。 部署简单、仅仅需要一个执行文件即可运行。 集成方便&#xff0c;统一语言无关的任务抽象&#xff0c;接入不同语言…

多个终端查看的history不一样,如何确保多个终端会话之间的 history 一致,减少历史记录差异

问题&#xff1a; 在使用 Linux 系统时&#xff0c;history 命令显示的历史记录通常是与当前终端会话相关的。这就意味着&#xff0c;如果你在多个终端中打开会话&#xff0c;它们显示的历史记录可能不完全相同。这个问题通常是由以下原因引起的&#xff1a; 原因&#xff1a…

yolov8 转华为昇腾om脚本

目录 yolov8 转华为昇腾 om脚本 测试ok 推理demo: yolov8 转华为昇腾 om脚本 测试ok import sys import osos.chdir(os.path.dirname(os.path.abspath(__file__)))import torchcurrent_dir = os.path.dirname(os.path.abspath(__file__))paths = [os.path.abspath(__file__)…

unity打包sdk热更新笔记

Unity3D项目Plugins目录组织 https://blog.csdn.net/linxinfa/article/details/102978005 IPreprocessBuild 继承提供打包前&#xff0c;打包后接口 BuildAssetBundles UnityWebRequest’s DownloadHandlerAssetBundle / LoadFromFile / LoadFromMemoryAsync 数据完整性校…

12.11-12.12总结(约瑟夫问题 机器翻译 滑动窗口)

12.11 刷题 《算法竞赛》这本书看了很多了&#xff0c;但是题目没咋做&#xff0c;所以今天来刷一下题 P1996约瑟夫问题 还依稀记得大一的时候被约瑟夫支配的恐惧&#xff08;哭&#xff09;&#xff0c;但是现在做就感觉很简单&#xff08;虽然也敲了一会&#xff0c;今早感…

git SSL certificate problem: unable to get local issuer certificate

Git 客户端将会验证服务器端提供的SSL证书是否由受信任的证书颁发机构&#xff08;Certification Authority&#xff0c;CA&#xff09;签发。如果Git客户端无法找到或验证本地签发者证书&#xff0c;就会出现 unable to get local issuer certificate 或类似的错误。 该问题一…

使用秘钥登录服务器

在我们测试或生产环境中&#xff0c;为了服务器安全性&#xff0c;有时可能需要以 SSH 密钥的方式登录服务器&#xff0c;接下来&#xff0c;将演示如何通过 SSH 私钥的方式来远程服务器。 一、远程服务器生成密钥对 1、首先在目标远程服务器下生成 SSH 密钥对 ssh-keygen然…

css设置透明的几种办法

在CSS中&#xff0c;有几种方法可以设置元素的透明度。以下是主要的几种方式&#xff1a; 1. 使用 opacity 属性 定义&#xff1a;opacity 属性用于设置元素的整体透明度&#xff0c;包括其内容和背景。取值范围&#xff1a;取值从0&#xff08;完全透明&#xff09;到1&…

4,双向带头循环链表

目录 1&#xff0c;双向带头循环链表的定义 2&#xff0c;双向带头循环链表的实现 A&#xff0c;函数的声明 B&#xff0c;函数的定义 1&#xff0c;双向带头循环链表的定义 带头双向循环链表&#xff1a;结构复杂&#xff0c;一般用在单独存储数据。实际中使用的链表数据…

谷粒商城—分布式基础

1. 整体介绍 1)安装vagrant 2)安装Centos7 $ vagrant init centos/7 A `Vagrantfile` has been placed in this directory. You are now ready to `vagrant up` your first virtual environment! Please read the comments in the Vagrantfile as well as documentation on…

TimesFM(Time Series Foundation Model)安装(2)

TimesFM&#xff08;Time Series Foundation Model&#xff09;安装简介 readme TimesFM&#xff08;Time Series Foundation Model&#xff09;安装简介&#xff08;1&#xff09;-CSDN博客https://blog.csdn.net/chenchihwen/article/details/144359861?spm1001.2014.3001…

Cesium进阶教程——自定义图形、外观、绘图基础、现有着色器移植至Cesium、ShadowMapping、视频GIS、模型压平、卷帘

基础必看 https://blog.csdn.net/m0_55049655/article/details/139720401 参考路线 http://www.xt3d.online/tutorial/further/article.html 自定义图形 https://blog.csdn.net/m0_55049655/article/details/138908327 https://blog.csdn.net/m0_55049655/article/details/14…

国际荐酒师(香港)协会亮相第六届地博会助力中欧地标交流合作

国际荐酒师&#xff08;香港&#xff09;协会亮相第六届知交会暨地博会&#xff0c;助力中欧地理标志产品交流合作 12月9日&#xff0c;第六届粤港澳大湾区知识产权交易博览会暨国际地理标志产品交易博览会&#xff08;以下简称“第六届知交会暨地博会”&#xff09;在中新广州…

Apache Spark 的基本概念和在大数据分析中的应用。

Apache Spark是一个开源大数据处理框架&#xff0c;被广泛应用于大规模数据分析、机器学习和图形处理等领域。它具有以下几个基本概念&#xff1a; RDD&#xff08;Resilient Distributed Dataset&#xff09;&#xff1a;RDD是Spark中最基本的数据抽象概念&#xff0c;代表了一…