【数据湖架构】数据湖101:概述

999616e9602195a73058bf4762d79f20.jpeg

数据湖是非结构化和结构化数据池,按原样存储,没有特定的目的,可以建立在多种技术上,如Hadoop,NoSQL,Amazon Simple Storage Service,关系数据库或各种组合根据一份名为“什么是数据湖”的白皮书,为什么它变得流行?

Data Lake允许多点采集和多个数据访问点。Pentaho公司的创始人詹姆斯·迪克森(James Dixon)在2010年创造了“数据湖”(Data Lake)这个术语,并将其与数据集市(Data Mart)

“如果你把数据集市视为瓶装水的存储 - 清洁和打包,并容易消费的结构 - 数据湖是一个更自然状态的大量水体。数据湖的内容从一个源头填补湖泊,湖泊的各种用户可以来检查,潜水或采样。

在数据湖与数据仓库的关键区别上,SAS研究所新兴技术总监Tamara Dull将Data Lake定义为“一个存储仓库,以原生格式存储大量原始数据,包括结构化,半结构化和非结构化数据“。

Dull接着说:“与数据仓库相比,存储数据的成本相对较低。这主要有两个原因:首先,Hadoop是开源软件,所以许可和社区支持是免费的。其次,Hadoop被设计成安装在低成本的商品硬件上“

Hortonworks公司战略副总裁Shaun Connolly在他的博客文章Enterprise Hadoop和“数据湖之旅:

“数据湖的特点是三个关键属性:

  1. 收集一切。Data Lake包含所有数据,包括长时间的原始数据源以及任何已处理的数据。

  2. 潜水在任何地方。数据湖使多个业务部门的用户可以根据自己的条款细化,探索和丰富数据。

  3. 灵活的访问。Data Lake支持跨共享基础架构的多种数据访问模式:批处理,交互式,在线,搜索,内存和其他处理引擎。

数据湖并不是一个快速修复所有问题的方法,Bob Violino是“数据湖首席信息官需要了解的五件事”一书的作者。他说,“你不能买一个现成的数据湖。供应商将Data Lakes作为大数据项目的灵丹妙药进行营销,但这是一个谬论。“他引用Gartner研究总监Nick Heudecker的话说,”就像数据仓库一样,Data Lakes是一个概念,而不是技术。数据湖的核心是数据存储策略。“

数据湖出生于社交媒体巨人

PriceWaterhouseCooper(普华永道)杂志总结了数据湖中数据湖概念的起源和未来数据的承诺:

“Hadoop背后的基本概念是由Google设计的,旨在满足其对灵活,经济高效的数据处理模式的需求,这种模式可以随着数据量的增长比以往任何时候都快。雅虎,Facebook,Netflix以及其他基于管理大量数据的商业模式的公司也采用了类似的方法。成本当然是一个因素,因为Hadoop的部署成本比传统的数据仓库要低10到100倍。采用的另一个驱动因素是推迟劳动密集型模式开发和数据清理的机会,直到组织确定了明确的业务需求。数据湖泊更适合这些公司需要处理的结构较少的数据。“

及时分析数据前进和后退

Data Lake可以在未知需求之前收集数据,然后才能知道这些需求是什么,因此具有巨大的潜力。数据不受数据捕获时存在的思维范围的限制,而是可以自由地回答我们还不知道要问的问题:“数据本身不再受初始模式决策的限制,而且可以更自由地利用数据“硅谷数据科学战略副总裁Edd Dumbill在”数据湖梦“中写道。ThoughtWorks的数据博客作者Martin Fowler在一篇名为“数据湖”的文章中表示:“数据湖应该包含所有的数据,因为你不知道人们今天或者几年之后会发现什么有价值的东西。

BlueGranite博主兼微软云数据解决方案架构师Chris Campbell表示,

“Data Lake保留所有数据。不仅仅是今天使用的数据,还有可能被使用的数据,甚至可能永远不会被使用的数据,因为有一天它可能会被使用。数据也一直保存下来,以便我们能够及时回到任何一点进行分析。“

Tamara Dull补充说,Data Lake缺乏结构,“使开发人员和数据科学家能够轻松地配置和重新配置他们的模型,查询和应用程序”。

支持多个用户

Data Lake方法的另一个特点是可以满足各种用户的需求。整个公司的用户都可以访问数据,以满足他们所能想象的任何需求 - 从集中式模式转变为更加分散式的模式:“来自不同业务部门的用户有可能完善,探索和丰富数据的潜力”把Data Lake工作,Hortonworks和Teradata的白皮书。

Chris Campbell根据数据与数据的关系将数据用户划分为三类:那些只希望在电子表格上进行日常报告的人,那些进行更多分析但希望回到源头以获取最初未包括的数据的人,想用数据来回答全新的问题。他说:“Data Lake方法同样支持所有这些用户。”

成本有效的存储

坎贝尔还说,数据湖泊相对便宜,易于存储,因为存储成本最小,预格式化是没有必要的。“商品,现成的服务器与廉价的存储相结合,使数据湖的容量达到TB和PB,相当经济。”根据Hortonworks和Teradata的白皮书,Data Lake概念“提供了一种符合成本效益和技术上可行的方式来满足Big数据挑战“。

当心“沼泽”

Martin Fowler警告说,“数据湖有一个共同的批评 - 它只是一个质量差异很大的数据的倾倒地点,更好地命名为”数据沼泽“,批评是有效的和不相关的。”他接着说:

“这些原始数据的复杂性意味着有一些东西可以将数据转换成更易于管理的结构(以及减少相当大的数据量)。数据湖不应该被直接访问得太多。因为数据是生的,所以你需要很多技能才能做出任何意义。在数据湖中工作的人相对较少,因为他们发现对湖泊数据普遍有用的观点,他们可以创建一些数据集市,每个数据集市都有一个单一的有限背景的特定模型。

对数据上下文的不同理解

最终用户可能不知道如何使用数据,或者当数据没有策划或结构化时他们正在看什么,这使得它不太有用:“数据湖的根本问题是它对信息用户做出了某些假设”数据湖里的Nick Heudecker说:不要把它们和数据仓库混为一谈,警告Gartner。

Tamara Dull指出,尽管最初希望为公司范围内的每个人提供数据访问,但是像以前的举措一样,全面参与的期望可能会令人失望:

“很长一段时间以来,这个号召力一直是'BI and Analytics for everyone!'我们已经建立了数据仓库并邀请所有人前来,但是他们来了吗?平均而言,有20-25%的人拥有。对于Data Lake来说,这是否一样的呐喊?我们会建设数据湖,并邀请大家来?不,如果你聪明。相信我,数据湖,在这个成熟的阶段,最适合数据科学家。“

数据湖比数据仓库更好吗?

Tamara Dull指出,Data Lake不是“数据仓库2.0”,也不是数据仓库的替代品:“因此,要回答这个问题,数据仓库不仅仅是数据仓库的重新审视吗?我的意思是否定的。无聊的同事,SAS最佳实践思想领袖Anne Buff列举了关于智能数据集体在线辩论的主要差异:

数据仓库与数据湖

仓库中的数据是

  • 结构化的,已处理的

  • 仓库的处理是:模式在写

  • 仓库中的存储是:大数据量昂贵

  • 仓库中的敏捷性是:敏捷性较低,固定配置

  • 仓库的安全是:成熟

  • 仓库的用户是:商业专业人士

湖泊中的数据是

  • 结构化/半结构化/非结构化/原始的

  • 处理湖是:图解在读

  • 在湖中储存是:低成本设计

  • 在湖中敏捷:高度敏捷,根据需要进行配置和重新配置

  • 湖中的安全是:成熟

  • 数据科学家et.al.

克里斯坎贝尔看到这两个关键的区别:

数据仓库:

  • 它代表了由主题领域组织的业务的抽象图片。

  • 这是高度转变和结构。

  • 在定义使用数据之前,数据不会被加载到数据仓库中。

  • 它通常遵循既定的方法

数据湖:

  • 所有数据都从源系统加载。没有数据被拒绝。

  • 数据以未转换或几乎未转换的状态存储在叶级。

  • 数据被转换,模式被应用来满足分析的需要。

  • 它支持所有用户。

  • 它很容易适应变化,并提供更快的见解。

尽管每个人都有其支持者和批评者,但似乎两者都有余地,“数据湖不是数据仓库”。他们都是为了不同的目的而优化的,目标是用每个人的设计来做。“Tamara Dull说。换句话说,使用最好的工具来完成这项工作。这不是一个新的教训。我们以前学过这个。现在我们来做吧。“

本文 :https://architect.pub/data-lake-101-overview
讨论:知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】
公众号
 
【jiagoushipro】
【架构师酒馆】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
872307264ec7d4065ee1a2a4380b93fe.jpeg
微信小号
 
【ca_cea】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.
 

24206b3da28ed753641857df6f20cbb8.jpeg

视频号【架构师酒馆】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

16088d4793f7425a2cce7805128590bc.jpeg

知识星球【首席架构师圈】向大咖提问,近距离接触,或者获得私密资料分享。 

021ca589a30948b57e591f172b1d570c.jpeg

喜马拉雅【超级架构师】路上或者车上了解最新黑科技资讯,架构心得。【智能时刻,架构君和你聊黑科技】
微博【架构师酒馆】智能时刻
哔哩哔哩【架构师酒馆】

9d93180e70ab6eb2ae4e76595f871034.jpeg

抖音【cea_cio】架构师酒馆

4a173311015ca74c4cc94619312bb253.jpeg

小红书【cea_csa_cto】架构师酒馆 

e6c9c70d1fbc613b893d78fea9cdac36.jpeg

网站CIO(首席信息官)https://cio.ceo
网站CIO,CTO和CDOhttps://cioctocdo.com
网站架构师实战分享https://architect.pub   
网站程序员云开发分享https://pgmr.cloud
官网行天智能科技咨询公司https://xingtian.ai
网站开发者闲谈https://blog.developer.chat
网站首席隐私官内参https://cpo.work
网站首席安全官内参https://cso.pub    
网站CIO内参https://cio.cool
网站CDO内参https://cdo.fyi
网站CXO内参https://cxo.pub
网站首席架构师社区https://jiagoushi.pro

谢谢大家关注,转发,点赞和点在看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594899.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微软截图工具SnippingTool_6.1.7601免费版

SnippingTool是一款win7系统自带的一款非常实用型截图工具,操作简单,点击“新建"可一键截图,截图之后会弹出编辑器,可以进行一些简单的勾画编辑操作,您可以使用笔、荧光笔、电子邮件或保存等选项。如果您的系统丢…

界面控件DevExpress Blazor Grid v23.2 - 支持全新的单元格编辑模式

DevExpress Blazor UI组件使用了C#为Blazor Server和Blazor WebAssembly创建高影响力的用户体验,这个UI自建库提供了一套全面的原生Blazor UI组件(包括Pivot Grid、调度程序、图表、数据编辑器和报表等)。 在这篇文章中,我们将介…

死锁的处理策略“预防死锁”-第三十七天

目录 前言 破坏互斥条件 破坏不剥夺条件 破坏请求和保持条件 静态分配法 破坏循环等待条件 顺序资源分配法 本节思维导图 前言 死锁的产生必须满足四个必要条件,只要其中一个或几个条件不满足,死锁就不会发生 破坏互斥条件 互斥条件:…

Swift并发的结构化编程

并发(concurrency) 早期的计算机 CPU 都是单核的,操作系统为了达到同时完成多个任务的效果,会将 CPU 的执行时间分片,多个任务在同一个 CPU 核上按时间先后交替执行。由于 CPU 执行速度足够地快,给人的错觉…

【python入门】day17:模块化编程、math库常见函数

什么叫模块 模块的导入 导入所有:import 模块名称 导入指定:from 模块名称 import 函数/变量/类 python的math库 什么是math库 Python的math库是Python的内建库之一,它提供了许多数学函数,包括三角函数、对数函数、幂函数等&a…

Scikit-Learn线性回归(四)

Scikit-Learn线性回归四:梯度下降 1、梯度下降1.1、梯度下降概述1.2、梯度下降及原理1.3、梯度下降的实现2、梯度下降法求解线性回归的最优解2.1、梯度下降法求解的原理2.2、梯度下降法求解线性回归的最优解2.3、梯度下降法求解线性回归案例(波士顿房价预测)3、Scikit-Learn…

我的创作纪念日三年收获和感悟

机缘 我刚开始接触创作也是最近几年开始,当初就是希望自己的收获分享给大家,不仅使自己成长,也可以带着大家一起成长,独乐乐不如众乐乐,人都是自私的以前我都是看到好的知识文章都是自己藏起来,发现收获的…

NSSCTF 简单包含

开启环境: 使用POST传flag&#xff0c;flag目录/var/www/html/flag.php 先使用post来尝试读取该flag.php 没反应: 查看一下源码index.php&#xff0c;看有什么条件 base64解密: <?php$path $_POST["flag"];if (strlen(file_get_contents(php://input)) <…

Qt/C++编写视频监控系统82-自定义音柱显示

一、前言 通过音柱控件实时展示当前播放的声音产生的振幅的大小&#xff0c;得益于音频播放组件内置了音频振幅的计算&#xff0c;可以动态开启和关闭&#xff0c;开启后会对发送过来的要播放的声音数据&#xff0c;进行运算得到当前这个音频数据的振幅&#xff0c;类似于分贝…

SpringSecurity-2.7中跨域问题

SpringSecurity-2.7中跨域问题 访问测试 起因 写这篇的起因是会了解到 SSM(CrosOrigin)解决跨域,但是会在加入SpringSecurity配置后,这个跨域解决方案就失效了,而/login这个请求上是无法添加这个注解或者通过配置(WebMvcConfig)去解决跨域,所以只能使用SpringSecurity提供的.c…

AI原生应用开发“三板斧”亮相WAVE SUMMIT+2023

面对AI应用创新的风口跃跃欲试&#xff0c;满脑子idea&#xff0c;却苦于缺乏技术背景&#xff0c;不得不望而却步&#xff0c;这曾是许多开发者的苦恼&#xff0c;如今正在成为过去。 12月28日&#xff0c;WAVE SUMMIT深度学习开发者大会2023在北京举办。百度AI技术生态总经理…

CMake入门教程【核心篇】宏模板(macro)

&#x1f608;「CSDN主页」&#xff1a;传送门 &#x1f608;「Bilibil首页」&#xff1a;传送门 &#x1f608;「本文的内容」&#xff1a;CMake入门教程 &#x1f608;「动动你的小手」&#xff1a;点赞&#x1f44d;收藏⭐️评论&#x1f4dd; 文章目录 1. 定义宏1.1 基本语…

二分查找(一)

算法原理 原理&#xff1a;当一个序列有“二段性”的时候&#xff0c;就可以使用二分查找算法。 适用范围&#xff1a;根据规律找一个点&#xff0c;能将这个数组分成两部分&#xff0c;根据规律能有选择性的舍去一部分&#xff0c;进而在另一个部分继续查找。 除了最普通的…

Ps:创建基于颜色的蒙版

有时候画面上的某种颜色显得不是很和谐&#xff0c;如下图所示。 将画面上的某种颜色换掉&#xff0c;也是得到创意效果的一种重要手段。 演示视频 如果能创建好相关颜色的蒙版&#xff0c;这样在替换颜色的时候就会更加方便。 ◆ ◆ ◆ 创建基于颜色的蒙版 主要思路&#xf…

【动态规划】C++算法:44 通配符匹配

作者推荐 【动态规划】【字符串】扰乱字符串 本文涉及的基础知识点 动态规划 LeetCode44 通配符匹配 给你一个输入字符串 (s) 和一个字符模式 &#xff0c;请你实现一个支持 ‘?’ 和 ‘’ 匹配规则的通配符匹配&#xff1a; ‘?’ 可以匹配任何单个字符。 ’ 可以匹配…

122基于matlab的CSO-SVM,BA-SVM模式识别模型

基于matlab的CSO-SVM&#xff0c;BA-SVM模式识别模型。优化SVM的两个参数晚上最佳参数确定。输出分类识别结果和准确率。数据可更换自己的&#xff0c;程序已调通&#xff0c;可直接运行。 122鸡群优化算法蝙蝠优化算法 (xiaohongshu.com)

Unity | Shader基础知识番外(向量数学知识速成)

目录 一、向量定义 二、计算向量 三、向量的加法&#xff08;连续行走&#xff09; 四、向量的长度 五、单位向量 六、向量的点积 1 计算 2 作用 七、向量的叉乘 1 承上启下 2 叉乘结论 3 叉乘的计算&#xff08;这里看不懂就百度叉乘计算&#xff09; 八、欢迎收…

78 Python开发-多线程FuzzWaf异或免杀爆破

这里写目录标题 本课知识点:学习目的:演示案例:Python开发-简单多线程技术实现脚本Python开发-利用FTP模块实现协议爆破脚本Python开发-配合Fuzz实现免杀异或Shell脚本 涉及资源: 本课知识点: 协议模块使用&#xff0c;Request爬虫技术&#xff0c;简易多线程技术&#xff0c;…

探索模块化神经网络在现代人工智能中的功效和应用

一、介绍 在快速发展的人工智能领域&#xff0c;模块化神经网络 (MNN) 已成为一项关键创新。与遵循整体方法的传统神经网络架构不同&#xff0c;MNN 采用分散式结构。本文深入探讨了 MNN 的基础知识、它们的优势、应用以及它们带来的挑战。 evertongomede 在人工智能领域&#…

通灵术揭秘:空碗“竖筷子”不倒

通灵术揭秘&#xff1a;空碗“竖筷子”不倒 释名&#xff1a;竖筷子是流传很广的一种民间小术&#xff0c;因其法是在碗中竖起一支或三支筷子&#xff0c;故名。 用处&#xff1a;如果有人莫名其妙的生病了&#xff0c;医药无效&#xff0c;按民间的说法&#xff0c;就是遇鬼了…