分解数据堆栈:存储和计算 2.0 的分解

在LinkedIn上,有一篇优秀的帖子在数据和数据库人群中流行。它由 Theory VC 合伙人 Tomasz Tunguz 撰写,讲述了我们自 2019 年以来讨论的趋势。

数据库正在成为高速查询引擎,并正在抛弃存储。这并不意味着存储不重要,相反,它比以往任何时候都更重要,这意味着高速查询处理是一项核心能力,它与存储竞争。数据库希望专注于数据库内容,他们希望存储专注于存储内容。

它是分解 2.0。我们看到了第一波浪潮,当时 HDFS 在它自己的要求下崩溃了,它要求每个存储节点都有一个计算节点(高速查询处理)。

想想Cloudera、Oracle和其他公司所采用的单一式数据库管理方法。在用户刚刚开始考虑大规模数据的时候,这种方法起到了作用。事实证明,它没有扩展。在数据优先的世界中,存储/计算紧密耦合的托管服务数据平台很快被识别为站不住脚,因为存储需求大大超过了计算需求。

让我们深入研究分解 2.0。

拆分数据库

想象一下,在图书馆中,书籍(数据)和阅读台(计算资源)是分开的。读者(查询)可以访问他们需要的任何书籍,而无需绑定到特定的办公桌。这种设置允许图书馆根据需求调整办公桌数量,从而优化空间和资源。同样,在数据库中分解存储和计算可以灵活高效地处理数据;而传统的存储和计算紧密耦合的设计限制了灵活性,并将用户锁定在特定的供应商生态系统中。

开放数据格式的兴起和对现代数据湖基础设施的需求

用户需要更多的控制和灵活性。如果您需要第一手证据,请收听 Snowflake 最近的财报电话会议或阅读文字记录。这是一个以客户为中心的组织,他们正在竞相采用 Open Table 格式(尤其是 Iceberg),并在此过程中放弃存储收入,因为这是他们的用户想要的。这让他们在短期内损失了数十亿美元的市值。不是数百万,数十亿。你随处可见的不仅仅是雪花。SQL Server、Teradata、ClickHouse、Greenplum 等。拥有大量数据企业的客户越来越多地推动和接受以下要求:

  • **开放表格式:**Iceberg、Hudi 和 Delta Lake 等格式可实现不同系统之间的无缝数据交换。这种互操作性使企业能够为特定任务选择最佳工具。

  • **集中式数据存储:**不是将用于各种目的(分析、AI 等)的数据复制到孤立的数据集市中,而是将中央存储解决方案或数据湖作为架构蓝图。这些数据湖需要在许多不同的用例中存储组织的所有数据。不同的系统不是数据集市,而是根据需要从一个中心位置访问和处理这些数据。

分解 2.0 的好处

在分解 1.0 中,驱动因素主要是成本、简单性和避免锁定:

  • **节省成本:**将存储与计算分开后,两者可以独立扩展。与计算相比,存储通常费用较小,并且自然地将两者分开的体系结构允许两个用户适当调整性能和成本效益。

  • **简化架构:**分解架构更加模块化,更易于管理。企业可以为存储、计算和各种数据处理任务选择最佳解决方案。使用这种管理数据堆栈的现代方法,确实没有必要受到病态和不适当的技术的阻碍。

  • **避免供应商锁定:**通过将计算与存储分开,不同的供应商可以在价格、性能和特定于每个工作负载的功能等因素上展开竞争。这促进了更具活力和创新性的数据处理环境。

在分解 2.0 中,优势在于性能、可扩展性和可选性:

  • **性能:**对于数据库来说,存储和计算的分离为构建同类最佳架构提供了机会。对于 Snowflake,他们致力于成为市场上速度最快、性能最高的查询引擎。在软件领域,可能没有比数据库更具竞争力的市场了。这是一项战略要务。它还允许他们的客户在存储方面做出类似的、以性能为导向的最佳决策。这些显然是对象存储决策,但哪些(AWS S3、Azure Blob、GCP Object、MinIO)将取决于客户试图实现的目标。我们不想在这一点上大惊小怪,但我们不理解那些现在声称自己是数据库公司并希望以数据平台为幌子与 Snowflake 和 Databricks 竞争的存储公司。那里有一个伊卡洛斯的故事。

  • **可扩展性:**我们正在进入人工智能领域的未知领域,这甚至会影响到像Snowflake这样的巨头。他们想要,坦率地说,他们需要能够以更多方式处理更多数据。数据库,而不仅仅是 Snowflake,需要就它们提供的价值变得更加可扩展。这也是他们的客户想要的。Snowflake是一种利用模式,利用率越高,他们得到的报酬就越多。当您将存储与计算分开时,它为 Snowflake 及其计算端的客户释放了一系列选项,因为他们不必承担共同设计存储解决方案的负担(考虑到他们一直在转售别人的对象存储,他们对存储解决方案的影响力有限)。现在,Snowflake 可以突破极限,推动客户采用能够跟上步伐的存储。这对每个人都有好处(正如你所想象的那样,对世界上最快的对象存储来说真的很好)。

  • **可选性:**最后,分解 2.0 为客户带来了更多的可选性。他们能否继续使用现有的模型(Snowflake + 云对象存储)——是的。他们能否采用存储与计算分离的新技术(通过外部表)——是的。这种额外的选择始终是积极的,客户在分解 2.0 中获得了更多。

数据管理的新时代

虽然数据仓库供应商熟悉存储和计算分离的概念,但过去的实施主要集中在他们自己的生态系统内进行扩展。在这方面,用户才刚刚开始意识到像超大规模企业一样思考的优势。当前的运动要求对所有用户进行更深层次的分离,其中存储成为一种独立于计算层的实用程序。

这种范式转变使企业能够释放其数据的真正潜力。对于需要大量干净、可用数据才能成功的 AI 和 ML 工作负载来说尤其如此。开放的数据格式和分解的架构使企业能够利用更广泛的工具和技术从其数据资产中获取最大价值。

未来属于开放、灵活且经济高效的数据架构。存储和计算的分解为数据管理的新时代铺平了道路,使企业能够利用其信息的真正潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/31857.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Opencv学习项目5——pyzbar,numpy

上一次我们使用pyzbar进行解码二维码并将其内容显示在图像上,使用的是rect barcode.rect来获取图像的坐标,这次我们使用另一种方法来获取坐标进行画框。 Numpy介绍 NumPy 是一个用于科学计算的开源 Python 库,提供了对大量数值数据进行高效操…

MFC GDI绘制卡通人物

文章目录 主要代码完整visual studio工程下载主要代码 // DrawFrogView.cpp : implementation of the CDrawFrogView class //#include "stdafx.h" #include "DrawFrog.h"#include "DrawFrogDoc.h" #include "DrawFrogView.h"#includ…

5. Revit API: Application

5. Revit API: Application 前言 上一篇中,讲到了UI篇的Ribbon(界面),并提到要创建 RibbonPanel,需要使用UIControlledApplication.CreateRibbonPanel(..)方法,还在结尾说到要写“UI”开头的那些个类&…

碳钢酸洗线送酸槽蒸汽冷凝水PH计测量装置改进方法

碳钢酸洗线送酸槽蒸汽冷凝水PH计测量装置改进方法 一、项目提出前状况 1)立项背景 轧钢退火酸洗生产线的酸洗过程需要使用大量的硫酸、盐酸、硝酸、氢氟酸等酸液对钢带的表面进行清洗,酸洗过后产生较多的酸洗废水,酸洗废水需要经过处理达到污水排放标准后才能排放。其中酸…

【linux】内核源码TCP->IP->L2层函数调用继续摸索中

日志打印的时候,把行数也打印了: 登录 - Gitee.comhttps://gitee.com/r77683962/linux-6.9.0/commit/b847489a9910f68b9581fd8788807c697c82cdbd 上回基于应用层wget操作找到TCP调用的一些接口,并且已经到IP层的一些接口,当前基…

昇思25天学习打卡营第3天|数据集Dataset

一、简介: 数据是深度学习的基础,高质量的数据输入将在整个深度神经网络中起到积极作用。有一种说法是模型最终训练的结果,10%受到算法影响,剩下的90%都是由训练的数据质量决定。(doge) MindSpore提供基于…

Docker常用操作和命令

文章目录 1、卸载旧版本 2、yum安装Docker CE(社区版) 3、添加镜像加速器 4、docker --version 查看docker版本 5、docker info 或 docker system info 显示 Docker 系统的详细信息,包括容器、镜像、网络等 6、docker search 搜索镜像 …

仙讯畅通无阻:探索MQ阵法的强大功能

MQ起源 IBM MQ:IBM MQ是IBM推出的一系列消息导向中间件产品,最初在1993年12月发布。它最初被称为MQSeries,2002年更名为WebSphere MQ,以加入WebSphere产品系列。2014年4月,它被重新命名为IBM MQ。Apache ActiveMQ&…

永辉超市:胖东来爆改,成色几何?

单日业绩暴涨14倍。来,看看,这是被胖东来爆改后重新开业后的门店, 不出意外的流量爆炸。胖东来爆改,真是解决实体商超困境的灵丹妙药吗? 今天我们聊聊——永辉超市 最近两年实体商超日子都不好过,去年13家…

cron.timezone

系统 date 数据库 show timezone插件 show cron.timezonealter system set cron.timezonePRC;show cron.timezone

【odoo】常用的基本视图类型

概要 在Odoo中,有几种基本视图类型,每种视图类型用于不同的目的和场景。这些视图类型包括表单视图(form view)、树视图(tree view)、看板视图(kanban view)、图表视图(gr…

研究人员描述了如何判断ChatGPT是否在虚构

研究人员描述了如何判断ChatGPT是否在虚构 这是世界上最不为人知的秘密之一,大型语言模型对查询给出了明显错误的答案,并自信地这样做,与它们正确的时候没有区别。这有很多原因。人工智能可能已经接受了错误信息的训练;答案可能需要从LLM无法…

Flutter【组件】富文本组件

简介 flutter 富文本组件。 github地址: https://github.com/ThinkerJack/jac_uikit pub地址:https://pub.dev/packages/jac_uikit 使用方式 运行 flutter pub add jac_uikit组件文档 使用方式: HighlightedTextWidget.builder(text: &…

SpringMVC的使用

SpringMVC详情 RequestMapping("/hello") 负责用户的请求路径与后台服务器之间的映射关系 如果请求路径不匹配,则用户报错404 ResponseBody 作用: 将服务器的返回值转化为JSON. 如果服务器返回的是String类型,则按照自身返回. 新增: post请求类型 PostMapping("…

Java 从零开始写一个简单的图书管理系统

了解一下 先来了解要实现一个怎样的图书管理系统 从中可以看到有操作的 使用者 和 不同 的 功能 而不同的使用者有不同的 菜单 那要如何实现呢? 请继续看下去 如何实现 首先了解我们 需要什么 图书系统需要 书,放书的 书架 ,用户 中有 管…

大数据与java哪个好找工作?这篇文章帮你做选择!

大数据与java哪个好找工作?这篇文章帮你做选择! 还在为选择Java开发还是Java大数据而头疼吗?别担心,本文将从就业前景、学习方向、学习内容以及薪资待遇四个方面,为你揭开Java和Java大数据的神秘面纱,帮你做…

【STM32】时钟树系统

1.时钟树简介 1.1五个时钟源 LSI是低速内部时钟,RC振荡器,频率为32kHz左右。供独立看门狗和自动唤醒单元使用。 LSE是低速外部时钟,接频率为32.768kHz的石英晶体。这个主要是RTC的时钟源。 HSE是高速外部时钟,可接石英*/陶瓷谐振…

Webstorm vue项目@路径不能跳转到对应资源,提示Cannot find declaration to go to

Webstorm vue项目路径不能跳转到对应资源,提示Cannot find declaration to go to 我们 ctrl加鼠标左键点击方法会失效,看了网上很多教程在说需要在此处配置一下webpack.config.js的文件路径,而且指向了node_modules\vue\cli-service\webpack.config.js 我…

外贸SEO工具有哪些推荐?

"我们作为一个专业的Google SEO团队,比较推荐一下几个适合外贸SEO的工具。Ahrefs 是一个非常强大的工具,可以帮助你深入分析竞争对手的表现,找到有潜力的关键词,还可以监控你的网站链接状况。另外,SEMrush 也很不…

Android基础到进阶UI祖父级 ViewGroup介绍+实用

1.创建CustomLayout继承ViewGroup /** 编写自定义ViewGroup的示例。 */ public class CustomLayout extends ViewGroup { // private int childHorizontalSpace 20; // private int childVerticalSpace 20; private int childHorizontalSpace; private int childVert…