在LinkedIn上,有一篇优秀的帖子在数据和数据库人群中流行。它由 Theory VC 合伙人 Tomasz Tunguz 撰写,讲述了我们自 2019 年以来讨论的趋势。
数据库正在成为高速查询引擎,并正在抛弃存储。这并不意味着存储不重要,相反,它比以往任何时候都更重要,这意味着高速查询处理是一项核心能力,它与存储竞争。数据库希望专注于数据库内容,他们希望存储专注于存储内容。
它是分解 2.0。我们看到了第一波浪潮,当时 HDFS 在它自己的要求下崩溃了,它要求每个存储节点都有一个计算节点(高速查询处理)。
想想Cloudera、Oracle和其他公司所采用的单一式数据库管理方法。在用户刚刚开始考虑大规模数据的时候,这种方法起到了作用。事实证明,它没有扩展。在数据优先的世界中,存储/计算紧密耦合的托管服务数据平台很快被识别为站不住脚,因为存储需求大大超过了计算需求。
让我们深入研究分解 2.0。
拆分数据库
想象一下,在图书馆中,书籍(数据)和阅读台(计算资源)是分开的。读者(查询)可以访问他们需要的任何书籍,而无需绑定到特定的办公桌。这种设置允许图书馆根据需求调整办公桌数量,从而优化空间和资源。同样,在数据库中分解存储和计算可以灵活高效地处理数据;而传统的存储和计算紧密耦合的设计限制了灵活性,并将用户锁定在特定的供应商生态系统中。
开放数据格式的兴起和对现代数据湖基础设施的需求
用户需要更多的控制和灵活性。如果您需要第一手证据,请收听 Snowflake 最近的财报电话会议或阅读文字记录。这是一个以客户为中心的组织,他们正在竞相采用 Open Table 格式(尤其是 Iceberg),并在此过程中放弃存储收入,因为这是他们的用户想要的。这让他们在短期内损失了数十亿美元的市值。不是数百万,数十亿。你随处可见的不仅仅是雪花。SQL Server、Teradata、ClickHouse、Greenplum 等。拥有大量数据企业的客户越来越多地推动和接受以下要求:
-
**开放表格式:**Iceberg、Hudi 和 Delta Lake 等格式可实现不同系统之间的无缝数据交换。这种互操作性使企业能够为特定任务选择最佳工具。
-
**集中式数据存储:**不是将用于各种目的(分析、AI 等)的数据复制到孤立的数据集市中,而是将中央存储解决方案或数据湖作为架构蓝图。这些数据湖需要在许多不同的用例中存储组织的所有数据。不同的系统不是数据集市,而是根据需要从一个中心位置访问和处理这些数据。
分解 2.0 的好处
在分解 1.0 中,驱动因素主要是成本、简单性和避免锁定:
-
**节省成本:**将存储与计算分开后,两者可以独立扩展。与计算相比,存储通常费用较小,并且自然地将两者分开的体系结构允许两个用户适当调整性能和成本效益。
-
**简化架构:**分解架构更加模块化,更易于管理。企业可以为存储、计算和各种数据处理任务选择最佳解决方案。使用这种管理数据堆栈的现代方法,确实没有必要受到病态和不适当的技术的阻碍。
-
**避免供应商锁定:**通过将计算与存储分开,不同的供应商可以在价格、性能和特定于每个工作负载的功能等因素上展开竞争。这促进了更具活力和创新性的数据处理环境。
在分解 2.0 中,优势在于性能、可扩展性和可选性:
-
**性能:**对于数据库来说,存储和计算的分离为构建同类最佳架构提供了机会。对于 Snowflake,他们致力于成为市场上速度最快、性能最高的查询引擎。在软件领域,可能没有比数据库更具竞争力的市场了。这是一项战略要务。它还允许他们的客户在存储方面做出类似的、以性能为导向的最佳决策。这些显然是对象存储决策,但哪些(AWS S3、Azure Blob、GCP Object、MinIO)将取决于客户试图实现的目标。我们不想在这一点上大惊小怪,但我们不理解那些现在声称自己是数据库公司并希望以数据平台为幌子与 Snowflake 和 Databricks 竞争的存储公司。那里有一个伊卡洛斯的故事。
-
**可扩展性:**我们正在进入人工智能领域的未知领域,这甚至会影响到像Snowflake这样的巨头。他们想要,坦率地说,他们需要能够以更多方式处理更多数据。数据库,而不仅仅是 Snowflake,需要就它们提供的价值变得更加可扩展。这也是他们的客户想要的。Snowflake是一种利用模式,利用率越高,他们得到的报酬就越多。当您将存储与计算分开时,它为 Snowflake 及其计算端的客户释放了一系列选项,因为他们不必承担共同设计存储解决方案的负担(考虑到他们一直在转售别人的对象存储,他们对存储解决方案的影响力有限)。现在,Snowflake 可以突破极限,推动客户采用能够跟上步伐的存储。这对每个人都有好处(正如你所想象的那样,对世界上最快的对象存储来说真的很好)。
-
**可选性:**最后,分解 2.0 为客户带来了更多的可选性。他们能否继续使用现有的模型(Snowflake + 云对象存储)——是的。他们能否采用存储与计算分离的新技术(通过外部表)——是的。这种额外的选择始终是积极的,客户在分解 2.0 中获得了更多。
数据管理的新时代
虽然数据仓库供应商熟悉存储和计算分离的概念,但过去的实施主要集中在他们自己的生态系统内进行扩展。在这方面,用户才刚刚开始意识到像超大规模企业一样思考的优势。当前的运动要求对所有用户进行更深层次的分离,其中存储成为一种独立于计算层的实用程序。
这种范式转变使企业能够释放其数据的真正潜力。对于需要大量干净、可用数据才能成功的 AI 和 ML 工作负载来说尤其如此。开放的数据格式和分解的架构使企业能够利用更广泛的工具和技术从其数据资产中获取最大价值。
未来属于开放、灵活且经济高效的数据架构。存储和计算的分解为数据管理的新时代铺平了道路,使企业能够利用其信息的真正潜力。