Databricks 收购 Tabular 的意义:数据开放框架的胜利

Databricks 宣布收购 Tabular,这是一个由 Apache Iceberg 的原始创建者开发的数据平台,在数据分析行业引发了涟漪。此次收购凸显了开放框架在数据领域日益增长的重要性,预示着数据管理、分析和 AI/ML 计划领域的创新、协作和可访问性的新时代。MinIO 一直是 Apache Iceberg 的粉丝,并且与 Tabulal 的团队关系密切。我们已经写了许多关于这项技术如何与高性能对象存储一起工作的基础文章。在下一章中,我们为他们感到兴奋。

开放框架的兴起

开放框架彻底改变了我们处理数据的方式。与将用户锁定在特定平台和工具中的专有系统不同,开放框架提供了灵活性、互操作性和透明度。它们使组织能够利用可用的最佳工具,集成各种数据源,并定制解决方案以满足特定需求,而不受供应商限制的限制。

虽然有些人可能会质疑 Databricks 收购 Tabular 背后的动机,特别是考虑到收购是在 Snowflake 的年度用户大会上宣布的,当时有传言称 Snowflake 本身正在谈判收购 Tabular,但 Databricks 确实拥有开源的诚意,可以为 Iceberg 和更广泛的社区做出积极贡献。这是通过他们对表格的投资来实现的,也许更重要的是,通过有效地雇用冰山格式的创建者。Databricks 历来是开源技术的坚定拥护者,收购 Tabular 符合其培养开放数据生态系统的使命。

虽然我们支持开放框架的任何扩展,无论是物质的还是意识形态的,但组织可以从这场非常公开的战斗中吸取什么教训?至少,很明显,开放表格式是现代数据基础设施的基石。在考虑未来时,组织应专注于能够有效利用这些强大格式的工具和技术。

开放框架在现代数据湖中的作用

现代数据湖作为集中式存储库,用于存储大量结构化和非结构化数据,为高级分析和 AI 计划提供所需的灵活性。显然,为了在 AI 用例中发挥作用,现代数据湖必须建立在高性能、弹性和可扩展的存储之上。

将开放框架集成到这些面向未来的数据湖中具有变革性,因为它增强了它们已经内置的可扩展性、灵活性和互操作性。开放框架使组织能够避免供应商锁定(尤其是在主要供应商急于支持 Iceberg 的情况下),并提供与各种数据源和分析工具轻松集成的灵活性,以及与各种数据源和分析工具轻松集成的灵活性。这两项功能对于构建强大、面向未来的数据基础架构至关重要。

随着 Apache Iceberg、Apache Hudi 和 Delta Lake 等开放框架的兴起,现代数据湖在打破数据孤岛、实现数据访问民主化以及促进更具协作性和创新性的数据生态系统方面的作用得到了强调。以下是这些好处的细分。

增强互操作性和灵活性

开放框架的主要优势之一是它们能够增强互操作性。在当今数据驱动的世界中,组织通常依靠无数的工具和平台来收集、存储、分析和可视化数据。开放框架充当桥梁,允许这些不同的系统无缝通信。

当开放框架部署在 MinIO 上时,用户会放大这种固有的互操作性和灵活性。现代数据湖中的这种强大组合可确保您的数据可以在您需要的任何地方高效访问、管理和处理:私有云、公共云、colos 或边缘。归根结底,运营灵活性并非易事。

通过协作推动创新

开放框架在协作中茁壮成长。就其本质而言,开源项目邀请全球开发人员、研究人员和数据科学家社区做出贡献。这种协作方法可以加速创新,因为可以快速开发、测试和实施新的想法和解决方案。事实是,开源催生了开源,尤其是在人工智能领域。在数据驱动创新的时代,比以往任何时候都更清楚,数据基础设施的未来是开源的。

实现数据访问的民主化

也许开放框架最深远的影响是它们在数据访问民主化方面的作用。通过降低进入门槛,开源工具使各种规模和预算的组织能够利用数据的力量。这种民主化对于创造公平的竞争环境和确保即使是小企业也能在数据驱动的经济中竞争至关重要。

只要有开放框架,这种民主化就是正确的,但对于像MinIO这样建立在开源对象存储上的基础设施来说尤其如此。这种简单易用和部署的基础架构进一步降低了成本和复杂性,使更广泛的组织能够使用强大的数据存储以及 AI 和分析功能。借助 MinIO 和开放式框架,您可以事半功倍。

把它带回家

展望未来,很明显,开放、协作和可访问性原则将继续推动数据环境的发展。Databricks 收购 Tabular 的战略举措凸显了这一驱动力。通过拥抱和投资开放框架,您的组织不仅可以增强其平台,还可以倡导数据比以往任何时候都更易于访问、互操作和创新的未来。这些原则对于构建真正成功的 AI 计划至关重要。

不要落后于自己的基础架构,而是使用 Iceberg 或 Hudi 等开放格式以及世界上最快的对象存储软件开始构建组织自己的现代数据湖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/44666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库的学习(6)

题目: 数据准备创建两张表:部门(dept)和员工(emp),并插入数据,代码如下create table dept(dept_id int primary key auto_increment comment 部门编号,dept_name char(20)comment部门名称 ); insert into dept (dept_name) values(销售部),(财…

音视频入门基础:H.264专题(11)——计算视频分辨率的公式

一、引言 通过FFmpeg命令可以获取到H.264裸流文件的视频分辨率: 在vlc中也可以获取到视频分辨率(vlc底层也使用了FFmpeg进行解码): 所以FFmpeg和vlc是怎样获取到H.264编码的视频的分辨率呢?它们其实是通过SPS中的属性…

深入理解Java并发、线程与等待通知机制

目录 一、基础概念 进程和线程 进程 线程 Java 线程的无处不在 进程间的通信 进程间通信有几种方式? CPU 核心数和线程数的关系 上下文切换(Context switch) 并行和并发 二、认识 Java 里的线程 Java 程序天生就是多线程的 线程…

华为机考真题 -- 密码解密

题目描述: 给定一段"密文"字符串 s, 其中字符都是经过"密码本"映射的,现需要将"密文"解密并且输出映射的规则 (a - i)分别用(1 - 9)表示;(j - z)分别用(10* - 26*)表示约束:映射始终唯…

STM32学习和实践笔记(39):I2C EEPROM实验

1.I2C总线介绍 I2C(Inter-Integrated Circuit)总线是由PHILIPS公司开发的两线式串行总线,用于连接微控制器及其外围设备,是微电子通信控制领域广泛采用的一种总线标准。 它是同步通信的一种特殊形式,具有接口线少,控制方式简单,器件封装形式小,通信速率较高等优点。I…

一套基于 Ant Design 和 Blazor 的开源企业级组件库

前言 今天大姚给大家分享一套基于Ant Design和Blazor的开源(MIT License)、免费的企业级组件库(喜欢Ant Design风格的同学推荐使用):Ant Design Blazor。 项目特性 提炼自企业级中后台产品的交互语言和视觉风格。 开…

Java核心技术【二十二】Java的I/O流处理:深入文件读写操作、缓冲流、序列化与NIO

Java的I/O流处理:深入文件读写操作、缓冲流、序列化 在Java编程中,I/O流是处理输入输出操作的基础,特别是在文件读写、网络通信等领域。本文将在前文的基础上,进一步探讨缓冲流、序列化以及NIO(New I/O)在…

大数据开发者如何快速熟悉新公司业务

作为一名大数据开发工程师,进入一家新公司后快速熟悉业务是至关重要的。 目录 1. 了解产品形态故事1:电商平台的数据分析故事2:金融科技的风控系统故事3:社交媒体的推荐算法 2. 了解业务流程故事1:物流配送系统的优化故事2:医疗保险的理赔流程故事3:银行的贷款审批流程 3. 走…

通过 tomcat 让手机访问到电脑写的 html 网页

之前实现的 html 小项目只能在自己的电脑上展示,如果要在其他电脑或者在手机上就看不到网页了 想要在手机上访问自己写的网页,我们可以借助 tomcat 首先我们可以从官网下载 tomcat 官网链接:apache官网 我们拉到最底部,找到 a…

科普文:Java对象在堆中的内存结构

概叙 今天来讲些抽象的东西 -- 对象头,因为我在学习的过程中发现很多地方都关联到了对象头的知识点,例如JDK中的 synchronized锁优化 和 JVM 中对象年龄升级等等。 对象内存构成# Java 中通过 new 关键字创建一个类的实例对象,对象存于内存的…

7.10日学习打卡----初学Redis(五)

7.10日学习打卡 目录: 7.10日学习打卡一. redis功能流水线pipeline什么是流水线?pipeline实现使用pipeline 发布与订阅Redis的发布与订阅发布订阅命令行实现 慢查询Redis命令执行的整个过程如何进行配置实践建议 二 . redis的持久化机制RDB持久化机制触发…

Golang | Leetcode Golang题解之第227题基本计算器II

题目&#xff1a; 题解&#xff1a; func calculate(s string) (ans int) {stack : []int{}preSign : num : 0for i, ch : range s {isDigit : 0 < ch && ch < 9if isDigit {num num*10 int(ch-0)}if !isDigit && ch ! || i len(s)-1 {switch preS…

洞察消费者心理:Transformer模型在消费者行为分析的创新应用

洞察消费者心理&#xff1a;Transformer模型在消费者行为分析的创新应用 在数字化时代&#xff0c;消费者行为分析对于企业理解市场动态、制定营销策略至关重要。Transformer模型&#xff0c;以其在处理序列数据方面的优势&#xff0c;为消费者行为分析提供了新的视角和工具。…

【大模型】解码LLM:GPT-3与LaMDA的架构比较与对比

解码LLM&#xff1a;GPT-3与LaMDA的架构比较与对比 引言一、GPT-3&#xff1a;解密大规模预训练的奥秘1.1 架构概览1.2 关键技术1.3 应用场景 二、LaMDA&#xff1a;对话智能的新篇章2.1 架构概览2.2 关键技术2.3 应用场景 三、比较与对比&#xff1a;GPT-3 vs. LaMDA3.1 架构设…

JavaSE学习笔记第二弹——对象和多态(下)

今天我们继续复习与JavaSE相关的知识&#xff0c;使用的编译器仍然是IDEA2022&#xff0c;大家伙使用eclipse或其他编译环境是一样的&#xff0c;都可以。 目录 数组 定义 一维数组 ​编辑 二维数组 多维数组 数组的遍历 for循环遍历 ​编辑 foreach遍历 封装、继承和…

宝塔:如何开启面板ssl并更新过期ssl

1、登录宝塔面板 > 前往面板设置 > 最上方的安全设置 > 面板SSL > 面板SSL配置 打开后先查看自签证书的时间&#xff0c;如果时间是已经过期的&#xff0c;就前往这个目录&#xff0c;将该目录下所有文件都删掉 重新回到面板SSL配置的位置&#xff0c;打开后会看到…

【山东大学】web数据管理——复习笔记

写在前面 若有图片加载失败&#xff0c;请科学上网 。本文为对软件学院连老师的PPT课件总结所得的复习笔记&#xff0c;仅供参考。不保证对考点的全覆盖&#xff0c;以PPT为主。对往年考过的题相关知识点前面都标注了“考过”&#xff0c;并高亮&#xff0c;供参考。写的比较匆…

iCloud数据宝库:全方位掌握笔记应用数据存储

iCloud数据宝库&#xff1a;全方位掌握笔记应用数据存储 在数字化时代&#xff0c;我们的日常生活和工作中产生了大量的笔记数据&#xff0c;这些数据的安全性、可访问性和同步性至关重要。苹果的iCloud服务提供了一个强大而便捷的解决方案&#xff0c;允许用户在所有设备上存…

【PB案例学习笔记】-31制作一个动态设置菜单的程序

写在前面 这是PB案例学习笔记系列文章的第31篇&#xff0c;该系列文章适合具有一定PB基础的读者。 通过一个个由浅入深的编程实战案例学习&#xff0c;提高编程技巧&#xff0c;以保证小伙伴们能应付公司的各种开发需求。 文章中设计到的源码&#xff0c;小凡都上传到了gite…

初识C++语言(1)

目录 C语言简介 C 语言概述 C 语言的特点 语言简洁紧凑&#xff0c;使用灵活方便 运算符丰富 数据结构丰富 结构化语言 生成的代码质量高 可移植性强 C程序结构 C语言系统的使用 一.启动Dev-C 二、新建源程序 三…