对我来说,在MinIO已经一个多星期了。沉浸在白板会议、架构审查和客户电话中的最大收获是,产品的简单性既是其显着特征,也是其最具决定性的价值驱动因素之一。在规模上尤其如此。由于人工智能的进步,计算能力的爆炸性增长对数据格局产生了重大影响,将我们带入了百万兆次级数据基础设施的时代。
对于创始人和产品负责人来说,有一些惊人的成功资源/秘诀——但它们都可以被提炼成对大多数初创公司来说仍然难以捉摸的东西——“解决客户愿意支付的紧迫、普遍的问题。
就 MinIO 而言,该问题是关于解决动态工作负载的大规模数据基础设施的挑战。这就是 AI/ML,即 SEIM/威胁搜寻数据湖,即 HDFS 替代品,即数据库持久存储,即高级分析等等。在人工智能方面,每家企业公司,无论公司规模大小,都在尝试使用人工智能重塑自己。关键指标是从 AI 计划中获得价值的时间。要实现这一目标,需要将三件事结合在一起。
-
在正确的时间窗口内获得正确的数据。
-
以高性能方式提供、存储和流式传输数据的正确基础架构。
-
利用这些数据实现预期业务成果的正确 AI 应用程序。
让我们从正确的时间窗口中的正确数据开始。正确的数据具有 X 属性。正确的时间窗口具有 Y 属性。总的来说,它们是你的数据计划的基础 - 人工智能或其他,它们在人工智能世界中的重要性越来越大,因为如果你的数据是错误的,你将延续错误,你将教导错误,你将需要重新开始。
接下来是正确的基础设施。我的同事 Keith Pijanowski 写了一篇关于 AI 数据湖的精彩文章,值得您花时间。人工智能生态系统围绕着对象存储展开。OpenAI 在对象存储上进行训练。Mistral 在对象存储上进行训练。Anthropic 的 Claude 在对象存储中接受训练。
云模型为人工智能的突破铺平了道路。对于提供NAS(网络附加存储)的传统数据存储公司来说,这是令人震惊的。在人工智能时代,他们面临着走磁带之路的风险。因此,他们试图通过文件对象二象性为现有数据提供对象存储接口来保持相关性。从架构上讲,这是错误的方法,因为这种方法会导致文件具有对象存储网关接口,而不是提供真正的本机对象存储。这样的解决方案试图将 AI 工作负载需求改造为 NAS 工作负载功能,但没有成功,但唯一真正的目标是确保数据不会离开他们的设备。无论这些存储设备供应商提供何种硬件,这种操作模式都无法满足 AI 工作负载所需的速度、简单性、成本和规模。现代 AI 应用程序是使用云原生技术构建的。默认情况下,这些 AI 应用程序工作负载中的大多数都需要横向扩展、分布式、高度可用的对象存储,从数据持久性的角度来看,支持非结构化/半结构化数据。MinIO 从头开始构建,正好满足这些云原生 AI 应用程序的需求。无论是裸机还是容器,MinIO Enterprise Object Store 都是真正的软件定义的云原生对象存储,为这些应用程序提供支持。
数字就是证据。MinIO 的 Docker Pull #s 同比增长 84%,创下了每天 1.6M 的记录。让它沉入片刻。每天1.6M。这可能比我们所有非公有云竞争对手在一个季度的总和还要多!这些 Docker Pulls 中有许多来自试图利用 MinIO 的云原生、“正常工作”简单性的企业。
为了达到这种成功水平,它需要更好的捕鼠器。请记住,每家采用 MinIO 的公司都已经拥有某种类型的存储 - 即使它是遗留文件和块。
这里还有另一个动态在起作用,那就是云遣返。企业客户热衷于避免他们在匆忙迁移公有云时所犯的错误 - 锁定和不受控制的账单。在处理这些大型数据集时,训练 AI 所需的数据更大,计算和网络出口成本变得更加昂贵。控制这些云成本,同时为业务提供弹性是要求 - 如今,通过迁移到 Equinix 这样的 colo 提供商或回到客户希望节省成本的私有数据中心,可以实现高达 50% 或更多,同时利用 MinIO 进行云原生对象存储,无论他们将数据从公共云移动到何处。
总之,我们将继续发展并成为 AI 工作负载的主要数据基础设施,帮助客户在运营敏捷性、安全性方面进行创新,并大规模提供新时代 AI 工作负载所需的性能。