VAST Data步步攀升,整合AI堆栈,打造一体化AI平台:从存储根基走向全方位数据处理与分析

VAST Data公司正逐步从其商品化存储基础出发,构建一套统一的AI堆栈系统,致力于提供一站式AI解决方案。最近,VAST公司的现场CTO安迪·珀斯坦纳在一次简报中传达了这一战略方向。

VAST提供了分散式QLC单层闪存架构的并行、横向扩展文件型存储系统,并在此基础上构建了一系列软件层,包括数据目录、全局命名空间、数据库,以及即将推出的数据引擎。早在生成式AI热潮爆发之前,VAST就已聚焦于AI领域,并带有Thinking Machines的理念。VAST的CEO兼联合创始人雷嫩·哈拉克曾表示:“VAST数据平台提供了AI基础设施,开启了通往自动化探索的大门,能够解决人类面临的最复杂挑战。”

安迪·珀斯坦纳解释说,许多VAST的客户项目专注于“相对传统且乏味的数据处理和预处理工作……往往是基于CPU的ETL工作负载。他们通常有一条包含多种不同技术的管线,然后将这些技术拼接在一起,最终目标是将数据转换成可以进行分析或者开始训练、推理的格式”。

目前存在的问题是,“很多时候,数据并不适合直接用于AI工作……所以他们需要对其进行处理”。人们花费大量时间在数据清洗、预处理和ETL上,这通常是在基于CPU的集群环境中完成。

珀斯坦纳表示:“我们的最终目标是让人们能够将所有杂乱无章、非结构化、不美观的数据带入我们的平台,并对那些需要结构化的部分,在无需先转移到其他地方进行转换的情况下,直接导入我们的数据库中进行处理。”

珀斯坦纳透露,VAST正在开发的数据引擎的第一部分“将在近中期实现,即在平台上嵌入一个执行引擎或执行框架。这个执行框架主要基于Spark,但我们还加入了许多优化元素,使其更适合进行ETL处理”。预计几个月后会发布这项功能,它将使客户能够就地处理数据,并将其加载到数据库中进行分析。

展望未来,VAST的目标是“尽可能地整合客户今天所做的一切,无论他们在亚马逊或谷歌云端部署,还是在本地部署,亦或是将各种不同的系统和技术拼接起来,我们都尝试尽量把这些东西整合在一起”。

这甚至可能不涉及存储。“我们在一些大规模部署项目中的客户拥有复杂ETL管线、数据预处理机制、执行引擎和数据库,他们开始意识到他们已经拥有的就是一个能够执行许多这类任务的平台。”这意味着VAST平台。

珀斯坦纳指出:“我们正与这些客户开展项目合作,在某些情况下,我们与客户的合作项目甚至不需要存储功能。他们真正需要的是处理数据并将数据转化为表格格式,然后在上面运行分析的方法。”

他还谈到:“我们非常兴奋地看到新的客户开始使用我们的数据库和数据引擎作为进入这些机会的杠杆。”在他看来,“你会看到越来越多的客户只使用我们的数据库和数据引擎产品”。

当谈到GPU支持时,他表示:“部署VAST数据平台当然需要硬件,但目前我们尚未在这一方面支持GPU……我们还没有实现对GPU调度方面的支持,这意味着客户最初将在我们的数据引擎上部署基于CPU的工作负载,这对于ETL处理、变换和基本功能的执行非常自然……很多这些工作并非人们传统意义上的AI,但却构成了AI的重要组成部分。”

随着客户采纳这一平台,他们将有一个可以存储所有数据的地方,并在此基础上进行更高级别的分析和AI处理。之后,VAST将进一步提升灵活性,虽然珀斯坦纳无法给出具体的时间表,但VAST的计划是最终能够管理和优化客户使用的各类硬件背后的处理环境。

许多客户已经建立了AI工作负载的安排。珀斯坦纳认为:“与我们交流过的大多数大规模客户都已经有了调度器、编排层、ML Ops平台等各种工具。因此,我们并不会建议他们全部替换掉现有的这些东西。这不切实际,而且他们能够很好地管理自己的计算资源,不需要我们插手。”

VAST将首先针对特定工作负载进行优化。例如,设想一个管道流程,需要从多个源头摄取数据并将其加载到平台上进行处理,转换为表格格式,然后分配给一系列离散的任务。这不是一个通用框架,而是一个相对特定的框架。

另外,VAST还将开放让客户的消息总线直接将数据投递到VAST平台,而无需经过另一层中介。客户通常围绕Kafka或其他类似的消息总线构建事件管道,而VAST平台将允许Kafka直接与其数据库表进行集成,这样客户可能不再需要单独管理Kafka系统,或者即使管理,也可以直接与VAST平台集成。

总体来看,VAST的做法就像水位上升,逐步吸收AI管道的底层阶段,逐层整合不同软件组件,同时不断提高舒适度。最终,VAST有可能在VAST环境中直接进行AI处理,也会涉及到GPU。但客户不会抛弃现有的上千个GPU服务器和Nvidia系统。然而,未来VAST有可能将现有的GPU服务器融入到VAST系统中。

珀斯坦纳回应称:“我认为你走在正确的轨道上,但‘吸收’可能并不是我们最初会采用的方式。”他认为调度是一个切入点。客户使用调度器来保证GPU始终有足够的数据供给。这些数据可能分布在客户分布式环境的多个位置,GPU服务和数据需求也需要流向GPU。VAST首先将允许客户在GPU集群上运行处理程序,处理来自其他地方已摄取的数据,只需以尽可能智能的方式在各处之间移动字节。VAST将利用其全局命名空间功能实现这一点。

珀斯坦纳表示:“我们不想抛弃客户的调度器,而是要与其进行集成。”VAST还会与Nvidia的ML Ops工具进行集成。其最终目标走得更远:“我们的想法是,客户无需了解所有细节,他们不必知道是否有调度器,甚至不必知道那里使用了何种硬件。他们只知道他们有数据,并需要从中获取答案。因此,我们的目标是让客户能够体验到黑盒式的便利,无需了解各个组件的细节。但要达到这个目标还有很长的路要走。”

在超融合方面,珀斯坦纳表示:“早期,我们非常注重战术层面,确保我们的解决方案适用于主要集中在HPC和研究领域的客户。但现在,随着我们在HPC、研究、企业、各种AI为核心的客户以及专注于AI的云服务提供商之间的不断演进和发展,我们的重点转向构建一个能够让所有事情在一个地方发生的平台,而不是聚焦于某个特定领域。”

我们提出:“你们是否成为了一种新型的超融合公司?”

对此,珀斯坦纳在某种程度上表示赞同:“如果你提到‘超融合’这个词,很多人脑海中会出现一种既定的画面。”基本上类似于Nutanix风格的计算。

珀斯坦纳同意这一观点,并补充道:“对于我们而言,如果使用‘超融合’这个词,那应该是在数据平台的语境下,而不是基础设施的语境。因为我们希望将所有相关学科整合到一起。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/706670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kotlin与java的相互转换

Kotlin转java 将kotlin代码反编译成java Tools -> Kotlin -> Show Kotlin Bytecode 然后点击 【Decompile】 生成java代码 java转kotlin Code -> Convert Java File To Kotlin File

Docker数据管理及网络通信

目录 ------------------Docker 的数据管理--------------------- 1.数据卷 2.数据卷容器 -----------------端口映射----------------------------------- ------------------容器互联(使用centos镜像)---------------------…

科技论文编写思路

科技论文编写思路 1.基本框架2.课题可行性评估1.研究目标和意义2.研究方法和技术3.可行性和可操作性4.风险和不确定性5.经济性和资源投入6.成果预期和评估 3.写作思路4.利用AI读论文5.实验流程 1.基本框架 IntroductionRelated worksMethodExperiment and analysisDiscussionC…

ElasticSearch之Search Template和Index Alias

写在前面 本文看下es的search template和index alias。 1:search template 用来定义模板查询语句,运行时只需要将要查询的内容作为参数传进来即可,如下: 接着来测试下,首先来定义数据: DELETE tmdb/ P…

服务器防火墙的应用技术有哪些

服务器防火墙的应用技术有哪些 1.数据包过滤技术 数据包过滤是最基本的服务器防火墙技术之一,它根据一系列预定义规则过滤进出网络的数据包。数据包过滤器通常基于IP地址、端口号和协议类型等信息来判断数据包是否合法,如果不符合规则,则将被…

解决i18n国际化可读性问题,傻瓜式webpack中文支持国际化插件开发

先来看最后的效果 问题 用过国际化i18n的朋友都知道,天下苦国际化久矣,尤其是中文为母语的开发者,在面对代码中一堆的$t(abc.def)这种一点也不直观毫无可读性的代码,根本不知道自己写了啥 (如上图,你看得出…

R语言在数据分析中的应用案例

一、引言 随着大数据时代的来临,数据分析已经成为了各行各业不可或缺的一部分。R语言,作为一款开源的统计计算和图形展示软件,因其强大的统计计算功能、丰富的包资源和灵活的编程特性,在数据分析领域得到了广泛的应用。本案例将通…

大语言模型LLM分布式框架:PyTorch Lightning框架(LLM系列14)

文章目录 大语言模型LLM分布式框架:PyTorch Lightning框架(LLM系列14)引言PyTorch Lightning分布式计算基础PyTorch Lightning核心架构概览LightningModule与分布式训练的兼容性LightningDataModule在分布式数据加载与预处理中的作用Trainer类…

Swagger3 使用详解

Swagger3 使用详解 一、简介1 引入依赖2 开启注解3 增加一个测试接口4 启动服务报错1.5 重新启动6 打开地址:http://localhost:8093/swagger-ui/index.html 二、Swagger的注解1.注解Api和ApiOperation2.注解ApiModel和ApiModelProperty3.注解ApiImplicitParams和Api…

大数据职业技术培训包含哪些

技能提升认证考试,旨在通过优化整合涵盖学历教育、职业资格、技术水平和高新技术培训等各种教育培训资源,通过大数据行业政府引导,推进教育培训的社会化,开辟教育培训新途径,围绕大数据技术人才创新能力建设&#xff0…

【华为面试基础题】求字符串中所有整数的最小和

描述 字符串s,只包含 a-z A-Z - ; 合法的整数包括 1) 正整数 一个或者多个0-9组成,如 0 2 3 002 102 2)负整数 负号 - 开头,数字部分由一个或者多个0-9组成,如 -0 -012 -23 -00023 输入描述&…

targetSdkVersion > 30 如何将下载的网络视频 保存到手机相册里更新

在 targetSdkVersion 31 中,将下载的网络视频保存到手机相册中涉及几个关键步骤。由于 Android 12(API 级别 31)引入了更多的隐私和安全限制,特别是作用域存储(Scoped Storage),因此你需要遵循这…

java特殊文件、日志技术、多线程

一、属性文件 1.1 特殊文件概述 像这种普通的文本文件,没有任何规律可言,不方便程序对文件中的数据信息处理。 在以后的Java开发过程中还会遇到一些特殊的文本文件,这些文件是有一些格式要求的,方便程序对文件中的数据进行处理。…

机器学习-02-机器学习算法分类以及在各行各业的应用

总结 本系列是机器学习课程的第02篇,主要介绍机器学习算法分类以及在各行各业的应用 本门课程的目标 完成一个特定行业的算法应用全过程: 定义问题(Problem Definition) -> 数据收集(Data Collection) -> 数据分割(Data…

自然语言处理: 第十三章Xinference部署

项目地址: Xorbitsai/inference 理论基础 正如同Xorbits Inference(Xinference)官网介绍是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通…

Spring中 Unsupported class file major version 61 报错

初学Spring时遇到的一个错误&#xff1a;Unsupported class file major version 61 &#xff0c;如图所示&#xff1a; 网上查了一下大概是JDK的版本与Spring的版本不一致导致的错误&#xff1b;刚开始我用的Spring版本是&#xff1a; <dependencies><dependency>…

StarRocks实战——多维分析场景与落地实践

目录 一、OLAP 系统历史背景 1.1 历史背景与痛点 1.2 组件诉求 二、StarRocks 的特点和优势 2.1 极致的查询性能 2.2 丰富的导入方式 2.3 StarRocks 的优势特点 三、多维分析的运用场景 3.1 实时计算场景 / 家长监控中心 3.2 实时更新模型选择 3.2.1 更新模型UNIQU…

Eureka简介与使用浅析

Eureka 简介 Eureka 是 Netflix 开发的一款开源服务发现组件&#xff0c;主要用于构建云环境下的微服务架构。它是基于 REST (Representational State Transfer) 的服务&#xff0c;扮演了服务注册与发现的角色&#xff0c;在分布式系统中尤为重要。Eureka Server 作为一个中心…

JDK, JRE, 和 JVM 的解释

在Java编程中&#xff0c;JDK&#xff08;Java Development Kit&#xff0c;Java开发工具包&#xff09;、JRE&#xff08;Java Runtime Environment&#xff0c;Java运行环境&#xff09;和JVM&#xff08;Java Virtual Machine&#xff0c;Java虚拟机&#xff09;是三个核心概…

正则表达式常见的应用场景

数据格式验证&#xff1a;正则表达式可以用来验证输入数据的格式是否符合要求。例如&#xff0c;可以使用正则表达式验证一个邮箱地址是否符合邮箱的格式规范&#xff0c;或者验证一个手机号码是否符合手机号码的格式规范。这在开发网站、手机应用程序等需要用户输入数据的场景…