暴雨发布大模型专用分布式全闪存储

近日,暴雨信息发布为大模型专门优化的分布式全闪存储AVERSE系列。该系列依托暴雨信息自研分布式文件系统,搭载新一代数据加速引擎Xdata,通过盘控协同、GPU直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。


构建存储底座化解大模型时代挑战

大模型已经成为驱动数字经济深度创新、引领企业业务变革、加速形成新质生产力的重要动能,随着大模型参数量和数据量的极速膨胀,多源异构数据的传、用、管、存,正在成为制约生成式AI落地的瓶颈之一,用户亟需构建更加高效的存储底座。在数据准备阶段,在规模大、来源广泛、格式多样的原始数据中,筛选和清洗出利用于训练的高质量数据常会耗费大量时间;在模型训练阶段,海量小文件数据加载、Checkpoint数据调用对IO处理效率提出严苛要求;模型训练之后,多个数据资源池无法互通、海量冷数据归档带来较高的数据管理复杂度。

作为率先在业界提出分布式融合存储的厂商,暴雨信息聚焦行业客户的大模型落地需求与核心痛点,基于NVMe SSD研发出高效适配和优化的分布式全闪存储AVERSE系列。硬件方面,AVERSE是一款2U24盘位的全闪存储机型,搭载英特尔®至强®第四、第五代可扩展处理器,支持400 Gb 网卡,同时每盘位可配置15.36TB 大容量NVMe SSD。软件方面,通过集群控制服务将N个节点联成一套具有高扩展性的文件系统;通过分布式元数据服务提升海量小文件读写性能;通过数控分离架构,实现东西向网络优化,降低IO访问时延,提升单节点带宽。在软硬件协同创新下,AVERSES充分满足大模型应用在存储性能和存储容量方面的严苛需求。

具体来说,在数据准备阶段,通过多协议融合互通技术,面对多份、多种协议的数据,存储底层仅保留一份数据,实现数据共享免搬迁;在模型训练阶段,通过大小IO智能识别和缓存预读技术快速保存和恢复checkpoint(检查点)文件,实现TB级训练数据Checkpoint读取耗时从10分钟缩短至10秒内,大幅提升训练过程中数据加载速度;RDMA/RoCE网络连接技术和数控分离架构的设计,实现东西向数据免转发,极限发挥大模型训练中硬件网络带宽性能;基于盘控协同架构,网络数据直通NVMe SSD,进一步提升单盘带宽;在数据归档与管理阶段,AVERSE提供了多元异构存储的统一纳管能力,保障数据资产高效存储与管理,大幅提升存储资源的利用率且最大化数据基础设施投资回报比。

利用数据加速引擎保障大模型高效训练

在大模型的数据应用全流程中,要想使训练效率达到极致,减少不必要的资源浪费,训练阶段的数据读写性能成为重中之重。而想要提升算力利用率、降低模型训练成本,必须要在数据存储性能上进行创新。

AVERSE系列具备强大的端到端性能优化能力,这也是模型训练阶段最为核心的考量因素。暴雨信息基于计算和存储协同的理念,依托自研分布式文件系统构建了新一代数据加速引擎,在缓存优化、空间均衡、缩短GPU与存储读取路径等方面进行了全面升级。”

智能缓存优化保障大模型训练速度与质量

AVERSE能够通过对大小IO的智能识别,进行分类治理,小文件采取聚合的操作,大文件采取切片的操作,所有数据以大小均衡的模式保存到全局缓存中,实现小文件性能提升5倍,大文件性能提升10倍。在模型训练中断后,从Checkpoint恢复数据过程中,AVERSE通过缓存预读技术,提前识别数据的冷热程度,加速了重复样本数据的读取,训练加载速度提升10倍。无论是读操作还是写操作,AVERSES采取了字节级(Byte)分布式锁机制,粒度是主流并行文件系统锁机制粒度的几十分之一,确保多个节点访问共享资源时能够安全、有序地进行操作,从而保持训练数据的强一致性和训练质量。

智能空间均衡性能无衰减

AVERSE搭载了暴雨信息自主研发的分布式并行客户端技术,相比通用私有客户端,卸载了独立的元数据,实现了元数据和数据节点的高效统一部署,有效提升存储的并发能力,充分利用训练节点网卡的带宽,让GPU算力得到完全释放。同时在存储端,相较于业界主流的文件系统需要在磁盘之上构筑一层文件协议,AVERSE能够直接对裸盘的空间进行均衡排布,并在管理层面设计了智能空间预分技术,能够结合用户前端算力节点数量、训练模型的数量,对存储空间分配进一步进行智能策略预埋。这套组合拳能够使AVERSE在空间利用率达到95%高水位时,依然可以平稳输出强大的性能。在模型训练的空间损耗上,AVERSE相较传统方案,将损耗率降低了85%左右,充分保护了客户在大模型存储上的投资。

■ GPU直通服务万亿参数大模型

当大模型参数在百亿级别,GPU对存储资源的调用效率往往差别不大。但随着大模型从单模态走向多模态,数据量指数型增长,训练效率随之要求更高。从数据层面来看,AVERSE具备和GPU直通的能力,数据流不经过客户端缓存,直接到达存储底层文件系统,缩短GPU与存储的读取路径,这项技术能够使存储读写带宽翻倍,大模型训练加载时间缩短50%。随着万卡万亿参数模型时代的到来,GPU直通存储高效提升数据读写访问的能力将是大模型训练的标配。

通过上述技术创新,分布式全闪存储AVERSE凭借领先的性能和管理优势,能够帮助用户加速大模型的数据归集、提升模型训练效率、简化海量异构数据的管理,从而推动业务智能化变革。暴雨信息将借助AVERSE等存储产品,与合作伙伴加快在场景化方案定制、市场拓展等方面的创新,助力用户构筑人工智能时代最佳数据存储底座。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/833014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Python中安装和使用pandas库

在Python中安装和使用pandas库是一个相对简单的过程。以下是具体的步骤: 安装pandas库 你可以使用Python的包管理器pip来安装pandas。打开你的命令行工具(在Windows上可能是CMD或PowerShell,在macOS或Linux上可能是Terminal)&am…

看完这篇文章我奶奶都懂Opentracing了 (二)

二. 概念分析 1. Span和SpanContext 结合上述示例,我们从Span开始入手来进行概念分析,但是说在最前面,Span在不同的分布式链路实现中,其定义是不全一样的,尽管Opentracing已经进行了概念的统一,但是具体到…

1-1ARM开发环境搭建(GD32)

1:安装MDK最好是5.27以及以上版本,避免后续学习中出现相关错误 2:安装芯片支持包 双击安装即可,也可以是默认路径,也可以自己更改路径 3:安装jlink下载器驱动(下载调试器) 具体安装步骤如下所示…

一键解密,网络安全神器现已问世!

一、简介 当前版本V1.1这款工具是一款功能强大的网络安全综合工具,旨在为安全从业者、红蓝对抗人员和网络安全爱好者提供全面的网络安全解决方案。它集成了多种实用功能,包括解密、分析、扫描、溯源等,为用户提供了便捷的操作界面和丰富的功…

RTSP(Real Time Streaming Protocol)协议

RTSP(Real Time Streaming Protocol)是一种网络流媒体协议,用于建立和控制媒体服务器上的一个或多个时间同步的流媒体会话。RTSP 并不直接传输流媒体数据,而是为流媒体服务器提供了一种控制和选择流媒体的能力。 RTSP 是在 HTTP 基…

1456. 定长子串中元音的最大数目C++

给你字符串 s 和整数 k 。 请返回字符串 s 中长度为 k 的单个子字符串中可能包含的最大元音字母数。 英文中的 元音字母 为(a, e, i, o, u)。 示例 1: 输入:s "abciiidef", k 3 输出:3 解释&#xff1a…

一个好用的MQTT客户端软件

软件功能如下,实现的协议版本是 3.1.1 仅实现了常用的 CONNECT , PUBLISH , SUBSCRIBE 及相应的应答报文。支持以 Hex 格式显示接收的原始报文(方便初学者学习)。支持所有字段的自定义配置。支持保存与加载配置文件。 软件界面如下所示&…

NumPy 数组切片及数据类型介绍

NumPy 数组切片 NumPy 数组切片用于从数组中提取子集。它类似于 Python 中的列表切片,但支持多维数组。 一维数组切片 要从一维数组中提取子集,可以使用方括号 [] 并指定切片。切片由起始索引、结束索引和可选步长组成,用冒号 : 分隔。 语…

ESP32 IDF linux下开发环境搭建

文章目录 介绍升级Python环境下载Python包配置编译环境及安装Python设置环境变量 ESPIDF环境搭建下载esp-idf 代码编译等待下载烧录成功查看串口打印 介绍 esp32 官方文档给的不是特别详细 参考多方资料 最后才完成开发 主要问题在于github下载的很慢本教程适用于ubuntu deban…

Vue生命周期都有哪些?

定义 Vue的生命周期就是实例从创建到销毁的一个过程&#xff0c;即从创建、初始化数据、编译模板、挂载Dom($el)->渲染、更新->渲染&#xff0c;卸载等一系列的过程。el是挂载点如<div id"app"></div>。 Vue的生命周期分为八个阶段 1.beforeCreate…

关于实体类注解@Data、@EqualsAndHashCode(callSuper = true)、@Accessors(chain = true)的作用

笔记&#xff1a;都是lombook插件的注解&#xff0c;作用是简化优化代码等&#xff0c;比如getter、setter&#xff0c;一般三者连用能避免一些如继承类的导致的一些坑&#xff0c;比如equal()方法的错误&#xff0c;具体用法可查阅每个注解及属性的作用。 Accessors(chain tr…

OpenAPI 4 版本推出后会带来怎样的行业变革?

随着数字化浪潮的来临&#xff0c;软件开发与应用程序接口&#xff08;API&#xff09;在现今社会的商业及技术领域变得至关重要。API如同不同软件和服务之间的纽带&#xff0c;它将数据的流动和多个系统的无缝对接变为可能&#xff0c;极大地促进了技术的快速进步与应用的广泛…

ubuntu20安装colmap

系统环境 ubuntu20 &#xff0c;cuda11.8 &#xff0c;也安装了anaconda。因为根据colmap的官方文档说的&#xff0c;如果根据apt-get安装的话&#xff0c;默认是非cuda版本的&#xff0c;而我觉得既然都安装了cuda11.8了&#xff0c;自然也要安装cuda版本的colmap。 安装步骤…

2022 年全国职业院校技能大赛高职组云计算赛项试卷(容器云)

#需要资源&#xff08;软件包及镜像&#xff09;或有问题的&#xff0c;可私聊博主&#xff01;&#xff01;&#xff01; #需要资源&#xff08;软件包及镜像&#xff09;或有问题的&#xff0c;可私聊博主&#xff01;&#xff01;&#xff01; #需要资源&#xff08;软件包…

Flutter开发Dart中的队列(Queue)

文章目录 Dart中的队列&#xff08;Queue&#xff09;基本操作示例队列的类型队列的应用总结 Dart中的队列&#xff08;Queue&#xff09; 队列是一种抽象的数据结构&#xff0c;遵循“先进先出”&#xff08;FIFO&#xff09;的原则。这意味着最早添加的元素将首先被移除。队…

76.网络游戏逆向分析与漏洞攻防-移动系统分析-分析角色移动产生的数据包

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 如果看不懂、不知道现在做的什么&#xff0c;那就跟着做完看效果&#xff0c;代码看不懂是正常的&#xff0c;只要会抄就行&#xff0c;抄着抄着就能懂了 内容…

kubeadm搭建K8S集群小记

概述 一时兴起&#xff0c;尝试下K8S集群的搭建 步骤 请查看参考链接1 Q&A Q: raw.githubusercontent.com被墙&#xff0c;导致kube-flannel.yml下不来 kubectl apply -f https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.ymlTh…

【第6节课笔记】LagentAgentLego

Lagent 最中间部分的是LLM&#xff0c;即为大语言模型模块&#xff0c;他可以思考planning和调用什么action&#xff0c;再将其转发给动作执行器action executer执行。 支持的工具如下&#xff1a; Arxiv 搜索 Bing 地图 Google 学术搜索 Google 搜索 交互式 IPython 解释器 IP…

wpf 使用DragDrop 类进行拖拽和接收

在WPF&#xff08;Windows Presentation Foundation&#xff09;中&#xff0c;DragDrop 类及其 DoDragDrop 方法用于实现拖放&#xff08;Drag and Drop&#xff09;功能。拖放是用户界面中常见的交互方式&#xff0c;允许用户通过鼠标&#xff08;或其他指针设备&#xff09;…

初识Vue-混入mixins(详解分发 Vue 组件中可复用功能)

目录 一、mixins混入介绍 概念 特点 功能 用法 应用 二、mixins混入语法 1.简单示例 2.选项合并 3.全局混入 4.混入对象选项&#xff1a; 5.注意事项&#xff1a; 三、mixins混入应用实例 1.身份验证逻辑混入 2.表单验证混入 3.全局工具函数混入 四、总结 一、m…