科技云报道:AI大模型疯长,存储扛住了吗?

科技云报道原创。

AI大模型正在倒逼数字基础设施产业加速升级。

过去一年半,AI大模型标志性的应用相继出现,从ChatGPT到Sora一次次刷新人们的认知。震撼的背后,是大模型参数指数级的增长。

这种数据暴涨的压力,快速传导到了大模型的底层基础设施。作为支撑大模型的底座“三大件”——算力、网络、存储,都在快速的迭代。

算力方面,英伟达用了两年的时间就将GPU从H100升级到了H200,让模型的训练性能提升了5倍。

网络方面,从之前的25G升级到现在的200G,网络带宽提升了6倍。随着RDMA大规模的应用,网络延迟也降低了60%。

存储方面,华为、阿里云、百度智能云、腾讯云等大厂,都相继推出了面向AI大模型的存储方案。

那么作为基础设施的三大件之一的存储,在AI大模型的场景下到底发生了哪些变化?又有哪些新的技术挑战?
在这里插入图片描述

AI大模型带来的 存储挑战

算力、算法、数据,在发展AI过程中的重要性早已为人所熟知,但是作为数据的承载,存储却往往被忽略。

在训练AI大模型的过程中,需要大量数据的交换,存储作为数据的基础硬件,并非仅仅只是简单地记录数据,而是深刻参与到了数据归集、流转、利用等大模型训练的全流程。

如果存储性能不强,那么可能需要耗费大量时间才能完成一次训练,这就会严重制约大模型的发展迭代。

事实上,不少企业在开发及实施大模型应用过程中,已经开始意识到存储系统所面临的巨大挑战。

从AI大模型的研发生产流程看,可分为数据采集、清洗、训练和应用四个阶段,各阶段都对存储提出了新的要求,比如:

在数据采集环节,由于原始训练数据规模海量,且来源多样,企业希望能够有一个大容量、低成本、高可靠的数据存储底座。

在数据清洗阶段,网络上收集的原始数据是不能直接用于AI模型训练的,需要将多格式、多协议的数据进行清洗、去重、过滤、加工,行业内称其为“数据预处理”。

与传统单模态小模型训练相比,多模态大模型所需的训练数据量是其1000倍以上,一个典型的百TB级大模型数据集,预处理时长超过10天,占比AI数据挖掘全流程的30%。

同时,数据预处理伴随高并发处理,对算力消耗巨大。这就要求存储能够提供多协议、高性能的支持,用标准文件的方式完成海量数据的清洗和转换,以缩短数据预处理的时长。

在模型训练环节,通常会出现训练集加载慢、易中断、数据恢复时间长等问题。

相较于传统学习模型,大模型训练参数、训练数据集指数级增加,如何实现海量小文件数据集快速加载,降低 GPU等待时间是关键。

目前,主流预训练模型已经有千亿级参数,而频繁的参数调优、网络不稳定、服务器故障等多种因素带来训练过程不稳定,易中断返工,需要Checkpoints机制来确保训练回退到还原点,而不是初始点。

当前,由于Checkpoints需要天级的恢复时长,导致大模型整体训练周期陡增,而面对单次超大的数据量和未来小时级的频度要求,需要认真考虑如何降低Checkpoints恢复时长。

因此,存储能否快速地读写checkpoint(检查点)文件,也成了能否高效利用算力资源、提高训练效率的关键。

在应用阶段,存储需要提供比较丰富的数据审核的能力,来满足鉴黄鉴暴安全合规的诉求,保证大模型生成的内容是合法、合规的方式去使用。

总的来说,AI大模型训练的效率要达到极致,减少不必要的浪费,必须在数据上下功夫。准确地说,必须要在数据存储技术上进行创新。

AI倒逼存储技术创新

根据投资机构ARK Invest预算,到2030年,产业有望训练出比GPT-3多57倍参数、多720倍Token的AI模型,成本将从今天的170亿美元降至60万美元。随着计算价格降低,数据将成为大模型生产的主要限制因素。

面对数据桎梏问题,不少企业已经开始进行前瞻性布局。

比如百川智能、智谱、元象等大模型企业,都已采用腾讯云AIGC云存储解决方案来提升效率。

数据显示,腾讯云AIGC云存储解决方案,可将大模型的数据清洗和训练效率均提升一倍,需要的时间缩短一半。

科大讯飞、中科院等大模型企业和机构,则采用了华为AI存储相关产品。

数据显示,华为OceanStor A310可实现从数据归集、预处理到模型训练、推理应用的AI全流程海量数据管理,简化数据归集流程,减少数据搬移,预处理效率提升30%。

目前,国内各大厂商也相继发布了面向AI大模型场景的存储方案。

2023年7月,华为发布两款面向AI大模型的存储产品——OceanStor A310深度学习数据湖存储和FusionCube A3000训/推超融合一体机。

2023年11月云栖大会上,阿里云推出一系列针对大模型场景的存储产品创新,用AI技术赋能AI业务,帮助用户更轻松地管理大规模多模态数据集,提高模型训练、推理的效率和准确性。

2023年12月,百度智能云发布了“百度沧海·存储”统一技术底座,同时面向数据湖存储和AI存储能力进行了全面增强。

2024年4月,腾讯云宣布云存储解决方案面向AIGC场景全面升级,针对AI大模型数据采集清洗、训练、推理、数据治理全流程提供全面、高效的云存储支持。

综合各大厂商的存储技术创新,可以发现技术方向较为统一,都是基于AI大模型生产研发的全流程,对存储产品进行有针对性的性能优化。

以腾讯云为例,在数据采集与清洗环节,首先需要存储能够支持多协议、高性能、大带宽。

因此,腾讯云对象存储COS能够支持单集群管理百 EB 级别存储规模,提供便捷、高效的数据公网接入能力,并支持多种协议,充分支持大模型PB级别的海量数据采集。

同时,数据清洗时,大数据引擎需要快速地读取并过滤出有效数据。腾讯云对象存储COS通过自研数据加速器GooseFS提升数据访问性能,实现了高达数TBps的读取带宽,支撑计算高速运行,大大提升数据清洗效率。

在模型训练环节,通常需要每2-4小时保存一次训练成果,以便能在GPU故障时时能回滚。

腾讯云自主研发并行文件存储CFS Turbo ,面向AIGC训练场景的进行了专门优化,每秒总读写吞吐达到TiB/s级别,每秒元数据性能高达百万OPS,均为业界第一。3TB checkpoint 写入时间从10分钟,缩短至10秒内,使大模型训练效率大幅提升。

大模型推理场景对数据安全与可追溯性提出更高要求。

腾讯云数据万象CI为此提供图片隐式水印、AIGC内容审核、智能数据检索MetaInsight等能力,为数据生产从“用户输入——预处理——内容审核——版权保护——安全分发——信息检索”业务全流程提供有力支撑,优化AIGC内容生产与管理模式,顺应监管导向,拓宽存储边界。

同时,随着训练数据和推理数据的增长,需要提供低成本的存储能力,减少存储开销。腾讯云对象存储服务提供了高达12个9的数据持久性和99.995%的数据可用性,能够为业务提供持续可用的存储服务。

总的来说,随着AI大模型的推进,数据存储出现了新的趋势。市场渴望更高性能、大容量、低成本的存储产品,并加速大模型各个环节的融合和效率提升。

而各大厂商也在通过技术创新不断满足大模型各环节的需求,为企业实施大模型降低门槛。

在AI大模型的倒逼下,存储创新已在路上。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/819208.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity 3D定点数物理引擎实战系列:BEPU物理引擎碰撞计算与碰撞规则的架构与设计

前面我们讲解了如何监听物理引擎的碰撞事件, 在物理引擎内核中如何架构与设计碰撞规则,使得物理Entity与周围的物理环境产生碰撞时,如何灵活的控制物理碰撞,本节給大家详细的讲解BEPUphysicsint 物理引擎内部是如何管理与控制碰撞规则的。本文主要讲解3个…

HTML的超链接

前言&#xff1a; 如图&#xff0c;我们在浏览网页时经常可以看到这样的字体&#xff08;点击便跳转到了别的地方了&#xff09;&#xff0c;今日就和各位一起学习一下超链接的相关知识。 相关知识1&#xff1a; 超链接的标签为&#xff1a;a ~使用格式为&#xff1a; <a h…

node.js服务器静态资源处理

前言&#xff1a;node.js服务器动态资源处理见 http://t.csdnimg.cn/9D8WN 一、什么是node.js服务器静态资源&#xff1f; 静态资源服务器指的是不会被服务器的动态运行所改变或者生成的文件. 它最初在服务器运行之前是什么样子, 到服务器结束运行时, 它还是那个样子. 比如平…

单元测试四大过程

单元测试四大过程&#xff08;蓝桥课学习笔记&#xff09; 单元测试过程 单元测试是软件测试过程中的一个关键环节&#xff0c;它与集成测试、系统测试一样&#xff0c;分为测试策划、测试设计、测试执行和测试总结几个阶段。 单元测试过程中每个阶段需要完成的主要工作如下&…

数据结构排序算法

排序也称排序算法(SortAlgorithm)&#xff0c;排序是将一组数据&#xff0c;依指定的顺序进行排列的过程。 分类 内部排序【使用内存】 指将需要处理的所有数据都加载到内部存储器中进行排序插入排序 直接插入排序希尔排序 选择排序 简单选择排序堆排序 交换排序 冒泡排序快速…

用html写文本变形动画

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>文本变形动画</title><link rel"stylesheet" href"./style.css"> </head> <body> <!-- 两个文本部分…

广东莱斯广告,6.8米UV喷印推动粤东喷绘产业升级

广东莱斯广告作为汕头市大型的广告服务运营商,近日迎来了一件值得庆祝的事情:彩神6.8米UV喷印机运行一周年,销售服务商深圳嘉豪总经理李伟特地前来回访。该设备是深圳润天智数字设备股份有限公司开发的全球首台搭载XTRA6800H柯尼卡喷头的设备,设备特点是:1.色彩艳丽;2.超宽喷印…

记录flume运行时报NullPointerException异常

【背景说明】 我要起一个将kafka上的topic_log主题中的数据上传到hdfs上的flume进程。 这是我的flume配置文件脚本&#xff1a; #定义组件 a1.sourcesr1 a1.channelsc1 a1.sinksk1#配置source1 a1.sources.r1.type org.apache.flume.source.kafka.KafkaSource a1.sources.r…

《Kubernets证书篇:基于Kylin V10+ARM架构CPU修改K8S 1.26.15版本证书时间限制》

一、背景 Kubernetes 默认的证书有效期只有1年&#xff0c;因此需要每年手动更新一次节点上面的证书&#xff0c;特别麻烦而且更新过程中可能会出现问题&#xff0c;因此我们要对 Kubernetes 的 SSL 证书有效期进行修改&#xff0c;这里将证书的时间限制修改为100年。 环境信息…

112 arcpy 发布 mxd地图文件 到 arcgis服务器 为 地图服务

前言 此文档主要是记录一下 最近的一次机遇 arcpy 来发布 地图文件到 arcgis服务器 上面 arcpy 主要是来自于 ArcGIS_Desktop_105_154030.zip 安装之后会在 python 的安装目录 安装另外的一份带 arcgis 的 python 环境, 然后 本文相关类库 也是基于 这个 arcpy 的 python 环境…

web实战项目环境部署(LNMP)

环境搭建准备 1、在本机安装VMware虚拟机&#xff0c;实际工作中&#xff0c;使用的是云服务器 2、在虚拟机上安装并运行Linux系统 3、在本机上安装好远程连接工具&#xff08;xshell/FinalShell&#xff09;&#xff0c;通过远程连接工具连接到虚拟机 4、关闭linux上的防火…

深度学习之PyTorch实现卷积神经网络(CNN)

在深度学习领域&#xff0c;卷积神经网络&#xff08;Convolutional Neural Networks&#xff0c;CNN&#xff09;是一种非常强大的模型&#xff0c;专门用于处理图像数据。CNN通过卷积操作和池化操作来提取图像中的特征&#xff0c;具有较好的特征学习能力&#xff0c;特别适用…

云原生:企业数字化转型的引擎与未来

一&#xff0c;引言 随着信息技术的飞速发展&#xff0c;企业数字化转型已成为时代的必然趋势。在这场深刻的变革中&#xff0c;云原生技术以其独特的优势&#xff0c;逐渐成为推动企业数字化转型的核心动力。本文将详细探讨云原生技术的内涵、发展历程&#xff0c;以及在企业数…

【Java开发指南 | 第八篇】Java变量、构造方法、创建对象

专栏&#xff1a;Java开发指南 CSDN秋说 文章目录 Java变量构造方法创建对象 Java变量 局部变量&#xff1a;在方法、构造方法或者语句块中定义的变量被称为局部变量。变量声明和初始化都是在方法中&#xff0c;方法结束后&#xff0c;变量就会自动销毁。成员变量&#xff08;…

研究生,该学单片机还是plc。?

PLC门槛相对较低&#xff0c;但是在深入学习和应用时&#xff0c;仍然有很高的技术要求。我这里有一套单片机入门教程&#xff0c;不仅包含了详细的视频 讲解&#xff0c;项目实战。如果你渴望学习单片机&#xff0c;不妨点个关注&#xff0c;给个评论222&#xff0c;私信22&am…

OpenHarmony实战开发-图片选择和下载保存案例。

介绍 本示例介绍图片相关场景的使用&#xff1a;包含访问手机相册图片、选择预览图片并显示选择的图片到当前页面&#xff0c;下载并保存网络图片到手机相册或到指定用户目录两个场景。 效果图预览 使用说明 从主页通用场景集里选择图片选择和下载保存进入首页。分两个场景点…

Linux UDP通信系统

目录 一、socket编程接口 1、socket 常见API socket()&#xff1a;创建套接字 bind()&#xff1a;将用户设置的ip和port在内核中和我们的当前进程关联 listen() accept() 2、sockaddr结构 3、inet系列函数 二、UDP网络程序—发送消息 1、服务器udp_server.hpp initS…

stm32开发之threadx整合letter-shell 组件记录

前言 使用过rt-thread的shell 命令交互的方式&#xff0c;觉得比较方便,所以在threadx中也移植个shell的组件。这里使用的是letter-shellletter-shell 核心的逻辑在于组件通过链接文件自动初始化或自动添加的两种方式&#xff0c;方便开发源码仓库 实验(核心代码) shell 线程…

rhce day1

一 . 在系统中设定延迟任务要求如下 在系统中建立 easylee 用户&#xff0c;设定其密码为 easylee 延迟任务由 root 用户建立 要求在 5 小时后备份系统中的用户信息文件到 /backup 中 确保延迟任务是使用非交互模式建立 确保系统中只有 root 用户和 easylee 用户可以执行延…

✌粤嵌—2024/3/11—跳跃游戏

代码实现&#xff1a; 方法一&#xff1a;递归记忆化 int path; int used[10000];bool dfs(int *nums, int numsSize) {if (path numsSize - 1) {return true;}for (int i 1; i < nums[path]; i) {if (used[path i]) {continue;}path i;used[path] 1;if (dfs(nums, num…