数据决定AIGC的高度,什么又决定着数据的深度?

有人曾言,数据决定人工智能发展的天花板。深以为然。

随着ChatGPT等AIGC应用所展现出的强大能力,人们意识到通用人工智能的奇点正在来临,越来越多的企业开始涌入这条赛道。在AIGC浪潮席卷全球之际,数据的重要性也愈发被业界所认同。

之所以会如此,有两个关键原因:其一,高质量数据是AIGC 应用的核心,决定着算法的性能、泛化能力和应用效果;其二,与数据相关的“存、管、用、传”逐渐成为AIGC发展的瓶颈,亟待高水平的基础设施来协助突破。

可以说,深度学习在过去十年的高速发展,让异构算力的作用与价值得到高度认可;未来十年,数据存储的变革将决定着高质量数据发展的深度。

AIGC市场发展趋势是什么

大模型所展现出的强大能力和较强的泛用性,已经让AIGC应用在办公、会议、对话、搜索、广告等内容生成领域初露锋芒。当前,AIGC和大模型的赛道热闹非凡,仅仅中国市场就有上百个大模型涌现,“百模大战”的盛况让市场热度持续升温。那么,未来的大模型和AIGC市场的发展趋势是什么?

毫无疑问,接下来,出于对交互体验升级和降本增效的巨大需求,AIGC和大模型广泛进入垂直行业已是不可阻挡的趋势。Gartner预测,到2032年,生成式人工智能市场规模将达到2000亿美元,在金融、教育、医疗、工业等领域有着广阔的应用前景。

中金公司研究部判断,未来的大模型市场类似云计算市场,就像一个冰激凌蛋筒,上面的冰激凌球代表金融、医疗、教育等多个关键行业的垂直大模型,与私有云的现状与曲同工;下面的筒身则代表着通用大模型,覆盖广泛的长尾市场,类似公有云市场那样的覆盖。

显然,越来越多行业用户看到了垂直行业大模型的巨大潜力。这些重点行业场景足够丰富、业务数据量巨大、降本增效需求强烈,加上这些行业的用户本身即是私有云的重度用户,看重数据的安全性和本地化部署,对于垂直大模型的需求极为强烈。

“当前,大模型和AIGC市场依然处于早期。但AIGC对于整个行业应用是变革性的,所有行业都必须去适应AIGC带来的变化。这无疑在未来五到十年将产生持续且巨大的数据存储需求。”浪潮信息首席架构师叶毓睿判断道。

AIGC数据存储挑战到底有哪些

今年4月,OpenAI CEO Sam Altman认为,增加大模型的参数数量不再是提升大模型能力的最有效手段,大规模、高质量数据和数据高效处理工程化才是关键。事实上,从OpenAI GPT-5开始,多模态被视为是大模型下一阶段的重要演进方向。

多模态大模型意味着除了文本数据之外,音视频数据也将加入其中,这会让AIGC的数据特征呈现出数据海量化、多元数据类型复杂、服务协议多样、性能要求苛刻和要求服务持续在线,进而带来一系列极为复杂的数据存储挑战。

浪潮分布式存储总经理姜乐果认为,当下AIGC应用背后需要对行业上下游对数据进行采集、标注、训练、推理、归档,带来了异构数据的融合、持续的低延迟与高带宽和EB级大容量存储需求等三大重要挑战。

首先是异构数据的融合。大模型训练数据呈现来源多、格式多的多源异构现状,对于面向单一数据类型设计的传统存储是极大挑战。这种传统模式的缺陷就是很难在一个数据平台上满足不同数据类型对于性能的不同需求,在大模型从采集、标注到训练、推理整个数据存储管道中,需要来回进行数据拷贝,数据处理效率低且无法满足AIGC应用的处理需求。

“传统存储需要以搬移数据的方式实现多协议访问,这是AIGC应用平台一大关键瓶颈。支持异构数据的多协议融合将是解决挑战的关键。”姜乐果直言道。

第二是持续的低延迟与高带宽。在大模型的训练过程中,需要频繁从数据集取Token。但是每个Token通常只有4个字节,这就造成了实时高并发的海量小IO,需要极低的延迟来保障性能;此外,大模型在存储模型Checkpoint时,需要高带宽来支撑数据的快速写入。

“大模型训练时候通常要调用上千块GPU块,某一块卡出现故障或者问题的情况比较正常。如果出现故障,模型需要重新拉起,利用备用节点来替代,备用节点CheckPoint需要存储的高带宽来实现数据快速写入,否则就很容易造成GPU算力资源的浪费。”浪潮信息AI架构师杨鑫介绍道。

第三是EB级大容量存储需求。大模型的越多数据投喂结果越精准的工作原理,决定着大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。

“比如,浪潮信息自身的源1.0大模型,加入音视频数据之后,经过不断训练已经达到上百PB的数据规模。”姜乐果介绍道,“随着训练的不断深入,对于数据存储容量、性能的需求也会持续增长,需要存储具备极致容量和极致性能的能力。”

叶毓睿则表示,AIGC涉及包括采集、标注、训练、推理、归档等数据处理的过程较长,且不同阶段对于性能、延时、数据安全等要求不同。从产业变革的角度看,AIGC正在推动数据存储产业进行全方位的技术升级,未来专业的AIGC存储产品与解决方案需求将大幅增加。

浪潮存储,让AIGC有数

如果说数据存储是AIGC应用的地基,那么这个地基的深度与优劣将决定着AIGC应用的通用性和效率。一旦AIGC应用的效率持续提升和拓展,也意味着垂直行业的生产力有望迎来质的变化。

当前,市场中专门针对AIGC的存储解决方案并不多,尤其是经过验证过的存储解决方案很少。浪潮信息是市场中率先推出相应解决方案的厂商,利用一套AS13000融合存储支撑生成式AI的全阶段应用,一套存储提供端到端的数据流支持流程,满足面向文本、音频、图像、视频、代码以及多模态和全模态的大模型需求。

据悉,浪潮信息AS13000提供全闪、混闪、带库、光盘四种介质,支持文件、对象、大数据、视频、块协议,可满足大容量、多协议共享,百万以上IOPS,100GB以上带宽,冷数据的长期保存和归档。“浪潮信息的AIGC存储解决方案已经支撑过浪潮信息源1.0大模型以及其他AI公司的大模型训练。”姜乐果如是说。

从浪潮信息透露的信息来看,AS13000有效避免了传统存储方案台设备并存带来的各种复杂性、数据处理低效率以及数据孤岛,对于AIGC突破海量数据瓶颈和加速释放数据价值有着极大帮助。

姜乐果介绍,浪潮信息生成式AI存储解决方案拥有极致融合、极致性能、极致节能,和热温冷冰四级全生命周期存储管理四大特点。

第一是极致融合。一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式并行访问。完美契合了多模态大模型场景的数据存储需求,并且实现应用间数据实时共享以及存储空间的最优化。

第二则是极致性能。AIGC带来的是性能指数级的增长,大带宽、高IOPS在未来会成为业务需求的标配。对此,浪潮信息的解决思路是通过架构、硬件、关键技术、IO路径优化等多种手段实现存储性能的充分释放。

“比如,数控分离架构可以减少东西向数据量的转发;GDS、RMDA技术则可以缩短I/O路径,SPDK、缓存零拷贝技术则可以有效减少I/O路径上的数据拷贝;基于自研NVMe SSD开发的盘控协同技术,则减少I/O访问SSD盘的次数,进一步提升性能。”姜乐果补充道,“像全闪单节点带宽超过50GB/s,IOPS超过50万,双控全闪节点,带宽超过100GB/s,IOPS超过100万。”

以源1.0大模型为例,在AS13000并行存储支撑下,2128个GPU集群上跑了16天完成训练,算力效率达到45%,远超MT-NLG与GPT-3等国际知名模型。

第三则是极致节能。相关数据预测,到2025年,我国AI算力总量将超过1800EFlops,AI算力占总算力比重超过85%,这意味着与AI相关的数据存储也将大幅增加,随之而来不容忽视的挑战就是节能减排。为此,浪潮信息最新的G7硬件平台中,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式,并且浪潮信息具有风液式,全液式等完善的端到端解决方案。

最后则是端到端的全生命周期管理。浪潮信息生成式AI存储解决方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,且实现了资源的互通和数据全生命周期的管理。此外,四种介质、四类存储节点提供热温冷冰自动流转,满足各类应用的灵活配置需求,用户们可以根据性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。

“目前市场上能够构建起完整端到端支撑平台的用户还是少数。大部分用户希望是有一揽子解决方案,来支撑起他们迅速构建起平台。浪潮信息自身拥有大模型的经验,可以通过生成式AI存储解决方案将好的经验和实践快速输出到市场中,更好地推动AIGC产业发展。”姜乐果总结道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/10636.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL基础(四)数据库备份

目录 前言 一、概述 1.数据备份的重要性 2.造成数据丢失的原因 二、备份类型 (一)、物理与逻辑角度 1.物理备份 2.逻辑备份 (二)、数据库备份策略角度 1.完整备份 2.增量备份 三、常见的备份方法 四、备份&#xff08…

vue实现flv格式视频播放

公司项目需要实现摄像头实时视频播放,flv格式的视频。先百度使用flv.js插件实现,但是两个摄像头一个能放一个不能放,没有找到原因。(开始两个都能放,后端更改地址后不有一个不能放)但是在另一个系统上是可以…

wangEditor初探

1、前言 现有的Quill比较简单,无法满足业务需求(例如SEO的图片属性编辑需求) Quill已经有比较长的时间没有更新了,虽然很灵活,但是官方demo都没有一个。 业务前期也没有这块的需求,也没有考虑到这块的扩展…

接口自动化测试-Python+Requests+Pytest+YAML+Allure配套撸码(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 接口自动化框架&a…

[Java] 观察者模式简述

模式定义:定义了对象之间的一对多依赖,让多个观察者对象同时监听某一个主题对象,当主题对象发生变化时,他的所有依赖者都会收到通知并且更新 依照这个图,简单的写一个代码 package Section1.listener;import java.ut…

前端程序员入门:先学Vue3还是Vue2?

一、前言 对于新手来说,学习Vue.js框架时往往会有这样一个疑问:应该先学习Vue2还是直接学习Vue3?在回答这个问题之前,我们先简单介绍一下Vue.js框架。 Vue.js是一个轻量级的MVVM(Model-View-ViewModel)框架,它以数据驱…

el-table表格自动滚动

实现效果如下: 功能点: 1. 当表格内容超出时,自动滚动,滚动到最后一条之后在从头滚动。 2. 表格中的数据会定时刷新,刷新后数据更新。 3. 鼠标移入表格中,停止滚动;移出后,继续滚…

VXLAN集中式网关部署(静态方式)

目录 1. 网络拓扑1.1 配置思路1.2 数据准备2. 配置Underlay网络2.1 配置CE12.2 配置CE22.3 配置CE32.4 查看OSPF结果2.5 配置LSW12.6 配置LSW23. 配置Overlay网络二层互通(同网段)3.1 配置CE13.2 配置CE23.3 配置CE33.4 Server13.5 Server23.6 Server33.7 Server43.8 抓包分析…

Kafka入门到起飞系列 - 副本机制,什么是副本因子呢?

我们一直在讲一个主题会有多个分区,这多个分区可以分布在一台服务器上,也可以分布在多台服务器上,还可以增加分区(Kafka目前只支持分区),这是Kafka提供的一种横向扩展的手段 比如我们创建了一个主题&#x…

YAML+PyYAML笔记 2 | YAML缩进、分离、注释简单使用

2 | YAML缩进、分离、注释简单使用 1 简介2 缩进3 分离4 多行文本4.1 折叠块4.2 字面块4.3 引用块 5 注释5.1 行内注释5.2 块注释5.3 完美注释示例 1 简介 YAML 不是一种标记语言,而是一种数据格式;使用缩进和分离来表示数据结构,不需要使用…

与 ChatGPT 进行有效交互的几种策略

在这篇文章中,您将了解即时工程。尤其, 如何在提示中提供对响应影响最大的信息什么是角色、正面和负面提示、零样本提示等如何迭代使用提示来利用 ChatGPT 的对话性质 废话不多说直接开始吧!!! 提示原则 快速工程是有…

Safari 查看 http 请求

文章目录 1、开启 Safari 开发菜单2、显示 JavaScript 控制台 1、开启 Safari 开发菜单 Safari 设置中,打开开发菜单选项 *** 选择完成后,Safari 的目录栏就会出现一个 开发 功能。 2、显示 JavaScript 控制台 开启页面后,在开发中选中 显…

【Linux后端服务器开发】数据链路层

目录 一、以太网 二、MAC地址 三、MTU 四、ARP协议 一、以太网 “以太网”不是一种具体的网路,而是一种技术标准:既包含了数据链路层的内容,也包含了一些物理层的内容,例如:规定了网络拓扑结构、访问控制方式、传…

Android 在程序运行时申请权限——以自动拨打电话为例

Android 6.0及以上系统在使用危险权限时必须进行运行时权限处理。 main_activity.xml <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://sche…

使用Python搭建代理服务器- 爬虫代理服务器详细指南

搭建一个Python爬虫代理服务器可以让你更方便地管理和使用代理IP。下面是一个详细的教程来帮助你搭建一个简单的Python爬虫代理服务器&#xff1a; 1. 首先&#xff0c;确保你已经安装了Python。你可以在官方网站(https://www.python.org/)下载并安装最新版本的Python。 2. 安…

本地Git仓库和GitHub仓库SSH传输

SSH创建命令解释 ssh-keygen 用于创建密钥的程序 -m PEM 将密钥的格式设为 PEM -t rsa 要创建的密钥类型&#xff0c;本例中为 RSA 格式 -b 4096 密钥的位数&#xff0c;本例中为 4096 -C “azureusermyserver” 追加到公钥文件末尾以便于识别的注释。 通常以电子邮件地址…

序列化模块pickle和json有什么区别

目录 什么是序列化模块pickle 什么是序列化模块json pickle和json有什么区别 总结 什么是序列化模块pickle pickle是Python中的内置模块&#xff0c;用于将Python对象序列化和反序列化为字节流。它提供了一种将复杂的数据结构&#xff08;如列表、字典、类实例等&#xff0…

练习时长两年半的入侵检测

计算机安全的三大中心目标是&#xff1a;保密性 (Conf idential ity) 、完整性 (Integrity) 、可用性 (Availability) 。 身份认证与识别、访问控制机制、加密技术、防火墙技术等技术共同特征就是集中在系统的自身加固和防护上&#xff0c;属于静态的安全防御技术&#xff0c;…

GitHub Copilot:让开发编程变得像说话一样简单

引用&#xff1a; 人类天生就梦想、创造、创新。但今天&#xff0c;我们花太多时间被繁重的工作所消耗&#xff0c;花在消耗我们时间、创造力和精力的任务上。为了重新连接我们工作的灵魂&#xff0c;我们不仅需要一种更好的方式来做同样的事情&#xff0c;更需要一种全新的工…

Mysql-主从复制与读写分离

Mysql 主从复制、读写分离 一、前言&#xff1a;二、主从复制原理1.MySQL的复制类型2. MySQL主从复制的工作过程;3.MySQL主从复制延迟4. MySQL 有几种同步方式&#xff1a;5.Mysql应用场景 三、主从复制实验1.主从服务器时间同步1.1 master服务器配置1.2 两台SLAVE服务器配置 2…