存储人视角:人工智能AI + 大模型

原文来自于知乎存储专栏:

存储人视角:人工智能AI + 大模型

前沿

我的角色

背景

AI 出场

效果

一个宠娃狂魔

娃喜爱并有奥特曼玩具

她的奥特曼玩具会跳舞了

娃对我的崇拜和爱又多了一分......amazing

杭州网商路艾弗森

球队需要制作LOGO

形象生动的LOGO生成了

......amazing

历史/地理爱好者

我想了解古代所有著名关隘

所有关隘名称,位置,典故都出来了

......amazing

人工智能AI & 大模型实在是太火了,并且太有用了,作为一个存储从业者,免不了和各类人工智能相关团队打交道。在这个过程中,接触到了一系列名词术语:AIGC,AGI,大模型(LLM),ChatGPT ,NLP,RGA等, --- 这些都是何物?他们之间有哪些微妙的联系?在阅读了海量相关资料后,我这个外行算是了解了一点点,所以这里希望可以理清一下(如有疏漏请指正)。

当然,因为数据是人工智的基石,所以作为一个存储人,最重要的还是希望弄清楚这些人工智能产物和我们存储有什么内在的关系。然后,也希望了解一下我们业界的存储系统都在这方面做了哪些有趣的事情。

人工智能简介

上图勾勒了AI的全貌,要是想了解更多细节,参考文献里面有很多很好的资料(对我这种非专业的人来说)。另外,为了避免文章台臃肿了,上图里的嵌套图会放在留言区里

存储和AI的关系

"数据集"是AI与存储之间的桥梁,AI & 大模型要做的事情就是利用海量数据进行训练,然后获得相应的知识。不同的数据集(文本,视频,图片)会有不同的总容量和单文件大小,自然对存储的需求也是不一样的。

数据集

  • 大模型的典型数据集
0
  • 机器学习数据集
0

AI 下的存储

这里先以使用kimi或者通义千问为例,简单来说可以分为两个部分:使用者 & AI 服务提供商(kimi),流程大概如下3步:

  • 使用者:使用者输入想了解的问题
  • 服务提供商(kimi):kimi的线上推理模型收到使用者的提问信息后,生成提问对应内容
  • 使用者:收到搜索结果

那么其实这里的关键就在上述的第2步:也即kimi的线上推理模型是什么?这个推理模型是怎么构建的?

推理模型的构建:收集海量数据(数据集),在此基础上进行训练,获得相关知识推理模型,然后把这个推理模型部署在线上。

大模型全流程可以划分为四个主要的环节:海量数据的存储和处理,模型开发,模型训练,模型推理。

大模型环节

描述

存储需求

海量数据存储&处理

数据采集导入、清洗、标注、归档

海量数据,不同类型的数据

模型开发

数据科学家进行模型开发

POSIX 兼容、可靠性和可共享

模型训练

GPU集群读取数据,进行训练,得到推理模型

-------

推理模型部署

把训练完的模型快速分发部署到线上,服务用户

过程高频、反复发生,既要求高并发、高吞吐,又要求整个流程尽量简单高效

这里重点说下模型训练对存储的需求:对于一个典型的训练来说,可能迭代多轮 epoch。在每个 epoch 内,首先需要对数据集进行随机打散,然后将打散后的数据划分为若干 batch,每读取一个 batch 的数据,进行一次训练迭代。同时会周期性保存 checkpoint 用于故障快速恢复:

1. shuffle阶段是纯元数据操作的过程,主要依赖大量文件的 LIST

2. 数据读取过程则元数据和数据操作都有

3. CheckPoint:大模型单个节点的 checkpoint 通常就能达到几十上百 GB。而多个训练节点同时写,需要恢复时又同时读,对存储提出了很高的吞吐要求。同时一个关键的问题是 checkpoint 期间整个训练是中断的

0

当前AI使用的存储分类

存储类型

代表性系统

本地文件

NVME SSD + 本地文件

分布式文件系统

CephFS,HDFS,GPFS,NFS,DAOS

对象存储

Minio,NVIDIA/aistore

文件网关+对象存储

Alluxio,JuiceFS,CurveFS

向量数据库

Milvus

商业存储

VAST DATA,WeakFS,焱融YRCloudFile百度沧海,阿里云文件存储 CPFS等

我的存储系统适合AI么

工作中参与了Ceph以及CurveFS,所以基于这两款产品简单聊聊。

Ceph

Ceph的rados其实还是比较适合AI训练的,因为基于rados集群的可扩展性以及BlueStore的io特性,其能够提供不错的带宽能力。

但是可惜的是Ceph的元数据在大规模小文件下可能会成为瓶颈,我个人理解可能主要有2点原因吧:

目录分区(扩展性不足)导致的竞争:虽然CephFS提供了静态子树分区以及动态子树分区,但是动态子树分区太复杂且尚未成熟,当前业界一般使用静态子树(PIN),但是这种方式又带来了运维的复杂性。

CEPH多Client的强一致性:比如你当前只有一个Client在写,其默认是可以写到Client的内存Buffer的么,但是如果这时候又有一个Client挂载过来了,那么MDS就会要求之前的老的Client把之前写的Buffer全部刷到osd数据池子里面去,那么这个过程有可能是比较的。

一些小小的优化:

  • 只读快照:如果所有针对训练数据的操作都是读取的,那么将数据集驻留在只读块设备的快照上可能会更好。例如,使用Ceph创建RBD卷,其中放入数据集,获取快照,然后将该快照映射为多个实例(这些实例都需要访问相同的图像集)上的只读快照
  • lazyio模型:如果对数据的可靠性和一致性没有那么高,可以考虑下CephFS的lazyio模型
  • 减少小文件操作:将数据预处理为类似TFRecords这样的格式是一个巨大的优化。
  • Ceph本身的性能优化:参考分布式存储性能优化的几点(Ceph篇)

CurveFS

简单说一些亮点吧:

  • 提供本地缓存以及分布式缓存集群。并提供了提前预热功能
  • 数据在BS块存储和对象存储之间的生命周期流转
  • 可线性扩展的元数据结构

一些先进的技术

比如GDS,NVIDIA BlueField DPU,RDMA等

因为自己是一个AI领域的外行,只是一个期望了解些许皮毛的爱好者,所以如上上述描述有误,烦请指正,感谢。。。

参考文献

LLMSurvey

中国人工智能白皮书

分布式存储性能优化的几点(Ceph篇)

AI训练存储基座之一:深度学习(AI)中的io模式及性能优化

什么是生成式人工智能?

GitHub - NVIDIA/aistore:AIStore:用于 AI 应用程序的可扩展存储

清华大学出版社

面向大模型的存储加速方案设计和实践

什么样的存储架构才是AI大模型时代的最佳选择?

火山引擎云原生存储加速实践

阿里云大模型数据存储解决方案,为 AI 创新提供推动力

【学习大模型】RAG基础-阿里云开发者社区 (aliyun.com)

大模型时代,为什么要懂向量数据库?-阿里云开发者社区 (aliyun.com)

Alluxio v.s. JuiceFS

大模型存储实践:性能、成本与多云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/825332.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【办公软件word小技巧】如何一键提取word中的图片 几十张 几百张均可一键提取

在日常生活和工作中,我们经常会遇到需要从Word文档中提取图片的情况。无论是为了单独保存这些图片,还是为了在其他地方使用它们,一键提取Word中的图片都是一个非常实用的技能。提取Word文件中的图片并不是一件复杂的事情,只要掌握…

照片jpg格式小于50kb怎么弄?jpg压缩到指定大小

我们经常需要处理大量的图片,特别是在分享到社交媒体时,然而,图片文件的大小常常成为困扰我们的问题,尤其是当我们的设备存储空间有限时。有些平台甚至会需要将图片压缩到50kb大小,那么,如何有效地压缩图片…

WAF攻防-权限控制代码免杀异或运算变量覆盖混淆加密传参

知识点 1、脚本后门基础&原理 2、脚本后门查杀绕过机制 3、权限维持-覆盖&传参&加密&异或等 章节点: WAF绕过主要集中在信息收集,漏洞发现,漏洞利用,权限控制四个阶段。 代码表面层免杀-ASP&PHP&JSP&a…

电商数据接口开发|淘宝商品接口|天猫商品接口|京东商品接口|拼多多商品接口|API接口申请指南

电商数据接口开发涉及到多个电商平台,包括淘宝、天猫、京东和拼多多等。这些平台都提供了丰富的API接口,以便开发者能够获取商品信息、订单数据等,从而构建出各种电商应用和服务。 1.请求方式:HTTP POST GET (复制薇&…

Python经典游戏:乒乓球对战(单人+双人模式)

Python108款,小游戏集合,总有一个是你想要的 中国象棋 像素鸟 五子棋 24点小游戏 贪吃蛇 扫雷 俄罗斯方块 魂斗罗 消消乐 坦克大战 外星人入侵 汤姆猫 斗地主 乒乓球 推箱子 植物大战僵尸 围棋 超级玛丽 飞机大战 迷宫 滑雪 吃豆人…等等 &#xff0…

基于springboot实现信息化在线教学平台设计【项目源码+论文说明】计算机毕业设计

基于springboot实现信息化在线教学平台设计演示 摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了信息化在线教学平台的开发全过程。通过分析信息化在线教学平台管理的不足,创建了一个计算机管理信息…

【OpenGL开发】PyQt在关闭应用程序时没有运行析构函数的问题

PyQt在关闭应用程序时没有运行析构函数的问题 目录 一、说明二、python的析构函数三、通用版QT5 存在一些问题四、python版PyQt5 存在一些问题五、OpenGL的析构问题5.1 OpenGL很脆弱,这不是危言耸听5.2 以上OpenGL问题解决方法六、一些保留意见一、说明 应用QT做程序界面,在…

电视盒子哪个牌子好?博主总结网络电视盒子推荐

电视盒子是我们使用最多的产品,追剧、游戏、上网课都离不开电视盒子,但很多朋友不知道电视盒子哪个牌子好,我这周共计测评了18款不同品牌的电视盒子,今天整理了五款网络电视盒子推荐,想买电视盒子可以看看下面这些。 第…

vscode 配置go环境

https://www.zhihu.com/question/486786946/answer/2723663432 注意一定要安装最新版,否则不容易debug //main.go package main //说明hello.go这个文件在main这个包中import "fmt" //导入内置包,可以使用其中函数等func main() {fmt.Println("Hello…

java 红黑树

01.红黑树的定义: 每一个结点有五个属性:

Computer Organization/Architecture 计算机组织/架构/结构 重要观念和笔记(陆续更新中,2024/04/17周三,已更新)

前情提要:我的说法比较白话,希望可以更好理解其中一些观念,这篇会以中文为主,专有名词还是用英文,好吧应该会中英穿插,自己学的时候感觉听中文会吸收比较快,也可能是我英文比较烂的关系&#xf…

Eagle for Mac v1.9.13注册版:强大的图片管理工具

Eagle for Mac是一款专为Mac用户设计的图片管理工具,旨在帮助用户更高效、有序地管理和查找图片资源。 Eagle for Mac v1.9.13注册版下载 Eagle支持多种图片格式,包括JPG、PNG、GIF、SVG、PSD、AI等,无论是矢量图还是位图,都能以清…

Solaris安装Oracle RAC配置手册

一. Oracle RAC安装前的系统准备工作 检查安装包 ​pkginfo –i SUNWarc SUNWbtool SUNWhea SUNWlibC SUNWlibm SUNWlibms SUNWsprotSUNWtoo pkg install SUNWarc SUNWbtool SUNWhea SUNWlibC SUNWlibm SUNWlibms SUNWsprotSUNWtoo 1.1 创建系统用户和组(两节点都要执行 ro…

通付盾APP尽职调查报告:守护移动应用安全新篇章

在数字化浪潮席卷全球的今天,移动应用程序已经成为我们生活中不可或缺的一部分。无论是购物、社交、娱乐还是工作,我们几乎每天都在与各种各样的APP打交道。然而,随着APP的广泛应用,其安全问题也日益凸显,成为开发者和…

BEV| lift-splat-shoot 运行配置

Lift, splat, shoot: Encoding images from arbitrary camera rigs by implicitly unprojecting to 3d

基于imx6ull的LCD驱动移植

移植思路: LCD除了显示之外,它的表面通常还贴有一个触摸屏。 所以我们移植的是2个设备的驱动:LCD、触摸屏。 LCD驱动在内核中已经有了,并且很完善,我们只需要修改设备树就可以:修改时序等LCD参数&#x…

GPT国内怎么用

2022年11月,OpenAI发布了ChatGPT,这标志着大型语言模型在自然语言处理领域迈出了巨大的一步。ChatGPT不仅在生成文本方面表现出了惊人的流畅度和连贯性,更为人工智能应用开启了全新的可能性。 ChatGPT的推出促进了人工智能技术在多个领域的广…

No spring.config.import property has been defined

运行Springcloud项目出现下面错误: Description: No spring.config.import property has been defined Action: Add a spring.config.importnacos: property to your configuration. If configuration is not required add spring.config.importoptional:nac…

mac电脑mysql下载与安装

mysql下载地址 历史下载地址 MySQL :: Download MySQL Community Server (Archived Versions) mac 版下载 mac版本分为 Intel 处理器 和 M系列处理器。 从 8.0.26开始, mysql 支持M系列处理器。 以前的都只有Intel 处理器的。 Intel 处理器选择 x86_64 M 系列处理…

内置管线升级到SBP,如何复用之前打包的AssetBundle

1)内置管线升级到SBP,如何复用之前打包的AssetBundle 2)安卓真机,在Unity 2021.3.31版本下Buffer数据异常 3)URP里CullResults.CreateSharedRendererScene下面的消耗 4)移动端是否支持曲面细分着色 这是第3…