问答题:如何构建一套满足GPT-3的存储系统?

这几天GPT-3成为人工智能甚至整个科技圈最为热门的话题。作为著名人工智能科研公司 OpenAI 开发的文字生成 (text generation) 人工智能,GPT-3的相关论文在2020年5月份就已经发表,由于使用了45TB的数据,并采用了天文数字级别的1,750亿参数量而引起极大轰动。现在,GPT-3开始开放申请,获得资格的人将通过API来使用GPT-3。如果说软件定义一切,那么API就在定义软件。一些人在使用了GPT-3之后,对其赞不绝口:嗯,真香!

比如用GPT3做的这个页面生成器,只需要输入“给我一个长得像西瓜的按钮”,GPT3就会很快输出一个看上去真的很像西瓜的按钮。

从目前的应用来说,GPT-3 更像是一个更懂你的新的搜索引擎,传统的搜索引擎只是将信息归类后进行展现,而GPT-3 则是将信息进行了加工。仅就45TB的数据而论,如果一部电影按照2G大小来算的话,那么45T的数据相当于23000多部电影,每次GPT-3都相当于将这23000多部电影看一遍,然后写出一篇“影评”。

而写出这篇“影评”不是依靠作者的构思,而是依靠算力。算力可以看作是单位时间内的计算能力。从计算机诞生之日起,人们对算力的追求就没有停歇过,1958年集成电路的出现让算力实现了一次质的飞跃,近年来,随着CPU、GPU、NPU等单元部件算力的不断增强,算力更是得以成为数字经济时代的核心引擎之一。

做个比喻,如果说算力是心脏,那么数据就是血液,两者之间还需要一个良好的血液循环系统予以保证,而存储系统就可以看作这样的一个血液循环系统。那么,应该如何更好的构建这个血液循环系统呢?

首先,为了支撑强大的算力需要能够支持大规模的数据吞吐量;其次,需要更低的数据读写延迟以提升计算速度,再次,需要具有足够的弹性,保证算力峰值到来时数据容量的随时扩容。

如果从以上角度出发,那么一个适当的选择就是文件存储。以阿里云文件存储CPFS (Cloud Parallel File Storage)为例,CPFS是一个可完全托管、可扩展的并行文件存储系统,针对高性能计算场景的性能要求进行了深度优化,提供对数据毫秒级的访问和高聚合I/O、高IOPS的数据读写请求,可以用于AI深度训练、自动驾驶、基因计算、EDA仿真、石油勘探、气象分析、机器学习、大数据分析以及影视渲染等业务场景中。

首先, CPFS具有超高吞吐和IOPS。采用分布式的并行架构,数据条带化后均匀分布在存储集群上,可以实现计算节点并行访问,提供数百GB的吞吐和千万级的IOPS以及亚毫秒级时延;其次,CPFS弹性可扩展。CPFS支持在线的扩容,由于所有数据均以条带化的方式存储并且支持扩容以后的自动负载平衡,可满足性能的线性增长并且即时利用扩容节点的吞吐和存储能力,满足业务增长需要的更多容量与性能的诉求。

目前CPFS已经在公共云和混合云环境中有了广泛的应用。

以阿里云弹性高性能计算云平台HPCaaS为例。该平台支持基于阿里云ECS、EGS弹性计算实例快速构建任意规模的并行计算集群,并根据用户需求动态增删节点个数和存储规模。首先,该方案用户只需购买EHPC的集群实例,就可以立刻获得相应数目的ECS、EGS、文件存储和搭配的RDS,OSS等服务。其次,用户可以根据初期使用集群规模生成集群,在运行时通过集群调度动态伸缩集群数目。

而在混合云环境中,CPFS推出了混合云CPFS存储。爱笔(北京)智能科技有限公司正是利用了混合云CPFS存储解决方案,构建云上云下多级存储池架构,解决计算机视觉、语音识别、自然语言理解、大数据分析等技术场景下的数据存储与管理问题,从而将人工智能的线上与线下场景中进行融合,实现业务场景的数字化、智能化。

目前,关于GPT-3的讨论还在继续, GPT-3母公司OpenAI的首席执行官Sam Altman也谦虚的说道“人工智能终将改变世界,但GPT3只是看到了一眼未来。我们还有很多事情要解决。”不过不可否认的是,大多数人对于GPT-3还是充满期待——人工智能的时代已经到来,而GPT-3的这一小步也许为整个人工智能行业迈出了一大步。

 

原文链接:https://developer.aliyun.com/article/769141?utm_content=g_1000161686

本文为阿里云原创内容,未经允许不得转载。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515379.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

抖音实战~手机号一键注册登录流程(验证码)

文章目录一、 一键注册登录流程二、前端2.1. 验证码获取流程2.2. 验证码获取代码三、后端验证码3.1. 前置处理3.2. 拦截器添加3.3. 获取验证码一、 一键注册登录流程 二、前端 2.1. 验证码获取流程 1.点击->获取验证码调用后端获取验证码api接口2.验证码59秒倒计时3.重复点…

《2021中国数据资产化工具市场研究报告》隆重发布

早在五年前,数据是21世纪“新石油”的口号就已响彻行业。 在2020年4月,我国首次将“数据”与土地、劳动力、资本、技术并列为五大生产要素,并提出要“加快培育数据要素市场,完善数据要素的市场化配置机制”。企业作为市场主体&am…

秒懂云通信:如何用阿里云语音通知服务(小白指南)

简介: 手把手教你如何使用阿里云语音通知服务,超详细控制台步骤解析,快速上手!更有1650元短信体验代金券和免费试用,点击速抢:https://yqh.aliyun.com/live/cloudcommunication-videos 一、如何开通阿里云…

Mysql如何统计表的大小

在开发中遇到一个问题,我要统计哪个表中的数据增长度快。于是就想要找出每个表的大小。 SELECT CONCAT(table_schema,.,table_name) AS Table Name, CONCAT(ROUND(table_rows/1000000,4),M) AS Number of Rows, CONCAT(ROUND(data_length/(1024*1024),4),M) AS Dat…

抖音实战~个人中心模块

文章目录一、个人中心主页1. 主页元素2. 表设计3. 计数方案评估二、用户信息查询~接口设计2.1. 用户信息查询流程图2.2. 用户信息查询流程三、用户信息更新~接口设计3.1. 流程图3.2. 流程简述四、用户背景图用户头像~接口设计4.1. 更新/上传图片流程图4.2. 更新/上传~流程简述五…

分布式系统架构与云原生—阿里云《云原生架构白皮书》导读

简介: 有幸作为阿里云MVP提前获得了阿里云云原生团队编写的《云原生架构白皮书》,希望通过自己对于云原生的理解为开发者提供一篇观后感或者是能够参考的博文 1 云原生与分布式系统架构的关系 1.1 云原生架构的定义 《云原生架构白皮书》中对于云原生…

纵行科技携手意法半导体推ZETA/LoRa双模智能路由,加速LPWAN 2.0泛在物联布局!

物联网在接入各行业的过程中使用了各种各样的行业标准和协议,联盟的形式可以加速聚拢物联网产业链生态,促进物联网应用更好更快地落地,因此成为物联网领域内厂商们欢迎的合作共赢方式。 ZETA就是众多物联网联盟中的一个,这是由基于…

阿里云飞天AI加速器+Serverless容器,帮助图森未来提升资源利用率

简介: 今年年初,图森未来的无人驾驶卡车还上了“钢铁侠”的扮演者小罗伯特唐尼主持的科技聚集剧集《The Age of A.I.》(《AI时代》),在剧中不仅顺利完成无人驾驶的行驶任务,还与围追堵截的摄像车“斗智斗勇…

应用中心最佳实践之——使用应用组完成多集群一键部署

简介: 在现实中的应用交付实践中,常常需要将同一应用同时部署到多个集群中。应用中心支持将同一个数据源定义的应用,通过应用组的形式一键部署到多个集群中,实现统一管理。 作者:指北 背景 在现实中的应用交付实践中…

vue cil安装axios

Vue cil 安装axios1、安装axioscnpm install axios 如果没有安装cnpm的可能安装不成功,这里列出安装cnpm,使用淘宝镜像。 npm install -g cnpm --registryhttps://registry.npm.taobao.org2、使用方法 2.1、首先在main.js配 import axios from "…

从程序员到上市公司合伙人,怎么少踩坑?

‍‍‍‍科技发展日新月异,对于程序员来说,不断地自我修炼必须提上日程。某种程度上,阅读是一条通往成功的捷径。当你被技术难题卡住时,去读书吧,去书里寻找答案当你感到人生困顿迷茫时,去读书吧&#xff0…

读完《云原生架构白皮书》,我们来谈谈开放应用模型(OAM)

简介: 受阿里云邀请,我有幸在《云原生架构白皮书》发布前试读了该书,本文结合白皮书内容,谈谈开放应用模型(OAM) 前言 7月21日阿里云发布了《云原生架构白皮书》,该书由阿里云众多技术专家共同…

抖音实战~手机号密码一键注册登录流程(限制手机终端登录)

文章目录一、手机号密码二、前端2.1. 点击登陆流程2.2. 点击登录源码三、后端登录3.1. 登录流程图3.2. 流程简述3.3. 手机号验证码登录流程一、手机号密码 二、前端 2.1. 点击登陆流程 1.先校验手机号是否合法?不合法,则提示“请输入正确的手机号”2.再…

揭秘!信息检索技术高端玩法

《SIGIR 顶会论文解读》重磅发布 由 7 位阿里巴巴技术专家精心打造,内容覆盖推荐系统 、成交转化模型 、 回音室效应 、 全空间多任务转化率预估建模 、 DeepMatch 召回模型 、 跨领域冷启动用户推荐网络 、 表示学习模型等信息检索领域新技术。 精彩内容抢先看 1、…

VSCODE远程连接服务器,远程开发。

在开发中有时需要远程开发,需要远程连接服务器,所以需要学习一下如何远程连接。 1、安装vscode的插件:Remote-ssh 需要看清楚,是这个插件不要安装错了 2、安装好后打开命令行,快捷键 CtrlShiftp,输入ssh查…

【技术史】数据中台的前世今生

数据中台自14年至今,已然成为了2B、2G业务最热门的话题,政府机构、企事业单位、互联网公司等进行着数字化、数据化、智能化转型。市场普遍认为,阿里巴巴将自身数据中台建设能力对外赋能是拉起本轮数据中台浪潮的根本所在。 本文将带你全面了…

抖音实战~密码找回

文章目录1. 密码找回流程图2. 前端源码3. 后端1. 密码找回流程图 2. 前端源码 /*** 密码找回*/updatePassword() {var me this;var mobile me.mobile;// 提交前,手机号校验var reg /^1[0-9]{10,10}$/;if (!mobile || !reg.test(mobile)) {uni.showToast({title: …

排队五小时才能吃上一口的Popeyes,要借阿里云数据中台10年内开足1500家门店

几个月前,还没多少国人了解美国炸鸡品牌Popeyes,但现在,Popeyes却成为上海滩最火爆的网红店:5月在上海市淮海中路开出首家门店当天,早上7点半,第一条队伍就已排出了半条街。 面对良好的开局,Po…

干货!Redis集群工作原理解析

作者 | 张小盼头图 | 下载于东方IC出品 | CSDN云计算(ID:CSDNcloud)Redis 缓存因其访问性能高、可靠性更高,作为缓存工具在各大互联网公司中广泛使用。今天我们就来看看Redis Cluster 的实现原理。集群建立Redis集群是由多个Redis…

让小程序在自有App中启动的技术来了:mPaaS小程序架构深度解析

本文将围绕支付宝在移动端架构的演进逐步展开,分享我们在“App 动态性”“提升研发效率”等方面所做的思考和具体实践。同时,针对 mPaaS 小程序能力的开放,也将展开介绍我们如何实现“小程序代码只写一次,多端投放”,而…