Cerebras发布全球首个人类大脑规模的AI解决方案

CEREBRAS

来源:IEEE电气电子工程师

Cerebras Systems公司的CS-2人工智能训练计算机包含了世界上最大的单芯片,该公司透露,在计算机上增加新的存储系统可以提高神经网络的规模,它可以扩大至现有最大模型的100倍,可支持超过120万亿参数规模的训练。此外,该公司还提出了两个方案,通过连接多达192个系统和有效处理神经网络中的所谓“稀疏性”来加速训练。Cerberbas的联合创始人兼首席硬件架构师Sean Lie在近日的IEEE Hot Chips 33会议上详细介绍了所涉及的技术。

这些发展来自四种技术的组合:Weight Streaming、MemoryX、SwarmX和Selectable Sparsity。前两种方法将神经网络的规模扩大了两个数量级,CS-2可以训练两个数量级的神经网络,它们改变了计算机的工作方式。

CS-2设计用于快速训练大型神经网络。节省的大部分时间来自这样一个事实:芯片足够大,可以将整个网络(主要由称为权重和激活的参数集组成)保留在芯片上。其他系统会损失时间和电源,因为它们必须不断地将网络的一部分从DRAM加载到芯片上,然后将其存储起来,为下一部分腾出空间。

有了40G的片上SRAM,计算机的处理器WSE2甚至可以容纳当今最大的通用神经网络。但这些网络正在快速增长,仅在过去几年中就增长了1000倍,现在已接近1万亿个参数。因此,即使是晶圆大小的芯片也开始填满。

要理解解决方案,首先必须了解一些培训过程中发生的情况。训练包括将神经网络将要学习的数据流化,并测量网络离准确度有多远。这种差异被用来计算“梯度(gradient)”——如何调整每个权重以使网络更精确。这种梯度在网络中逐层向后传播。然后重复整个过程,直到网络达到所需的精度。在大脑最初的方案中,只有训练数据流到芯片上。权重和激活保持不变,梯度在芯片内传播。

Feldman解释说:“新的方法是保持所有的激活状态,并输入[重量]参数。”该公司为CS-2构建了一个名为MemoryX的硬件插件,该插件将权重存储在DRAM和闪存的混合中,并将其流式传输到WSE2中,在WSE2中,权重与存储在处理器芯片上的激活值进行交互。然后梯度信号被发送到存储器单元以调整权重。该公司表示,通过weight streaming和MemoryX,单个CS-2现在可以训练一个具有多达120万亿个参数的神经网络。

Feldman表示,他和他的联合创始人在2015年成立该公司时就看到了weight streaming的必要性。我们一开始就知道我们需要两种方法,”他说,“然而,我们可能低估了世界将以多快的速度达到非常大的参数大小。”Cerebras在2019年初开始为weight streaming增加工程资源。

在Hot Chips上公布的另外两项技术旨在加快培训过程。SwarmX是扩展WSE2片上高带宽网络的硬件,因此它可以连接多达192台CS-2的1.63亿个AI优化核。构建计算机集群来训练大规模人工智能网络充满了困难,因为网络必须在许多处理器之间分割。Feldman说,结果往往不能很好地放大。也就是说,集群中计算机数量翻倍通常不会使训练速度翻倍。

Cerebras的MemoryX一种内存扩展技术,为WSE-2提供高达2.4PB的片外高性能存储,能保持媲美片上的性能。借助MemoryX,CS-2可以支持高达120万亿参数的模型。

Cerebras' MemoryX system delivers and manipulates weights for neural network training in the CS-2. The SwarmX network allows up to 192 CS-2s to work together on the same network.CEREBRAS

Feldman说:“我们终于解决了最紧迫的问题之一:如何使构建集群变得简单。”

因为一个WSE2可以保存一个网络中的所有激活,Cerebras可以想出一个方案,使计算机数量加倍确实可以使训练速度加倍。首先,代表神经网络的一整套激活被复制到每个CS-2(为了简单起见,让我们假设您只有两台AI计算机),然后相同的一组权重流到两台计算机。但是训练数据被分成两半,一半的数据发送到每个CS-2。使用一半的数据,计算梯度需要一半的时间。每个CS-2都会产生不同的梯度,但这些可以结合起来更新MemoryX中的权重。然后,新的重量流传输到CS-2,与之前一样,该过程重复进行,直到获得准确的网络,在这种情况下,只需一台计算机所需时间的一半。

Feldman表示,Cerebras已经在由“数千万个人工智能核心”组成的机器集群上完成了这项工作。同时他的人工智能内核数量也达到了85万个,打破首代WSE 处理器创造的世界纪录。无论是核心数还是片上内存容量均远高于迄今性能最强的GPU。此外,Cerebras还实现了192台CS-2 AI计算机近乎线性的扩展,从而打造出包含高达1.63亿个核心的计算集群。

Neural network weights flow to CS-2 computers linked by the SwarmX system. Training data is divided up and delivered to the CS-2s, which compute the backpropagation gradients that are combined and delivered to MemoryX CEREBRAS

Hot Chips报道的最后一项创新被称为Selectable Sparsity:一种动态稀疏选择技术。这是一种在不影响网络准确性的情况下减少训练中涉及的参数数量的方法。稀疏性在人工智能中是一个巨大的研究领域,但对于CS-2来说,它涉及的很多方面都是从不乘以零的。

Cerebras首席执行官兼联合创始人Andrew Feldman表示,这推动了行业的发展。根据该公司的说法,这四项创新的结合可帮助Cerebras计算机保持在神经网络的顶端,为研究和见解开辟广阔的新途径。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483880.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《动手学深度学习 PyTorch版》学习笔记(一):数据操作

一、数据操作 在PyTorch中,torch.Tensor是存储和变换数据的主要工具。 "tensor"这个单词一般可译作“张量”,张量可以看作是一个多维数组。 标量可以看作是0维张量,向量可以看作1维张量,矩阵可以看作是二维张量。1、t…

计算机系统结构 期末复习

一.名词解释 虚拟机:指通过软件模拟具有完整硬件系统功能的,运行在一个完全隔离环境中的完整计算机系统系统加速比:同一个任务在系统改进前花费总时间和在系统改进后花费总时间的比率Amdahl定律:计算计算机系统中某个…

Redis数据持久化、数据备份、数据的故障恢复

1.redis持久化的意义----redis故障恢复   在实际的生产环境中,很可能会遇到redis突然挂掉的情况,比如redis的进程死掉了、电缆被施工队挖了(支付宝例子)等等,总之一定会遇到各种奇葩的现象导致redis死掉,…

机器学习如何彻底改变游戏中的物理模拟

来源:AI科技评论编译:琰琰编辑:王晔量子力学奠基者之一、英国理论物理学家保罗狄拉克(Paul Dirac)在1929年说过:“大部分物理和化学所需要的数学理论的定律都是已知的,但这些定律的方程太复杂无…

《动手学深度学习 PyTorch版》学习笔记(二):自动求梯度

一、自动求梯度 1、requires_grad_(), detach(), torch.no_grad()的区别 参考博客:https://www.jianshu.com/p/ff74ccae25f3 2、.grad_fn 每个Tensor都有一个.grad_fn属性,该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的&am…

学习计划1

今天开始着手做热词的项目,但是对于数据的处理仍然没有好的办法,网上最多的方法便是用C#操作,但是在尝试之后仍然没有进展转载于:https://www.cnblogs.com/ljysy/p/10574018.html

线性表——顺序表

1 算法思想:顺序遍历整个链表,找出最小值元素,用一个min存储这个值,同时将最后一个元素填补此值#define Maxsize 100 typedef Elemtype int typedef struct{Elemtype data[Maxsize];int length; }bool delmin(sqlist &L,Elem…

重新认识区块链:1550余个应用案例带来的启示

来源:资本实验室,本文摘自《2021全球区块链应用市场报告》当我们谈论区块链的时候,但凡对区块链有所了解的人都能够就相关主题或多或少地表达出自己的一些见解。例如:从技术体系上看,区块链是分布式数据存储、点对点传…

线性表——链表

#include <iostream> #include <bits/stdc.h> using namespace std;typedef int Elemtype; //定义单链表 typedef struct Lnode{Elemtype data;struct Lnode *next; }Lnode,*Linklist; int a[4]{1,2,3,4}; int n4;//建立不带头节点的链表 void buildlist(Lnode *L)…

《动手学深度学习 PyTorch版》学习笔记(三):线性回归

线性回归输出是一个连续值&#xff0c;因此适用于回归问题。回归问题在实际中很常见&#xff0c;如预测房屋价格、气温、销售额等连续值的问题。 一、基本要素 摘自原书 模型定义 设房屋的面积为 x1&#xff0c;房龄为 x2&#xff0c;售出价格为 y。我们需要建立基于输入 x…

php 实现图片上传并压缩功能

前段时间由于项目需要&#xff0c;要实现图片上传并且压缩生成缩略图的功能。 接口代码如下&#xff1a; $allowext array ( png, jpg, jpeg, gif,mp4,doc); $fileElement file; $filepath_rel userfiles/upload/chatfile/.date("Ymd")."/"; // 相对路径…

OpenAI 是如何被10亿美元收买了“非盈利”灵魂的?

来源&#xff1a;AI科技评论编译&#xff1a;陈彩娴、琰琰近日&#xff0c;一篇名为“How OpenAI Sold its Soul for $1 Billion”&#xff08;OpenAI是如何因为 10 亿美元出卖自己的灵魂&#xff09;的文章在 Reddit 上引起了热议。文章作者 Alberto Romero 抨击知名的非营利机…

传输速率、波特率、奈氏准则

波特率与传输速率 波特率与数据传输速率C的关系&#xff1a;CBlog2N N:为一个码元所取的离散值的个数。 408考研-2011-34 若某通信链路的数据传输速率为2400bps&#xff0c;采用四相位调制&#xff0c;则该链路的波特率是_____。 A.600波特 B.1200波特 C.4800波特 D.9600波特…

【算法】蓝桥杯dfs深度优先搜索之排列组合总结

【导航】 上一篇文章 → 《【算法】蓝桥杯dfs深度优先搜索之凑算式总结》 为了重申感谢之意&#xff0c;再次声明下文的大部分灵感均来自于【CSDN】梅森上校《JAVA版本&#xff1a;DFS算法题解两个例子&#xff08;走迷宫和求排列组合数&#xff09;》  强烈大家去上面那篇文…

人工神经网络能否驾驭生物神经元的“浓稠”程度?5到8层可能并非极限

来源&#xff1a;图灵人工智能编译&#xff1a;李扬霞编辑&#xff1a;青暮计算神经科学家通过训练人工神经网络来模仿生物神经元&#xff0c;提供了一种探讨单个脑细胞复杂性的新方法。虽然我们糊状的大脑似乎与计算机处理器中的芯片大相径庭&#xff0c;但科学家对两者的比较…

leaf 叶子(张量)

在pytorch的tensor类中,有个is_leaf的属性,姑且把它作为叶子节点. is_leaf 为False的时候,则不是叶子节点, is_leaf为True的时候为叶子节点(或者叶张量) 所以问题来了: leaf的作用是什么?为什么要加 leaf? 我们都知道tensor中的 requires_grad()属性&#xff0c;当requires_…

线性表——链表删除

王道链表题1-4 #include <iostream> #include <bits/stdc.h> using namespace std;typedef int Elemtype; //定义单链表 typedef struct Lnode{Elemtype data;struct Lnode *next; }Lnode,*Linklist; int a[4]{1,2,3,4}; int n4;//建立不带头节点的链表 void buil…

10个绕过反病毒的恶意用户技巧

原文&#xff1a;https://blog.netspi.com/10-evil-user-tricks-for-bypassing-anti-virus/ 介绍 译者注&#xff1a;很多不通顺的语句改掉了&#xff0c;还有反病毒解决方案统一翻译为了反病毒软件。无关紧要的话直接意思翻译 许多反病毒软件的部署配置方法较弱&#xff0c;为…

困扰爱因斯坦的「幽灵般的超距作用」,是如何被贝尔定理证明确实存在的?...

文章来源&#xff1a;机器之心作者&#xff1a;Ben Brubaker原文链接&#xff1a;https://www.quantamagazine.org/how-bells-theorem-proved-spooky-action-at-a-distance-is-real-20210720/我们理所当然地认为&#xff0c;世界上某个地方发生的一件事不会立即对远方的事物产生…

Jupyter notebook 导入和卸载 conda 虚拟环境

一、导入 进入Anaconda Prompt&#xff0c;激活要使用的虚拟环境。 conda activate xxx # 你要使用的虚拟环境名称安装 ipykernel 插件&#xff0c; 建议使用 pip 进行安装&#xff0c; conda 安装容易失败 pip install ipykernel安装完成之后&#xff0c;键入以下命令 pyt…