Cerebras发布全球首个人类大脑规模的AI解决方案

CEREBRAS

来源:IEEE电气电子工程师

Cerebras Systems公司的CS-2人工智能训练计算机包含了世界上最大的单芯片,该公司透露,在计算机上增加新的存储系统可以提高神经网络的规模,它可以扩大至现有最大模型的100倍,可支持超过120万亿参数规模的训练。此外,该公司还提出了两个方案,通过连接多达192个系统和有效处理神经网络中的所谓“稀疏性”来加速训练。Cerberbas的联合创始人兼首席硬件架构师Sean Lie在近日的IEEE Hot Chips 33会议上详细介绍了所涉及的技术。

这些发展来自四种技术的组合:Weight Streaming、MemoryX、SwarmX和Selectable Sparsity。前两种方法将神经网络的规模扩大了两个数量级,CS-2可以训练两个数量级的神经网络,它们改变了计算机的工作方式。

CS-2设计用于快速训练大型神经网络。节省的大部分时间来自这样一个事实:芯片足够大,可以将整个网络(主要由称为权重和激活的参数集组成)保留在芯片上。其他系统会损失时间和电源,因为它们必须不断地将网络的一部分从DRAM加载到芯片上,然后将其存储起来,为下一部分腾出空间。

有了40G的片上SRAM,计算机的处理器WSE2甚至可以容纳当今最大的通用神经网络。但这些网络正在快速增长,仅在过去几年中就增长了1000倍,现在已接近1万亿个参数。因此,即使是晶圆大小的芯片也开始填满。

要理解解决方案,首先必须了解一些培训过程中发生的情况。训练包括将神经网络将要学习的数据流化,并测量网络离准确度有多远。这种差异被用来计算“梯度(gradient)”——如何调整每个权重以使网络更精确。这种梯度在网络中逐层向后传播。然后重复整个过程,直到网络达到所需的精度。在大脑最初的方案中,只有训练数据流到芯片上。权重和激活保持不变,梯度在芯片内传播。

Feldman解释说:“新的方法是保持所有的激活状态,并输入[重量]参数。”该公司为CS-2构建了一个名为MemoryX的硬件插件,该插件将权重存储在DRAM和闪存的混合中,并将其流式传输到WSE2中,在WSE2中,权重与存储在处理器芯片上的激活值进行交互。然后梯度信号被发送到存储器单元以调整权重。该公司表示,通过weight streaming和MemoryX,单个CS-2现在可以训练一个具有多达120万亿个参数的神经网络。

Feldman表示,他和他的联合创始人在2015年成立该公司时就看到了weight streaming的必要性。我们一开始就知道我们需要两种方法,”他说,“然而,我们可能低估了世界将以多快的速度达到非常大的参数大小。”Cerebras在2019年初开始为weight streaming增加工程资源。

在Hot Chips上公布的另外两项技术旨在加快培训过程。SwarmX是扩展WSE2片上高带宽网络的硬件,因此它可以连接多达192台CS-2的1.63亿个AI优化核。构建计算机集群来训练大规模人工智能网络充满了困难,因为网络必须在许多处理器之间分割。Feldman说,结果往往不能很好地放大。也就是说,集群中计算机数量翻倍通常不会使训练速度翻倍。

Cerebras的MemoryX一种内存扩展技术,为WSE-2提供高达2.4PB的片外高性能存储,能保持媲美片上的性能。借助MemoryX,CS-2可以支持高达120万亿参数的模型。

Cerebras' MemoryX system delivers and manipulates weights for neural network training in the CS-2. The SwarmX network allows up to 192 CS-2s to work together on the same network.CEREBRAS

Feldman说:“我们终于解决了最紧迫的问题之一:如何使构建集群变得简单。”

因为一个WSE2可以保存一个网络中的所有激活,Cerebras可以想出一个方案,使计算机数量加倍确实可以使训练速度加倍。首先,代表神经网络的一整套激活被复制到每个CS-2(为了简单起见,让我们假设您只有两台AI计算机),然后相同的一组权重流到两台计算机。但是训练数据被分成两半,一半的数据发送到每个CS-2。使用一半的数据,计算梯度需要一半的时间。每个CS-2都会产生不同的梯度,但这些可以结合起来更新MemoryX中的权重。然后,新的重量流传输到CS-2,与之前一样,该过程重复进行,直到获得准确的网络,在这种情况下,只需一台计算机所需时间的一半。

Feldman表示,Cerebras已经在由“数千万个人工智能核心”组成的机器集群上完成了这项工作。同时他的人工智能内核数量也达到了85万个,打破首代WSE 处理器创造的世界纪录。无论是核心数还是片上内存容量均远高于迄今性能最强的GPU。此外,Cerebras还实现了192台CS-2 AI计算机近乎线性的扩展,从而打造出包含高达1.63亿个核心的计算集群。

Neural network weights flow to CS-2 computers linked by the SwarmX system. Training data is divided up and delivered to the CS-2s, which compute the backpropagation gradients that are combined and delivered to MemoryX CEREBRAS

Hot Chips报道的最后一项创新被称为Selectable Sparsity:一种动态稀疏选择技术。这是一种在不影响网络准确性的情况下减少训练中涉及的参数数量的方法。稀疏性在人工智能中是一个巨大的研究领域,但对于CS-2来说,它涉及的很多方面都是从不乘以零的。

Cerebras首席执行官兼联合创始人Andrew Feldman表示,这推动了行业的发展。根据该公司的说法,这四项创新的结合可帮助Cerebras计算机保持在神经网络的顶端,为研究和见解开辟广阔的新途径。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483880.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机系统结构 期末复习

一.名词解释 虚拟机:指通过软件模拟具有完整硬件系统功能的,运行在一个完全隔离环境中的完整计算机系统系统加速比:同一个任务在系统改进前花费总时间和在系统改进后花费总时间的比率Amdahl定律:计算计算机系统中某个…

机器学习如何彻底改变游戏中的物理模拟

来源:AI科技评论编译:琰琰编辑:王晔量子力学奠基者之一、英国理论物理学家保罗狄拉克(Paul Dirac)在1929年说过:“大部分物理和化学所需要的数学理论的定律都是已知的,但这些定律的方程太复杂无…

《动手学深度学习 PyTorch版》学习笔记(二):自动求梯度

一、自动求梯度 1、requires_grad_(), detach(), torch.no_grad()的区别 参考博客:https://www.jianshu.com/p/ff74ccae25f3 2、.grad_fn 每个Tensor都有一个.grad_fn属性,该属性即创建该Tensor的Function, 就是说该Tensor是不是通过某些运算得到的&am…

重新认识区块链:1550余个应用案例带来的启示

来源:资本实验室,本文摘自《2021全球区块链应用市场报告》当我们谈论区块链的时候,但凡对区块链有所了解的人都能够就相关主题或多或少地表达出自己的一些见解。例如:从技术体系上看,区块链是分布式数据存储、点对点传…

《动手学深度学习 PyTorch版》学习笔记(三):线性回归

线性回归输出是一个连续值,因此适用于回归问题。回归问题在实际中很常见,如预测房屋价格、气温、销售额等连续值的问题。 一、基本要素 摘自原书 模型定义 设房屋的面积为 x1,房龄为 x2,售出价格为 y。我们需要建立基于输入 x…

OpenAI 是如何被10亿美元收买了“非盈利”灵魂的?

来源:AI科技评论编译:陈彩娴、琰琰近日,一篇名为“How OpenAI Sold its Soul for $1 Billion”(OpenAI是如何因为 10 亿美元出卖自己的灵魂)的文章在 Reddit 上引起了热议。文章作者 Alberto Romero 抨击知名的非营利机…

【算法】蓝桥杯dfs深度优先搜索之排列组合总结

【导航】 上一篇文章 → 《【算法】蓝桥杯dfs深度优先搜索之凑算式总结》 为了重申感谢之意,再次声明下文的大部分灵感均来自于【CSDN】梅森上校《JAVA版本:DFS算法题解两个例子(走迷宫和求排列组合数)》  强烈大家去上面那篇文…

人工神经网络能否驾驭生物神经元的“浓稠”程度?5到8层可能并非极限

来源:图灵人工智能编译:李扬霞编辑:青暮计算神经科学家通过训练人工神经网络来模仿生物神经元,提供了一种探讨单个脑细胞复杂性的新方法。虽然我们糊状的大脑似乎与计算机处理器中的芯片大相径庭,但科学家对两者的比较…

困扰爱因斯坦的「幽灵般的超距作用」,是如何被贝尔定理证明确实存在的?...

文章来源:机器之心作者:Ben Brubaker原文链接:https://www.quantamagazine.org/how-bells-theorem-proved-spooky-action-at-a-distance-is-real-20210720/我们理所当然地认为,世界上某个地方发生的一件事不会立即对远方的事物产生…

Jupyter notebook 导入和卸载 conda 虚拟环境

一、导入 进入Anaconda Prompt,激活要使用的虚拟环境。 conda activate xxx # 你要使用的虚拟环境名称安装 ipykernel 插件, 建议使用 pip 进行安装, conda 安装容易失败 pip install ipykernel安装完成之后,键入以下命令 pyt…

处理器管理与进程管理

4.python练习 1.观察父进程、子进程 2.观察进程运行状态 3。输入多个作业的作业编号,到达时间,所需CPU时间,形成列表,以备算法使用。 转载于:https://www.cnblogs.com/hclhechunlu/p/10580946.html

小白 LeetCode 242 有效的字母异位词

字母异位词 字符串由相同字母组成,但允许排列顺序不同。 如“aaabbb” 与 “ababab” 是字母异位词, 而“aabb” 与 “ab” 不是字母异位词。 题目:给定两个字符串 s 和 t ,编写一个函数来判断 t 是否是 s 的字母异位词。 示例…

LSTM之父:吐槽了两年,来划划重点:“这5篇最高引论文都源于我们。”

来源:AI科技评论作者:陈彩娴编辑:青暮昨晚,“递归神经网络之父”Jrgen Schmidhuber 在推特上亲自发文,称目前引用数最高的5项神经网络工作都基于他的团队成果,一时引起了网友的广泛讨论。这并不是他首次发声…

初学者配置环境变量

1. 首先选择计算机右击,选择最后一个属性,进入属性面板 2. 点击“高级系统设置”,点击“环境变量” 3. 在“系统变量”的处配置所需要配置的环境变量,点击“新建”按钮 4. 配置java的环境变量 JAVA_HOME 、CLASSPATH 、 Path5. JA…

小白 LeetCode 5605 检查两个字符串数据是否相等

题目:给你两个字符串数组 word1 和 word2 。如果两个数组表示的字符串相同,返回 true ;否则,返回 false 。 数组表示的字符串 是由数组中的所有元素 按顺序 连接形成的字符串。 示例 1: 输入:word1 [&q…

Mac OS X下Maven的安装与配置

Mac OS X下Maven的安装与配置: 下载maven:https://maven.apache.org/download.cgi 打开Terminal,输入以下命令,设置Maven classpath,输入命令 vim ~/.bash_profile(编辑环境变量配置文件) MAVEN_HOME/…

演讲实录丨吴朝晖院士:从AI到CI——脑机智能的发展

来源:中国人工智能学会原创 :CAAI作者:吴朝晖院士吴朝晖中国科学院院士浙江大学校长IEEE/CAAI/CCF/CAA Fellow以下是吴朝晖院士的演讲实录:21世纪被称为“脑研究世纪”,伴随着脑科学和认知科学的兴起,特别是…

LeetCode 1480 一维数组的动态和

题目: 给你一个数组 nums 。数组「动态和」的计算公式为:runningSum[i] sum(nums[0]…nums[i]) 。 请返回 nums 的动态和。 示例 1: 输入:nums [1,2,3,4] 输出:[1,3,6,10] 解释:动态和计算过程为 [1,…

推荐系统简介

推荐系统简介 文章目录推荐系统简介1.推荐系统概述推荐系统目的我们推荐的目的:推荐系统的应用推荐系统的基本思想推荐系统的数据分析推荐系统分类2.推荐系统简介基于人口统计学的推荐基于内容的推荐基于协同过滤的推荐混合推荐3.推荐系统评测推荐系统的实验方法推荐…

清华大学孙茂松:透过喧嚣,坐看云起,NLP 的迷思与感悟

来源:智源社区图源:澎湃新闻2010年深层神经网络在语音识别研究方向上取得里程碑式进展,以这一事件为新起点和新动能,整个人工智能领域迅速跃迁到深度学习时代,包括自然语言处理(NLP)等关键领域也…