深度学习发展下的“摩尔困境”,人工智能又将如何破局?

39aed6b5a1efddbfb0c377ad3591e34f.png

来源:AI科技大本营

编译:禾木木

前不久,微软和英伟达推出包含5300亿参数的语言模型MT-NLG,这是一款基于 Transformer 的模型被誉为“世界上最大、最强的生成语言模型”。

毫无疑问,这是一场令人印象深刻的机器学习工程展示。

然而,我们是否应该对这种大型模型趋势感到兴奋?

815c9c8ca4d2804d40daea7102db5135.png

1、大脑深度学习

    6cd115b2bb521695e976f8ecc5e783bd.png   

研究人员估计,人脑平均包含 860 亿个神经元和 100 万亿个突触。可以肯定的是,并非所有这些都用于语言。有趣的是,GPT-4 预计有大约 100 万亿个参数……

尽管这个对比很粗糙,但是难道不应该怀疑构建与人脑大小差不多的语言模型是否是一个长期可行的方法?

当然,我们的大脑是经过数百万年进化产生的奇妙装置,而深度学习模型才有几十年的历史。尽管如此,直觉应该告诉我们,有些东西是无法计算的。

2、深度学习、还是深度钱包?

    bdb1ddf5ca10ba9af50ff2056a9e735d.png   

在庞大的文本数据集上训练一个 5300 亿参数的模型,毫无疑问的是需要庞大的基础设施。

事实上,微软和英伟达使用了数百台 DGX-A100 的 GPU 服务器。每件售价高达 199,000 美元,再加上网络设备、主机等成本,任何想要复制这个实验的人都必须花费近 1 亿美元。

哪些公司有业务例子可以证明在深度学习基础设施上花费 1 亿美元是合理的?或者甚至是1000万美元?很少。

那么这些模型到底是为谁准备的呢?

3、GPU 集群

    8e01d0ceaeb9a317ea5013acf4a49731.png   

尽管其工程才华横溢,但在 GPU 上训练深度学习模型是一种费力的事情。

根据服务器参数表显示,每台 DGX 服务器可以消耗高达 6.5 千瓦的电量。当然,数据中心(或服务器)至少需要同样多的散热能力。

除非你是史塔克家族的人,需要拯救临冬城,否则散热是必须处理的另一个问题。

此外,随着公众对气候和社会责任问题的认识不断提高,公司还需要考虑到他们的碳足迹。马萨诸塞大学 2019 年的一项研究,“在 GPU 上训练 BERT 大致相当于一次跨美飞行”。

而 BERT-Large 拥有 3.4 亿个参数,训练起来的碳足迹究竟有多大?想想都害怕。

构建和推广这些庞大的模型是否有助于公司和个人理解和使用机器学习呢?

相反,如果把重点放在可操作性更高的技术上,就可以用来构建高质量的机器学习解决方案。

4、使用预训练模型

    f470c95112a93ec7735e350bbc839c05.png   

在绝大多数情况下,并不需要自定义模型体系结构。

一个好的起点是寻找已针对您要解决的任务(例如,总结英文文本)进行预训练的模型。

然后,快速尝试一些模型来预测自己的数据。如果参数标明某个参数良好,那么就完成了!如果需要更高的准确性,应该考虑对模型进行微调。

5、使用较小的模型

    58b9a25db2c3bd93aa4d4813c5a5c148.png   

在评估模型时,应该选择能够提供所需精度的最小模型。它将更快地预测并需要更少的硬件资源来进行训练和推理。

这也不是什么新鲜事。熟悉计算机视觉的人会记得 SqueezeNet 于 2017 年问世时,与 AlexNet 相比,模型大小减少了 50 倍,同时达到或超过了其准确性。

自然语言处理社区也在努力缩小规模,使用知识蒸馏等迁移学习技术。DistilBERT 可能是其最广为人知的成就。

与原始 BERT 模型相比,它保留了 97% 的语言理解能力,同时模型体积缩小了 40%,速度提高了 60%。相同的方法已应用于其他模型,例如 Facebook 的 BART。

Big Science 项目的最新模型也令人印象深刻。如下图所示,他们的 T0 模型在许多任务上都优于 GPT-3,同时模型大小缩小了 16 倍。

68b7184db32aeae3996fa91c8dca205a.png

6、微调模型

    f13befa9954a7bc4abdeb7e3f93d88e8.png   

如果需要专门化一个模型,不需要从头开始训练模型。相反,应该对其进行微调,也就是说,仅在自己的数据上训练几个时期。

使用迁移学习的好处,比如:

  • 需要收集、存储、清理和注释的数据更少

  • 实验和数据迭代的速度更快

  • 获得产出所需的资源更少

换句话说:省时、省钱、省硬件资源、拯救世界!

7、使用基于云的基础设施

    39e0ee5cf3f01eb32048f79cee8355e7.png   

不管喜欢与否,云计算公司都知道如何构建高效的基础设施。研究表明,基于云的基础设施比替代方案更具能源和碳效率。Earth.org 表示,虽然云基础设施并不完美,但仍然比替代方案更节能,并促进对环境有益的服务和经济增长。”

在易用性、灵活性和即用即付方面,云当然有很多优势。

8、优化模型

    1692066c4328d1c4066bc09c2f695edd.png   

从编译器到虚拟机,软件工程师长期以来一直使用工具来自动优化硬件代码。

然而,机器学习社区仍在为这个话题苦苦挣扎,这是有充分理由的。优化模型的大小和速度是一项极其复杂的任务,其中涉及以下技术:

  • 硬件:大量面向加速训练任务(Graphcore、Habana)和推理任务(Google TPU、AWS Inferentia)的专用硬件。

  • 剪枝:删除对预测结果影响很小或没有影响的模型参数。

  • 融合:合并模型层(比如卷积和激活)。

  • 量化:以较小的值存储模型参数(比如使用8位存储,而不是32位存储)

幸运的是,自动化工具已经开始出现,例如 Optimum 开源库和 Infinity,这是一种容器化解决方案,可以以 1 毫秒的延迟提供 Transformers 的准确性。

9、结论

    73a84c280b89ba0fc91389cf68a82f7c.png   

在过去的几年里,大型语言模型的规模每年都以 10 倍的速度增长。这看起来像另一个摩尔定律。

如果机器学习沿着模型巨大化这条路走下去,会导致收益递减、成本增加、复杂度增加等。

这是所期待的人工智能未来的样子吗?

与其追逐万亿参数模型,不如把更多经历放在构建解决现实世界问题的实用且高效的解决方案,岂不是更好?

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

cc09fa820fe93c4a5b1fd15c84afd3d4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483385.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络——差错控制

1.传输过程中出现错误的原因? \qquad传输中的差错主要是由噪声引起的,噪声主要分为:全局性噪声,比如线路电气特性所产生的随机噪声;局部性噪声,比如短暂性的冲击噪声。 2.差错的原因? \qquad差…

Exp8 Web基础

一、实验过程 1.Web前端:HTML基础 (1)kali默认已安装Apache,使用 service apache2 start 命令打开Apache服务 (2)在浏览器输入 127.0.0.1 ,如果可以打开Apache的默认网页 (3&#xf…

linux的基础知识——模型结构和数据包的封装

1.OSI参考模型和TCP/IP参考模型 2.TCP/IP模型 TCP/IP网络协议分为四层:应用层,传输层,网络层,链路层 3.数据包的封装 数据要想传输必须经过封装。两台电脑通过TCP/IP协议通讯过程如下:

人工智能发展时间轴

来源:人机与认知实验室时间人物事件意义1633Rene Descartes发表著作《论人》提出灵魂存在于大脑的松果体中1714Gottfried Wilhelm Leibniz《单子论》一切知识都能通过理性思考获得。发现微积分,并开发了一套更为适用的记号方法。1739David Hume《人性论》…

linux的基础知识——以太网帧格式

1.路由器寻路 路由器根据自身的路由表,寻找下一个路由节点。 2.数据包的封装结构 3.以太网帧 以太网帧是在链路层,链路层的主要职能是检错和校验,以太网帧格式如下: 其中,目的地址和源地址是网卡中的硬件地址&#…

吴裕雄 Bootstrap 前端框架开发——Bootstrap 排版:设置浮动和偏移

<!DOCTYPE html> <html><head><title>菜鸟教程(runoob.com)</title> <meta name"viewport" content"widthdevice-width, initial-scale1" charset"utf-8"><link rel"stylesheet" href"h…

生成式AI,引领AI从“换脸”到“造脸”

来源&#xff1a;中智观察头图来源&#xff1a;界面新闻记者&#xff1a;木易编辑&#xff1a;豆芽日前&#xff0c;Gartner发布了2022年重要战略技术趋势。其中&#xff0c;生成式人工智能&#xff08;Generative Artificial Intelligence&#xff09;位列12项重要战略之首。同…

linux的基础知识——IP,UDP和TCP

1.IP协议 IP协议处于网络层&#xff0c;格式如下&#xff1a; 2.UDP UDP协议处于传输层&#xff0c;传输层常用的协议有两种&#xff0c;一个就是UDP&#xff0c;另外一个就是TCP。

从世界数字大脑形成看元宇宙未来趋势

来源&#xff1a;腾云中国科学院虚拟经济与数据科学研究中心研究组成员、远望智库数字大脑研究院院长、腾云智库专家 刘 锋前言&#xff1a;21世纪&#xff0c;科技生态呈现出越来越多的类脑特征&#xff0c;各种前沿科技概念和技术正在形成一个世界规模的数字大脑&#xff0c…

项目:如何快速实现电脑间大文件(lichee.tar.gz)互传?

1.电脑间大文件互传遇到问题 最简单是使用U盘进行大文件互传&#xff0c;但是可能会遇到这种问题&#xff0c;只能取消。 一般我们也可以借助云盘&#xff0c;进行互传。A电脑把电脑上传到百度云盘上&#xff0c;B电脑再下载&#xff0c;但是可能会遇到这种问题。 2.利用IP地…

《复杂》作者梅拉妮·米歇尔发文直指AI四大谬论,探究AI几度兴衰背后的根源...

来源&#xff1a;AI科技评论 作者&#xff1a;梅拉妮米歇尔 论文题目&#xff1a;Why AI is Harder Than We Think论文地址&#xff1a;https://arxiv.org/pdf/2104.12871.pdf关于作者&#xff1a;梅拉妮米歇尔&#xff0c;圣塔菲研究所客座教授&#xff0c;畅销书《复杂》作者…

今天的 IBM —— 一封来自 IBM 董事长、首席执行官 Arvind Krishna 的公开信

来源&#xff1a;IBM中国作者&#xff1a;Arvind Krishna&#xff08;IBM 董事长、首席执行官&#xff09;IBM 始终坚信科技的初心——我们将创新用来应对现实世界最具有挑战性的问题&#xff0c;推动商业和社会的双重进步。随着时代的演进&#xff0c;这些现实问题的本质发生了…

近代数学学派知多少?

来源:数学与人工智能1格丁根学派德国19世纪20年代到20世纪20年代&#xff0c;由高斯&#xff08;Gauss&#xff09;创始&#xff0c;黎曼&#xff08;Georg Friedrich Bernhard Riemann&#xff09;、克莱因&#xff08;Felix Christian Klein&#xff09;、希尔伯特&#xff0…

Java学习--内部类

以下复制于 https://www.cnblogs.com/dolphin0520/p/3811445.html 作者&#xff1a;Matrix海子出处&#xff1a;http://www.cnblogs.com/dolphin0520/本博客中未标明转载的文章归作者Matrix海子和博客园共有&#xff0c;欢迎转载&#xff0c;但未经作者同意必须保留此段声明&a…

linux的基础知识——CS模型流程图

1.典型的CS模型流程图 2.服务端需要做的事情 &#xff08;1&#xff09;socket()&#xff1a;建立服务端套接字&#xff1b; &#xff08;2&#xff09;bind()&#xff1a;绑定IP和端口号&#xff0c;初始化struct sockaddr_in addr&#xff1b; &#xff08;3&#xff09;lis…

Facebook更名“元宇宙”遭质疑,外媒提出三大现实问题

来源&#xff1a;智东西&#xff08;zhidxcom&#xff09;整理自彭博社、CNBC、悉尼先驱晨报作者&#xff1a;程茜Meta是拯救Facebook的良方吗&#xff1f;11月5日消息&#xff0c;上周四&#xff0c;Facebook创始人马克扎克伯格宣布更换新品牌&#xff0c;取元宇宙Metaverse的…

JVM核心——JVM运行和类加载全过程

1.类加载全过程 &#xff08;1&#xff09;类加载机制 JVM把class文件加载到内存&#xff0c;并对数据进行校验、解析和初始化&#xff0c;最终形成JVM可以直接使用的Java类型的过程。 加载将class文件字节码内容加载到内存中&#xff0c;并将这些静态数据转换成方法区中的运行…

linux网络编程——boa移植

1.boa的介绍 boa webserver 是一个小巧高效的 web 服务器&#xff0c;可运行在 Unix 或 Linux 平台&#xff0c;支持 CGI &#xff0c;源代码开放&#xff1b;是一个非常适合于嵌入式系统的单任务 http 服务器。 2.boa的下载和安装 2.1 下载 下载地址&#xff1a;boa下载地…

小数据,大前景 !美国智库最新报告:长期被忽略的小数据人工智能潜力不可估量...

编译&#xff1a;莓酊编辑&#xff1a;青暮2021年9月&#xff0c;美国网络安全和新兴技术局&#xff08;Center for Security and Emerging Technology&#xff0c;简称CSET&#xff09;发布了研究报告《小数据人工智能的巨大潜力》&#xff08;Small Data’s Big AI Potential…

Science:穿梭于个体大脑与群体大脑之间探索社会智能

来源&#xff1a;集智俱乐部作者&#xff1a;Julia Sliwa译者&#xff1a;赵雨亭审校&#xff1a;梁金编辑&#xff1a;邓一雪从人类到鱼再到蚂蚁&#xff0c;群居动物在群体中会协调它们的行为&#xff0c;同时&#xff0c;它们的神经系统也可能这么做。然而&#xff0c;迄今为…