深度学习模型并非“越大越好”,它可能引起气候变化问题

来源丨Forbes

作者丨Rob Toews

编译丨科技行者

和当今的深度学习方法相比,我们大脑的效率高得不可思议。它们只有几磅重,大概只需要20瓦左右的能量消耗,这个能耗只能够给昏暗的灯泡供电。然而,它们代表了已知宇宙中最强大的智力形式。

本月早些时候,OpenAI宣布已经建成史上最大的人工智能模型,该模型规模惊人,被命名为“GPT-3”,是一项令人印象深刻的技术成就。然而,它却凸显了人工智能领域的一个隐患。

现代人工智能模型需要消耗大量能量,并且这些能量需求正以惊人的速度增长。在深度学习时代,产生一流的人工智能模型所需的计算资源,平均每3.4个月翻一番;这意味着,能量需求在2012年至2018年之间增加了300,000倍。而“GPT-3”只是这种指数级增长轨迹上的一个最新节点。

深度学习模型真的越大越好吗?

在今天,人工智能的碳足迹是有意义的,而如果这个行业趋势继续下去,情况将很快变得糟糕得多。除非我们愿意重新评估并改革当今的人工智能研究方向,否则,人工智能领域可能会成为我们在未来几年中应对气候变化的对手。

GPT-3很好地说明了这种现象。该模型包含多达1750亿个参数。如何理解这个数字呢?不妨参考一下它的前身模型GPT-2,它在去年发布时被认为是最先进的,GPT-2只有15亿个参数。去年GPT-2的训练耗费了数十千兆次/天,这个计算输入的数量已经非常庞大了,而GPT-3需要的数量可能是GPT-2的好几千倍。

依靠越来越大的模型,来推动人工智能技术进步,这种做法的问题在于,构建和部署这些模型需要大量的能源消耗,并因此产生碳排放。

在2019年一项被广泛讨论的研究《Energy and Policy Considerations for Deep Learning in NLP(NLP深度学习的能源和政策考虑)》中,由Emma Strubell领导的一组研究人员,评估了训练单个深度学习模型的能量消耗,这个数值可能高达626,155磅的二氧化碳排放量——约相当于五辆汽车在整个生命周期内的碳足迹。相比之下,一个普通的美国人每年产生的二氧化碳排放量大约是36,156磅。

可以肯定的是,这项评估针对的是能耗特别高的模型。如今,训练一个普通规模的机器学习模型产生的碳排放量应该远远小于626,155磅。

同时值得注意的是,在进行这项分析时,GPT-2是当时可供研究的、最大的模型,研究人员将其视为模型大小的上限。可仅仅一年之后,GPT-2看上去很袖珍了,比它的后继产品小了一百倍。

那么,机器学习模型到底为什么会需要消耗这么多的能量呢?

第一个原因是,用于训练这些模型的数据集的大小在不断地膨胀。在2018年,BERT模型在使用了30亿个单词的数据集进行训练之后,实现了同类中最佳的NLP(自然语言处理)性能。XLNet使用了320亿个单词的数据集进行训练,并且在性能上超过了BERT。不久之后,GPT-2接受了400亿个单词的数据集的训练。而让之前所有此类工作都相形见绌的是,GPT-3将使用一个包含5,000亿个单词的加权数据集进行训练。

在训练过程中,神经网络会针对输入的每条数据,执行一整套冗长的数学运算(既包括正向传播,也包括反向传播),并且以复杂的方式更新其参数。因此,更大的数据集,就会转化为飞速增长的计算和能源需求。

导致人工智能巨大能量消耗的另一个原因是,开发模型所需要进行的大量实验和调校。今天的机器学习,在很大程度上仍然是反复试错的练习。从业人员通常会在训练过程中针对给定模型构建数百个不同的版本,在确定最佳设计之前,他们会尝试不同的神经体系架构和超参数。

上述提到的那篇2019年研究论文中,描述了一个案例研究。研究人员们选择了一个平均规模的模型——比GPT-3之类的博人眼球的庞然大物要小得多,并且不仅检查了训练最终版本所需的能量,还测量了为了生产这个最终版本进行的各种测试的总体能量消耗。

在六个月的过程之中,他们培训了4,789个不同版本的模型,总共需要花费9,998天的GPU时间(超过27年)。考虑到所有这些因素,这些研究人员估计,构建该模型总计要产生78,000磅的二氧化碳排放量,超过一个普通美国成年人两年的碳排放量。

到此为止,这次讨论还仅仅涉及了机器学习模型的训练环节。但是训练只是一个模型生命周期的起点。模型训练完成之后,就会在现实世界中得到应用。

部署人工智能模型,让它们在现实环境中采取行动——这个过程被称为推理,该过程的能耗比训练环节更高。实际上,英伟达公司(Nvidia)估计,神经网络80%至90%的能量消耗出现在推理环节,而不是训练环节。

例如,想想自动驾驶汽车中的人工智能。首先必须要对神经网络进行培训,让它学会驾驶。在训练完成并部署到自动驾驶汽车上之后,模型会不断地进行推理,才能在环境中行驶,只要汽车还在使用之中,这个过程就会日复一日地持续下去。

毋庸置疑,模型具有的参数越多,对这种持续不断的推理的能量需求就越高。

能源使用和碳排放

既然提到了人工智能能量消耗和碳排放之间的关系。那么思考这种关系的最好方式是什么呢?

EPA数据显示,在美国,一千瓦时的能耗平均会产生0.954磅的二氧化碳排放量。这个平均值,反应了美国能源网中不同能量来源(例如可再生能源、核能、天然气、煤炭)的相对比例和碳足迹的变化。

上述提到的那篇2019年研究分析,采用了全美国的平均值,以便根据各种人工智能模型的能量需求来计算碳排放量。这是一个比较合理的假设。例如,亚马逊网络服务公司(Amazon Web Services)的电力来源组合,大致反应了美国整体的电力来源,而且绝大多数的人工智能模型都是在云端进行训练的。

当然,如果使用主要由可再生能源产生的电力训练人工智能模型,那么碳足迹也会相应地降低。例如,与AWS相比,谷歌云平台(Google Cloud Platform)使用的电力结构在可再生能源方面的比重更大。(上述那篇2019年研究论文显示,两家公司的这一比例分别为56%和17%。)

或者,举另一个例子,如果在太平洋西北部的硬件上训练一个模型,所产生的碳排放量会低于其他国家,这是因为这一地区拥有丰富的清洁水源。而在这方面,每一家云服务提供商都在鼓吹自己在碳补偿方面的投资。

总体而言,使用美国总体能源平均值,应该可以大致准确地估算出人工智能模型的碳足迹。

效益递减

通过不断变大的模型,追求人工智能进步的做法,凸显了模型规模和模型性能之间的关系。下列数据显示得很清楚:模型规模的增加,最终会导致性能回报的急剧下降。

比如,ResNet是2015年发布的一个著名计算机视觉模型。该模型的改进版本称为ResNeXt,于2017年问世。与ResNet相比,ResNeXt所需的计算资源要多35%(以总浮点运算来衡量),准确度却只提高了0.5%。

艾伦人工智能研究所(Allen AI Institute)2019年的一篇论文提供了详细的数据,记录了不同任务、模型和人工智能子领域中的效益递减问题。与GPT-2相比,最新发布的大型模型GPT-3出现了明显的效益递减迹象。

如果人工智能社区仍然继续沿着当前的研究方向前进,就会不断的构建越来越大的模型,耗费越来越多的能源,以实现越来越小的性能提升。任何成本/收益分析都会变得越来越比例失调。

既然存在效益递减的问题,又是什么在推动着模型不断地朝着越来越大的方向发展呢?一个主要的原因是,当前人工智能社区对获取“最好的”性能基准测试结果非常关注。构建一个新模型,能够在性能基准测试中创下新的准确性记录,即便成绩提升仅仅是微不足道的一点,也可以赢得研究人员的认可和好评。

正如加州大学洛杉矶分校(UCLA)的教授Guy Van den Broeck所说:“我认为对这种情况的一个最好的比喻,就是某个富油的国家能够建造一座很高的摩天大楼。当然,建造这样的东西需要花很多钱,还有很多的工程工作。你也确实可以在建造这座高楼的时候,获得‘最先进的技术’。但是……这件事在本质上并没有什么科学上的进步。”

在当前的人工智能研究领域,占据主导地位的“越大越好”思路,可能会在未来几年对环境造成重大的破坏。需要在这个领域内进行思虑周详但又大胆的变革,让人工智能技术的发展变得更加可持续,并更具生产力。

展望未来

首先,每一位人工智能从业人员都应该考虑,如何在短期内“快速制胜”,以减轻其研究对碳足迹的影响。

重要的第一步是,提高这个问题的透明度和度量程度。当人工智能研究人员们发布新模型的结果时,除了性能和准确性指标之外,他们还应该公布在模型开发中消耗了多少能量的数据。

经过深入彻底的分析,艾伦人工智能研究所的团队建议,将「浮点运算」作为研究人员追踪的最通用、也是最有效的能效度量标准。另一组研究人员创建了一个机器学习排放计算器,从业人员可以使用这个计算器来评估他们构建的模型的碳足迹(根据硬件、云服务提供商和地理区域等因素)。

遵循这些思路,综合考虑能源成本和性能收益的做法,将成为研究人员们在训练模型时的最佳实践。明确地量化这种关系,将促使研究人员在面对效益递减问题时,对资源分配做出更明智、更平衡的决定。

随着可持续人工智能实践的扩散,希望人工智能社区能够在评估人工智能研究的时候,开始考虑这些效率指标,就像今天我们对传统性能指标(例如准确性)采取的做法一样:在会议论文提交、演讲、学术角色中考虑它们。

还有一些已经相对比较成熟的方法,能够帮助人工智能技术在近期减少碳足迹:使用更有效的超参数搜索方法、减少训练过程中不必要的实验次数、使用更高能效的硬件等。

但是,单靠这些补救措施并不足以解决这个问题。人工智能领域需要更根本的长期转变。

我们需要退后一步,并且承认,仅仅依靠建立越来越大的神经网络并非通往通用智能的正确途径。我们需要推动自己去发现更优雅、更有效的方法,来对机器中的智能进行建模。我们正在持续不断地同气候变化进行斗争,这是一场关乎地球未来的战争。

在此引用人工智能传奇人物、深度学习教父Geoff Hinton的话:“未来取决于那些‘对我所说的一切’都深表怀疑的研究生……我的观点是将其全部抛弃并重新开始。”

人工智能社区必须开始致力于开创人工智能的新范例,这些范例应该既不需要指数级增长的数据集,也不需要庞大的能源消耗。小样本学习(few-shot learning)等新兴研究领域,都是有前途的途径。

人类的大脑——智力的原始来源提供了重要的启发。和当今的深度学习方法相比,我们大脑的效率高得不可思议。它们只有几磅重,大概只需要20瓦左右的能量消耗,这个能耗只能够给昏暗的灯泡供电。然而,它们代表了已知宇宙中最强大的智力形式。

人工智能研究人员Siva Reddy指出:“人类的大脑用很少的能量消耗,就能够完成令人惊叹的事情。问题是我们如何建造出这样的机器来。”

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487570.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dismiss ios pop效果_iOS 动画框架pop使用方法

pop支持4种动画类型:弹簧动画效果、衰减动画效果、基本动画效果和自定义动画效果。弹簧动画效果1.效果图如下:2.控制器代码如下,首先用pod安装导入pop框架:#import "ViewController.h"#import interface ViewController ()endimplementation ViewControll…

万亿新基建,AI“芯”机遇在哪?| CCF-GAIR 2020

新基建中的5G、AI和智能计算等新一代高端芯片属于新赛道,需要构建全新生态。”来源:雷锋网自今年3月份提出,新基建就迅速成为了焦点。新基建涵盖5G基建、特高压、大数据中心、人工智能、工业互联网等七大领域。与以往基础设施建设的“铁公基”…

重磅!库克官宣苹果放弃英特尔,全面采用自研芯片,MAC迎来历史转折点

物联网智库 整理发布转载请注明来源和出处导 读苹果并没有完全放弃Intel平台的Mac,未来还会继续推出Intel版的Mac,两种平台会并行发展。不过,随着苹果陆续将英特尔处理器换成自研ARM芯片,两年过渡期后的苹果仍启用英特尔处理器的…

微信小程序开源Demo精选

来自:http://www.jianshu.com/p/0ecf5aba79e1 文/weapphome(简书作者) 原文链接:http://www.jianshu.com/p/0ecf5aba79e1 著作权归作者所有,转载请联系作者获得授权,并标注“简书作者”。 1. 仿…

不输GPS!30颗卫星全部就位!北斗三号全球卫星导航星座部署顺利收官

随着此次发射的成功,北斗三号30颗组网卫星已全部到位,北斗三号全球卫星导航系统星座部署全面完成。来源:澎湃新闻视频:多角度直击北斗三号全球系统“收官之星”发射瞬间,时长约1分12秒6月23日,由中国航天科…

Django ORM 数据库操作

比较有用 转自 http://blog.csdn.net/fgf00/article/details/53678205 一、DjangoORM 创建基本类型及生成数据库表结构 1、简介 2、创建数据库 表结构 二、Django ORM基本增删改查 1、表数据增删改查 2、表结构修改 三、Django ORM 字段类型 1、字段类型介绍 2、字段参数介绍 3…

AI芯片的另一条路

来源:半导体行业观察在先进工艺和架构的协同下,芯片的性能在过去几年获得了爆发性的增长,尤其是在最近几年火热的人工智能行业,这个取得的成就是有目共睹的。据OpenAI在2018年年中发表的报告,自 2012 年以来&#xff0…

JavaScript之event事件

目录 1:事件驱动1 2:事件分类2 3:事件对象event3 4:关于鼠标事件对象属性3 应用:5 5:关于键盘事件对象的属性6 6:目标事件源对象7 7. 事件冒泡7 应用:8 CSS模拟下拉菜单。8 综合应用…

四大全球卫星导航系统都能提供什么服务?

来源:远望智库预见未来远望智库特约专家 陈刘成卫星导航系统是人类发明的最为重要的时间和空间测量工具。没有测量就没有科学,没有测量就没有管理。卫星导航系统价值集中体现在帮助人类精确感知、认知、控制物质、能量、信息的时空运行与分布。目前已经建…

一文了解72名图灵奖获得者的成就

来源:图灵教育今天是计算机科学之父、人工智能之父 艾伦麦席森图灵 诞辰 108 周年。作为“图灵意志”的传承者,依照惯例,在今日纪念这位伟人。从“图灵机”到“图灵测试”,从破译德军的 Enigma 到自杀之谜,图灵一生都是…

安卓修改wifi已停用_手机连不上wifi显示已保存怎么回事【原因介绍】

问:为什么手机连不上wifi显示已保存?手机在连接WiFi的时候,WiFi显示已保存,手机连接不上wifi信号。请问这是什么原因引起的,应该怎么解决这个问题。答:如果手机连接wifi时,显示已保存,手机连接…

机器人智能抓取系统:目前几种主流的解决方案

文章来源:COBOT机器人大脑、新机器视觉机器人学习中的经典问题之一便是分拣:在一堆无序摆放的物品堆中,取出目标物品。在快递分拣员看来,这几乎是一个不需要思考的过程,但对于机械臂而言,这意味着复杂的矩阵…

bzoj1018 [SHOI2008]堵塞的交通traffic

题目链接 分析: 这道题的题解很长,所以就不粘题面了,我们一点一点讲明白这道题 很荣幸,我看了题面之后 想到了这道题 可以很高兴的发现10w是线段树能够承受的范围 我们可以利用线段树维护连通性,每个节点内我们要维…

Science重磅!人类特有基因触发猴子长出更强大的大脑

本文系生物谷原创编译,欢迎分享,转载须授权!人类大脑在进化过程中的扩张,特别是新大脑皮层的扩张,与诸如推理和语言等认知能力有关。有一种叫做ARHGAP11B的基因,只在人类身上表达,它能触发大脑干…

『实践』Matlab实现Flyod求最短距离及存储最优路径

Matlab实现Flyod求最短距离及存储最优路径 一、实际数据 已知图中所有节点的X、Y坐标。 图中的节点编号:矩阵中的编号 J01-J62:1-62; F01-F60:63-122; Z01-Z06:123-128; D01-D02:129-130. 二、Floyd求所有节点间的最小距离及通过矩阵存储最优路径的节点 1 function …

MIT Technology Review 2020年“十大突破性技术”解读 【中国科学基金】2020年第3期发布...

来源:国家自然科学基金委员会MIT Technology Review 2020年“十大突破性技术”解读[编者按] 2020年2月26日,MIT Technology Review一年一度的“十大突破性技术”榜单正式发布。自2001年起,该杂志每年都会评选出当年的…

大数据是怎么知道你去过新发地的?

来源:科学加(北京科技报记者:赵天宇)“经过全市大数据分析,您可能在5月30日(含)以后去过新发地批发市场……”随着新发地市场新冠源头被锁定,近日来,大数据筛查,成为不少北京市民在朋…

口罩巨头挑战“量子霸权”,3个月造出的『最强量子计算机』靠谱不?

摘要霍尼韦尔(Honeywell)最近可是非常忙活。作为全球数一数二的口罩厂商,疫情期间霍尼韦尔一直在努力生产口罩,大家对它的印象也多停留在口罩生产者的层面。但是事实上,人家是正经的多元化高科技制造企业,航空产品、汽车产品、涡轮…

三极管稳压管组成的线性电源关键理解

1. A点电压为20V.B点电压是稳压管电压5.6V.则A到B的电流是固定的。 2. 加电后在调整三极管,负载, 稳压管的电流回路如图。(注意电流方向,a->b电流方向和大小都是基本不变的。) 转载于:https://www.cnblogs.com/ture…

oci连接mysql_使用 OCILIB 连接并操作 Oracle 数据库

OCILIB是一个跨平台的Oracle驱动程序,可提供非常快速和可靠地访问Oracle数据库。它提供了一个丰富,功能齐全,并易于使用的APIOCILIB是一个跨平台的Oracle驱动程序,,可提供非常快速和可靠地访问Oracle数据库。它提供了一…