解决AI大难题:如何降低AI运行对能源的消耗?

来源:The Next Web

作者:Jeannie Finks

编译:科技行者

就当下来看,AI领域实现突破性进展的深度学习模型,其规模越大,能耗和成本也随之增加。自然语言处理模型GPT-3就是个典型的例子,为了能够在准确性与速度方面与人类相匹敌,该模型包含1750亿个参数、占用350 GB内存并产生高达1200万美元的模型训练成本。而且单从成本来看,大家应该就能体会到它所消耗的海量能源。 

UMass Amherst的研究人员们发现,训练大型AI模型所需要的算力往往对应超过60万英磅二氧化碳排放量,相当于五台家用汽车在整个使用周期内的全部排放!

更要命的是,这些模型在实际生产环境中(即推理阶段)还需要耗费更多能源以不断产出分析结论。根据英伟达的估算,神经网络模型运行所产生的成本有80%至90%来自推理阶段、而非训练阶段。

因此有观点认为,要保持AI技术的快速进步,我们必须想办法找到一条具备环境可持续性的道路。但事实证明,我们完全可以将大规模模型缩减为能够运行在日常工作站或服务器上的大小,且几乎不影响准确性与速度。

下面,我们先来聊聊为什么机器学习模型总是这么庞大臃肿。

当前,计算能力每3到4个月即翻一番 

十多年前,斯坦福大学的研究人员发现,用于为视频游戏中的复杂图形提供处理支持的处理器(GPU)能够在深度学习模型中提供极高的计算效率。这一发现掀起一轮“军备竞赛”,各厂商争相为深度学习应用程序开发出越来越强大的专用硬件。与之对应,数据科学家们创建的模型也越来越庞大,希望借此带来更准确的处理结果。两股力量相互缠绕,也就形成了如今的态势。

来自OpenAI的研究证明,目前整体行业都处于这样的升级循环当中。2012年至2018年期间,深度学习模型的计算能力每3到4个月就翻一番。这意味着六年时间内,AI计算能力增长达惊人的30万倍。如前所述,这些算力不仅可用于训练算法,同时也能在生产环境中更快带来分析结果。但MIT的最终研究则表明,我们达到计算能力极限的时间可能远远早于大家的想象。

更重要的是,资源层面的限制导致深度学习算法开始成为极少数组织的专属。我们当然希望使用深度学习从医学影像中检测癌细胞变化、或者在社交媒体上自动清除仇恨言论,但我们也确实无法承受体量更大、耗电量更高的深度学习模型。

未来:少即是多 

幸运的是,研究人员们发现了多种新方法,能够使用更智能的算法缩小深度学习模型,并重新调整训练数据集的使用方式。如此一来,大型模型也能够在配置较低的小规模生产环境内运行,并继续根据用例提供必要的结果。

这些技术有望推动机器学习大众化,帮助那些没有充足金钱或资源的组织也能训练算法并将成果投入生产。这一点对于无法容纳专用AI硬件的“边缘”用例显得尤其重要,包括摄像机、汽车仪表板以及智能手机等小型设备。

研究人员们一直尝试删除神经网络内的某些非必要连接,或降低某些数学运算的复杂性等方式缩小模型体积。这些更小、更快的模型能够在任意位置以类似于大型模型的准确度与性能保持运行。如此一来,我们不再需要疯狂追求极致算力,也就有望缓解对环境的重大破坏。事实上,缩小模型体量、提升模型效率已经成为深度学习的未来发展方向。

另一个重要问题,则体现在针对不同用例在新数据集上反复训练大型模型方面。迁移学习技术有望消除此类问题——这项技术以预训练完成的模型作为起点,能够使用有限的数据集将模型知识“迁移”至新任务当中,因此我们不必从零开始重新训练初始模型。这既是降低模型训练所需算力的重要手段,也将极大缓解AI发展给自然环境带来的能源压力。

底线在哪?

只要有可能,模型应当、也必须寻求“瘦身”以降低算力需求。

另外,模型得到的知识应该可以回收并再次利用,而不必每次都从零开始执行深度学习训练过程。最终,一切有望降低模型规模、削减算力消耗(而不会影响性能或准确性)的方法都将成为解放深度学习能量的重要新机遇。

如此一来,任何人都能够以较低的成本在生产环境中运行这些应用程序,同时极大减轻对自然环境造成的压力。当“大AI”开始变小时,其中必将蕴藏无数新的可能。对于这样的前景,我们充满期待。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32F105 PA9/OTG_FS_VBUS Issues

https://www.cnblogs.com/shangdawei/p/3264724.html F105 DFU模式下PA9引脚用来检测USB线缆,若电平在2.7~5v则认为插入usb设备(检测到usb线缆条件满足),接下来按流程图执行。 转载于:https://www.cnblogs.com/prayer521/p/970349…

Facebook最新研究:配合AR眼镜使用的腕带,可将神经信号转化为动作

来源:X增强现实日前据外媒报道,Facebook基于其在2019年收购的初创公司的CTRL-Labs技术,计划提供一个新的增强现实界面。在发布的一段演示视频中,其展示了使用肌电信号(EMG)将细微的神经信号转化为动作的&am…

数据库原理

一、事务 概念ACIDAUTOCOMMIT二、并发一致性问题 丢失修改读脏数据不可重复读幻影读三、封锁 封锁粒度封锁类型封锁协议MySQL 隐式与显示锁定四、隔离级别 未提交读(READ UNCOMMITTED)提交读(READ COMMITTED)可重复读(…

Nature封面:人类还在看提词器,AI的辩论能力却出现了重大进展

来源:机器之心编辑:魔王、陈萍人类斗嘴还要看提词器,AI 引经据典的能力却已经比你高出不止一个段位了。在人工智能打败专业国际象棋选手、围棋选手,并在多个电子游戏中大展身手之后,现在它冲着职业辩论选手来了&#x…

人工智能姿态逐渐“亲民”,2021年AI五大趋势备受期待

来源:齐鲁壹点人工智能(AI)已成为多国科技发展领域的“香饽饽”,各国政府以及多家大企业也都不甘示弱,争相砸重金支持该领域的发展,各种创新因此如雨后春笋般喷薄而出。此外,新冠肺炎疫情的肆虐迫使我们进一步加大对于…

行业观察 | 全球IoT云平台第一股诞生,IoT离爆发还有多远?

来源: 财经杂志文 :施然2021年3月18日,IoT云平台公司Tuya(涂鸦智能)上市,这也是目前全球范围内IoT云平台第一股。Tuya的云敲钟仪式在杭州举办,共同参与云敲钟仪式的,除了Tuya的高管团…

SQL2012 之 创建备份计划

打开数据库,选择 管理 → 右键维护计划→选择新建维护计划,填写计划名称,如下图: 修改维护计划参数,如下图: 工具箱->备份数据库任务,拖到计划里,如下图: 编辑“备份数…

薛其坤院士对话马斯克:下一个颠覆性创新是什么?

来源:网易科技报道文:丁广胜他来了,他又来了,马斯克这次在家中远程视频参会中国发展高层论坛。这次很遗憾,马斯克不能现场展示“动感舞蹈”了。他谈到了自动驾驶,也谈到了星际探索。薛其坤院士谈到了太阳能…

「九章」量子计算优越性遭北大院士质疑,潘建伟陆朝阳长文回应

来源: 雷锋网作者:付静对量子计算和玻色取样的专业概念的理解存在偏差,或是「九章」受质疑的原因。2020 年 12 月 4 日,我国成功达到量子计算研究第一个里程碑量子计算优越性(Quantum Computational Advantage&#xf…

OpenAI又放大招:连接文本与图像的CLIP,在ImageNet上效果媲美ResNet50

来源:AI科技评论公众号编译:蒋宝尚、陈彩娴2020年,通用模型产生了经济价值,特别是GPT-3,它的出现证明了大型语言模型具有惊人的语言能力,并且在执行其他任务方面也毫不逊色。2021年,OpenAI 联合…

美国国家创新体系的演化历程、特点及启示

本文来源:微信公众号科情智库原载于《全球科技经济瞭望》2020年12月第35卷第12期作者:李哲、杨晶、朱丽楠,中国科学技术发展战略研究院国家创新体系反映经济活动中科学技术知识生产和配置的整体状况,其着眼点是激励知识生产、提高…

再造一个爱因斯坦?GPT-3 让我看到了名人“重生”的希望

作者:Manuel Araoz译者:弯月来源:CSDN(ID:CSDNnews)自从GPT-3推出以来,我就一直在做各种尝试。这是一项非常酷的技术,我发现最有趣的一项实验就是通过GPT-3与已故去的名人对话。在本…

中文乱码解决

1.url链接设置字符编码 mysql.urljdbc:mysql://127.0.0.1:3306/micro_class?characterEncodingutf-82.数据库编码设置 查看数据库编码:show variables like character%; SET character_set_database utf8; SET character_set_server utf8; 转载于:https://www.c…

【NOIP模拟】健美猫

题面 分析 此题真是一言难尽。下面这么大一串,真的只是在讲一个小模拟。。。此题也是被几个julao反复讲,各种五花八门的奇淫巧技,什么数学变形,树状数组,差分,单调……好吧,我是那种只会30分暴力…

走向通用智能的核心:任务树的建立

来源:混沌巡洋舰人工智能的一个核心问题,是用已有的算法解决新的目标。对于人类来说,最常用的方法是得到和目标最相近的子目标, 子目标的子目标(比如饿了就要找吃的,找吃的就要去菜市场买菜)&am…

关于HotSpot VM以及Java语言的动态编译 你可能想知道这些

目录 1 HotSpot VM的历史2 HotSpot VM 概述2.1 编译器2.2 解释器2.3 解释型语言 VS 编译型语言3 动态编译3.1 什么是动态编译3.2 HotSpot VM对字节码的处理方式3.3 为什么不静态编译1 HotSpot VM的历史 SUN/Oracle JDK中使用的JVM是HotSpot VM. SUN JDK从1.3.1版本开始采用HotS…

马斯克向中国保证

来源:金融时报美国当地时间3月20日,特斯拉公司(Tesla Inc.)首席执行官埃隆马斯克 (Elon Musk)通过网络参加中国发展高层论坛会议。马斯克在会议上表示,特斯拉公司将不会向美国政府提供其车辆在中…

对抗攻击层出不穷?神经科学带来新突破、导出智能统一框架,Hinton:我早有洞见

来源 :AI科技评论编译 :bluemin校对 :青暮最近的神经科学研究指出了如何击败对抗性示例,并为实现更具弹性、一致性和灵活性的人工智能指明了道路。对抗性示例是当今深度学习研究的热点。数据中微妙的,通常是无形的更改…

增强现实系统的三大关键技术是什么?

来源:VR村增强现实系统的主要任务是进行真实世界和虚拟物体的无缝融合,需要解决真实场景和虚拟物体的合成一致性问题。为了确保真实世界和虚拟对象的无缝融合,根据Ronald Azuma对增强现实技术的定义,在AR应用系统开发中必须要解决…

51 Nod 1116 K进制下的大数

1116 K进制下的大数 基准时间限制:1 秒 空间限制:131072 KB 分值: 20 难度:3级算法题 收藏 关注 有一个字符串S,记录了一个大数,但不知这个大数是多少进制的,只知道这个数在K进制下是K - 1的倍数。现在由你…