机器学习是科学还是“炼金术”?

作者:Samuel Flender

译者:王强

策划: 刘燕

在实证领域,科学的严谨性是从假设开始塑造的。

业界对机器学习研究的科学严谨性的质疑声越来越多了。在 2017 年 NIPS 会议上的一场 演讲 中,当时就职于谷歌 AI 的 Ali Rahimi 和 Ben Recht 认为 ML 已经成为了一种炼金术,也就是说从业者使用的方法在实践中表现很好,但在理论层面上对这些方法的理解却相当欠缺。类似地,Keras 深度学习库的作者 Francois Chollet 认为当今的 ML 从业者都有“货物崇拜”的思想,人们依赖的都是“民间传说和魔法咒语”。 

炼金术、货物崇拜、魔法咒语。对于一个发展如此迅速、在现实世界应用越来越广泛的领域来说,这些都是值得关注的批判意见。而且正是这种广泛应用的局面让 Rahimi 和 Recht 感到忧心忡忡:

如果你构建的是照片共享服务,那么就算用的是炼金术也无所谓。但我们现在正在构建的系统会管理医疗保健和政见发表等事务。我希望我们世界的系统应该建立在严格、可靠、可验证的知识基础上,而不是用什么炼金术来充数。

机器学习是一个实证领域:我们根本没有什么理论可以解释为什么某些方法行之有效,而其他方法却行不通,我们甚至不清楚这样的理论是否会存在。但缺乏理论这一事实本身实际上并不是主要问题。即使在实证研究领域,我们也可以用科学严谨的方式取得进展。

我认为科学和炼金术之间的关键区别始于从业者分配给科学假设的角色。

先做假设

ML 从业者需要面对庞大的复杂性,从数据集采样和清理到特征工程,再到模型选择和超参数调整,都涉及非常复杂的过程。对这些部分一点点做调整,然后(通常在测试集上)看看哪种参数组合的效果最好,已成为行业中的常用手段。

但仅靠微调是不足以形成一门科学理论的。与炼金术相比,科学研究的本质区别在于科学假设的作用:科学家首先提出一个假设,然后设计一个实验来检验该假设。然后假设要么被拒绝,要么被接受。无论是哪种结果,我们都能获得新的知识。科学方法是不会预知实验结果的。 

相比之下,微调过程不是由假设驱动,而更多是由“直觉”驱动的。如果这样做的目标只是探索一种现象,那也无所谓。但如果这种微调被 HARKing 伪装成科学就很危险了。所谓 HARKing,就是在已知结果后再去提出适合这一结果的假设。

HARKing 很容易误导人,因为它不仅会愚弄研究人员,而且会愚弄整个社区。在最坏的情况下,研究人员可能会对一种算法的不同变体进行大量实验,选出达到预期结果的版本。在实践中,这意味着它击败了最新的最先进基准,然后研究人员使用 HARKing 来证明这个选择是合理的。人们一般称之为 SOTA-hacking。

当然,运行的随机实验越多,它就越有可能仅凭偶然发挥就击败任何给定的基准:这也被称为 查看别处效应。更糟糕的是,SOTA-hacking 占用了很多本可用于实际创新的资源。Facebook 工程师 Mark Saroufim 在《机器学习:大停滞》中写道:

在追求一流结果的过程中,我们奖励并鼓励了作为创新者的渐进式研究人员,增加了他们的预算,让他们可以领导更多下属员工或研究生,并行进行更多渐进式研究。

SOTA-hacking

在运行实验之前就提出科学假设,是预防 HARKing 和 SOTA-hacking 的最佳保护机制。在论文“深度学习的 HARK一侧”中,作者数据科学家 Oguzhan Gencoglu 及其同事甚至提倡对 ML 研究论文采用“隐藏结果(result-blind)”的提交流程:让科学家先提交他们的科学假设以及实验设计,当假设和设计被接受后他们可以继续进行实验,条件是他们必须公布结果,无论结果是证实还是排除了假设。这是一个极端、不切实际且可能不现实的解决方案,但它肯定会消除 SOTA-hacking 的风险。

ML 可以从物理学中学到什么

随着 ML 研究的发展,我相信它可以从物理学中借鉴很多有益思想。物理学的基本思想之一是先考虑一个更容易解决的小 玩具问题,其结果可以在更大、更复杂的问题背景下提供有价值的见解。

这并不是说这些物理风格的实验是不该做的,但做的实验并不会很多。在 NLP 的背景下,值得注意的例子是揭示著名的 BERT 语言模型对 转喻、多义词 或简单的 输入序列顺序 的敏感性的几项研究。例如,后一项研究发现,当 BERT 在 GLUE 基准任务上训练时,它对词序相对稳健。这表明大部分信号不是来自上下文,而是来自其他线索,例如关键字。

除了玩具问题,另一种强大的实证方法是 消融研究。具体来说就是有意在每一次实验中忽略解决方案的一个组成部分,以将关键组成部分与没有实际影响的“花里胡哨”部分区分开来。在 NLP 的背景下,一个很好的例子是 2017 年的著名论文“你需要的只有注意力而已”,它表明语言模型中的递归在存在注意力机制的情况下是多余的。

另一个很好的例子是 2017 年的论文“神经网络架构中文本预处理的作用研究”,该论文表明,除了小写外,常见的文本预处理技术(文本清理、词干提取、词形还原)在下游 ML 中没有提供任何可衡量的模型性能改进。

从炼金术到科学

今天的很多 ML 实践给人的感觉就像炼金术一样。但是,正如我在上述例子中所提到的,即使在不存在理论的情况下,也可以通过某些实验来更深入地了解 ML 的内部运作机制,为这一领域提供更严谨的科学立足点。下面是我对 ML 从业者提出的 3 条建议:

  • 在做任何实验之前先明确你的 假设。抵制 HARKing 和 SOTA-hacking 的诱惑。

  • 要有创造性:先考虑特定的 玩具问题,这些问题可以用来确认或排除社区(隐含或明确)做出的假设。

  • 使用 消融研究 来确定 ML 解决方案的关键部分,并消除方案中“花里胡哨”的部分。

最后,我希望随着 ML 研究的发展,业界的关注点将从目前追求突破性能基准的风潮转向更基础的原理探索领域。毕竟,科学是对知识,而非胜利的追求。我同意 Rahimi 和 Recht 的观点,他们写道:

想想你在过去一年中就为了搞定一个数据集进行了多少次实验,或者做那么多实验只是为了看看一项技术是否会给你带来提升。现在你应该好好思考一下你的实验,设法对实验观察到的令人费解的现象给出合理的解释。我们以前的重心都放在了突破纪录上,以后应该多关注理论和机制了。

原文链接:

https://towardsdatascience.com/machine-learning-science-or-alchemy-655bea25b227

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484195.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌发布史上最强人类大脑「地图」,在线可视3D神经元「森林」!

来源:机器学习研究组订阅突触,是神经网络的「桥梁」。我们知道,人类大脑有860亿个神经元,因为有了突触,才可以把神经元上的电信号传递到下一个神经元。长久以来,科学家们一直梦想通过绘制完整的大脑神经网络…

javaweb c3p0连接oracle12c

最近在搞javaweb,在连接池上碰到了一系列的问题,在Junit测试时,oracle12c报错: ORA-28040: 没有匹配的验证协议 百度解决:修改 $ORACLE_HOME/network/admin/sqlnet.ora 加入如下:   SQLNET.ALLOWED_LOGON_VERSION8 之…

数学的意义——席南华院士科普讲座实录

来源:中国数学会编辑:nhyilin谢谢主持人的介绍,谢谢大家在周末星期六的下午听这个报告。我今天要说的是“数学的意义”。数学,要说爱你不容易,不管你是天才还是庸人,都是它虐待的对象,差别在于有…

C#穿透session隔离———Windows服务启动UI交互程序

在Windows服务里面启动其他具有界面的应用程序,需要穿透session隔离,尝试了很多种方法,都可行,现在一一列举下来,并写下几个需要注意的地方。 需要注意的地方 首先要将服务的Account属性设置为LocalSystem,…

谈谈相控阵雷达为何如此先进

作者:寒木钓萌来源:电子万花筒对于很多人来说,相控阵雷达非常耳熟,但它的原理又是什么呢?传统雷达与相控阵雷达之区别要说相控阵雷达的原理,就不得不提一下传统雷达的工作方式。影视中,如果非要…

华为在5.5G未来技术演进的六个方向!

来源:5G产业园”2021年8月3日,华为和中国移动在北京召开主题为“双链融合,共创5G可持续发展未来”的5G-Advanced创新产业峰会。华为常务董事、ICT产品与解决方案总裁汪涛在峰会上发表了“合作创新,5.5G使能万物智联”的主题演讲&a…

引用传递

引用传递的核心意义: 同一块堆内存空间可以被不同的栈内存所指向,不同的栈内存可以对同一个堆内存进行内容的修改。 实例1: class Message {private int num 10;public Message(int num){this.num num; //2.this是代表msg这个对象&#…

线程知识点(一)—— 程序、进程、线程之间的区别与联系、Java的线程状态和生命周期

1 程序、进程、线程之间的区别与联系 三者之间的形象化理解: * 程序:代码实现了功能,就是程序,是静态的; * 进程:执行中的程序就是进程,是动态的; * 线程:进程内的一个执…

官方全面解读“5G+工业互联网”

来源:工信部网站未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图…

为什么要学数学?因为这是一场战略性的投资

来源:数学内参如果将数学学习的好坏仅仅理解为“刷题”的数量和速度,那充其量也只能成为一名熟练的数学工匠。我们所受的数学训练,所领会的数学思想和精神,所获得的数学教养,无时无刻不在发挥着积极的作用,…

滤波 放电速度比充电慢 模电

我不理解为什么这里放电速度比充电速度慢? 因为充电时间常数小,而放电时间常数大 转载于:https://www.cnblogs.com/china520/p/10389477.html

Hexo如何绑定个人域名

前两天用HexoGitHub搭建好了自己的个人博客https://www.serendipper-x.cn/,默认域名github下的二级域名:username.github.io,为了提升访问速度和博客的格调,绑定个人域名是多数人的选择。下面给大家介绍详细过程。 购买域名 国内…

什么是涌现?

来源:集智俱乐部作者:由集智俱乐部众包生产在哲学、系统论、科学和艺术中,当一个实体被观察到具有其所有组成部分本身没有的属性时,涌现 emergence 就出现了。这些属性或行为只有当各个部分在一个更广泛的整体中相互作用时才会涌现…

人工智能vs人类智能小传

来源:混沌巡洋舰Alphago代表的深度网络人工智能体现了AI逐步进入未知领域的强大能力, 因此有人堪忧有人喜乐, 却极少有人戳中要害。说AI比人牛是因为它下围棋比人厉害? 说AI离真正的智能很遥远是因为它不能创造吗? 是…

IDEA换行CRLF, LF, CR的解释和默认设置

在window下开发有一个大坑,就是换行默认是CRLF,也就是回车换行,但是Linux下只有换行LF,这样代码提交后,会出现编译问题,所以最好的办法是在IDEA下设置默认为LF。 首先我们先介绍CRLF,LF和CR这三…

云数据库

一.概述 1.1 云计算通过网络以服务的方式为用户提供廉价的资源。 1.2 优势 按需服务;随时服务;通用性;高可靠性:冗余备份;成本低,廉价;超大规模;虚拟化;扩展性高&#…

一个困扰数学家30多年的分类问题,终于被解决了!

来源:AI科技评论作者:Steve Nadis编译:陈彩娴编辑:青暮一般情况下,当你要对某个特定地区的植物进行调查时,你可能会按植物的种类来划分。就这种方法来看,如果是沿着托斯卡纳海岸的某些地带做这类…

欢迎参加“城市大脑与应急管理”专家研讨会

来源:城市大脑全球标准研究组数字大脑学术系列沙龙第二期“城市大脑与应急管理”专家研讨会2021以来城市大脑的建设与研究获得了长足发展,数百个城市开展了城市大脑的建设与规划,取得了诸多成果。于此同时,伴随着疫情、水灾、交通…

MapReduce词频统计

1.1 文件准备 创建本地目录和创建两个文本文件,在两个文件中输入单词,用于统计词频。 cd /usr/local/hadoop mkdir WordFile cd WordFile touch wordfile1.txt touch wordfile2.txt1.2 创建一个HDFS目录,在本地上不可见,并将本地文本文件上传…

Spring中注解大全

Spring中注解大全 Controller 标识一个该类是Spring MVC controller 处理器&#xff0c;用来创建处理http请求的对象 Controller public class TestController{RequestMapping("test")public String test(Map<String,Object> map){return "hello"…