文末送书 | Facebook:易于解释的神经元可能会阻碍神经网络的学习

文 | Matthew Leavitt、Ari Morcos

编 | 张倩、杜伟

源 | 机器之心


易于解释的神经元对于提升神经网络的性能来说是必要的吗?Facebook 的研究者给出了出人意料的答案。

AI 模型能「理解」什么?为什么能理解这些东西?回答这些问题对于复现和改进 AI 系统至关重要。但遗憾的是,计算机科学家在解释深度神经网络(DNN)方面的能力远远落后于我们利用这些网络获取有用成果的能力。

理解 DNN 的一类常见方法是聚焦于单个神经元的属性,如找到一个能够被猫的图像而非其他类型的图像激活的神经元。我们把 这种对于特定图像类型的偏好称之为「类选择性(class selectivity)」

选择性的应用非常广泛,部分原因在于它直观、易懂,而且这些类型的神经元其实会自然地出现于多种不同任务上训练的网络中。例如,为不同类型图像分类任务训练的 DNN 包含针对拉布拉多寻回犬激活最强烈(有选择性)的单个神经元。为了预测产品评论中单个字母而训练的神经元包含对积极 / 消极情绪具有选择性的神经元。

但是,要想让 DNN 发挥作用,这些易于解释的神经元真的是必要的吗?这就好比通过汽车的排气管来研究其推进系统。尽管排气管与车速有一定关系,但推动汽车前进的并不是它。那么,类选择性到底是「引擎」还是「排气管」的一部分?

颇为意外的是,Facebook 的研究者发现,有强烈的证据表明即使 DNN 的大部分神经元没有类选择性,它也能运转良好。他们还表示,其实,易于解释的神经元可能会损害 DNN 的功能并使其更容易受到任意扭曲的输入的影响。

为了研究这一问题,研究者开发了一种新的技术来直接控制 DNN 神经元的类选择性。他们的研究结果表明,在理解 DNN 时过度依赖基于直觉的方法可能具有误导性,如果这些方法没有经过严格的测试和验证。要完全理解 AI 系统,我们必须寻找那些不仅依靠直觉,还经历过实验检验的方法。

Facebook 研究者的发现

尽管很多研究者已经将类选择性当做 DNN 可解释性的一个工具进行了广泛的研究,但令人意外的是,很少有人去研究易于解释的神经元对于 DNN 发挥最佳作用是否必要。最近,部分研究者已经开始了这一问题的探索,但不同的研究给出了不同的结论。

在此背景下,Facebook AI 的研究者通过一种新的类选择性操纵方法来探索上述问题。在训练一个图像分类网络时,他们不仅指导网络提高其分类图像的能力,还添加了一个降低(或提高)神经元中类选择性程度的激励。

上图显示了操纵类选择性神经元如何影响 DNN 正确分类图像的能力(在 Tiny ImageNet 上训练的 ResNet18)。每个点代表一个 DNN。点的颜色代表类选择性在 DNN 神经元中被激励的程度。x 轴表示 DNN 神经元间的平均类选择性,y 轴表示 DNN 图像分类的准确性。灰色的点表示中立——既不鼓励也不抑制类选择性——表示这种类型 DNN 在自然状态下的类选择性发生水平,研究者将其作为一个比较分类准确率的基线。通过抑制类选择性(蓝色点),我们可以将测试准确率提高 2% 以上。相比之下,激励类选择性(红色的点)会对 DNN 的图像分类能力产生明显的负面影响。

在具体操作上,研究者通过在用于训练网络的损失函数中添加一个类选择性项来实现这一点。他们使用一个参数来控制类选择性对于网络的重要性。通过这个参数可以激励或抑制易于解释的神经元,以及激励 / 抑制的程度。这样的话,研究者就相当于掌握了一个旋钮,通过这个旋钮可以操纵网络中所有神经元的类选择性。他们借助这个旋钮进行了实验,以下是实验的结果:

1. 减少 DNN 的类选择性对于性能的影响非常小,在某些情况下甚至会带来性能的提升。这些结果表明,尽管类选择性在多种任务和模型中普遍存在,但它并不是 DNN 发挥作用所必需的,有时甚至会发挥负面作用;

2. 在增加类选择性时,可以发现 DNN 性能显著下降。这一结果表明,类选择性的存在并不能保证 DNN 的良好运行;

3. 与学术环境相比,部署到现实世界的 DNN 通常要处理更加嘈杂、有挑战性的数据。研究者发现,减少类选择性之后,DNN 在处理有噪声、扭曲的数据时更加稳健。有趣的是,减少类选择性也使得 DNN 更容易受到针对性的攻击(故意操纵图像来欺骗 DNN)。

Facebook 的研究者认为,我们之所以对这些结果感到惊讶,可以归结为两方面的原因。首先,由于类选择性天然地存在于多数 DNN 中,它已经被广泛地用于理解 DNN 的性能。本文中的研究也表明,在没有类选择性操纵的情况下,DNN 自然而然地学习尽可能多的类选择性,而不会对性能产生负面影响。这就引出了 Facebook 研究者希望在未来工作中回答的一个更深层次的问题:如果类选择性对良好的表现来说不是必需的,为什么网络要学习它呢?

研究意义

研究者希望,他们提出的这个类选择性旋钮能够鼓励其他研究者利用该技术进一步研究类选择性在 DNN 中扮演的角色。重要的是,他们开发的理解复杂神经网络系统的方法是基于有意义的特征。研究者表示,如果能够训练一个没有猫神经元也能很好地识别猫的 DNN,我们就不应该试图通过关注猫的神经元来理解 DNN。相比之下,AI 研究者应该更多地关注、分析大群神经元是如何一起工作的。

从更广泛的意义上来说,研究者认为,他们的研究为将单个神经元特性作为理解 DNN 性能关键的方法提了个醒。在得出这些结论之后,他们还考察了一些广泛使用的可解释性方法如何产生有误导性的结果。

为了解决这些问题,他们发表了一篇立场论文来评估两个个案研究。

赠书福利

《会话式AI:自然语言处理与人机交互》——推荐语:腾讯、阿里、国家标准委&AIIA人工智能专家多年大型项目经验总结,详解NLP和人机交互核心技术,从技术、算法、实战3维度讲解聊天机器人原理、实现与工程实践

本次卖萌屋联合机械工业出版社华章公司为大家带来 4本 “正版新书《会话式AI:自然语言处理与人机交互》。11月11日24点前,卖萌屋会从本文评论区中挑选 4名 订阅号常读用户赠送正版图书1本(在其他公号已获赠本书者重复参加无效)。没中奖的读者也可以点击下方链接购买。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

有顶会审稿人、大厂研究员、知乎大V和妹纸

等你来撩哦~

 

[1]https://arxiv.org/abs/2003.01262v1

[2]https://arxiv.org/pdf/2007.04440v1.pdf

[3]https://arxiv.org/abs/2010.12016

[4]https://ai.facebook.com/blog/easy-to-interpret-neurons-may-hinder-learning-in-deep-neural-networks/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术动态 | ACL 2019 知识图谱的全方位总结

本文转载自公众号:AI科技评论。 ACL 2019 已经结束,但其空前的规模仍然震撼人心:2900多篇提交论文,660篇被接收,3000多名会议注册人员,以及4个超过400人的研讨会(比一些国际CS会议都大&#xff…

LeetCode 287. 寻找重复数(BitMap)

文章目录1. 题目信息2. 解题2.1 BitMap2.2 set去重2.3 官方解题,快慢指针1. 题目信息 给定一个包含 n 1 个整数的数组 nums,其数字都在 1 到 n 之间(包括 1 和 n),可知至少存在一个重复的整数。假设只有一个重复的整…

参加完阿里Java面试:一面+二面+三面+HR四面,后的复盘经验总结!

阿里中间件团队一面: 第一步先自我介绍? 介绍自己的项目经验和个人的擅长点,面试官主要考察你的表达能力和语言精简能力。 第二步:项目中做了什么,难点在哪里? 主要是想了解参与过技术难度最大的项目难点,技术难点…

IDEA解决Maven项目编译后classes文件中没有.xml或.properties问题

IDEA解决Maven项目编译后classes文件中没有.xml或.properties问题 方式一、在 pom.xml 中添加下面的代码 <build><!--解决Maven项目编译后classes文件中没有.xml问题--><resources><resource><directory>src/main/java</directory><in…

NLP太卷,我去研究蛋白质了~

为什么“单词”被省略了&#xff1a;单词的本质是含义简单且可以高频重复的信息&#xff0c;句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看&#xff0c;大的片段相当于句子&#xff0c;对这些片段再分段起单词作用&#xff0c;密码子&#xff08;…

论文浅尝 | 利用关系标签的主题语义知识为关系抽取提供监督 (IJCAI 2019)

本文转载自公众号&#xff1a;知识工场。作者&#xff1a;蒋海云&#xff0c;复旦大学2016级计算机博士生&#xff0c;研究方向为知识图谱与自然语言处理。目前已在 IJCAI&#xff0c;AAAI&#xff0c;ACL&#xff0c;DASFAA等会议上发表文章。IJCAI 2019&#xff08;The 28th …

LeetCode 268. 缺失数字

文章目录1. 题目信息2. 解题1. 题目信息 给定一个包含 0, 1, 2, …, n 中 n 个数的序列&#xff0c;找出 0 … n 中没有出现在序列中的那个数。 示例 1:输入: [3,0,1] 输出: 2 示例 2:输入: [9,6,4,2,3,5,7,0,1] 输出: 8 说明: 你的算法应具有线性时间复杂度。你能否仅使用额…

一位前BAT面试官详谈进入BAT面试经验

“ 之前有一篇文章“最强攻略&#xff1a;java程序员如何通过阿里、百度社招面试”谈到了进入BAT需要掌握的技术知识点,关注优知学院可以获得。很多同学看完后&#xff0c;一直在说能否与面试一起结合谈谈这方面的经验。所以&#xff0c;补充了本篇文章。 希望能使大家在未来少…

使用numpy实现神经网络模块

class Network(object):def __init__(self, num_of_weights):# 随机产生w的初始值# 为了保持程序每次运行结果的一致性&#xff0c;此处设置固定的随机数种子np.random.seed(0)self.w np.random.randn(num_of_weights, 1)self.b 0.def forward(self, x):z np.dot(x, self.w)…

一句话超短摘要,速览752篇EMNLP论文

文 | Posy阿花今年的EMNLP今天开始召开啦&#xff0c;不知道大家的论文列表都刷完没有呀~ 什么&#xff1f;论文太多&#xff0c;看不过来&#xff0c;怎么办&#xff1f;看了论文题目还是不知道讲的是什么&#xff0c;怎么办&#xff1f;别担心&#xff0c;今天阿花给大家带来…

LeetCode 136. 只出现一次的数字(异或^)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个非空整数数组&#xff0c;除了某个元素只出现一次以外&#xff0c;其余每个元素均出现两次。找出那个只出现了一次的元素。 说明&#xff1a;你的算法应该具有线性时间复杂度。 你可以不使用额外空间来实现吗&#xff1f;示例…

阿里蚂蚁金服中间件(Java 4轮面试题含答案):Redis缓存+线程锁+微服务等

第一轮 说说HaspMap底层原理&#xff1f;再说说它跟HaspTable和ConcurrentHashMap他们之间的相同点和不同点&#xff1f; 讲讲jdk1.7和1.8的区别&#xff1f; 几种内置的线程池 MySQL事务隔离级别以及MVCC机制 Redis缓存雪崩、缓存穿透以及如何解决&#xff1f; 分布式架构…

简述python setup.py install的过程

原文连接&#xff1a;https://www.jianshu.com/p/f8ffbf18c312 简述python setup.py install的过程0.4872018.06.27 18:24:01字数 372阅读 31,948python setup.py install 是我们用来安装下载的python包或者自己按照python官方规范开发的扩展包的常用指令。通过这个命令&#x…

IDEA:将web工程部署到tomcat

在项目结构中进行部署即可&#xff1a;

NeurIPS 2020 所有RL papers全扫荡

文 | 微尘-黄含驰源 | 知乎论文列表1.《Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model》关键词&#xff1a;model-based reinforcement learning, minimaxity, planning, policy evaluation, instance-dependent guarantee…

java架构师进阶独孤九剑系列(一):数据结构与算法

“ 架构师进阶系列之独孤九剑&#xff0c;这套秘籍如果你能完整学会&#xff0c;年薪至少60万起&#xff0c;今天是架构师进阶连载开启篇。 Java程序员成长为架构师进阶步骤 未来我会用1-2个月在实战为大家讲解架构师的九大必备技能。 架构师进阶系列之独孤九剑九大步骤&…

【社招/实习】百度大搜索招聘NLP、搜索方向算法工程师!

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术工作职责负责百度搜索中的语义理解及相关性计算、LTR排序逻辑、query分析理解、召回匹配等相关算法创新及优化工作&#xff1b;关注传统机器学习与数据挖掘、深度学习、强化学习等方向的前沿技术&#xff0c;…

最全Java面试180题:阿里11面试+网易+百度+美团!含答案大赠送!

网络编程 ISO模型与协议 http1.0&#xff1a;需要使用keep-alive参数来告知服务器端要建立一个长连接 http1.1&#xff1a;默认长连接。支持只发送header信息&#xff0c;可以用作权限请求。支持Host域。 http2.0&#xff1a;多路复用的技术&#xff0c;做到同一个连接并发处…

Redis持久化(RDB 和 AOF)

一、RDB持久化 RDB&#xff08;Redis DataBase&#xff09;&#xff1a; 配置文件中对其的相关配置&#xff1a; 触发机制&#xff1a; 恢复rdb文件&#xff1a; 优点&#xff1a; 缺点&#xff1a; 二、AOF持久化 AOF&#xff08;Append Only File&#xff09;&#x…