ICLR2020 | 如何判断两个神经网络学到的知识是否一致

 

人工智能顶会 ICLR 2020 将于 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。在最终提交的 2594 篇论文中,有 687 篇被接收,接收率为 26.5%。本文介绍了上海交通大学张拳石团队的一篇接收论文——《Knowledge Consistency between Neural Networks and Beyond》。在本文中,研究者提出了一种对神经网络特征表达一致性、可靠性、知识盲点的评测与解释方法。

论文链接:https://arxiv.org/pdf/1908.01581.pdf

概览

深度神经网络(DNN)已经在很多任务中表现出了强大的能力,但目前仍缺乏诊断其中层表征能力的数学工具,如发现表征中的缺陷或识别可靠/不可靠的特征。由于数据泄漏或数据集发生变化,基于测试准确率的传统 DNN 评测方法无法深入评估 DNN 表征的正确性。

因此,在本论文中,来自上海交大的研究者提出了一种从知识一致性的角度来诊断 DNN 中层网络表征能力的方法。即,给定两个为同一任务训练的 DNN(无论二者架构是否相同),目标是检验两个 DNN 的中间层是否编码相似的视觉概念。

该研究实现了:(1)定义并量化了神经网络之间知识表达的不同阶的一致性;(2)对强弱神经网络中层知识进行分析;(3)对中层特征的诊断,在不增加训练样本标注的前提下进一步促进神经网络分类准确率;(4)为解释神经网络压缩和知识蒸馏提供了一种新的思路。

算法简介

该论文定义了两个神经网络之间在知识表达层面的一致性,即分析两个独立训练的神经网络是否建模了相同或相似的知识。研究者关注的是两个神经网络所建模的知识的相似性,而非特征的相似性(比如,将一个神经网络的中层卷积核的顺序打乱,并相应的重新排列其对应的上层卷积核的顺序,经过上层卷积后特征与原始神经网络对应特征相同,这时,这两神经网络具有不同的中层特征,但事实上建模了相同的知识)。

另一方面,可以利用神经网络知识表达的一致性,直接对神经网络内部特征表达可靠性进行评测,而不需要额外标注新的监督信息,此评测标准也与具体任务设置无关。如果没有可靠的数学工具去评测神经网络的特征的可靠性,仅仅通过最终的分类正确率来评测神经网络,对深度学习的未来发展是远远不够的。

因而,针对同一任务训练多个不同的神经网络,此研究量化出各神经网络间彼此一致的知识表达,并拆分出其所对应的特征分量。具体来说,f_A 和 f_B 分别表示神经网络 A 与神经网络 B 的中层特征,当 f_A 可以通过线性变换得到 f_B 时,可认为 f_A 和 f_B 零阶一致;当 f_A 可以通过一次非线性变换得到 f_B 时,可认为 f_A 和 f_B 一阶一致;类似的,当 f_A 可以通过 n 次非线性变换得到 f_B 时,可认为 f_A 和 f_B 为 n 阶一致。

如下图所示,可以通过以下神经网络,将神经网络中层特征 f_A 拆分为 0-K 阶不同的一致性特征分量,以及不一致特征分量。

 

低阶一致性分量往往表示相对可靠的特征,而不一致分量则表示神经网络中的噪声信号。

在应用层面,知识一致性可以用来发现神经网络中的不可靠特征和知识盲点。将一个深层高性能网络作为标准的知识表达,去分析诊断一个相对浅层的神经网络的知识表达缺陷(浅层神经网络有自己特定的应用价值,比如用在移动端)。当利用浅层神经网络 (DNN A) 特征去重建深层神经网络 (DNN B) 特征时,深层神经网络中的不一致特征分量 (δ=f_B-g(f_A)) 往往代表着浅层神经网络的知识盲点;相对应地,当利用深层神经网络特征去重建浅层神经网络特征时,浅层神经网络中的不一致特征分量 (δ=f_A-g(f_B)) 往往代表着其中不可靠的特征分量。

实验结果

下图显示了算法所预测的浅层神经网络的知识盲点与不可靠特征。

 

下表从知识一致性的角度,分析神经网络训练的稳定性。当训练样本相对较少时,浅层的神经网络的训练有更强的稳定性。

 

如下图所示,一致的特征分量往往代表更可靠的信息,可以进一步提升神经网络的分类精度。即,在不增加训练样本标注的前提下,利用知识一致性进一步提升模型的分类正确率。

 

知识一致性算法可以消除神经网络中的冗余特征。预训练的神经网络(如利用 ImageNet 训练的神经网络)往往建模了海量类别的分类信息,当目标应用只针对少量类别时,预训练的特征中表达无关类别的特征分量则可视为冗余信息。如下图所示,知识一致性算法可以有效的去除与目标应用无关的冗余特征分量,进一步提升目标应用的性能。

 

此外,知识一致性算法可以分析不同任务训练得到模型中的一致/不一致特征。如下图所示,研究者训练网络 A 进行 320 类细分类(包括 CUB 中的 200 类鸟与 Stanford Dog 中的 120 类狗),训练网络 B 进行简单的二分类(鸟或狗),通过特征相互重构,可以看到网络 A 中建模了更多的知识,网络 A 的特征能够更好地重构网络 B 的特征。

 

知识一致性算法可以用于分析网络压缩中的信息损失。研究者使用压缩后模型生成的特征来重建原始模型的特征,不一致的特征分量往往对应着压缩过程中被舍弃的知识。如下图(左)所示,通过量化这部分被舍弃的知识,他们发现在压缩过程中较小的知识损失会有更高的分类正确率。

此外,还可以通过知识一致性算法解释蒸馏。如下图(右),通过量化不同代的再生神经网络中不一致的特征分量,可以发现随着蒸馏代数的增加,不可靠的特征分量逐渐减少。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480841.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

7张图学会SQL

第1周:SQL入门 学习SQL语句的书写语法和规则从零学会SQL:入门​www.zhihu.com 第2周:查询基础 Select查询语句是SQL中最基础也是最重要的语句,这周我们就来利用Select来对表中的数据进行查询。从零学会SQL:简单查询​w…

大公司稳定工作和创业之间如何选择?

“ 是留在大公司,还是加入小型创业公司,还是自己创业,面对房价每年高涨的趋势,面对未来的不确定,应该怎样选择。 作为一个亲历者,希望你看完后能有所启发。 本文作者,陈睿 优知学院创始人 优知…

论文浅尝 |「知识表示学习」专题论文推荐

本文转载自公众号:PaperWeekly。本期论文清单来自清华大学博士生韩旭和北师大本科生曹书林,涵盖了近年知识表示学习方向的重要论文。[ 综述类 ]■ 论文 | Representation Learning: A Review and New Perspectives■ 链接 | https://www.paperweekly.sit…

如何选择一家公司

不管是刚毕业的大学生还是工作几年的职场朋友,每个人都会面临选择公司和行业的困扰,我也相信每个人都还记忆犹新你的第一份工作以及让你无比难忘的一家公司。有时候我们也盲目的所求,其实,偶尔停下来思考下你真想去的地方&#xf…

LightGBM最强解析,从算法原理到代码实现~

1 LightGBM简介 GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛&#xf…

数据分析师基本技能——SQL

我们做数据分析工作时,多数数据来源于数据库,SQL非常方便我们访问和查询数据库。 SQL 作为数据分析师的基本技能,那么需要掌握哪些SQL核心技能 理解数据库SQL基础重点知识:查询,更新,提取,插入&…

论文浅尝 | 基于置信度的知识图谱表示学习框架

本文转载自公众号:PaperWeekly。作者丨谢若冰单位丨腾讯微信搜索应用部研究方向丨知识表示学习知识图谱被广泛地用来描述世界上的实体和实体之间的关系,一般使用三元组(h,r,t)(head entity, relation, trail entity&am…

史上最强Java架构师的13大技术能力讲解! | 附架构师能力图谱

从程序员进阶成为架构师,并非一蹴而就,需要系统化、阶段性地学习,在实战项目中融会贯通,这如同打怪通关,我们得一关一关突破,每攻破一个关口,就能得到更精良的装备,技能值也随之不断…

写给运营同学和初学者的SQL入门教程

作者简介 多肉,饿了么资深python工程师。曾在17年担任饿了么即时配送众包系统的研发经理,这篇文章最早的版本就诞生于那段时间,目前负责配送相关业务系统的整体稳定性建设。个人比较喜欢c和python,最近有点迷rust,同时…

强化学习,路在何方?

▌一、深度强化学习的泡沫 2015年,DeepMind的Volodymyr Mnih等研究员在《自然》杂志上发表论文Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL&…

论文浅尝 | 基于神经网络的实体识别和关系抽取联合学习

本文转载自公众号:PaperWeekly。作者丨罗凌学校丨大连理工大学博士生研究方向丨深度学习,文本分类,实体识别联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就…

一篇文章搞懂架构师的核心技能

“ 这是架构师系列的第一篇:核心技能,希望这个系列能完全揭示架构师这个职位:我先从核心技能开始,后续还有架构师之路,架构实战等架构师系列文章。 本文作者 陈睿 优知学院创始人,前携程定制旅游CTO,在互联…

史上最全的分词算法与工具介绍

分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。…

论文解读:Attention is All you need

论文解读:Attention is All you need习翔宇​北京大学 软件工程博士在读​关注他192 人赞同了该文章Attention机制最早在视觉领域提出,2014年Google Mind发表了《Recurrent Models of Visual Attention》,使Attention机制流行起来,这篇论文采…

论文浅尝 | 基于神经网络的知识推理

本文转载自公众号:PaperWeekly。论文笔记来自 PaperWeekly 社区用户 britin。本文对基于 RNN 的从大规模知识库中进行推理进行了精度和可操作性的改善,提出的模型使用单个 RNN 就可以在多种 relation types 之间进行推理。如果你对本文工作感兴趣&#x…

手把手教你成为年薪60万的架构师

“ 这篇文章是帮助你成为架构师系列文章其中一篇,偏向0-5年工作的IT程序员员、架构师同学。 如果你能掌握这个系列提到的内容的70%左右,去阿里拿个P7问题不大,阿里的P7基本能拿到60W左右的年薪。 提醒一点,不要小看和不重视基础&a…

图解强化学习

小夕寄语 最近五年,是强化学习(Reinforcement Learning, RL)爆发的时期。RL是机器学习大家族中的一大类, 使用强化学习能够让机器学着如何在环境中拿到高分, 表现出优秀的成绩. 而这些成绩背后却是他所付出的辛苦劳动, 不断的试错, 不断地尝试…

领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

本文转载自公众号:阿里技术。 阿里妹导读:搜索“西红柿”,你不但能知道它的营养功效、热量,还能顺带学会煲个牛腩、炒个鸡蛋!搜索引擎何时变成“暖男”了?原来背后…

阿里P8架构师谈:开源搜索引擎Lucene、Solr、Sphinx等优劣势比较

开源搜索引擎分类 1.Lucene系搜索引擎,java开发,包括: Lucene Solr Elasticsearch Katta、Compass等都是基于Lucene封装。 你可以想象Lucene系有多强大。 2.Sphinx搜素引擎,c开发,简单高性能。 以下重点介绍最常用的开源搜素引擎&#…

知识图谱(KG)中的同义词挖掘

前言 在语义搜索推荐、智能问答等场景中,随着通过各类方法挖掘得到知识数据越来越多,我们需要考虑一个新问题——新老知识合并加以整合?比如 “拉肚子” 与 “腹泻” 实则同一意义,但是因为在字面上差距较大,在各抽取任…