Hinton新作!越大的自监督模型,半监督学习需要的标签越少


来源:AI科技评论

编译:青暮

本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了优越的结果。此外,他们还发现,网络的规模越大,需要的标签数据越少。

论文地址:https://arxiv.org/abs/2006.10029

仅使用1%的标签(每类≤13个标签图像),本文提出的方法即可达到73.9%ImageNet top-1准确率,与以前的SOTA相比,标签效率提高了10倍。

使用10%的标签,本文的方法可以达到77.5%的top-1准确率,优于使用100%标签的标准监督训练。

“无监督预训练、监督微调”范式

充分利用少量标记示例和大量未标记示例进行学习是机器学习的一个长期存在的问题。

人们曾经提出一种半监督学习来试图解决这个问题,其中涉及无监督或自监督的预训练,然后进行有监督的微调。

这种方法在预训练期间以与任务无关的方式利用未标记的数据,仅在有监督微调时使用带标签的数据。

这种方法在计算机视觉上很少受关注,但是在自然语言处理中已成为主流。例如,人们首先在未标记的文本(例如Wikipedia)上训练大型语言模型,然后在一些带标记的示例中对该模型进行微调。

基于视觉表示的自监督学习的最新进展,Ting Chen等人对ImageNet上的半监督学习进行了深入研究,并首次探索了“无监督预训练、监督微调”范式。

通过与任务无关的方式使用未标记数据,作者发现,网络规模非常重要。

也就是说,使用大型(在深度和广度上)神经网络进行自监督的预训练和微调,可以大大提高准确率。

除了网络规模之外,作者表示,这项研究还为对比表示学习提供了一些重要的设计选择,这些选择有益于监督微调和半监督学习。

一旦卷积网络完成了预训练和微调,其在特定任务上的预测就可以得到进一步改善,并可以提炼成更小的网络。

为此,作者接下来再次使用了未标记的数据,以让学生网络模仿教师网络的标签预测。

这种使用未标记数据的蒸馏阶段类似于自训练中伪标签的使用,但没有增加太多额外的复杂性。

作者提出的半监督学习框架包括三个步骤,如图3所示。

(1)无监督或自我监督的预训练;

(2)有监督的微调;

(3)使用未标记的数据进行蒸馏。

图3:本文提出的半监督学习框架。该框架通过两种方式利用未标记的数据:(1)在无监督的预训练中与任务无关的用法,(2)在自训练/蒸馏中的任务特定的用法。

此外,作者还开发了对比学习框架SimCLR的改进版本,用于ResNet架构的无监督预训练,此框架被称为SimCLRv2。

在ImageNet ILSVRC-2012上评估该方法的有效性,作者发现,仅需要1%和10%的标签,就可以实现与过去SOTA方法相当的性能。

作者表示,对于这种范式的半监督学习,标记越少,就越有可能受益于更大的模型,如图1所示。

              

图1:使用较少标记的示例进行微调时,较大的模型会产生较大的收益。

较大的自监督模型具有更高的标签效率,即使仅对少数几个带有示例的示例进行微调,它们的性能也明显更好。

因此,通过未标记数据的特定任务使用,可以进一步提高模型的预测性能,并将其迁移到较小的网络中。

作者进一步证明了,在SimCLR中用于半监督学习的卷积层之后,进行非线性变换(又称投影头)很重要。

更深的投影头不仅可以改善通过线性评估测得的表示质量,而且还可以改善从投影头中间层进行微调时的半监督性能。

结合这些发现,该框架在ImageNet上实现了半监督学习的SOTA,如图2所示。

图2:仅使用1%/10%的标签,在ImageNet上,以前的SOTA方法和本文方法(SimCLRv2)的top-1准确率。虚线表示完全监督下的ResNet-50进行100%标签训练。完整比较见表3。

在线性评估协议下,SimCLRv2实现了79.8%的top-1准确率,相对于之前的SOTA的改进为4.3%。

如果仅对1%/ 10%的标记示例进行微调,并使用未标记的示例将其蒸馏至相同的架构,则可以达到76.6%/ 80.9%的top-1准确率,相对于以前的SOTA,准确率提高了21.6%/ 8.7%。

通过蒸馏,这些改进也可以迁移到较小的ResNet-50网络中,使用1%/ 10%的标签达到73.9%/ 77.5%的top-1准确率。

相比之下,对所有标签图像进行训练的标准监督ResNet-50可以达到76.6%的top-1准确率。

表3:在半监督设置下训练的模型的ImageNet准确率。对于本文的方法,上表展示了在微调后进行蒸馏的结果。对于较小的模型,使用自蒸馏的ResNet-152(3×+ SK)作为教师网络。

关于一作

Ting Chen于2019年加入谷歌大脑,担任研究科学家。他在2019年3月获得了加州大学洛杉矶分校计算机科学系的博士学位,导师是UCLA计算机科学系的副教授孙怡舟。他也是论文SimCLR的一作。

       

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/486556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dataframe第二列 r语言_123.R简介和统计绘图

123R简介和统计绘图本节作者:刘永鑫 中国科学院遗传与发育生物学研究所;陈同 中国中医科学院版本1.0.2,更新日期:2020年8月31日本项目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本节目录…

脑机接口中的后门攻击

本文来自伍冬睿科学网博客链接地址:http://wap.sciencenet.cn/blog-3418535-1256333.html?mobile1机器学习在脑机接口中的成功应用,使脑机接口得到了快速的发展。然而,对抗攻击的发现让我们不得不重新思考机器学习模型的安全性。这些潜在的危…

联想高性能服务器,Lenovo|EMC推出高性能4x4TB服务器级NAS

作为联想PC战略的延伸和全球企业级战略的重要组成部分,联想与EMC建立起全球范围内的战略合作,并于2013年4月2日在深圳全新推出面向企业市场的联合品牌存储新产品家族。可以说联想与EMC合作是在企业级业务领域的又一重要战略布局。在4月2日的发布会上&…

调用图片文件夹中的任意图片随机显示_他来了,他来了,Mathpix拜拜了~~~文字、表格、公式图片识别神器V0.1测试版...

(图0)img2txt V0.8 【正式版】第1步:win10自带截图快捷键:WinShiftS,也可以用QQ等截图工具;第2步:打开软件,完成初始配置(后续调用无需再配置),按…

​MEMS在未来面临的挑战

来源:内容由半导体行业观察(ID:icbank)编译自「semiconductor-digest」,谢谢。在过去的几十年中,MEMS传感器已经走了很长一段路。1990年代末,用于汽车气囊碰撞传感器的MEMS加速度计和用于侧翻检…

基于jQuery/zepto的单页应用(SPA)搭建方案

这里介绍一个基于jquery或zepto的单页面应用方案,遵循尽可能简单的原则,使大家一目了然,只需配置一个路由,之后完全按照jq日常写法即可完成。可做学习使用,也可修改后用于一些业务逻辑简单的spa项目中;下面是个dome&am…

怀旧服开新服务器消息,怀旧服B测已经开启 全新内容爆料汇总

来了来了,终于来了!在经历了昨天一次短暂的乌龙之后,暴雪终于以蓝帖的形式发布了消息:《燃烧的远征:经典怀旧服》BETA测试目前已经正式开启!在Battle.net(战网客户端)上目前已经出现了《Burning Crusade Classic Beta》的客户端字…

用深层神经网络解释大脑的运作

来源:混沌巡洋舰Daniel Yamins,麻省理工学院博士后的一位计算神经科学,有时会为了他的机器视觉项目辛苦工作到午夜以后。他煞费苦心地设计了一个系统,可以识别图片中的物体,而不管其大小、位置和其他特性的变化ーー这是…

foreach 循环达到条件的第一次就停止_是否应该停止在JavaScript代码中使用forEach()?...

在本文中,我想概述一下标准的 for 循环和 forEach() 方法背后的区别,并对它们各自带来的一些好处进行评论。作为免责声明,请不要把标题当真。我写这篇文章的目的是为了让读者了解缺点,并提供一些关于什么时候可以或不可以使用 for…

git 忽略__pycache___容易被忽略的 Python 命令行参数

上周编写了一个 Python 脚本用于将一堆包含 oracle dmp 文件的 rar 压缩包恢复到 oracle 数据库。由于 oracle dmp 文件恢复速度较慢,通过 nohup commad 2>&1 & 提交命令到后台运行。运行过程中发现通过 print 命令输出内容无法及时地重定向到 nohup.out…

kindeditor和easyui整合出不来

1.首先必备的三个导入的文件 <link rel"stylesheet" href"/day0320_maven_pm/libs/kindeditor/themes/default/default.css"/> <script charset"utf-8" src"/day0320_maven_pm/libs/kindeditor/kindeditor-all-min.js">&l…

虚拟机共享服务器设置,虚拟机共享网络设置教程

vm虚拟机网络共享设置&#xff1a;设置以前首先要确认“虚拟机”中的“本地连接”IP地址为自动获得&#xff01;1.在虚拟机设置里&#xff0c;单击以太网----网络连接类型为---NTA 使用以共享的主机IP地址&#xff01;2.单击编辑---虚拟网络参数&#xff01;3.单击自动桥接。去…

靠数学“拿了”两次诺贝尔奖,彭罗斯从“铺地砖”帮忙发现2011年化学奖的秘密...

来源&#xff1a;量子位诺贝尔奖没有数学奖&#xff0c;但是如果数学足够好的话&#xff0c;可以拿两次诺贝尔奖&#xff1a;帮别人拿一次&#xff0c;自己再拿一次。刚刚获得诺贝尔奖的英国数学家罗杰彭罗斯&#xff08;Roger Penrose&#xff09;就是这样。今年&#xff0c;彭…

PowerDesigner 中SQL文件、数据库表反向生成PDM

1 反向生成PDM 1) 创建一个空的PDM模型&#xff08;选择对应的DBMS&#xff09;&#xff1a; 2) 选择【Database】--【Update Model from Database…】菜单&#xff1a; 1.1 使用SQL文件 1) 在新窗口选择对应【Using script files】--【&#xff…

上传excel文件到服务器,excel怎么上传到云服务器

excel怎么上传到云服务器 内容精选换一换安装传输工具在本地主机和Windows云服务器上分别安装数据传输工具&#xff0c;将文件上传到云服务器。例如QQ.exe。在本地主机和Windows云服务器上分别安装数据传输工具&#xff0c;将文件上传到云服务器。例如QQ.exe。本地磁盘映射(推荐…

沈南鹏谈科学:第一性原理,“无为”而“有趣”

勇于探索未知&#xff0c;才能发展科学。10月30日-11月1日&#xff0c;第三届世界顶尖科学家论坛在上海举行。今年的世界顶尖科学家论坛是特殊之年的一场世界级科学盛会。横跨四大洲、11个时区、25个国家和地区、100多座城市&#xff0c;此次论坛云集了全球230余位科学家&#…

设置目录_[LaTeX 尝试] titletoc - 为算法目录、定理目录等设置子目录

本文已加入专栏文章目录&#xff0c;归入「进阶使用」文章系列。titletoc 宏包提供了定制目录列表样式的功能&#xff0c;本文主要讨论其中的「创建子目录」功能。标准目录的子目录LaTeX 的典型目录通过 tableofcontents 输出&#xff0c;一个文档里最多使用一次。在实践中&…

postgresql 远程用户_构建Python pandas基于SSH远程MySQL和PostgreSQL的数据分析

背景知识视频教程Python中使用Pandas教程 - 国外课栈​viadean.comPandas数据分析与探索 - 国外课栈​viadean.com如果您无法从外部环境直接访问数据库&#xff0c;则可能需要SSH隧道来查询它。 在这篇文章中&#xff0c;我将向您展示如何通过SSH连接并查询MySQL数据库到Pandas…

达尔文之过:人类真的和其他生物平等吗?

1859年发表的《物种起源》 图片来源&#xff1a;Wikimedia Commons来源&#xff1a;环球科学人类在自然界中的地位&#xff0c;真的如达尔文与赫胥黎认为的那样&#xff0c;“与其他生物平等”吗&#xff1f;这种贬抑人类地位的理想化理念&#xff0c;或许推进了人类对大自然肆…

c++矩阵连乘的动态规划算法并输出_算法面试必修课,动态规划基础题型归纳(三)

动态规划&#xff08;Dynamic Programming&#xff0c;简称DP&#xff09;&#xff0c;是大家都觉得比较难以掌握的算法。为了应付面试&#xff0c;我们经常会背诵一下DP问题的源码&#xff0c;其实&#xff0c;只要理解了思想&#xff0c;掌握基本的模型&#xff0c;然后再来点…