深度学习发展简要笔记

来源:非正式组织

概要:在Yann LeCun、Yoshua Bengio和Geoffrey Hinton三巨头nature深度学习综述《deep learning》文章中提到,这段期间神经网络模型被主流的计算机视觉和学术界所抛弃。


一、前言


深度学习的发展大致分为这么几个学期:


  • 萌芽期:从BP算法的发明(1970s-1980s)到2006年期间。


  • 迅速发展期:从2006年栈式自编码器+BP微调提出之后。


  • 爆发期:从2012年Hintont团队的Alexnet模型在ImageNet竞赛取得惊人成绩之后。


萌芽期


在Yann LeCun、Yoshua Bengio和Geoffrey Hinton三巨头nature深度学习综述《deep learning》文章中提到,这段期间神经网络模型被主流的计算机视觉和学术界所抛弃。


这期间,学者们试图用有监督学习的方式训练深度神经网络,然而方法不是十分奏效,陷入了困境,在Andrew的教程中可以找到大概这几点原因:数据获取


  • 数据获取问题。有监督训练依赖于有标签的数据才能进行训练。然而有标签的数据通常是稀疏的,因此对于许多问题,很难获得足够多的样本来拟合一个复杂模型的参数。例如,考虑到深度网络具有强大的表达能力,在不充足的数据上进行训练将会导致过拟合。


  • 局部极值问题。使用监督学习方法来对浅层网络(只有一个隐藏层或者没有隐藏层)进行训练通常能够使得参数收敛到合理的范围内。但是当用这种方法来训练深度网络的时候,并不能取得很好的效果。特别的,使用监督学习方法训练神经网络的时候,通常会涉及到求解一个高度非凸的优化问题。对深度网络而言,这种非凸优化问题的搜索区域中充斥着大量“坏”的局部极值,因而使用梯度下降法(或者像共轭梯度下降法,L-BFGS等方法)效果并不好。


  • 梯度弥散问题(或者梯度消失)。梯度下降法在使用随机初始化权重的深度网络上效果不好的技术原因是:梯度会变得非常小。具体而言,当使用反向传播方法计算导数的时候,随着网络的深度的增加,反向传播的梯度(从输出层到网络的最初几层)的幅度值会急剧的减小,结果就造成了整体的损失函数相对于最初几层的权重的导数特别小。这样,当使用梯度下降法的时候,最初几层的权重变化非常缓慢,以至于他们不能够从样本中进行有效的学习。这种问题通常被称为“梯度的弥散”或者梯度消失。


因为一直没有找到有效的解决这些问题的方法,这期间,深度神经网络的发展一直不温不火。或者说在2001年Hochreiter的Gradient flow in recurrent nets: the difficulty of learning long-term dependencies(好像是这篇)提出了神经网络存在的几个问题后,在接下来的几年内神经网络的发展陷入了低谷。而那几年流行的机器学习算法是SVM和集成模型(随机森林、adaboost等)。


迅速发展期


2006年hinton在nature上发表了一篇文章Reducing the dimensionality of data with neural networks,针对上面提到的三个深度学习的问题,提出了栈式自编码器+BP微调的解决方案。在一定程度上解决了上面的三个问题。


  • 栈式自编码神经网络是无监督学习算法。因而不需要规模很大的有标签样本。


  • 经过自编码神经网络训练后的参数已经落在一个较优的位置上,从这个位置开始BP微调,不用担心局部极值问题。


  • 自编码神经网络训练已经使得深度网络的前几层具有表达能力了,比如可以提取出图片的边,局部组建等等,即使有梯度弥散问题,前几层参数不再更新,也不会影响最终深度网络的表达能力。


从此,深度学习开启崭新的浪潮。


爆发期


在12年的ILSVRC竞赛中,Hinton团队的Alexnet模型Imagenet classification with deep convolutional neural networks将1000类分类的top-5误差率降低到了15.3%,碾压了第二名使用SVM算法的26.2%,开启了深度学习的革命,从此之后,深度学习走上了指数式的发展道路。


回到Hilton团队的Alexnet模型上,仅仅使用了有监督的训练,貌似没涉及无监督的预训练。不是在之前说有监督的深度学习训练存在很多问题吗,大概是因为这几条原因,导致了有监督训练的可行:


  • 大规模标注数据的出现。在ILSVRC使用的数据集包括120万的训练图片,5万张验证图片和15万张测试图片。这些图片都是有标注的(属于1000类),而在imagenet出现之前,这样规模的标注数据是不存在的。


  • 对于局部极值的问题,nature综述中,三个大牛作者的说法是:对于深度网络来说,局部极值从来都不是一个问题,从任意的初始参数值开始训练网络,最后都能达到相似的分类效果。这也是被最近的理论和实践所证明的。


  • 对于梯度弥散导致的收敛速度慢的问题,Alexnet模型的两大利器:ReLu激活函数和GPU并行加速,前者使SGD有6倍的加速,后者使用两块CTX580GPU也极大的加快了SGD的收敛速度,两者的效果相乘,使得无监督预训练几乎是多余的了,梯度弥散问题也不再是一个很大问题。


总结


对于06-12年期间的深度神经网络主要以无监督预训练为主流,从12年以后,这时数据库足够大(上万级别),模型足够先进(ReLU激活函数,dropout等等),同时计算速度足够快(GPU)加速,使得无监督预训练(自编码神经网络)在很多应用场景中失去了存在的价值,有监督训练已经足够完成任务。


一句话总结,06年的无监督预训练开启了深度学习的纪元,在之后深度学习快速发展的过程中,大数据的获取、计算机硬件的发展以及深度模型的升级使得有监督训练重新走上舞台,无监督训练也算是完成了历史使命。


那么预训练还有用吗?答案是肯定的,比如我们有一个分类任务,数据库很小,这时还是需要通过预训练来避免过拟合的问题,只不过预训练是通过在一个大的数据库上,通过有监督来完成的,这种有监督预训加小的数据库上的微调的模型称为Transfer learning。


未来智能实验室致力于研究互联网与人工智能未来发展趋势,观察评估人工智能发展水平,由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎支持和加入我们。扫描以下二维码或点击本文左下角“阅读原文”


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497874.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据革命在危机中诞生 援助组织尝试灵活方法拨开战争迷雾

无国界医生组织在安曼为叙利亚提供支持。图片来源:Neil Brandvold来源:科学网概要:每当战争、飓风或其他灾害肆虐时,援助组织面临的最大问题之一就是缺乏可靠的数据。当Issam Salim(化名)讲述他进行的手术时…

德勤2018TMT八大预测:移动互联网迎来二次革命

来源:智东西概要:数万手机AR应用上市,AI芯片打入旗舰手机,数据中心ML芯片多样化,移动数字经济继续开挂。2017年,很多传统TMT巨头面临增长缓趋,于是考虑重资产化追求规模效应,开拓、转…

oracle 中 start tran,The value (30) of MAXTRANS parameter ignored

The value (30) of MAXTRANS parameter ignored在客户的数据库系统中(Oracle 10.2.0.3),当使用expdp备份时就出现如下错误,非常准时。可以看到,这个错误就是由于备份时创建备份主表(Master Table)产生的:Sat Mar 7 02:40:01 2009T…

北京出台自动驾驶新规:自动驾驶车辆须配备司机应急

来源:人民日报概要:在中国境内注册的独立法人单位,因进行自动驾驶相关科研、定型试验,可申请临时上路行驶。记者今天从北京市交通委获悉,北京市交通委联合市公安交管局、市经济信息委等部门,制定发布了加快…

【未来研究】城市云脑是互联网云脑的节点,城市云脑之间如何互补与支撑

作者: 互联网进化论作者 ,计算机博士 刘锋前言:本文是未来智能实验室的研究文章,重点探讨了基于类脑架构的智慧城市建设不应局限在城市内部,而是在互联网大背景下,不同城市之间也会发生智慧建设的协同效应。本文从城市…

JNDI全攻略

名词解释jndi是Java 命名和目录接口(Java Naming and Directory Interface,JNDI)的简称.从一开始就一直是 Java 2 平台企业版(JEE)的核心技术之一。在JMS,JMail,JDBC,EJB等技术中,就大量应用的这…

北京大学纳家勇治研究组在《美国国家科学院院刊》发文阐明时序记忆的神经机制

来源: 北京大学心理与认知科学学院官网概要:记忆是核心认知功能之一,使得人和动物能够根据经验改变自己的行为模式。近日,《美国国家科学院院刊》(Proceedings of the National Academy of Sciences of the United Sta…

管道( Pipeline )模型--示例

类图 时序图 阀门接口 /*** 阀门接口* author administrator**/ public interface Valve {public String getName();public void invoke( Context context ); }基本阀门 /*** 基础阀门* author administrator**/ public class BasicValve implements Valve{private String name…

一文告诉你,NIPS 2017有多火爆 | 附PPT、视频、代码大总结

原文来源:Medium、GitHub作者:TarasSereda「雷克世界」编译:嗯~阿童木呀、KABUDA今年的NIPS是一场盛大的、极富教育意义和探索精神的、魅力十足且人数众多的会议。第一步,登记排队量子计算机Tutorials深度学习:实践与趋…

不入oracle数据库,Oracle数据库之操作符及函数

一、操作符:1、分类:算术、比较、逻辑、集合、连接;2、算术操作符:执行数值计算;--工资加1000select empno,ename,job,sal1000 from emp;3、比较操作符:--比较运算符(between and包头不包尾)select * from …

Facebook面部识别新突破:可识别未标记照片中用户

来源:凤凰科技据科技博客TechCrunch报道,Facebook公司希望用户了解和掌控人们上传的照片,即便用户没有在照片中被标记出来。周二,Facebook推出了一项新的面部识别功能:照片检查(Photo Review)。…

德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部

来源: AI科技评论概要:卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和网友们一起来了一场「你问我答」(ask me anything)。卡耐基梅隆大学计算机系在读博…

如何测量智能产品的AI智商水平,论AI的三种智商 |未来研究

前言:本文是未来智能实验室关于人工智能智商的最新研究文章,主要提出智能系统的智能水平会因为测试目的的不同,产生三种不同的智商类型,针对这三种AI智商,本文也提出对应的测试方法和数学公式。相关英文论文与2017年12…

硅谷顶级VC:“S曲线”看四大风口,创企成功机会巨大

来源:全球技术地图新技术走入产业应用阶段,在完成了前期基础的试水后,大企业往往以雄厚的资本实力、强大的人才团队和广阔的市场资源,迅速占领新技术高地。那么顺应新技术而诞生的创业企业,还是否有打造成功企业的机会…

新型量子计算机首个基本元件问世,扩展性更强运算速度更快

来源:科技日报概要:最新研究证明了建造这种量子计算机的可行性,其有潜力克服目前的量子计算方法面临的扩展问题。据物理学家组织网近日报道,瑞典和奥地利物理学家携手,研制出了单量子比特里德伯(Rydberg&am…

Strut2中单元测试实例

项目文件结构图: 椭圆框中的Jar 包是单元测试时候需要引入的。 矩形框 MainTest 每个包下一个,为 JUnit4 的 Suite 套件,其作用是执行本包下的“测试类”和子包的 MainTest。 例如:jp.co.snjp.ht.MainTest package jp.co.snjp.h…

德国图宾根大学发布可扩展「对抗黑盒攻击」,仅通过观察决策即可愚弄深度神经网络

原文来源:arXiv作者:Wieland Brendel、Jonas Rauber、Matthias Bethge「雷克世界」编译:嗯~阿童木呀、哆啦A亮不知道大家有没有注意到,许多机器学习算法很容易受到几乎不可察觉的输入干扰的影响。到目前为止,我们还不清…

Understanding node.js

来源:http://debuggable.com/posts/understanding-node-js:4bd98440-45e4-4a9a-8ef7-0f7ecbdd56cb Node.js has generally caused two reactions in people Ive introduced it to. Basically people either "got it" right away, or they ended up being …

腾讯AI Lab刷新人脸检测与识别两大测评国际记录,技术日调用超六亿

来源:腾讯AI实验室概要:人脸检测是让机器找到图像视频中所有人脸并精准定位其位置信息,人脸识别是基于人脸图像自动辨识其身份,两者密切相关,前者是后者的前提和基础。腾讯AI Lab在国际最大、最难的人脸检测平台WIDER …

Jeff Dean| 面向系统的机器学习和面向机器学习的系统

来源:全球人工智能概要:我们将发布一系列内容,展示 Google 在 NIPS 2017 上发布的工作成果。首当其冲的便是来自 Jeff Dean 的 PPT 《面向系统的机器学习和面向机器学习的系统》。第 31 届神经信息处理系统年会(NIPS 2017&#xf…