解释深度学习的新角度,来自光学的启发

640?wx_fmt=jpeg

来源:网络大数据

摘要:谷歌技术人员、MIT博士Ali Rahimi受光学的启发,从功能模块化和层级的角度讨论了一种解释深度学习的新思路。


深度学习已经成熟到可以教给高中生了么?


我思考的这个问题,源于不久前我收到的⼀封来自某大公司产品经理的邮件。


我喜欢将私人通讯邮件公开于众,所以我将邮件内容摘在下面:


来自:M.


你好 Ali, ...

你如何训练团队里的年轻成员,使得他们有更好的直觉和预判?我团队里的工程师经常从其他科研员那「借鉴」超参数的值,但他们太担心要自己去调整参数了。...


我对着这封邮件思考了数日,却没有办法找到⼀个有条理的答案。


如果说应该有正确答案的话,我想回复说:也许她的工程师应该要有这种担心。


640?wx_fmt=jpeg


如果你是个工程师,你拿到了这个神经网络,然后你被要求去改进这个网络在某个数据集上的表现。你也许会假设这每层都是有它自己的作用和功能,但在深度学习领域,我们目前还没有统的语言和词汇去描述这些功效。我们教授深度学习的方法和我们教授其他科学学科的方法很不同。


几年前我迷上了光学。在光学领域,你会堆叠好几层不同的组件以处理输的光源。例如下图,就是相机的镜头:


640?wx_fmt=jpeg


要设计这样的系统,你从最简单的组件开始堆叠,这些组件往往以知名的发明者命名。然后通过仿真,你可 以判断你的设计是否符合你的要求,然后再添加不同的组件去修正先前设计的缺陷。


紧接着你会各种数学优化过程去调整这些组件的参数,例如镜面的形状、位置和倾斜角度等等,去最大程度实现你的设计目标。你就重复如此仿真、修改、调优的过程。

这很像我们设计深度网络的过程。


上图里所有的 36 个元素都是故意加⼊这个堆叠的系统,以用于修正某项具体的偏差的。这样的设计需要非常精确的解释模型去描述什么样的元素能够对透过它的光有什么样的效应。这个模型往往是关于这个元素的作用的,例如说折射、反射、衍射、散射和波前校正。


640?wx_fmt=jpeg


⼈们不害怕这样的设计过程。每年,美国培养的许多⼯程师都能设计出有的镜头,他们并不为这样的作感到担心害怕。


这并不是因为光学很容易,而是因为我们对光学的模型了然在心。


现代光学是通过抽象出不同层级的知识内容去教授的。


640?wx_fmt=jpeg


在最顶级,也是最容易的层级,是几何光学。几何光学是对波光学的抽象,光射线于于表达简单的矢量波光 学的波前矢量。而波光学⼜是对麦克斯韦方程的进⼀步简化。麦克斯韦方程 由能由量子力学推导而出,量子力学则超出了我的理解范围。


每⼀个层级都是通过作出⼀些简化的假定由紧邻的下⼀个层级推导⽽出,所以每⼀个层级能够比上⼀个层级解释更为复杂的现象。


640?wx_fmt=jpeg


我花了不少时间在顶四层抽象里设计系统。


这就是当今我们教授光学的方法。但相关理论并非总是如此按层级来组织。在百年前,这些理论还是在⼀个 相互矛盾的状态中共存。实践家们只能依赖于近乎道听途说的光学理论。


640?wx_fmt=jpeg


但这并没有阻止伽利略打造性能不错的望远镜,而且是在牛顿形式化几何光学前近⼀个世纪的时间点上。因 为伽利略对于如何造出能够放大数⼗倍的望远镜有足够好的解释模型。但他对光学的理解,却不足以让他的望远镜能够修正色差或者获得广视角。


在这些光学理论被抽象总结出来之前,每⼀项理论都需要从光的最基本概念出发。这就牵涉到要作出⼀套涵盖许多也许不切实际的假设。牛顿的几何光学把光假定作⼀束束可以被吸引、排斥的固体粒⼦。惠更斯则⽤ 由「以太」作为介质的纵波去描述光,也就是说用类似声波的方式去构建光。麦克斯韦也假设光经由以太传播。你从麦克斯韦方程的系数的名字也能窥得这种思路的⼀⼆。


愚蠢的模型,确实。但它们可量化且有预测的能力。


这些假设,我们今天听来也许觉得很愚蠢,但它们可量化而且有预测的能力。你可以随意代入数字于其中并得到精准的量化预测。这对于工程师而言极其有用。


寻找用于描述每层深度学习网络作用的模块化语言


如果我们能够像讨论光纤穿越每⼀层镜头元素的作用那样去讨论神经网络每⼀层的作用,那么设计神经网络将会变得更容易。


我们说卷积层就像在输⼊上滑动相应滤波器,然后说池化是处理了对应的非线性。但这只是非常低层次的描述,就像用麦克斯韦方程去解释镜头的作用。


也许我们应该依赖于更高级抽象描述,具体表达某个量被神经网络的层级如何改变了,好比我们用镜头的具 体作用去解释它如何弯曲光线那样。


如果这种抽象也能够量化,使得你只需要代⼊具体数值到某个公式里,它就能告诉你⼀个大概的量化分析,这样你就能更好地设计你的网络了。


我们离这样的语言还很远。我们先从简单点的开始


上⾯也许只是我被自己的幻想带跑了。


我们从简单点的开始。我们对深度学习的运作方式有很多解释模型。下⾯我会罗列⼀系列值得解释的现象,然后我们看看⼀些现有的模型对这些现象解释的能力有多强。


在开始之前,我得承认这种努力也许最后是徒劳的。光学花了 300 年在打磨自己的模型之上,而我只花了⼀ 个周六下午,所以这只能算是博客上的⼀些个⼈观点和想法。


现象:随机梯度下降 (SGD) 的随机初始化足够好了。但细微的数字错误或者步长会使 SGD 失效。


很多⼈在实践中发现,对于如何累积梯度的细微调整,可以导致对整个测试集表现的巨大变化。例如说你只用GPU而不是 CPU 去训练,结果可能会截然不同。


现象:浅的局部最优值意味着比深的局部最优值更好的泛化能力。


这种说法很时髦。有些⼈认为它是真的。有些⼈则用实际数据反驳。另外也有⼈给出了这个现象的变种 。众说纷纭,争议目前不断。


这个现象也许有争议性,但我还是先放在这里。


现象:批标准化层 (Batch Norm) 可以给 SGD 提速。


这个基本无争议,我只能提供⼀个小例外。


现象:即使有很多局部最优和鞍点,SGD 也表现卓越。


这个说法也包含了几个小的点。经常有人声称深度学习的损失表面充斥着鞍点和局部最优。也有不同的 说法,要不就认为梯度下降可以遍历这些区域,要不就认为梯度下降可以不遍历这些区域,但都能给出泛化能力不错的答案。也有说损失表面其实也没那么不堪。


现象:Dropout 胜于其他随机化策略。


我不知道如何正确分类类似 Dropout 的做法,所以我就称之为「随机化策略」了。

现象:深度网络能够记忆随机标签,但它们能泛化。


证据很直白,我的朋友们亲自见证并主张这种说法。


对这些现象的解释


对应上面列举的这些现象,我在下面列举我觉得最能解释这些现象的理论,这些理论均来自我上面引用的论文。


640?wx_fmt=jpeg


先别激动,原因如下:


1. 我们尝试解释的这些现象部分有争议。


2. 我没办法把这些解释按照抽象层级组织好。光学好教学的特性也没办法在这⾥重现。


3. 我怀疑部分我引用的理论不正确。


我想说的是


有很多人正在加⼊这个领域,然而我们能够给他们传授的不过是近乎道听途说的经验和⼀些预训练好的深度网络,然后就叫他们去继续创新。我们甚⾄都不能认同我们要解释的这些现象。所以我认为我们离能够在高中教授这些内容还有很远的距离。


那我们如何才能离这⼀步近点?


最好的不过是我们能够就每⼀层深度网络的功能作用,按照不同层级的抽象,给出对应的解释模型。例如 说,神经网络里的折射、散射和衍射会是怎么样的?也许你早就用具体的功能去思考神经网络,但我们就这些概念还没有统⼀的语言。


我们应该把⼀系列确认的现象组织起来,然后才来进行理论上的解释。例如说神经网络里的牛顿环、磁光克 尔效应和法拉第现象会是怎样的?


我和一小批同事已经开始了⼀项重大的实践工作,尝试去分类构建适合我们领域的解释模型,去形式化它 们,并且用实验去验证它们。这项工作是巨大的,我认为第⼀步应该是构建⼀个分层级的深度学习解释模 型,以用于高中的教学。


原文链接:http://www.argmin.net/2018/01/25/optics/


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/495170.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jQuery 结构分析

jquery核心 转自http://www.iteye.com/topic/783260 (function( window, undefined ) { // 构造jQuery对象 var jQuery function( selector, context ) { return new jQuery.fn.init( selector, context, rootjQuery ); } // 工具函数 Utilities // 异步队列 Deferred // 浏览…

北京航空航天大学王田苗教授:当前智能机器人发展若干挑战性问题

来源:雷锋网摘要:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝…

JavaScript 中的 require / exports、import / export、浅谈JavaScript、ES5、ES6

Node.js 的基础教学 之 exports 和 module.exports:https://zhuanlan.zhihu.com/p/82057593 浅谈 JavaScript、ES5、ES6:https://www.cnblogs.com/lovesong/p/4908871.html 1、为什么有模块概念 理想情况下,开发者只需要实现核心的业务逻辑&…

深度 | 智慧城市背景下的“多规合一”标准探究

来源:《技术与应用》 作者:杜青峰 万碧玉 王益 吴丽丽 王树东 姜栋 摘要:在参与智慧城市标准综合评价系统研发过程中,研究我国目前城市规划标准的现状,总结了我国现有城市规划标准中存在的自成标准、内容冲突、缺乏衔接…

Windows Terminal完整指南

原文:Windows Terminal: The Complete Guide:https://www.sitepoint.com/windows-terminal/ From:https://zhuanlan.zhihu.com/p/272082726 github:https://github.com/microsoft/terminal Windows Terminal,它是 WS…

谁将引领5G标准?

来源:中国知识产权杂志作者:王活涛 郑友德 沈剑锋 袁真富中国企业的5G技术创新之所以能不断取得突破性的成果,在全球通信标准上占有一定的“话语权”,在很大程度上得益于中国企业对技术创新的大力投入和发明专利积累。截止2018年6…

Python 操作 Kafka --- kafka-python

kafka-python:https://github.com/dpkp/kafka-python kafka-python 文档:https://kafka-python.readthedocs.io/en/master/apidoc/modules.html kafka 官方文档:http://kafka.apache.org/documentation.html Python 操作 Kafka 的通俗总结&a…

k8s 基本使用

Kubernetes 编排系统:https://www.cnblogs.com/gaoyuechen/p/8685771.html k8s 集群中的 yaml 文件详解:https://blog.csdn.net/qq_28361541/article/details/106089574 什么是 k8s,k8s 有什么功能 ? :https://www.jianshu.com…

全球芯片行业现状分析:大家都在依赖美国 未来如何破局?

来源:网易智能翻译:乐邦香港媒体《南华早报》近日发文称,中国依赖于美国的核心技术已有一定的时日,但全世界都是如此,美国在半导体制造领域无可撼动的领先优势,是50多年的研发成果。随着中兴事件进入下一个…

AI企业下一个使命:让生物特征数据使用走向阳光透明

来源:亿欧网摘要:时隔一年,生物特征识别技术不断被完善,公众的生物特征数据仍然每天被传感器收集汇总,但是对于生物特征数据的收集、储存、使用和流通仍然是半遮半掩的灰色区域,各方好像都等着导火索的出现…

命令行 浏览器

使用命令行浏览器在 Linux 终端上网浏览 我猜你阅读这篇文章可能是用 Firefox 或基于 Chrome 的浏览器(如 Brave),或者,也可能是 Chrome 浏览器或 Chromium。 换句话说,你正在利用基于 GUI 的方式浏览网页。然而&…

重磅来袭,机器人四大家族财务报表大揭秘

来源:华尔街见闻摘要:四大家族实力强劲,在机器人技术与市场占有率上遥遥领先。在2015年之前,四大家族在全球的市占率在50%以上,而随着全球许多细分领域机器人厂商的崛起以及《中国制造2025》推动下国内厂商的发展&…

Python 定时任务框架 apscheduler

github 地址:https://github.com/agronholm/apscheduler apscheduler 基本概念介绍 说到定时任务,会想起 linux 自带的 crontab ,windows 自带的任务计划,都可以实现守时任务。操作系统基本都会提供定时任务的实现,但是…

一文看懂人工智能产业链,未来10年2000亿美元市场

来源:传感器技术摘要:据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家。美国占据1078家居首,中国以592家企业排名第二,其后分别是英国,以色列,加拿大等国家。根据艾…

如何跟机器人“抢”工作?专家:新的分工将形成

来源:经济日报摘要:随着人工智能技术的深度发展和机器人的广泛应用,人们会从许多传统生产活动中解放出来,有了更多闲暇时间,更强大的支持手段,让生活更有趣和丰富多彩。创新、创意会成为生活和工作中的必需…

互联网让我们变笨了吗:过去10年关于大脑的11个有趣发现

来源:资本实验室摘要:人类大脑,长期以来被认为科学和宇宙中最复杂的事物之一。鉴于其复杂性,受制于技术限制,过去科学家很难解开其内部运作的秘密,但目前的研究成果表明我们离秘密又近了一些。聚焦前沿科技…

美研究人员公布“盲动”机器人技术细节

来源:新华网摘要:7月7日美国麻省理工学院近日发布公报称,该校研究人员最新公布了一种“盲动”机器人的技术细节。这种机器人不需要借助视觉系统,可在崎岖地形中穿行跳跃,有望在危险工作环境中得…

AutoJs 4.1.1 实战教程

Auto.js 中文文档:https://hyb1996.github.io/AutoJs-Docs/#/?id综述 pro 版本支持 Node.js AutoJs Pro 7.0.4-1 实战教程---史上最全快手、抖音极速版 :https://blog.csdn.net/zy0412326/article/details/107180887/:https://blog.csdn.n…

人工智能军备竞赛:一文尽览全球主要国家AI战略

来源:网络大数据摘要:人工智能的迅速发展将深刻改变人类社会和世界的面貌,为了抓住 AI 发展的战略机遇,越来越多的国家和组织已争相开始制定国家层面的发展规划。人工智能的迅速发展将深刻改变人类社会和世界的面貌,为…

flex和js进行参数传递

来着&#xff1a;http://www.cnblogs.com/Cnol/archive/2009/09/20/1570365.html 方法一&#xff1a;flex接收网页传值&#xff01;~ 1<?xml version"1.0" encoding"utf-8"?> 2<mx:Application xmlns:mx"http://www.adobe.com/2006/mxml&q…