2015伦敦深度学习峰会笔记(转载)

摘要:在伦敦举行的第三届深度学习峰会由RE.WORK主办,汇集了从工业领域到学术领域不同背景的专业人士,本文是该峰会第一天的笔记。包括Koray Kavukcuoglu、Sander Dieleman等知名深度学习专家分享了自己的经验。

上周,我有机会参加在伦敦举行的第三届深度学习峰会,上两届分别在旧金山和波士顿举行。

深度学习峰会由 RE.WORK主办,汇集了从工业领域到学术领域不同背景的专业人士,在快节奏的两天里,安排了许多时长为20分钟的演讲以及供人们交流讨论的茶歇。

这里是我第一天的笔记,如果您发现我有说错的地方,请告知我!

所有的演讲都已录成视频,一旦视频发布,我将会在此篇博客中更新链接。

英伟达的 Alison Lowndes致欢迎词之后,演讲由Alex Graves开始,他的讲话是《神经图灵机》(NTMs, 论文及代码)。Alex是递归神经网络(RNNs)最重要的研究者之一,同时他是谷歌DeepMind的成员。神经图灵机背后的思想是学习编程而不是模式。其中的困难之一是编码程序操作,因此它们是可微的,使得NTMs可以通过梯度下降方法来训练。他们已经能够训练NTMs让它们执行基本的算法,如复制,循环和排序。他们现在正在寻找NP问题的解决方案,如旅行商问题,初步结果表明效果不错。

神经图灵机学习排序

Koray Kavukcuoglu,同样来自于谷歌DeepMind,他的演讲是《端到端的Agents学习》。Koray也是Torch框架的创建者之一,Torch被大量用于谷歌DeepMind和Facebook AI Research之中。他演讲的主题是通用性AI,同一个系统可以在大量任务中工作并且从原始输入中自动学习。他提出了著名的深度Q网络(DQN)算法,它学会了玩Atari 2600款游戏并且比人类玩家玩的还要出色,最后出现在了《自然》杂志的封面上( 论文)。DQNs是由深度学习(端到端训练,从原始数据到行动值)和强化学习的组合,后者在某种程度上是一个agent(例如玩家),通过在环境(例如游戏)中行动进行学习,并且最大化奖励(例如得分)。Koray然后展示了Gorila( 论文),它是一种分布式DQNs训练架构,许多actors通过并行的方式采取行动,在49款游戏中,有41款游戏得到的结果比使用原始本地架构要好。更多关于Gorila的资料可以在2015 ICLR( 幻灯片 视频1 视频2)上的David Silver演讲中找到。DQNs还未解决的问题之一是长期策略(例如,找到在之后游戏之中打开门的一把钥匙)。他们同时还在演讲游戏之间的迁移学习。

Gorila,当你需要大规模的强化学习时可以使用

之后演讲风格改变,Ben Medlock, Swiftkey的联合创始人和CTO,与The Next Web的Martin Bryan之间开始了炉边谈话。Swiftkey是一款智能键盘,它代替了智能手机的内置键盘。目前算法主要集中在输入词改正和联想,长期目标是预测用户意图而不是用户想要输入的文字。搭载深度学习的第一个版本几乎准备就绪了。DL可以帮助分析艰难的语言,比如汉语和芬兰语,并且与传统神经网络处理相比,它可以利用更多的上下文信息(位置,应用程序,时间等)。DL在更长期分析中同样有用,使用RNNs和之前语句可以得到更好的预测。

接下来是英伟达的Alison Lowndes的演讲,她演讲的内容是《深度学习对现代生活的影响》。她大体概述了深度学习,包括神经网络复兴背后的三个驱动力(更多的数据,更好的模型,强大的GPUs)。Alison给出了最近一些不错的例子,比如Giraffe( 论文和代码),它是一款国际象棋引擎,通过与自己对弈,在仅仅72个小时之内就达到了国际大师的水准。

Giraffe在72小时内成为国际象棋专业玩家

之后根特大学博士、目前就职于谷歌DeepMind的Sander Dieleman发表了演讲,演讲主题是关于他与另外几位根特博士生如何在浮游生物分类中赢得了Kaggle竞赛。他们的模型使用了一个基于OxfordNet( 论文)的CNN,这个CNN赢得了2014年ImageNet挑战赛。那次挑战的一个困难点是仅仅只有30000个样本,但分类有121个之多,所以他们做了极大的数据扩展以避免过拟合(旋转,转换,改变比例,翻转等)。Sanders写了一篇关于这个解决方案 很棒的博客。

扩展浮游生物数据集的一种良好方式

Jeffrey de Fauw,又一位根特大学的博士,也是一位数据科学家,展示了Kaggle糖尿病性视网膜病变比赛的解决方案。本次比赛的目标是在眼部图像中确定糖尿病性视网膜病变(糖尿病性视网膜病变是发达国家中工作人群致盲的首要原因)的迹象。此外,只提供小数据集(35000条标记了左和右眼的数据),这些数据是偏态分布的,而且还有噪声。他分享了此次比赛的经验和教训:

  • 先用小型网络,能够更快迭代;
  • 不要用太多的过滤器;
  • 对较小类进行细分采样和扩张数据(例如亮度等)。

Jeffrey针对此解决方案同样写了篇 不错的博客。

真实数据,不平衡分类和相机拍摄噪声

Andrew Simpson,萨里大学研究员,演讲了关于永恒学习机器(PLMs)的话题。PLMs是一种新型的深度神经网络,能够快速学习。Andrew说,目前的DNNs有一些缺陷,特别是在使用它们前需要进行训练,而且永远保持同一个状态,使用LSTM的RNNs也有同样的问题,因为它们可以使用内存进行预测但是不能进一步训练。PLMs由两类DNNs组成,一类用来分类图像(存储DNN),另一类用来生成新图像(召回DNN)。它们使用永恒随机梯度下降,在每次迭代的时候,随机选择一个分类,召回DNN用这些输入来合成各个训练图像。经过召回训练的图像同随机选择的类一起来训练网络得到反向传播SGD中的一个步骤。通过“新经验”SGD步骤,新的类可以迅速添加,而不需要从头开始训练新的DNN。更多资料可以在这些论文中找到 论文1 论文2。

PSGD训练2种组合起来的深度神经网络

下一位是Matthew Zeiler,Clarifai的创始人及CEO,讲述了他们的API可以在10000种概念(一个概念既可以是一个对象,一个形容词或者一个动作)上分类图像。该API同样可以用于视频处理。他给出了一个令人印象深刻的视频处理演示,各种概念在视频时间轴上高亮显示,使视频易于搜索;它可以让任何人编辑视频的能力同样引人注目!他们非常注重性能(三五分钟的视频可以在6秒钟内处理完),充分利用AWS GPUs和专有工具包优化了速度和内存。目前它们支持21种语言概念,并对本地化做出了显著努力。他们将进一步涉足医疗保健领域,与现场传感器一起支持医学分析(例如耳朵,嘴巴和鼻子的图片)。

Matthew Zeiler展示汉语视频注释(图片由Courtney Corley提供)

接下来是Max Wellington,阿姆斯特丹大学计算机科学教授, Scyfer BV创始人,深度学习发起人,专注于医疗保健。他首先介绍了将机器学习运用于医疗保健领域中的困难,也就是维度灾难(对于个人有TB级的数据,但是对于患者则很少)和隐私灾难(数据被封锁在各个医院,缺少整体观察)。他提出了一些可行的方案:

  • 生成扩展数据集模型;
  • 充分利用数据的对称性;
  • 去除已知偏差(例如一些医院可能在不同阶段治疗疾病);
  • 使用贝叶斯方法减少过度拟合。

他进一步阐述,展示了他最近一些工作:

  • 贝叶斯黑科技( 论文, Hugo Larochelle备注),其目标是学习一个神经网络,类似于集成神经网络降低权重存储和概率校准输出;
  • 贝叶斯变分法丢失率( 论文, Hugo Larochelle备注),使用新的算法来学习丢失率,有助于避免过拟合;
  • 一篇尚未发布的关于区域不变性的论文(深度生成模型不变性表示,Louizos等人,2015),NN可以创建输入数据的潜在表示信息,去除已选择的信息(例如照片光照信息),有助于去除偏差。

 

去除光照信息后图片能够很好地被聚类

上午的最后一个演讲,主讲人Lior Wolf,特拉维夫大学的教员,演讲的主题是《使用深度学习和Fisher向量进行图片标注》( 论文PDF)。他首先表明,他以计算机视觉研究员的身份涉足自然语言处理领域,这又是一个DL如何在各个领域越来越多的佐证。Lior然后谈到了3个任务:

  • 图像标注(从给定列表中为一张图片分配一个描述);
  • 图像搜索(给定描述搜索图像);
  • 合成描述(为新的图像生成新的描述)。

为了实现图像标注和搜索,他们最开始用CNNs将图片转换成向量,用Word2Vec将词语转换成向量。大部分研究工作都集中于如何将词语向量结合到语句向量之中,由此产生了基于Fisher向量的模型。一旦他们得到了语句向量,他们使用典型相关分析(CCA)将图片表示和语句表示投射到同一空间里,使图像和句子可以匹配,找到最近邻的部分。为了合成描述,CNN->CCA管道中结合使用RNNs和输入数据。尚未解决的问题之一是,系统决定什么来描述,仍然需要继续研究,图像的哪一部分需要被描述。

 

自动生成的一个不错的描述

午餐之后,下午的演讲由两场语义分割开始,这意味着识别和描述图片中的物体。在道路场景解析(自动驾驶汽车),机器人抓取物体和医疗保健(分割肿瘤,龋齿等)等中是很有用的任务。

Sven Behnke,波恩大学计算机科学系主管,讲述了两个算法,神经抽象金字塔和语义RGB-D感知器。《神经抽象金字塔(NAP)》是他的历史著作(约98年, 论文)。NAP是一个神经网络,其包括横向连接,与人类视觉系统工作方式十分接近。它成功地应用于图像去噪和人脸定位。他最近的工作集中在语义RGB-D感知器方面,它是DNNs,输入数据来自于类似体感传感器,包括距离信息。使用这些距离信息,可以计算出每个像素的高度并相应地缩放输入,由此得到更好得分割和语义解释( 论文PDF)。此外,他们还在原始对象上使用深度遮罩,并且将色彩画的深度图像作为CNN的输入,由此取得了良好的效果( 论文PDF)。

使用距离信息得到更好的语义分割

Bernardino Romera Paredes,牛津大学博士后研究助理,接着分享了语义分割的一种新算法( 论文),它采用了全卷积网络再加上一个条件随机域作为递归神经网络,端到端地训练。他们取得了最好的准确性,但目前算法在实时使用上还不够快。他们发布了一个很棒的在线演示:http://crfasrnn.torr.vision

猫是DL从业人员常用的图像

接下来是Miriam Redi,雅虎实验室的研究科学家,她的演讲内容是《机器视觉的主观眼》。她的研究目标是在图像,特征中找到隐藏的元素,比如情感,社会,美学,创意和文化。她展示了四个不同的项目:

  • 计算机肖像美学( 论文)。使用画面特征和摄影师注解,他们能够预测肖像的美感,发现图像的特征,比如对比度和清晰度与感官美有高相关性,而性别,年龄和种族与感官美无相关性;
  • 帮助发现美但不流行的图片( 论文)。目标是在Flicker上发现美的但是被忽视的内容。他们首先在诸多资源中创建大型美感注解的数据集,然后创建能够找到新的美丽图画的模型;
  • 跨文化情感预测( 论文)。他们创建了12种语言的情感标注数据集。有趣的是,他们试图使用迁移学习,最后发现在拉丁语(使用法语标注训练出的分类器能够很好的预测拉丁语情绪)中迁移学习表现良好,而从拉丁语数据集中学习到的模型在预测汉语情绪上效果不佳;
  • 使用Vine视频预测创造性( 论文)。从诸多注解的视频和视频特征中,他们发现,当兼顾美学特征和新奇特征时,他们可以对创造性的定义进行建模。

总体来看,尽管大部分工作都是手工对特征进行编码,并且几乎没有使用深度学习,但是还是有许多有趣的问题有待探索,而且结果还非常令人满意。

雅虎实验室项目对创造性的定义

Cees Snoek,QUVA总监,他演讲的内容是《视频理解:今天和未来的期待》。Cees讲述了视频标记,说道,高通公司正在建设Zeroth平台,它可以使预训练的深度学习模型在您的移动设备上进行物体识别(如果搭载了高通Snapdragon芯片)。在演讲的第二部分,他提出了视频动作识别的一种方法。最初的想法是使用小管( 论文PDF)过滤帧,只取移动物体周边的区域。搜索空间大大减少,分类速度随之增加。然后,使用物体识别( 论文PDF)并且使用Word2Vec计算运动对象距离,他们可以在没有动作标记数据集的情况下预测动作( 论文PDF)。

帧序列中生成的小管

随后是圆桌对话《深度学习在未来该何去何从》。嘉宾有Tony Robinson, Speechmatics创始人及CTO,Daniel Hulme, SataliaCEO,John Henderson,白星投资负责人担任主持人。Tony Robinson是90年代使用神经网络进行语音识别的先驱,之后在AI冬天转向了其他算法方面,最后他又干回老本行了。Daniel Hulme的工作重心放在使用象征性AI(他将DL定义为子象征性AI)攻克难题(例如车辆路径),这其中重要的问题是如何行动而不是如何预测。当问及什么是AI的时候,Daniel说是目标导向适应行为,而Tony则说是目前计算机不能做的事情:)。对于未来,Tony说他仅仅能预测到计算机性能的提升,并且希望不要对深度学习大肆宣扬以免进入第二个冬天。当然,Daniel看到了2020年象征性AI的复兴。对于口头对话,他们意识到还有许多工作要做,这些工作一定会得到回报。他们同样被问及到AI对人类的威胁,并很快进行了反驳。他们用两种场景阐述了这个问题,一个是智能机器人(终结者类型的),另一个是愚钝机器人,使用愚蠢的方法解决问题(想想根除癌症,对机器人来说最简单的方法是消灭人类···)。由于我们有预知后果的能力,第二类机器人似乎更加危险。

这天最后一个演讲人是Sébastien Bratières,剑桥大学 dawin gmbh演讲布道者和联合博士研究员。演讲的主题是语音识别深度学习。Sébastien概述了DL如何改变语音识别管道。概括地说,语音识别是由一个声学模型(AM)构成,它能够从原始音频和语言模型(LM)中预测字词/音素序列,这个语言模型基于前一个字词选择另一个词语。在过去的5到10年中,AMs已经从高斯混合模型+隐马尔科夫模型演变到深度神经网络,而LMs从N-grams演变到RNNs。尽管管道已被简化,但仍然会使用旧模型(GMM+HMM仍然用于制备DNN的输入数据),未来的目标是只使用DL训练端到端的模型。尽管如此,仍有许多“不变”的问题,这对用户体验很重要,而且目前DL还未解决,比如适应性(不同口音,背影噪音等,在训练集中没有表现出来)。展望未来,Sébastien说,人类不是通过转录语音来学习语音识别的,非监督式学习在此还有发展空间(零资源的方法)。

一个简化了的语音识别管道

这是第一天峰会所有的笔记。总体而言,非常有趣并且多样化。

英文原文: Notes from Deep Learning Summit 2015 London — Day 1(译者/刘翔宇 审校/赵屹华、朱正贵 责编/周建丁) 

关于译者:  刘翔宇,中通软开发工程师,关注机器学习、神经网络、模式识别。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/247158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Awesome Deep Vision

本文转自:https://github.com/kjw0612/awesome-deep-vision http://jiwonkim.org/awesome-deep-vision/ A curated list of deep learning resources for computer vision, inspired by awesome-php and awesome-computer-vision. Maintainers - Jiwon Kim, Heesoo …

caffe框架翻译-理解(转载)

本文转自: http://dirlt.com/caffe.html http://blog.csdn.net/songyu0120/article/details/468170851 caffe http://caffe.berkeleyvision.org/ 1.1 setup 安装需要下面这些组件。这些组件都可以通过apt-get获得。 libgoogle-glog-dev # gloglibgflags-dev # gfla…

Java生鲜电商平台-SpringCloud微服务架构中分布式事务解决方案

Java生鲜电商平台-SpringCloud微服务架构中分布式事务解决方案 说明:Java生鲜电商平台中由于采用了微服务架构进行业务的处理,买家,卖家,配送,销售,供应商等进行服务化,但是不可避免存在分布式事…

【Yoshua Bengio 亲自解答】机器学习 81 个问题及答案(最全收录)

本文转自:http://mp.weixin.qq.com/s?__bizMzI3MTA0MTk1MA&mid401958262&idx1&sn707f228cf5779a31f0933af903516ba6&scene1&srcid0121zzdeFPtgoRoEviZ3LZDG#rd 译者:张巨岩 王婉婷 李宏菲 戴秋池 这是 Quora 的最新节目&#xf…

基础js逆向练习-登录密码破解(js逆向)

练习平台:逆向账号密码 https://login1.scrape.center/ 直接打开平台,输入密码账号,抓包找到加密的参数携带的位置,这边我们找到的是一个叫token的加密参数,这个参数的携带是一个密文 我们首先考虑一下搜索这个加密的…

python之socket

socket套接字 什么叫socket socket是处于应用层与传输层之间的抽象层,他是一组操作起来非常简单的接口(接受数据)此接口接受数据之后,交由操作系统.socket在python中就是一个模块. socket两个分类 基于文件类型的套接字家族 套接字家族的名字:AF_UNIX unix一切皆文件…

socket补充:通信循环、链接循环、远程操作及黏包现象

socket补充:通信循环、链接循环、远程操作及黏包现象 socket通信循环 server端: import socketphone socket.socket(socket.AF_INET,socket.SOCK_STREAM)phone.bind((127.0.0.1,8080))phone.listen(5)conn, client_addr phone.accept() print(conn, cl…

Java生鲜电商平台-SpringCloud微服务架构中核心要点和实现原理

Java生鲜电商平台-SpringCloud微服务架构中核心要点和实现原理 说明:Java生鲜电商平台中,我们将进一步理解微服务架构的核心要点和实现原理,为读者的实践提供微服务的设计模式,以期让微服务在读者正在工作的项目中起到积极的作用。…

ASP.NET Core Web 应用程序开发期间部署到IIS自定义主机域名并附加到进程调试

想必大家之前在进行ASP.NET Web 应用程序开发期间都有用到过将我们的网站部署到IIS自定义主机域名并附加到进程进行调试。 那我们的ASP.NET Core Web 应用程序又是如何部署到我们的IIS上面进行调试的呢,接下来我们来简单介绍下: 一、安装IIS所需的Host扩…

ASP.NET Core Web 应用程序系列(一)- 使用ASP.NET Core内置的IoC容器DI进行批量依赖注入(MVC当中应用)...

在正式进入主题之前我们来看下几个概念: 一、依赖倒置 依赖倒置是编程五大原则之一,即: 1、上层模块不应该依赖于下层模块,它们共同依赖于一个抽象。 2、抽象不能依赖于具体,具体依赖于抽象。 其中上层就是指使用者&am…

苹果电脑基本设置+Linux 命令+Android 实战集锦

本文微信公众号「AndroidTraveler」首发。 背景 大多数应届毕业生在大学期间使用的比较多的是 windows 电脑,因此初入职场如果拿到一台苹果电脑,可能一时间不能够很快的上手。基于此,这边出了系列视频,通过实际的演示让没使用过苹…

Mac中AndroidStudio没有找到Plugins的问题

我们在windows中都可以正常找到plugins 但是在Mac上AndroidStudio里 setting打开却没有plugins 正准备在Mac上搞一下flutter呢 我感觉智商受到了侮辱! 这里其实是mac版本给我开了个玩笑 你可以按快捷键,你就可以找到 快捷键 command ‘,’ 没错就是comm…

进程和操作系统概述

进程和操作系统概述 进程的基础 程序和进程: 程序是一对静态的代码文件 进程是一个正在运行着的程序,抽象概念 进程由操作系统操控调用交于CPU运行 操作系统 1.管理控制协调计算机硬件和软件的关系 2.操作系统的作用? ​ 第一个作用&#xff…

对前端Jenkins自动化部署的研究

1. 安装 安装 Nginx 1.1去官网下直接下载,解压缩 start nginx就可以使了,常用命令: start nginx # 启动 nginx -s reload # 修改配置后重新加载生效 nginx -s reopen # 重新打开日志文件 nginx -t # 配置文件检测是否正确 1.2 安装Jenkins…

ASP.NET Core Web 应用程序系列(二)- 在ASP.NET Core中使用Autofac替换自带DI进行批量依赖注入(MVC当中应用)...

在上一章中主要和大家分享在MVC当中如何使用ASP.NET Core内置的DI进行批量依赖注入,本章将继续和大家分享在ASP.NET Core中如何使用Autofac替换自带DI进行批量依赖注入。 PS:本章将主要采用构造函数注入的方式,下一章将继续分享如何使之能够同…

Java过滤器与SpringMVC拦截器之间的关系与区别

今天学习和认识了一下,过滤器和SpringMVC的拦截器的区别,学到了不少的东西,以前一直以为拦截器就是过滤器实现的,现在想想还真是一种错误啊,而且看的比较粗浅,没有一个全局而又细致的认识,由于已…

二次幂权限设计

设置含有的权限如增删改查减为1,2,4,8,16 如果A包含增删改这5个权限,那A的值为1247 如果B包含增改查这5个权限,那A的值为14813 如果C包含增删改查减这5个权限,那A的值为12481631 7二进制为111,13的二进制为1101,31二进制为11111 1二进制为1&a…

使用putty在linux主机和windows主机之间拷贝文件(已测试可执行)

转载于,请点击 首先下载putty,putty下载地址zip, 解压zip发现里面有plink.exe pscp.exe psftp.exe putty.exe puttygen.exe puttytel.exe等可执行文件,如果只是想要链接主机做一些操作那么使用putty.exe,要想要上传 …

ASP.NET Core Web 应用程序系列(三)- 在ASP.NET Core中使用Autofac替换自带DI进行构造函数和属性的批量依赖注入(MVC当中应用)...

在上一章中主要和大家分享了在ASP.NET Core中如何使用Autofac替换自带DI进行构造函数的批量依赖注入,本章将和大家继续分享如何使之能够同时支持属性的批量依赖注入。 约定: 1、仓储层接口都以“I”开头,以“Repository”结尾。仓储层实现都以…

可视化caffe模型结构及在线可视化

在线可视化caffe模型结构 http://ethereon.github.io/netscope/#/editor 假设Caffe的目录是$(CAFFE_ROOT) 1.编译caffe的python接口 $ make pycaffe 2.装各种依赖 $ pip install pydot $ sudo apt-get install graphviz 3.可视化模型 draw_net.py执行的时候带三个参数 …