MSRA20周年研究趋势文章|图像识别的未来:机遇与挑战并存

640?wx_fmt=jpeg

文/微软亚洲研究院 代季峰 林思德 郭百宁


识别图像对人类来说是件极容易的事情,但是对机器而言,这也经历了漫长岁月。


在计算机视觉领域,图像识别这几年的发展突飞猛进。例如,在 PASCAL VOC 物体检测基准测试中,检测器的性能从平均准确率 30% 飙升到了今天的超过 90%。对于图像分类,在极具挑战性的 ImageNet 数据集上,目前先进算法的表现甚至超过了人类。


图像识别技术的高价值应用就发生在你我身边,例如视频监控、自动驾驶和智能医疗等,而这些图像识别最新进展的背后推动力是深度学习。深度学习的成功主要得益于三个方面:大规模数据集的产生、强有力的模型的发展以及可用的大量计算资源。对于各种各样的图像识别任务,精心设计的深度神经网络已经远远超越了以前那些基于人工设计的图像特征的方法。


尽管到目前为止深度学习在图像识别方面已经取得了巨大成功,但在它进一步广泛应用之前,仍然有很多挑战需要我们去面对。与此同时,我们也看到了很多具有未来价值的研究方向。


挑战一:如何提高模型的泛化能力


图像识别技术在可以被广泛应用之前,一个重要的挑战是,怎样才能知道一个模型对未曾出现过的场景仍然具有很好的泛化能力。


在目前的实践中,数据集被随机划分为训练集和测试集,模型也相应地在这个数据集上被训练和评估。需要注意的是,在这种做法中,测试集拥有和训练集一样的数据分布,因为它们都是从具有相似场景内容和成像条件的数据中采样得到的。


然而,在实际应用中,测试图像或许会来自不同于训练时的数据分布。这些未曾出现过的数据可能会在视角、大小尺度、场景配置、相机属性等方面与训练数据不同。


一项研究表明,数据分布上的这种差异会导致各种深度网络模型的准确率产生明显的下降。当前模型对数据分布自然变化的敏感性可能成为自动驾驶等关键应用的一个严重问题。


挑战二:如何利用小规模和超大规模数据


我们需要面对的另一个重要的挑战是如何更好地利用小规模训练数据。虽然深度学习通过利用大量标注数据在各种任务中都取得了巨大的成功,但现有的技术通常会因为只有很少的标记实例可用而在小数据情景中崩溃。这个情景通常被称为“少样本学习(few-shot learning)”,并需要在实际应用中仔细考虑。例如,一个家庭机器人被期望可以完成这样的任务:向它展示一个新物体,且只展示一次,之后它便可以识别这个物体。一个人可以很自然地完成这个任务,即使这个物体之后又被操作过了,例如一个毛毯被折叠起来了。如何赋予神经网络像人类这样的泛化能力是一个开放的研究问题。


另一个极端是如何利用超大规模数据有效地提高识别算法的性能。对于像自动驾驶这样的关键应用,图像识别的出错成本非常高。因此,研究者们创造出了非常庞大的数据集,这些数据集包含了数以亿计的带有丰富标注的图像,并且他们希望通过利用这些数据使模型的准确度得到显著提高。


然而,目前的算法并不能很好地利用这种超大规模数据。在包含了 3亿 张标注图片的 JFT 数据集上,各种深度网络的性能随着训练数据量的增加,仅仅呈现出对数级的提高(图一)。在大规模数据的情况下,继续增加训练数据带来的收益会变得越来越不明显,这是一个有待解决的重要问题。

 

640?wx_fmt=png

图|目标检测在 JFT-300M 数据集上的性能随训练样例的增多呈对数倍的提高。x 轴是对数尺度下的数据大小。y 轴是目标检测的性能。左图使用 COCO minival 测试集上的mAP@[0.5,0.95] 指标,右图使用 PASCAL VOC 2007 测试集上的 mAP@0.5 指标。红蓝两条曲线分别代表两种不同的模型。(来源:微软)


挑战三:全面的场景理解


除了这些与训练数据和泛化能力相关的问题外,还有一个重要的研究课题是全面的场景理解。除了识别和定位场景中的物体之外,人类还可以推断物体和物体之间的关系、部分到整体的层次、物体的属性和三维场景布局。


获得对场景的更广泛的理解将会帮助例如机器人交互这样的应用,因为这些应用通常需要物体标识和位置以外的信息。这个任务不仅涉及到对场景的感知,而且还需要对现实世界的认知理解。要实现这一目标,我们还有很长的路要走。全面的场景理解的一个例子为全景分割,见图二。

 

640?wx_fmt=png

图|(a) 原图;(b) 语义分割:识别天空、草地、道路等没有固定形状的不可数材质 (stuff),标记方法通常是给每个像素加上标签 ;(c) 实例分割:分割人、动物或工具等可数且独立的物体实例 (object instance),通常用包围盒或分割掩码标记目标;(d) 全景分割:生成统一的、全局的分割图像,既识别材质,也识别物体。(来源:微软)


挑战四:自动化网络设计


最后一个值得一提的挑战是使网络设计自动化。近年来,图像识别这一领域的重心从设计更好的特征转向了设计更新的网络架构。然而,设计网络架构是一个冗长乏味的过程,它需要处理大量的超参数和设计选择。调优这些元素需要有经验的工程师花费大量的时间和精力。


更重要的是,一个任务的最优架构和另一个任务的最优架构可能是完全不同的。尽管我们对自动神经架构搜索的研究已经开始了,但它们仍然处于早期阶段并且仅适用于图像分类任务。当前方法的搜索空间非常狭窄,因为它们寻找的是现有网络模块的局部最优组合(例如深度可分离卷积和恒等连接),并且无法发现新的模块。目前还不清楚这些现有的方法是否足以胜任更复杂的任务。

 

640?wx_fmt=png

图|神经架构搜索算法的抽象图解。搜索策略首先从事先定义好的搜索空间 A 中选择一个架构 A,这个构架接着被评估策略进行评估,并将评估的 A 的性能传递给搜索策略。(来源:微软)


尽管在图像识别领域存在上述诸多挑战,但我们仍然相信深度学习在图像识别领域的巨大潜力。解决这些问题的机会比比皆是,下面我们看看这其中的几个研究方向:


方向一:整合常识


图像识别领域有一个重要的研究方向是将常识融入到深度学习中。目前,深度学习主要作为一种纯粹的数据驱动技术被使用。在深度学习中,神经网络利用训练集中的标注样本学习一个非线性函数,之后在测试时则将这个学习到的函数作用到图片像素上。训练集之外的信息则一点也没有被用到。


相比之下,人类识别物体不仅基于已经看到的样本,还基于他们有关真实世界的常识。人们能够对他们所看到的东西进行推理,以避免不合逻辑的识别结果。此外,当遇到新的或超出预期的东西时,人类可以迅速调整他们的知识来解释这次的新经历。如何在深度网络中获取、表示常识以及利用常识进行推理是一个挑战。


方向二:几何推理


联合执行图像识别和几何推理则是另一个有潜力的方向。图像识别的主要模型只考虑了二维外观,而人类可以感知三维场景布局以及推断其内在的语义类别。三维布局不仅可以从双目视觉中获得,还可以从二维输入的几何推理中得到,就像人们看照片时所做的那样。联合图像识别和几何推理为双方都提供了好处。


从几何推理中确定的三维布局可以帮助在看不见的视角、变形和外观的情况下引导识别。它还可以消除不合理的语义布局,并帮助识别由其三维形状或功能定义的类别。例如,沙发中存在着巨大的类内外观差异。然而,它们拥有共同的属性,可以帮助识别它们。比如它们都有一个水平面用来坐,一个背面用于支撑。另一方面,识别出来的语义可以规范化几何推理的解空间。例如,如果一只狗在一个场景中被识别,它相应的三维结构应该符合狗的三维形状模型。

 

640?wx_fmt=png

图|从视频的两个不同视角的帧重建出复杂动态场景的点云(来源:微软)


方向三:对关系建模


关系建模也有很大的研究潜力。想要全面理解一个场景,对场景中存在的目标实体之间的关系和相互作用的建模非常重要(图四)。考虑两张图片,每个图片都包含一个人和一匹马。如果一张展示的是骑着马的人,另一张展示的是踩着人的马,显然这两张图片表达了完全不同的意思。此外,通过关系建模提取的底层场景结构可以帮助补偿当前深度学习方法因数据有限而出现的模糊不确定等问题。尽管人们已经在努力解决关系建模这个问题,但这项研究仍然是初步的,并且还有很大的探索空间。

 

640?wx_fmt=png

图|目标检测中的关系网络。表示物体的外表特征,表示物体的几何特征(来源:微软)


方向四:学习如何学习


这里还有一个值得一提的方向是元学习,它的目标是学习学习过程。这个课题最近引起了相当多的关注,而且神经架构搜索也可以被认为是它的一种应用。


然而,由于目前对学习过程建模的机制、表示和算法还比较初级,元学习的研究仍处于早期阶段。以神经架构搜索为例,它只局限于现有网络模块的简单组合。元学习者无法捕捉到创作新网络模块所需的微妙的直觉和敏锐的洞察力。随着元学习的进步,自动架构设计的潜力可能会被完全释放出来,进而得到远超手工设计的网络结构。

 

640?wx_fmt=png

图|元学习近期的进展。自左至右分别为元学习的超参数优化 、神经架构搜索 、少样本图像分类。

(来源:微软)


这是一个激动人心的从事图像识别的时代,一个充满了推动领域发展、影响未来应用的机会时代。我们热切盼望即将到来的进步,并期待这些新技术以深刻而神奇的方式改变我们的生活。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达作业7:梯度下降优化算法

先说说BatchGD用整个训练样本进行训练得出损失值,SGD是只用一个训练样本训练就得出损失值,GD导致训练慢,SGD导致收敛到最小值不平滑,故引入Mini-batch GD,选取部分样本进行训练得出损失值, 普通梯度下降算…

什么是单应矩阵和本质矩阵

知乎上面的大牛还是很多,直接搜Homography或者单应矩阵就能得到很多大神的回答,可能回答中的一句话或者一个链接就够自己学习很久。 其实在之前研究双目视觉的时候就接触了对极几何,通过视觉就可以得到物体的远近信息,这也是特斯…

tensorflow实现反卷积

先看ogrid用法 from numpy import ogrid,repeat,newaxis from skimage import io import numpy as np size3 x,yogrid[:size,:size]#第一部分产生多行一列 第二部分产生一行多列 print(x) print(y) 打印结果: newaxis用法: """ newaxis…

寿命能推算吗?加州大学科学家提出“预测方法”

来源:中国科学报从古至今,从国内到国外,从炼丹术到现代科学,长生不老似乎一直是人类乐此不疲的追求。但若要延缓衰老,首先要弄清是什么造成了衰老。近日,加州大学洛杉矶分校(UCLA)生…

Deep Image Homography Estimation

在知乎问题:深度学习应用在哪些领域让你觉得「我去,这也能行!」?中遇到一篇提交在arXiv 2016(arXiv不是正式发表,只是可以证明原创性,提供时间戳的网站)的文章《Deep Image Homograp…

tensorflow:双线性插值反卷积

首先生成333的黑色图片 """ 生成333黑色图像 """ def produce_image():size 3x, y ogrid[:size, :size] # 第一部分产生多行一列 第二部分产生一行多列z x yz z[:, :, newaxis] # 增加第三维# print(z)img repeat(z, 3, 2)/12 # 在第三…

腾讯医疗AI新突破:提出器官神经网络,全自动辅助头颈放疗规划 | 论文

来源:量子位腾讯医疗AI实验室又有新研究。这次跟美国加州大学合作,在国际权威期刊《Medical Physics》发表最新研究成果:《器官神经网络:深度学习用于快速和全自动整体头颈危及器官靶区勾画》AnatomyNet: Deep Learning for Fast …

视频制作中的绿幕与拜耳阵列

先来欣赏一些大片背后的特效。 现在国内的电影市场越来越大,做短视频的自媒体也越来越多,在他们的后期视频制作的片花中可以看到很多都在使用绿幕或者蓝幕,这是为什么呢? 首先肯定是为了抠图的方便。将主体部分抠出再将通过特效…

吴恩达作业8:三层神经网络实现手势数字的识别(基于tensorflow)

数据集的载入,随机产生mini-batch放在tf_utils.py,代码如下 import h5py import numpy as np import tensorflow as tf import mathdef load_dataset():train_dataset h5py.File(datasets/train_signs.h5, "r")train_set_x_orig np.array(train_datase…

基于visual Studio2013解决面试题之0307最后谁剩下

题目解决代码及点评/* n 个数字(0,1,…,n-1)形成一个圆圈,从数字 0 开始,每次从这个圆圈中删除第 m 个数字(第一个为当前数字本身,第二个为当前数字的下一个数字&…

谷歌、苹果等大佬亲自戳穿自动驾驶完美童话,技术、场景、安全牢笼实难突围!...

来源: 物联网智库摘要:自动驾驶普及不仅局限于自身技术和应用场景,而且与产业链各环节密切相关。一项科技从诞生到被人们所接受是一个循序渐进的过程,自动驾驶真正普及还任重而道远。2018年11月1日百度世界大会上,百度…

使用文件监控对象FileSystemWatcher实现数据同步

使用文件监控对象FileSystemWatcher实现数据同步 原文 使用文件监控对象FileSystemWatcher实现数据同步 最近在项目中有这么个需求,就是得去实时获取某个在无规律改变的文本文件中的内 容。首先想到的是用程序定期去访问这个文件,因为对实时性要求很高&a…

吴恩达作业11:残差网络实现手势数字的识别(基于 keras)+tensorbord显示loss值和acc值

一,残差网络实现手写数字识别 数据集地址:https://download.csdn.net/download/fanzonghao/10551018 首先来resnets_utils.py,里面有手势数字的数据集载入函数和随机产生mini-batch的函数,代码如下: import os import numpy as…

通过SVD求解单应矩阵

我们现在知道原则上4对匹配点对就可以唯一确定单应矩阵,但是在实际应用中我们无法保证两个视图严格满足使用条件(只有旋转变换;远景;平面场景),所以要使用拟合的方法求一个最优解。现在就来以SIFT算法源码为…

注意力机制(Attention)最新综述论文及相关源码

来源:专知注意力机制(Attention)起源于模仿人类的思维方式,后被广泛应用于机器翻译、情感分类、自动摘要、自动问答等、依存分析等机器学习应用中。专知编辑整理了Arxiv上一篇关于注意力机制在NLP中应用的综述《An Introductory Survey on Attention Mec…

橙子楼的猥琐大叔

故事要从暑假开始说起,那时我还在准备考研,每天往返于教室、宿舍和食堂,单调但不会无趣,常常会有故事发生,生活也很充实。 考研的一般都会在固定的教室有个自己的位子。 坐我正前面的是一个妹子,准确的说是…

Pycharm下安装Tensorflow

趁着帮师妹看Github上的一个项目,督促自己学习一下Python下训练神经网络的一整套流程。没想到在一开头就遇到了不少问题。首先是Pycharm中导入Github项目的问题,还有安装tensorflow的问题,之后又遇到了多种版本的Python共存的问题。在这里记录…

吴恩达作业9:卷积神经网络实现手势数字的识别(基于tensorflow)

数据集链接:https://download.csdn.net/download/fanzonghao/10551018 提供数据集代码放在cnn_utils.py里。 import math import numpy as np import h5py import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.python.framework import ops…

AI洞观 | 戴上红帽 看IBM冲杀云计算市场

来源 | 网易智能(公众号 smartman163)摘要:可以预计,未来的云计算市场将越来越比拼生态综合服务能力,云计算行业进入下半场,谁在裸泳不久见分晓。IBM豪掷340亿美元收购红帽(Red Hat)…

基于visual Studio2013解决面试题之0608找出两个只出现一次的数

题目解决代码及点评/*已知数组中有两个数只出现一次,其他成对出现,请找出这两个数解决办法:1)简化问题,如果数组中只有一个数出现一次,那么只要对这个数组做异或即可2…