人类如何从不同角度识别物体?你需要对「小样本学习」有所了解

来源:转载自公众号「雷克世界」微信号:ROBO_AI

编译:嗯~阿童木呀、多啦A亮

概要:在视觉层次结构的较低层次,不变性使你可以识别矩形或线条,即使它是倾斜、旋转或缩放的;而在更高的层次上,它可以让你识别人和物体,而无论视角、照明条件或背景环境。


之前,我们解释了视觉世界是由部分层次结构组成的。自行车由车把、车轮、踏板等构成;车轮由轮胎、轮辐、轮毂等组成;在物质世界的最低水平,一切都是由颜色、边缘、形状和纹理组成。在这种层次结构的每一层,我们的大脑在某种程度上都是不变的。在视觉层次结构的较低层次,不变性使你可以识别矩形或线条,即使它是倾斜、旋转或缩放的;而在更高的层次上,它可以让你识别人和物体,而无论视角、照明条件或背景环境。


相同两部分的三种排列方式


在上述图像中,这三个形状中的每一个都是相同的两个不变概念的排列。前两个我们可以识别为大写字母T,但第三个显然不是——即使它包含相同的部分。这告诉我们,不仅仅是定义一个对象的部分存在,还有它们之间的关系。第二个T仍然看起来像T,因为这两个部分仍然互相连接在同一个位置上,并且旋转到同一个程度。第三个不像T,因为各部分现在有不同的关系——它们以相反的方向旋转,并且加入到不同的相对位置上。

 

这使我们能够了解我们的大脑是如何运作的。首先,即使我们容忍差异,我们仍然可以看到变化。其次,我们可以描述这种变化是什么(旋转),这意味着我们将一个概念的改变作为一个独立的维度(旋转、平移、颜色、亮度等)来解构。最后,我们用于描述变化的维度在部分之间是常见的,我们可以将它们联系起来。为了证明这一点,尝试想象下面的图像,但将颜色更改为红色,并将其旋转90度。

  

想象一下黑色部分是红色的,整个旋转90度

 

你可能从未见过这种线条和形状的精确组合,但是你仍然可以很容易地想象它旋转,并以不同的颜色。 这意味着我们采用一组常用的变化维度来识别和想象物体如何从不同的角度看,而不必先从各个角度看它们。

 

2011年,Geoffrey Hinton、Alex Krishevsky和Sida Wang发表了一篇名为“Transforming Autoencoders”的论文,其中提出了一种理论,该理论被通常称为“胶囊理论(Capsules Theory)”。该论文证明,给定一组描述每个视觉概念如何转换的常见维度,网络可以准确地预测和分类输入的不可见变化,只能看到原始输入一次(或少量几次)。只有看见一次后对物体进行准确分类的能力被称为“小样本学习(one-shot learning)”,而且是人类可以自然而然地做的事情,但已被证明是难以在机器中复制出来。胶囊论文中描述的架构实现了小样本学习,但是需要转换变化的知识来训练系统。因此,将系统扩展到现实世界的视觉应用是非常困难的——因为我们根本无法获取所需的训练数据。


那么需要做些什么来创建一个具有更多可扩展性的胶囊架构?我们先来看看 “胶囊”是什么,以及它的作用。这是论文中对胶囊(capsule)的描述。


每个胶囊(capsule)都学会在一个观看条件和变形有限的空间内识别一个隐式定义的视觉实体,并且它会输出这个实体存在于其有限域内的概率以及和一组“实例化参数”,这里面可能包括精确的位姿、照明和该视觉实体相对于其隐式定义的规范版本的变形。


这真是一个相当密集、冗长的句子,但它意味着每个胶囊都代表一种视觉概念,这种概念在当诸如照明、视角等发生一定程度的变化时仍然保持不变。如果这个部分听起来很熟悉,不要怀疑,因为它正是我们在本文前面的部分所展示过的。还有一点是前文演示中没有提到,但胶囊可以做到的是随着变化的维度“实例化参数”。换句话说,它不仅可以识别出目标的存在,还可以确定其精确位置,如旋转角度、大小等。


其实,胶囊的架构主要依赖于训练期间所发生的转化变化的先验知识,但是当我们人类自身学着观察的时候,我们并没有给这些变化标上标签。我们能够简单地通过观察将我们能够将我们的视觉世界解构为一组常见的变化维度,如位置、光线条件和旋转。这一点与我们在上一篇文章中所提出的观点有些相似,我们建议人类利用情景性或顺序性数据来进行维度分离。


在我们以前的演示中,我们展示了这些片段可用于将视觉概念的所有变体分组到多个流形检测器中。在我们的架构中,每个流形都可以在其所有变体中检测到一个视觉概念,但它并没有给出关于当前变体的任何信息。它可能会告诉我们“在这个图像中有一个正方形”但不会告诉我们“正方形旋转了10度左右,相对较大,且位于图像的左下角附近”。下面的演示展示了我们该如何创造性地构建流形检测器,从而使得它能够使用情景性数据来提供这些信息。换句话说,我们如何将流形检测器架构转变成一个更具扩展性的胶囊版本。


下面是一个流形以不同位置和旋转度表示心形的示例。3d可视化中的每个点代表心形的一个特定版本。最初系统是无序的,所以移动滑块并不会产生任何有用的东西,但经过一些训练(按下播放)之后,它就会自动排序,发现潜在的隐含维度。一旦组织起来,这些滑块就代表了一个变化的单一维度。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

摩尔定律已死?GPU会取代CPU的位置吗?

来源:全球人工智能 概要:CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。 京举办的NVIDIA GTC China会议中,无论是AI智能运算,还是服务器数据中心、智能城市&#xff…

mysql 终端模拟_mysql客户端模拟脏读、幻读和可重复读

如果操作一下时报出错误:在数据库中执行 SET GLOBAL BINLOG_FORMAT mixed;执行后可通过SELECT * FROM information_schema.GLOBAL_VARIABLES WHERE VARIABLE_NAME ‘BINLOG_FORMAT’ ;进行查看。通过客户端选择可用数据库:use db_test(模拟数据库)以下…

Nature Human Behavior:大脑对不公平的反应有助预测抑郁症

来源:生物帮、神经科技 概要:过去的研究已经表明,财富分配不均,即经济不平等,可能会促进抑郁症等精神疾病的增加。但是,这背后的机制却不为人知。 2017年10月2日,国际学术权威刊物自然出版集团旗…

这几家公司有个梦想:开发AI操作系统,让外行也成为人工智能大师

来源:科技行者 概要:未来几年人工智能会如何发展?除了阿尔法狗令人叹为观止的表现,人工智能确实也正在改变整个行业。但有一点我们是需要注意的,有必要让AI从总体上变得更加易于使用。 严格的说,Scot Barto…

mysql耦合_内聚与耦合

简单理解一下内聚和耦合。什么是模块模块就是从逻辑上将系统分解为更细微的部分,分而治之。复杂问题因为复杂性的问题,比较难解决,但是可以将复杂问题拆解为若干简单问题,逐个击破地解决这些简单问题,最后实现解决复杂…

Google CEO Sundar Pichai :“谷歌最大的威胁就是自身的成功”

作者:Dude 概要:10月9日,低调的皮柴哥接受了英国卫报的访问,在访谈期间,他分享了谷歌在人工智能上发展,也表达了对谷歌近年来发展的隐忧。 10月9日,低调的皮柴哥接受了英国卫报的访问&#xff0…

国防科技大学教授:殷建平——计算机科学理论的过去、现在与未来

来源:图灵人工智能殷建平 教授,博士生导师,国防科学技术大学计算机系主任。研究方向有:模式识别与人工智能、网络算法与信息安全。享受国务院政府特殊津贴。2015年被评为“万人计划”国家级教学名师。2009年被评为“全国优秀教师”…

《自然》杂志:关于人类未来的工作,有三个最紧迫的问题

来源:36氪 概要:机器学习会淘汰工人吗?零工经济(Gig Economy)会增加对工人的剥削吗?技能的差距能够弥补吗? 机器学习会淘汰工人吗?零工经济(Gig Economy)会增…

有史以来影响世界的颠覆性技术 | 未来的高附加值颠覆性技术产业

来源:DeepTech深科技(ID:mit-tr) 概要:没有工具,人类就是一个脆弱的物种,没有任何人种可以手无寸铁面对自然。技术伴随人类成长,从野蛮走向文明。人类历史就是一部技术史。 人类发展…

一文详解脑科学研究与产业发展方向

来源:神经科技、脑计划 概要:大脑是人体最复杂的器官,破译大脑运转密码、揭开生命之谜,是令无数科学家殚精竭虑的艰难课题。脑科学已成为21世纪最前沿的研究领域,尤其与信息科学进行交叉研究已成为脑科学发展的一个重要…

ef生成mysql字段注释_EFcore+MySql 数据迁移的时候,怎么给表结构加注释?

前言:CodeFirst运用的场景比较少,不代表CodeFirst不好,也不能和DbFirst去作比较,本来就是两个东西。吐槽:MySql.Data.EntityFrameworkCore 作为Oracle官方维护的组件,居然对EF很多API不支持或者无效&#x…

10秒一部电影,全球首个5G数据连接完成

作者:李赓 概要:2017年10月17日、也就是上周二,高通在香港高调宣布——其面向移动终端的5G调制解调器芯片组,骁龙X50 5G调制解调器芯片组完成了全球首个5G连接,同时实现了千兆级速率并在28GHz毫米波频段上的数据连接。…

idea 不打开文件提示错误_解决IDEA误删out目录下的文件导致404无法访问的问题

前言有时候IDEA下写Web项目时可能会遇到如下问题:误删out目录下的文件导致开启服务器后无法访问页面的问题新增加一个页面或添加一张图片,在项目编译运行后,未能自动更新到out\artifacts\目录下,从而导致页面无法访问,或者图片未能…

华为生态链的全方位解读

来源: 本翼资本CapitalWings 概要:华为作为目前国内ICT行业的融合性创新龙头企业,其多年经营探索的经营模式和宝贵经验使得其成为传统制造业转型的标杆,而对于新兴企业,能够越过坎坷的探索之路,直接嫁接华…

洪小文:以科学的方式赤裸裸地剖析人工智能

来源: 微软研究院AI头条 概要:要想在未来实现人工智能这项“新”技术的最大化利用,必须清楚认识到人工智能到底是什么,过去我们做了什么,今天能做什么,未来又能有什么新的发展可能。 近两年来,人…

人工智能如何驱动实体经济?六大领域展望

来源:腾讯研究院 概要:科技进步正在成为推进经济发展的重要推动力,对中国经济发展的贡献率已经上升到56.2%。面对正在兴起的人工智能浪潮,如何占据行业发展制高点,如何促进与实体经济深度融合,形成新增长点…

《浪潮之巅》作者吴军最新演讲:超级人工智能

来源:亿欧 概要:10月22日,AMINO硅谷中国“新”大会在南京经济技术开发区举行。《浪潮之巅》作者、AMINO资本合伙人吴军发表了以《超级人工智能》为主题的演讲。 人工智能起源 我知道很多人都想听我讲人工智能是怎么回事儿?最近有…

mysql慢sql增加读写分离_MySQL主从同步+读写分离

MySQL主从同步读写分离实验拓扑:三台mysql数据库:192.168.80.101 主服务器 mysql192.168.80.102 从1服务器 mysql192.168.80.103 从2服务器 mysql192.168.80.104 调度器Amoeba服务器 jdk、amoeba192.168.80.105 mysql客户端 mysql第一部分:三…

Google公布OpenFermion:量子计算机的开源软件包

来源:转载自公众号「雷克世界」微信号:ROBO_AI 作者:Ryan Babbush、Jarrod McClean 编译:嗯~阿童木呀、多啦A亮 概要:OpenFermion是一个用于模拟电子(费米子)相互作用系统的库,它能够…

java 类集合_java集合类详解

一、集合类与数组的区别1.集合的长度可变,数组的长度固定;2.集合用来存放对象引用,数组用来存放基本类型的数据;二、集合类的关系1.Collection接口存储一组不唯一、无序的对象。2.List接口存储一组不唯一、有序(插入顺序)的对象。…