类脑信息处理研究取得进展

来源:AAAI2018

概要:近期,中国科学院自动化研究所类脑智能研究中心类脑信息处理(BRAVE)研究组,在研究员张兆翔的带领下,在借鉴生物神经结构、认知机制与学习特性的神经网络建模与类人学习研究中取得了一系列突破性进展。


近期,中国科学院自动化研究所类脑智能研究中心类脑信息处理(BRAVE)研究组,在研究员张兆翔的带领下,在借鉴生物神经结构、认知机制与学习特性的神经网络建模与类人学习研究中取得了一系列突破性进展。该研究组在“视听模态的生成、融合”以及“智能体之间的知识迁移”取得了重大突破,系列成果发表在AAAI 2018上。

 

 在“视听模态的融合”问题中,该研究组提出了有效将听觉信息融合在视频描述生成框架中的特征融合策略,并取得了理想的效果; 在“视听模态的生成”问题中,该研究组提出了一个跨模态循环对抗生成网络、一个联合对应对抗损失函数和一个动态多模态分类网络,构建出更有效的视听跨模态相互生成模型;在“智能体之间的知识迁移”问题中,该研究组将一种新类型的知识——交叉样本相似性引入到深度度量学习中,将知识形式化成一个教师和学生网络间的排序匹配问题,将经典的基于列的学习转换成排序学习算法,这一方法可大幅提高学生网络的性能,也可得到较传统方法更好的迁移性能。

 

1.视听模态的融合

 

视频描述生成在很多领域中有着潜在应用,比如人机交互、盲人辅助和视频检索。近些年来,受益于卷积神经网络CNN,递归神经网络和大规模的视频描述数据集,视频描述生成已经取得比较理想的结果。

 

大多数视频描述生成框架可以分为一个编码器和一个解码器,编码器对视频特征进行编码形成一个固定长度的视频特征向量,解码器基于该视频特征生成对应的视频描述子。研究者们针对定长的视频特征描述子提出了一些方法,比如对视频帧进行池化操作,下采样固定长度的视频帧,在递归网络视频特征编码阶段提取最后一个时刻的状态表示。

 

虽然上述方法均可生成比较合理的视频描述,但是这些模型的视频特征编码都只侧重于视觉信息而忽略了音频信息。该课题组认为,忽视声音模态会损害模型性能。比如,一个人躺在床上唱歌。大部分传统的视频描述生成方法只关注视觉信息而忽略声音信息,可能会产生语义不完整的句子:“一个人躺在床上”。如果可以将音频信息结合到模型中,就可以产生语义完整的句子“一个人躺在床上唱歌”。

 

2.视听模态的生成

 

视听模态是视频中的两个共生模态,包含相同和互补信息。利用共同信息可实现模态间的相互转换。同时,互补信息可作为先验去辅助相关工作。因此,充分利用视听模态间的共同和互补信息可以进一步增强相关任务的性能。然而,由于环境干扰和传感器故障等因素,其中的一个模态会受损或者缺失,从而带来一些严重的问题,比如消音的影片或者模糊的屏幕。如果可以基于已知模态生成缺失模态,会给许多多媒体任务带来好处。因此,课题组致力于创建有效的视听跨模态相互生成模型。

 

传统的跨模态相互生成方法主要存在以下几个问题,一是模态间存在严重的结构、维度和信息不对称性,导致跨模态相互生成的质量不理想。二是模态间的相互生成是独立的,具有很大的不便性。三是其训练过程并不是端到端的。

 

该模型包含四个子网络,分别为A-V(听觉到视觉),V-A(视觉到听觉),A-A(听觉到听觉)和V-V(视觉到视觉)子网络。每个子网络均由一个编码器和一个解码器组成。这四种子网络以对称的形式组成了两种生成路径,一种是V-A-V/A-V-A(视觉-听觉-视觉/听觉-视觉-听觉),另一种为跨模态生成路径A-A-V/V-V-A(听觉-听觉-视觉/视觉-视觉-听觉)。

 

受益于CMCGAN,课题组同时也提出了一个动态多模态分类网络。若输入有两个模态,则首先将它们进行融合然后输入到后续的分类网络中。若输入只有一个模态,则可基于CMCGAN生成缺失模态,然后将已知模态和缺失模态输入到后续的动态多模态分类网络中。在该研究中,研究组提出了一个跨模态循环对抗生成网络去实现跨模态的视听相互生成;提出了一个联合对应对抗损失函数将视听相互生成集成在一个统一的框架中,该损失函数不仅可以区分图像来自原始样本集还是生成集,而且可以判断(图像,声音)是否匹配;针对不同模态的输入,提出了一个动态多模态分类网络。 

 

3.智能体之间的知识迁移

 

度量学习是许多计算机视觉任务的基础,包括人脸验证,行人再识别等。近年,基于度量损失函数指导的端到端深度度量学习取得了很大的成功。这些深度度量学习成功的关键因素是网络结构的强大。然而,随着所需表征特征的增强,网络结构变的更深更宽从而带来了严重的计算负担。在现实世界的许多应用如无人驾驶上,由于硬件资源的限制,使用这些网络会导致系统产生严重的延时。为保证安全性,这些系统需要实时的响应。因此,很难将最新的网络结构设计应用到该研究的系统中。

 

为缓解该问题,研究者们提出了许多模型加速的方法,可简单分为三类:网络剪枝,模型量化和知识迁移。网络剪枝迭代地删除对最后决策不太重要的神经元或权值。模型量化通过降低网络中权值和激活函数的表达准确性来增加了网络的吞吐量。知识迁移使用一个更大更强的老师网络去指导一个小的学生网络的学习过程。在这些方法中,基于知识迁移的方法是最具实际价值的。跟其他需要定制硬件或者实现细节的方法相比,知识迁移在没有额外开销的情况下也可得到相当的模型加速性能。

 

知识蒸馏和它的变体是知识迁移领域的核心方法。尽管它们所使用的知识形式不同,但都只针对于单个样本。也就是说,这些方法中的教师网络不管在分类层还是中间特征层都只为每个样本提供监督信息。所有这些方法均忽略了另外一种有价值的度量——不同样本之间的关系。这类知识同样编码了教师网络中所嵌入的空间结构。同时,该种知识所使用的实例水平的监督信息符合度量学习的目标。图4展示了研究组的动机。右上角展示了知识迁移后学生网络可以更好的捕捉图像相似性。数字0与6的相似性比数字3、4、5与6的相似性更大,因此等级更高。该研究中,课题组解决了以下几个问题:将一种新类型的知识——交叉样本相似性引入到深度度量学习中;将知识形式化成一个教师和学生网络间的排序匹配问题,将经典的基于列的学习转换成排序学习算法并致力于解决它;在不同度量学习任务上测试该方法,均可极大地提高学生网络的性能。另外,与目前的方法融合后可得到更好的迁移性能。

 

以上研究得到了国家自然科学基金、微软合作研究项目的资助。

 

图1.三种视听觉特征深度融合框架

 

图2.动态多模态特征融合框架

 

图3.动态多模态特征融合框架

  

图4.智能体之间的知识迁移


论文1:http://xueshu.baidu.com/s?wd=paperuri%3A%2833257eb5a4845907061a66ba980e27fe%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1711.08097v1&ie=utf-8&sc_us=8712703236201635526

论文2:http://xueshu.baidu.com/s?wd=paperuri%3A%28a24afad24a6d2ff89c7435392895d8df%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1711.08102v1&ie=utf-8&sc_us=4500673835805782186

论文3:https://arxiv.org/pdf/1707.01220


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。由互联网进化论作者,计算机博士刘锋与中国科学院虚拟经济与数据科学研究中心石勇、刘颖教授创建。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/497377.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今天下午爽了一把!

呵呵,很久没这么爽爽地看电影了,一个下午居然连续看了三部电影!看到人不想看为止,实在是很过瘾的一个下午啊!只是是翘课看的电影,感觉有点不太好,最近真是越来越堕落了。看来要好好克制一下自己…

展望:共融机器人的基础理论与关键技术

来源:《国家科学评论》概要:自1959年工业机器人诞生以来,机器人在机械制造、国防安全、健康服务、科考与医疗等方面发挥出越来越重要的作用。自1959年工业机器人诞生以来,机器人在机械制造、国防安全、健康服务、科考与医疗等方面…

哈萨比斯导师:人工智能媲美人类或需两百年,神经学是条出路

来源:澎湃新闻概要:从围棋到智能驾驶,深度学习缔造了眼下这一波人工智能热潮。在深度学习最热的两大关键词“AlphaGo”和“自动驾驶”,托马索波吉奥(Tomaso Poggio)都有声名卓著的学生,分别是De…

独家对话英伟达首席科学家:解码AI芯片战局

来源:智东西概要:独家对话Bill Dally博士,深度解读四大AI热点话题。从2017年1月底以来,英伟达的股价又从108美元一路飙升至240多美元,翻了一倍有多。而英伟达股价一飞冲天的背后,正是人工智能技术不断兴盛崛…

[翻译]2005年软件业界推出新产品非官方计划

虽然预测未来的最好方法就是发明(The best way to predict the future is to invent it. -- A. Kay),但是对于我等现在还没开始发明或者还没有能力发明的人来说,不妨还是看看2005年会软件业界会推出点什么软件,想象一下程序员的生活会不会在2…

Replace Method with Method Object(以函数对象取代函数)

在一个大型函数中,由于局部变量的使用导致无法采用Extract Method class Order...double price() {double primaryBasePrice;double secondaryBasePrice;double teriaryBasePrice;// long computation.....} } 重构:将这个函数放进一个单独对象中&…

2018-2020年中国服务机器人行业深度研究报告

来源:机器人大讲堂概要:目前世界上至少有48个国家在发展机器人,其中25个国家已涉足服务机器人开发。一、报告编写背景和特点北京立德融创智能机器人技术研究院(简称“立德研究院”)通过对各机器人项目的实施以及自身发…

密歇根大学联合谷歌大脑提出,通过「推断语义布局」实现「文本到图像合成」

原文来源:arXiv作者:Seunghoon Hong、Dingdong Yang、Jongwook Choi、Honglak Lee「雷克世界」编译:嗯~阿童木呀我们通过推断语义布局(semantic layout)提出了一种新的文本到图像合成(text-to-image synthe…

华为5g汽车鸿蒙,网传华为携手极狐造车新图片,搭载5G天线+鸿蒙OS!

【太平洋汽车网 石家庄车市点评频道】(4月6日联合官宣海报)4月7日,继此前华为和极狐联合官宣“上海见”之后,网上再次流传第二波海报,对比第一天的“初次见面”,这一次的内容无疑更加“王炸”。除了文字信息的“自动驾驶新标杆”&…

智能工厂4.0:数字世界和物理世界的融合【附下载】

来源:专知概要:自动化与控制发展至今,智能工厂逐渐获得关注,并成为制造企业追求的目标。自动化与控制发展至今,智能工厂逐渐获得关注,并成为制造企业追求的目标。何为智能工厂?它应该是一个柔性…

Hide Delegate(隐藏“委托关系”)

通过一个委托类来调用另一个对象 重构:在服务类上建立客户所需的所有函数,用以隐藏委托关系。

中科院自动化所介绍深度强化学习进展:从AlphaGo到AlphaGo Zero

来源:德先生概要:2016年初,AlphaGo战胜李世石成为人工智能的里程碑事件。其核心技术深度强化学习受到人们的广泛关注和研究,取得了丰硕的理论和应用成果。深度强化学习进展: 从AlphaGo到AlphaGo Zero唐振韬, 邵坤, 赵冬斌 , 朱圆…

html select 文字居中显示图片,html原生select改造箭头及文字左右居中的一种办法...

使用过原生select做网页开发的人,一定会对select的两个问题痛心疾首,一是箭头没办法使用css改造,二是显示文字没办法左右居中。首先,如果你有足够时间的话,请改用jquerymobile。jquerymobile提供了移动端非常强大的各种…

2018年,这15个领域将会呈现指数级变化

来源:36氪概要:很多趋势将会在2018年继续下去,尤其是呈现指数级增长的多技术融合。很多趋势将会在2018年继续下去,尤其是呈现指数级增长的多技术融合。气候变化依然是一个最紧迫的问题,尤其当我们通过碳预算来解决问题…

中文WAP浏览器WapDisplayer V1.5发布

中文WAP浏览器WapDisplayer V1.5发布 中国被爱可以在线于2005-9-26发布了中文WAP浏览器WapDisplayer V1.5,欢迎大家下载使用。程序简介:WapDisplayer V1.5是一款利用M3Gate控件开发的中文WAP浏览器,除了保留原英文版M3Gate Version 1.2 beta的…

《自然》杂志:超导突触处理信息能力超人脑

来源:科技日报概要:据英国《自然》杂志网站近日报道,美国科学家研制出一款模拟人脑神经中枢处理过程的超导突触,其信息处理速度比人脑更快,而且更高效。据英国《自然》杂志网站近日报道,美国科学家研制出一…

世界首批智能音箱AI IQ测试报告,小米、京东和阿里初步PK

一、小米、京东和阿里智能音箱测试结果:二、测试说明:1.对智能产品进行智商测试,是一项没有先例的科学实验和研究,因此研究会处于不断修正和发展的过程,研究团队并不认为这个测试结果是完全成熟和客观的。希望通过测试…

人工智能产业展望:2018年三大难题如何破解?

来源:腾讯研究院概要:当前,AI的竞争已然升级到国家竞争。当前,AI的竞争已然升级到国家竞争。2017年首次出现了“AI中国威胁论”。谷歌前董事长施密特公开抱怨美国政府对企业在人工智能领域的支持不足,这将使美国“在10…