人工智能顶刊TPAMI2019最新《多模态机器学习综述》

640?wx_fmt=png

来源:专知

摘要:”当研究问题或数据集包括多个这样的模态时,其特征在于多模态。


【导读】人工智能领域最顶级国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI,影响因子为 9.455),2019年1月最新一期发表了关于多模态机器学习综述论文。我们周围的世界涉及多种形式 - 我们看到物体,听到声音,感觉质地,闻到异味等等。 一般而言,模态指的是事物发生或经历的方式。 大多数人将形态与感觉方式联系起来,这些感觉方式代表了我们主要的交流和感觉渠道,例如视觉或触觉。 因此,当研究问题或数据集包括多个这样的模态时,其特征在于多模态。 本文主要关注但不仅仅关注三种形式:自然语言既可以是书面的,也可以是口头的; 视觉信号,通常用图像或视频表示; 和声音信号,编码声音和口头信息,如韵律和声音表达。


640?wx_fmt=png


我们对世界的体验是多模式的 - 我们看到物体,听到声音,感觉质地,闻到异味和味道。情态是指某种事物发生或经历的方式,并且当研究问题包括多种这样的形式时,研究问题被描述为多模式。为了使人工智能在理解我们周围的世界方面取得进展,它需要能够将这种多模态信号一起解释。多模式机器学习旨在构建可以处理和关联来自多种模态的信息的模型。这是一个充满活力的多学科领域,具有越来越重要的意义和非凡的潜力。本文不是关注特定的多模态应用,而是研究多模态机器学习本身的最新进展。我们超越了典型的早期和晚期融合分类,并确定了多模式机器学习所面临的更广泛的挑战,即:表示,翻译,对齐,融合和共同学习。这种新的分类法将使研究人员能够更好地了解该领域的状况,并确定未来研究的方向。


论文地址:

http://www.zhuanzhi.ai/paper/2236c08ef0cd1bc87cae0f14cfbb9915

https://ieeexplore.ieee.org/document/8269806


640?wx_fmt=png


模态特征表示


多模态的表示方法有两类:


  • 联合表示将不同模态的特征映射到同一个空间,代表方法有神经网络的方法、图模型方法与序列模型方法。

  • 协调方法特征仍在原空间,但是通过相似度或者结构特征协调。


640?wx_fmt=png


多模态特征翻译


多模态特征翻译分为基于样本的和生成式的:


  • 基于样本的方法从特征字典中找出最佳翻译。基于样本的方法分为基于检索式的和合并的方法。

  • 生成式的方法则是通过样本,训练一个翻译模型,并使用翻译模型完成对特征的转换。生成式的方法有基于语法的、encoder-decoder模型和连续模型。


640?wx_fmt=png


多模态特征对齐


多模态特征对齐是找到同一个实例的不同之间模态特征之间的关系。


  • 显式对齐方法包括监督模型和无监督模型。无监督模型如CCA和DTW(Dynamic time warping)等。

  • 隐式对齐的方法包括图模型和神经网络


640?wx_fmt=png


多模态特征融合


    多模态特征融合是指将从不同模态的特征集成在一起,共同完成一个任务,如分类。


  • 无模型融合的方法被分为早期模型(基于特征)、晚期模型(基于决策)和混合模型

  • 有模型融合的方法有核方法、图模型方法、神经网络模型方法等。


640?wx_fmt=png


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程基本功训练:流程图画法及练习

对于“程序设计”的工作,很多刚開始学习的人的理解就是“写代码”。相同,新手们苦恼的问题是,他们仅仅会“写代码”。当接到一个新的任务,不少人总是在第一时间就爬到键盘上去敲代码。敲着敲着,就把自己绕糊涂了。头晕…

python简单练习 -统计文本词频并用柱状图显示

函数功能:统计文本中单词频率,并用柱状图显示前10个最高的单词 这里统计的是函数所在文件本身 import turtlecount 10 data [] words [] # y yScale 6 # X xScale 30def drawLine(t, x1, y1, x2, y2):t.penup()t.goto(x1, y1)t.pendown()t.goto(x…

今日《科学》封面:纳米级清晰度看大脑是怎样一种体验?

来源:药明康德微信团队摘要:在最新出版的《科学》杂志上,由麻省理工学院(MIT)和霍华德休斯医学研究所(HHMI)的科学家们领衔的一支团队,成功对果蝇的完整大脑进行了成像,清…

中国演绎太空生命传奇

来源:人民日报海外版摘要:人类不仅在努力增加对地球家园的认识,而且推进航天科技发展,进入浩渺的太空,探索宇宙的奥秘。在太空中绽放的花朵嫦娥四号搭载的微型生物圈载荷手绘图搭载探空火箭进入太空的两只小狗“小豹”…

李伯虎院士:新一代人工智能引领下的智造制造初步实践

来源:电能革命由中国智能制造百人会主办的“2018智造百强榜高峰会暨2019中国智能制造百人会年会上”于2019年1月11日在北京科技会堂举行。中国工程院院士/国家制造强国战略咨询委员会委员李伯虎做“新一代人工智能引领下的智造制造初步实践”的演讲。以下为演讲的速…

Python中Turtle绘图函数-绘制时钟程序

Turtle常用的一些函数, 参考博客:http://blog.csdn.net/zengxiantao1994/article/details/76588580 时钟代码设计 我们可以通过main函数查看整个时钟代码的设计设计指针(Init())并显示指针:设计指针的方向(turtle.m…

5G的未来投资机会在哪里?

来源:网易智能日前,为了更好地以资本助推5G产业发展,中国移动投资公司与中国移动研究院联合发布了《洞见5G,投资未来——中国5G产业发展与投资报告》,分析了5G对生产和生活带来的变革,研判5G产业建设的投资…

python在windows系统中安装pandas,numpy

进入python的安装目录的sripts文件夹下, 在该文件夹下进入命令行,在命令行输入pip install pandas 等待成功安装 转载自:https://www.cnblogs.com/xuqiulin/p/6623154.html

华为5G首席科学家童文 | 5G:万物连接平台 智能世界基石

华为5G首席科学家、华为Fellow童文博士来源:华为2019年是5G产业进入全面商用的关键一年,全球5G网络的部署已经启动。2018年6月,5G独立组网标准冻结,5G完成了第一阶段全功能eMBB标准化工作;12月6日, 中国三大运营商获得…

深度解密:软银孙正义如何成为美国硅谷最有权势之人

来源:腾讯科技摘要:据外媒报道,伊隆马斯克、杰夫贝索斯亦或是马克扎克伯格(,都不如日本亿万富翁孙正义那样,对AI驱动的未来有着最大胆的愿景。在孙正义看来,未来机器将控制着我们的生活方式。为了实现这个愿…

自动驾驶之路已走了多远?一文读懂研究现状

作者:Claudine Badue等编译:机器之心 Panda摘要:自动驾驶载具或将引爆人类的下一次出行方式革命,而我们目前又已经走到了哪一步?近日,巴西圣埃斯皮里图联邦大学的研究者在 arXiv 上发布了一篇自动驾驶汽车研…

真的超越了波士顿动力!深度强化学习打造的 ANYmal 登上 Science 子刊

编译:机器之心深度强化学习开发出的机器人模型通常很难应用到真实环境中,因此机器人开发中鲜少使用该技术。然而这已经板上钉钉了吗?在两天前引发人工智能界关注的 ANYmal 机器人中,其机动性和适应性看起来丝毫不逊色于波士顿动力…

实例化Model的三种方式

转载于:https://www.cnblogs.com/toward-the-sun/p/4030010.html

人形机器人,穷途末路还是光明未来?

来源:任赜宇的知乎专栏摘要:今年 11 月初在北京召开的 IEEE/RAS Humanoids 会议中,作者去听了这样一个 Workshop: Humanoid Robotics: Dead-end or Bright Future? (人形机器人,末路还是光明的未来?) 再结合当前的形势…

全球自动驾驶政策概况及特征研究

来源:《中国信息通信研究院CAICT》近年来,美、欧、日等发达国家和地区将自动驾驶技术作为交通未来发展的重要方向,在技术研发、道路测试、标准法规、政策等方面为自动驾驶及其载体——智能网联汽车的发展提供政策支持,加快自动驾驶…

中心化,去中心化?关乎互联网未来命运的重要选

作者:刘锋 计算机博士 《互联网进化论》作者前言:不知不觉互联网的未来发展出现了分歧,当Facebook、谷歌等互联网巨头越来越强大的时候,反弹的声音也越来越大,人类社会的有识之士希望解决这个问题,由此导致…

Arcgis for javascript不同的状态下自定义鼠标样式

俗话说:爱美之心,人皆有之。是的,没错,即使我只是一个做地图的,我也希望自己的地图看起来好看一点。在本文,给大家讲讲在Arcgis for javascript下如何自定义鼠标样式。 首先,说几个状态。1、鼠标…

Facebook :AI 年度总结来啦

来源:AI 科技评论摘要:最近,Facebook 做了一份 AI 年度总结,详述了他们过去一年在 AI 上所做的代表性工作。在 Facebook,我们认为,人工智能以更有效的新方式学习,就像人类一样,可以在…

一文读懂可穿戴技术

来源:传感器技术可穿戴技术(wearable technology),最早是20世纪60年代由麻省理工学院媒体实验室提出的创新技术。利用该技术,可以把多媒体、传感器和无线通信等技术嵌入人们的衣物中,可支持手势和眼动操作等多种交互方式&#xff…

2019与下一个十年:我们将要放弃的和将要拥抱的

来源:资本实验室2019年,是连接21世纪前两个十年的过渡一年。在金融支付和商业领域中,2019年也有望成为激动人心的一年。在这一年中,每家企业、每个人都需要对过去十年中所追求的创新进行反思,并决定下一个十年前进的方…