论文笔记:信息融合的门控多模态单元(GMU)

整理了GMU(ICLR2017 GATED MULTIMODAL UNITS FOR INFORMATION FUSION)论文的阅读笔记

  • 背景
  • 模型
  • 实验

论文地址: GMU

背景

  多模态指的是同一个现实世界的概念可以用不同的视图或数据类型来描述。比如维基百科有时会用音频的混合来描述一个名人;来自社交网络的用户用文本和多媒体附件(图像/视频/音频)评论音乐会或体育比赛等事件。医疗记录由图像、声音、文本和信号等的集合表示。之前的方法往往是基于单模态的,这很明显是不完善的,多模态的必要性已经在论文What Makes Multi-modal Learning Better than Single (Provably)中被证明。
  多模态融合的任务往往寻求生成单一表示,在构建分类器或其他预测器时使自动分析任务变得更容易。一种简单的方法是连接特征以获得最终表示,虽然这是一个直截了当的策略,但它忽略了不同模式之间的内在相关性
  在这项工作中,基于门的思想设计了一个新的模块,被称为门控多模态单元(GMU)它可以结合多个信息源,并对最终目标目标函数进行了优化,用于选择输入的哪些部分更有可能正确地生成所需的输出。使用同时为各种特征分配重要性的乘法门,创建一个丰富的多模态表示,不需要手动调整,而是直接从训练数据中学习。
请添加图片描述
  图中是多模态任务的一个例子,描述了仅根据一种模态的使用为特定电影分配类型的任务。根据输入方式预测的类型标签。红色和蓝色标签分别表示假阳性和真阳性。可以看到,基于单模态的预测结果往往是不完善的或是有误的,在GMU中,使用门控单元的模型将能够学习依赖于输入的门激活模式,该模式决定了每个模态如何对隐藏单元的输出做出贡献。

模型

请添加图片描述
  本文的GMU模块,左图是多模态的情况下,右图是双峰情况,对来自不同模态的单峰特征进行融合。
  在左图中每个 x i x_i xi对应一个与模态 i i i相关的特征向量。每个特征向量经过激活函数后提供给融合单元,该函数旨在基于特定模态编码一个内部表示特征。对于每个输入模态 x i x_i xi,都有一个门神经元(在图中由 σ \sigma σ节点表示) x i x_i xi计算的特征对模块整体输出的贡献。当一个新的样本被输入到网络中时,与模态 i i i相关联的门神经元接收来自所有模态的特征向量作为输入,并使用它们来决定模态 i i i是否对特定输入样本的内部编码的贡献程度。
  右图显示了两种输入模态的GMU的简化版本, x v x_v xv(视觉模态)和 x t x_t xt(文本模态),这将在本文的其余部分中使用。应该注意的是,这两个模型不是完全等效的,因为在双峰情况下闸门是捆绑的,只用了一个 σ \sigma σ。本文的实验都是基于右图双峰状态下的GMU。
公式:
请添加图片描述
   x v x_v xv(视觉模态)和 x t x_t xt(文本模态)分别先经过一个线性变换和一个激活函数引入非线性,生成所谓的内部表示特征, σ \sigma σ门在文中使用的是一个sigmoid函数,产生0,1之间的值,相当于权重,最后根据这个值进行特征融合。

实验

  实验中在电影分类(MM-IMDb)数据集上进行,其中包含27000部电影。不包含海报图像的电影被过滤掉。最终得到的MM-IMDb数据集包括25959部电影及其情节、海报、类型和其他50个额外的元数据字段,如年份、语言、作家、导演、宽高比等。
  实验中使用的多模态模型中单峰特征分别来自预训练的VGG和Word2vec,经过实验认为这两个是最好的。数据集的统计:
请添加图片描述
  图4是电影海报的尺寸和长度分布,图5是文本的长度分布。
  对比的baseline:平均、concat、线性映射到相同维度再融合、专家网络。
请添加图片描述
实验结果:
请添加图片描述

请添加图片描述
  表二是整体的准确率,表三是在不同类别样本上单模和多模模型的变现,GMU在25个类别中的16个超过了最好的单峰模型的表现,作者统计了不同类别样本的多模权重均值:
请添加图片描述
  在表3中我们发现在这个任务上文本模型常常比图像模型更有效,而我们得到的权重正如预期的那样,模式通常更受文本情态的影响。但是,在动画或家庭类型等特殊情况下,视觉形式对模型的影响更大。这也与表3的结果一致,视觉模型在这些类别上有更好的表现。几个实验的例子:
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/630259.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue+echarts 几个案例

普通柱状图 <template><!-- 容器默认宽高是0 如果不设置 页面不显示--><div ref"mychart" id"mychart"></div> </template><script> import * as echarts from "echarts" import axios from axiosexport …

(Matlab)基于CNN-Bi_LSTM的多维回归预测(卷积神经网络-双向长短期记忆网络)

目录 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 亮点与优势&#xff1a; 二、实际运行效果&#xff1a; 三、部分代码展示&#xff1a; 四、完整程序数据分享&#xff1a; 一、程序及算法内容介绍&#xff1a; 基本内容&#xff1a; 本代码基于Matlab平…

数字电源简介

数字电源简介 定义主要应用场景数字电源的基本组成常见算法常见电源拓扑PFCLLC 数字电源与模拟电源对比参考链接 定义 常见定义有以下四种&#xff1a; 通过数字接口控制的开关电源&#xff0c;强调的是数字电源的“通信”功能。可通过I2C或类似的数字总线来对数字信号进行控…

springboot整合websocket后启动报错:javax.websocket.server.ServerContainer not available

一、场景 Springboot使用ServerEndpoint来建立websocket链接。引入依赖。 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-websocket</artifactId> </dependency>配置Websocket Confi…

九:day01_ 消息队列01

第一章 RabbitMQ 概念 1.1.1 消息队列 MQ全称Message Queue&#xff08;消息队列&#xff09;&#xff0c;是在消息的传输过程中保存消息的容器。多用于系统之间的异步通信。 1.1.2 消息 两台计算机间传送的数据单位。消息可以非常简单&#xff0c;例如只包含文本字符串&#x…

【目标检测】YOLOv5算法实现(九):模型预测

本系列文章记录本人硕士阶段YOLO系列目标检测算法自学及其代码实现的过程。其中算法具体实现借鉴于ultralytics YOLO源码Github&#xff0c;删减了源码中部分内容&#xff0c;满足个人科研需求。   本系列文章主要以YOLOv5为例完成算法的实现&#xff0c;后续修改、增加相关模…

深入解析JavaScript属性的getter和setter

&#x1f9d1;‍&#x1f393; 个人主页&#xff1a;《爱蹦跶的大A阿》 &#x1f525;当前正在更新专栏&#xff1a;《VUE》 、《JavaScript保姆级教程》、《krpano》、《krpano中文文档》 ​ ​ ✨ 前言 在JavaScript中,对象属性除了直接设置值之外,还可以通过getter和sett…

鸿蒙OS4.0兼容性测试

背景 OpenHarmony兼容性测评主要是验证合作伙伴的设备和业务应用满足OpenHarmony开源兼容性定义的技术要求&#xff0c;确保运行在OpenHarmony上的设备和业务应用能稳定、正常运行&#xff0c;同时使用OpenHarmony的设备和业务应用有一致性的接口和业务体验。 OpenHarmony兼容…

MongoDB调优

三大导致 MongoDB 性能不佳的原因 1&#xff09;慢查询2&#xff09;阻塞等待3&#xff09;硬件资源不足1,2通常是因为模型/索引设计不佳导致的。排查思路&#xff1a;按1-2-3依次排查。 影响 MongoDB 性能的因素 MongoDB 性能监控工具 Free Monitoring 从版本 4.0 开始&am…

redis经典面试题

说说你对Redis的理解 Redis是一个基于Key-Value存储结构的开源内存数据库&#xff0c;也是一种NoSQL数据库。 它支持多种数据类型&#xff0c;包括String、Map、Set、ZSet和List&#xff0c;以满足不同应用场景的需求。 Redis以内存存储和优化的数据结构为基础&#xff0c;提…

Python爬虫实战:IP代理池助你突破限制,高效采集数据

当今互联网环境中&#xff0c;为了应对反爬虫、匿名访问或绕过某些地域限制等需求&#xff0c;IP代理池成为了一种常用的解决方案。IP代理池是一个包含多个可用代理IP地址的集合&#xff0c;可以通过该代理池随机选择可用IP地址来进行网络请求。 IP代理池是一组可用的代理IP地址…

网页设计(十一)JavaScript事件分析

一、设计校园办公系统认证页面 校园办公系统认证页面 校园办公系统认证页面初始布局 卡号有效性检查页面 口令有效性检查页面 二次口令有效性检查页面 QQ/微信有效性检查图 <!-- prj_11_1.html --> <!doctype html> <html lang"en"><…

Java设计模式-迭代器模式

迭代器模式 一、概述二、结构三、案例实现四、优缺点五、使用场景六、JDK源码解析 一、概述 定义&#xff1a; 提供一个对象来顺序访问聚合对象中的一系列数据&#xff0c;而不暴露聚合对象的内部表示。 二、结构 迭代器模式主要包含以下角色&#xff1a; 抽象聚合&#xf…

postman做接口测试

之前搞自动化接口测试&#xff0c;由于接口的特性&#xff0c;要验证接口返回xml中的数据&#xff0c;所以没找到合适的轮子&#xff0c;就自己用requests造了个轮子&#xff0c;用着也还行&#xff0c;不过就是case管理有些麻烦&#xff0c;近几天又回头看了看postman也可以玩…

论文笔记(四十)Goal-Auxiliary Actor-Critic for 6D Robotic Grasping with Point Clouds

Goal-Auxiliary Actor-Critic for 6D Robotic Grasping with Point Clouds 文章概括摘要1. 介绍2. 相关工作3. 学习 6D 抓握政策3.1 背景3.2 从点云抓取 6D 策略3.3 联合运动和抓握规划器的演示3.4 行为克隆和 DAGGER3.5 目标--辅助 DDPG3.6 对未知物体进行微调的后视目标 4. 实…

CleanMyMac X .4.14.7如何清理 Mac 系统?

细心的用户发现苹果Mac电脑越用越慢&#xff0c;其实这种情况是正常的&#xff0c;mac电脑用久了会产生很多的缓存文件&#xff0c;如果不及时清理会影响运行速度。Mac系统在使用过程中都会产生大量系统垃圾&#xff0c;如不需要的系统语言安装包&#xff0c;视频网站缓存文件&…

SSL之mkcert构建本地自签名

文章目录 1. 什么是SSL2. mkcert&#xff1a;快速生成自签名证书2.1 mkcert的工作流程如下&#xff1a;2.2 window 本地实现自签证书2.2.1 下载安装2.2.2 下载,生成本地 SSL2.2.3 生成 pem 自签证书,可供局域网内使用其他主机访问。2.2.4 使用-psck12 生成*.p12 文件 2.3 Sprin…

【Python】模块

&#x1f6a9; WRITE IN FRONT &#x1f6a9; &#x1f50e; 介绍&#xff1a;"謓泽"正在路上朝着"攻城狮"方向"前进四" &#x1f50e;&#x1f3c5; 荣誉&#xff1a;2021|2022年度博客之星物联网与嵌入式开发TOP5|TOP4、2021|2222年获评…

Java中的Socket你了解吗

☆* o(≧▽≦)o *☆嗨~我是小奥&#x1f379; &#x1f4c4;&#x1f4c4;&#x1f4c4;个人博客&#xff1a;小奥的博客 &#x1f4c4;&#x1f4c4;&#x1f4c4;CSDN&#xff1a;个人CSDN &#x1f4d9;&#x1f4d9;&#x1f4d9;Github&#xff1a;传送门 &#x1f4c5;&a…

78、avx2 数据 load/store 向量化操作介绍

向量寄存器和一个最简单的寄存器-内存的存储器模型,查看上一节。 本节基于整个内存模型,介绍一下如何使用 avx2 向量指令集,来完成数据从内存到寄存器中的交互的。 load 操作 在改内存模型下,load 操作指将数据从内存中加载到寄存器中。 使用 C++ 代码实现如下: float…