【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis

  • 一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型
    • 1 Abstract
      • 1.1 Motivation
      • 1.2 Method
      • 1.3 Results
    • 2. Related Work
      • 2.1 情感分析
      • 2.1 基于transformer的
      • 2.1 模态融合策略
    • 3. 模型细节
      • 2.2 绑定学习模型
      • 2.3 损失函数
    • 4. 结果
    • 5. 自己的思考

一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型

1 Abstract

多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。这些机制分别处理模态特定和模态不变的特征,并促进跨模态交互。此外,我们通过在变压器结构的前馈层和注意层中引入细粒度卷积模块来增强特征交互。为了解决第二个问题,我们分别引入了 CLS 和PE特征向量来表示模态不变和特定模态特征。我们使用相似性损失和相异性损失来支持模型收敛。在广泛使用的 MOSI 和 MOSEI 数据集上的实验表明,我们提出的方法优于最先进的多模态情感分类方法,证实了其有效性和优越性。源代码 可以在 https://github.com/JackAILab/TMBL 找到。

1.1 Motivation

多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。

(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性,导致情感分析存在偏差。

(2)另一方面,多模态数据带来与情感分析无关的噪声,影响融合效果。

1.2 Method

我们设计了一个 Polar-Vector (PV) 和一个 Strength-Vector (SV) 来分别判断情绪的极性和强度。

第一,PV是从文本和视觉特征的交流中获得的,用来决定情绪是积极的、消极的还是中性的。

第二,SV 是从文本和音频特征之间的通信中获得的,用于分析 0 到 3 范围内的情感强度。最后,我们混合 PV 和 SV 得到一个融合向量来判断情感状态。

第三,我们设计了一个由多个全连接层和激活函数组成的 MLP-Communication 模块(MLP-C),使不同的模态特征在水平和垂直方向上充分交互,是利用MLP进行多模态信息交流的一种新颖尝试。

在这里插入图片描述

图1 我们提出的TMBL的整个框架,其中优化的变压器由MBTA和GBFN组成。预测的特征将通过分类标记来区分,模态位置是可学习的。

1.3 Results

拟议的 TMBL 在两个公开可用的数据集 CMU-MOSEICMU-MOSI 上进行了测试,与基线方法相比,它在 CMU-MOSEI 上实现了最先进的 (SOTA) 性能。这些代码位于:https://github.com/JackAILab/TMBL

2. Related Work

2.1 情感分析

然而,由于早期融合和晚期融合都不能充分探索模态之间的跨视图动态交互,因此忽略了不同模态之间的低级交互 [1]。因此,研究人员提出了许多细粒度的融合方案,包括基于张量的融合[35,36]、词级融合[9,15]、基于翻译的融合[21,37,38]、基于上下文的融合[39,40]、基于量子的融合[41]和基于特征空间操作的融合[28]。值得注意的是,这些特征融合方案旨在促进模式之间更好的交互

2.1 基于transformer的

上述基于 Transformer 的模型取得了优异的性能。然而,大多数模型都旨在更有效地与两种模式交互 [18,23,43],而很少考虑三种模式的交互。此外,现有的基于 Transformer 的模型不足以在一个框架中提取每个模式特征。本文提出的 Transformer 模型可以同时提取三个模态特征,我们还修改了 Transformer 模型的前馈层和注意力层,使模型能够提取更细粒度的模态特征。

2.1 模态融合策略

然而,现有的模态融合方法对于模态不变和模态特定的考虑是不够的,很少考虑不同模态特征之间的语义顺序。有趣的是,一个好的模态顺序可以帮助模型更好地理解提取特征的含义,从而提高模型的鲁棒性。

3. 模型细节

如图1所示,我们提出的模型框架首先将模态特征分为两类,模态不变和模态特异性。请注意,特定于模态的特征是指每个模态数据本身的固有特征信息,模态不变特征是指所有模态共享的特征信息,通常需要首先将模态数据投影到相同的隐藏层维度上。

具体来说,对于模态特定的特征数据,我们使用跨模态策略来完成模态特定特征的交互,对于模态不变特征,我们设计了一种模态绑定学习策略来完成模态之间的交互。其次,我们使用优化的 All-in-One Transformer 架构来更好地捕获这些交互模式之间的特征。优化后的Transformer由多头绑定转置注意(MBTA)和门控绑定前馈网络(GBFN)组成。第三,我们实现了包含 CLS Token 和 Position Embedding 以增强模型识别模态类型和上下文的能力。因此,模态集成的损失函数分为三个部分,包括情感预测的分类损失、模态不变相似损失和模态特定不相似损失。

2.2 绑定学习模型

在这里插入图片描述
在这里插入图片描述

2.3 损失函数

在这里插入图片描述

4. 结果

在这里插入图片描述
对比的一系列baseline

在这里插入图片描述

消融结果和可视化实验

在这里插入图片描述

5. 自己的思考

  • 还可以考虑在此基础上,使用 text embedding condition 的方式,增强模型的理解力和泛化性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

字符数组(字符串):单词计数

字符数组 定义 初始化 : 单个字符初始化 用字符串常量初始化 输入输出 &#xff1a; %s 不能够获得带有分隔符的串 存储特点 结束标记&#xff08;\0) #include<stdio.h> #include<stdlib.h>#define N 32int main(){char str[N] {a,b,c};chr str0[N],str1[N],str…

LeetCode/NowCoder-链表经典算法OJ练习2

最好的&#xff0c;不一定是最合适的&#xff1b;最合适的&#xff0c;才是真正最好的。&#x1f493;&#x1f493;&#x1f493; 目录 说在前面 题目一&#xff1a;分割链表 题目二&#xff1a;环形链表的约瑟夫问题 SUMUP结尾 说在前面 dear朋友们大家好&#xff01;&…

(done) 什么是马尔可夫链?Markov Chain

参考视频&#xff1a;https://www.bilibili.com/video/BV1ko4y1P7Zv/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 如下图所示&#xff0c;马尔可夫链条实际上就是 “状态机”&#xff0c;只不过状态机里不同状态之间的边上是 “…

车载电子电器架构 —— Vector对于车载以太网的解决方案(协议栈)

车载电子电器架构 —— Vector对于车载以太网的解决方案(协议栈) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你…

实战WinRAR捆绑图片和恶意程序并自动上线Cobalt Strike(cs钓鱼日记)

钓鱼 - WinRAR捆绑图片和恶意程序并自动上线Cobalt Strike 环境准备 工具&#xff1a;Cobalt Strike、Winrar压缩工具、一张JPG图片 虚拟机IP&#xff1a; 【攻击机】Kali&#xff1a;192.168.232.128 【靶机】win7&#xff1a;192.168.232.144 情景&#xff1a;在钓鱼事…

老黄终于不穿皮衣了,分享一个AI换装AI试衣软件!

用AI实现在线试衣&#xff0c;或者在线换装&#xff0c;这不是一个新概念&#xff0c;肯定有人这么想过&#xff0c;但并不是所有人能都能轻松做到啊&#xff01; 今天就来分享一个人人都可以实现的方法&#xff0c;而且是那种傻瓜式的不用付钱的那种&#xff0c;甚至可以把软件…

大数据在IT行业的应用与发展趋势及IT行业的现状与未来

大数据在IT行业中的应用、发展趋势及IT行业的现状与未来 一、引言 随着科技的飞速发展&#xff0c;大数据已经成为IT行业的重要驱动力。从数据收集、存储、处理到分析&#xff0c;大数据技术为各行各业带来了深远的影响。本文将详细探讨大数据在IT行业中的应用、发展趋势&#…

ArrayList源码解析

目录 数组 大小 默认容量和最小容量 构造函数 add(E e) get(int index)

详解依赖注入的三种方法以及遇到问题的解决

各位大佬光临寒舍&#xff0c;希望各位能赏脸给个三连&#xff0c;谢谢各位大佬了&#xff01;&#xff01;&#xff01; 目录 1.三种依赖注入的方法 1.属性注入 优点 缺点 2.构造方法注入 优点 缺点 3.Setter注入 优点 缺点 4.小结 2.依赖注入常见问题的解决 1…

如何不用额外变量交换两个数

int a 19int b 33 交换 正常代码 int a 19;int b 33;int tmp 0;tmp a;a b;b tmp; 这个代码都见过&#xff0c;都写过 使用如下代码 int a 19;int b 33;a a ^ b;b a ^ b;a a ^ b;System.out.println(a);System.out.println(b); 分析 假设a x ; b y; a a ^ b…

图层遮盖判定算法实现2

图层遮盖判定算法实现2 1. 点击时调用置灰2. 解决方式 图层遮盖判定算法实现2 学习于bilibili 尚学堂官方 1. 点击时调用置灰 在Brand中 if (brand.getGray()){//灰色return;}else {brand.getParent().remove(brand);//通过父容器删掉自己 一般树形结构使用此方式//也需要…

linux Nginx安装与启动

一、先到官网下载Nginx 官网地址&#xff1a; http://nginx.org/en/download.html 我下载的是nginx-1.20.2 二、下载好的文件上传到服务器&#xff0c;然后解压 1、上传到指定的服务器地址&#xff0c;我这里是公司服务器&#xff0c;目录都是定义好的&#xff0c;自己玩建…

Flutter 中的 ToggleButtons 小部件:全面指南

Flutter 中的 ToggleButtons 小部件&#xff1a;全面指南 在 Flutter 中&#xff0c;ToggleButtons 是一种允许用户在一组选项中进行切换选择的控件。它通常用于展示一组相关选项&#xff0c;让用户可以快速切换选择。ToggleButtons 是一种水平排列的按钮集合&#xff0c;其中…

数据结构与算法学习笔记之线性表五---循环链表的表示和实现(C++)

目录 前言 1.双向链表的定义 2.双向链表的表示和实现 1.定义 2.初始化 3.销毁 4.清空 5.表长 6.获取数据元素 7.前驱节点 8.后继节点 9.插入 10.删除 11.遍历 12.完整代码 前言 记录下双向链表的表示和实现。 1.循环链表的定义 循环链表(circular linked list)…

The Onion Router-洋葱

目录 Tor的运作原理 Tor挑战和局限性 Tor&#xff0c;即The Onion Router&#xff08;洋葱路由器&#xff09;&#xff0c;是一个用于匿名通信的开放网络&#xff0c;它旨在增强用户的隐私和安全。Tor的名字源自其设计原理&#xff0c;类似于将信息包装在多层“洋葱”中&…

本来还挺喜欢……

前阵子买了个天空星开发板&#xff0c;到手之后发觉不对劲。 之前我们玩玩开发板都是用的面包板的&#xff0c;就算是ESP那种比较宽的板子用两个面包板拼一下也勉强可以用。 但是天空星它的引脚是分为两组&#xff0c;每组有两排&#xff0c;如果我们还是直接使用面包板的话&a…

C 语言函数:入门指南

C 语言中的函数声明和定义 您可以通过以下方式创建并调用函数&#xff1a; // 创建一个函数 void myFunction() {printf("我刚被执行了!"); }int main() {myFunction(); // 调用函数return 0; }一个函数包括两个部分&#xff1a; 声明&#xff1a;函数名称、返回类…

单页源码加密屋zip文件加密API源码

简介&#xff1a; 单页源码加密屋zip文件加密API源码 api源码里面的参数已改好&#xff0c;往服务器或主机一丢就行&#xff0c;出现不能加密了就是加密次数达到上限了&#xff0c;告诉我在到后台修改加密次数 点击下载

Spring事务-使用@Transactional在事务中立即提交部分数据库操作

目录 一、背景 二、需求 三、Spring事务的传播级别及失效场景 1.Spring事务的传播级别 2.失效场景及正确用法 一、背景 在项目中使用数据库锁表实现分布式锁&#xff0c;在方法A中调用方法B&#xff0c;方法B是一个多节点同步的方法&#xff0c;内部使用写锁表的逻辑实现分…

【文献阅读】企业ESG表现与创新——来自A股上市公司的证据

企业ESG表现与创新——来自A股上市公司的证据 1.引言 第一段——背景介绍 可持续发展 碳达峰、碳中和 ESG既是从微观层面解决全球性社会问题的必要&#xff0c;也是实现我国经济转型、促进高质量发展的有效手段。 2017.12证监会&#xff1a;重点排污企业的环境披露 2021.6证监…