【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis

  • 一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型
    • 1 Abstract
      • 1.1 Motivation
      • 1.2 Method
      • 1.3 Results
    • 2. Related Work
      • 2.1 情感分析
      • 2.1 基于transformer的
      • 2.1 模态融合策略
    • 3. 模型细节
      • 2.2 绑定学习模型
      • 2.3 损失函数
    • 4. 结果
    • 5. 自己的思考

一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型

1 Abstract

多模态情感分析是人机交互研究的重要方向,它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好,但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征,这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题,我们提出了一种新的模态绑定学习框架,并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。这些机制分别处理模态特定和模态不变的特征,并促进跨模态交互。此外,我们通过在变压器结构的前馈层和注意层中引入细粒度卷积模块来增强特征交互。为了解决第二个问题,我们分别引入了 CLS 和PE特征向量来表示模态不变和特定模态特征。我们使用相似性损失和相异性损失来支持模型收敛。在广泛使用的 MOSI 和 MOSEI 数据集上的实验表明,我们提出的方法优于最先进的多模态情感分类方法,证实了其有效性和优越性。源代码 可以在 https://github.com/JackAILab/TMBL 找到。

1.1 Motivation

多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。

(1)然而,一方面,现有研究侧重于文本、音频和视觉等多模态数据的融合机制,而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性,导致情感分析存在偏差。

(2)另一方面,多模态数据带来与情感分析无关的噪声,影响融合效果。

1.2 Method

我们设计了一个 Polar-Vector (PV) 和一个 Strength-Vector (SV) 来分别判断情绪的极性和强度。

第一,PV是从文本和视觉特征的交流中获得的,用来决定情绪是积极的、消极的还是中性的。

第二,SV 是从文本和音频特征之间的通信中获得的,用于分析 0 到 3 范围内的情感强度。最后,我们混合 PV 和 SV 得到一个融合向量来判断情感状态。

第三,我们设计了一个由多个全连接层和激活函数组成的 MLP-Communication 模块(MLP-C),使不同的模态特征在水平和垂直方向上充分交互,是利用MLP进行多模态信息交流的一种新颖尝试。

在这里插入图片描述

图1 我们提出的TMBL的整个框架,其中优化的变压器由MBTA和GBFN组成。预测的特征将通过分类标记来区分,模态位置是可学习的。

1.3 Results

拟议的 TMBL 在两个公开可用的数据集 CMU-MOSEICMU-MOSI 上进行了测试,与基线方法相比,它在 CMU-MOSEI 上实现了最先进的 (SOTA) 性能。这些代码位于:https://github.com/JackAILab/TMBL

2. Related Work

2.1 情感分析

然而,由于早期融合和晚期融合都不能充分探索模态之间的跨视图动态交互,因此忽略了不同模态之间的低级交互 [1]。因此,研究人员提出了许多细粒度的融合方案,包括基于张量的融合[35,36]、词级融合[9,15]、基于翻译的融合[21,37,38]、基于上下文的融合[39,40]、基于量子的融合[41]和基于特征空间操作的融合[28]。值得注意的是,这些特征融合方案旨在促进模式之间更好的交互

2.1 基于transformer的

上述基于 Transformer 的模型取得了优异的性能。然而,大多数模型都旨在更有效地与两种模式交互 [18,23,43],而很少考虑三种模式的交互。此外,现有的基于 Transformer 的模型不足以在一个框架中提取每个模式特征。本文提出的 Transformer 模型可以同时提取三个模态特征,我们还修改了 Transformer 模型的前馈层和注意力层,使模型能够提取更细粒度的模态特征。

2.1 模态融合策略

然而,现有的模态融合方法对于模态不变和模态特定的考虑是不够的,很少考虑不同模态特征之间的语义顺序。有趣的是,一个好的模态顺序可以帮助模型更好地理解提取特征的含义,从而提高模型的鲁棒性。

3. 模型细节

如图1所示,我们提出的模型框架首先将模态特征分为两类,模态不变和模态特异性。请注意,特定于模态的特征是指每个模态数据本身的固有特征信息,模态不变特征是指所有模态共享的特征信息,通常需要首先将模态数据投影到相同的隐藏层维度上。

具体来说,对于模态特定的特征数据,我们使用跨模态策略来完成模态特定特征的交互,对于模态不变特征,我们设计了一种模态绑定学习策略来完成模态之间的交互。其次,我们使用优化的 All-in-One Transformer 架构来更好地捕获这些交互模式之间的特征。优化后的Transformer由多头绑定转置注意(MBTA)和门控绑定前馈网络(GBFN)组成。第三,我们实现了包含 CLS Token 和 Position Embedding 以增强模型识别模态类型和上下文的能力。因此,模态集成的损失函数分为三个部分,包括情感预测的分类损失、模态不变相似损失和模态特定不相似损失。

2.2 绑定学习模型

在这里插入图片描述
在这里插入图片描述

2.3 损失函数

在这里插入图片描述

4. 结果

在这里插入图片描述
对比的一系列baseline

在这里插入图片描述

消融结果和可视化实验

在这里插入图片描述

5. 自己的思考

  • 还可以考虑在此基础上,使用 text embedding condition 的方式,增强模型的理解力和泛化性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/11610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode/NowCoder-链表经典算法OJ练习2

最好的,不一定是最合适的;最合适的,才是真正最好的。💓💓💓 目录 说在前面 题目一:分割链表 题目二:环形链表的约瑟夫问题 SUMUP结尾 说在前面 dear朋友们大家好!&…

(done) 什么是马尔可夫链?Markov Chain

参考视频:https://www.bilibili.com/video/BV1ko4y1P7Zv/?spm_id_from333.337.search-card.all.click&vd_source7a1a0bc74158c6993c7355c5490fc600 如下图所示,马尔可夫链条实际上就是 “状态机”,只不过状态机里不同状态之间的边上是 “…

车载电子电器架构 —— Vector对于车载以太网的解决方案(协议栈)

车载电子电器架构 —— Vector对于车载以太网的解决方案(协议栈) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你…

实战WinRAR捆绑图片和恶意程序并自动上线Cobalt Strike(cs钓鱼日记)

钓鱼 - WinRAR捆绑图片和恶意程序并自动上线Cobalt Strike 环境准备 工具:Cobalt Strike、Winrar压缩工具、一张JPG图片 虚拟机IP: 【攻击机】Kali:192.168.232.128 【靶机】win7:192.168.232.144 情景:在钓鱼事…

老黄终于不穿皮衣了,分享一个AI换装AI试衣软件!

用AI实现在线试衣,或者在线换装,这不是一个新概念,肯定有人这么想过,但并不是所有人能都能轻松做到啊! 今天就来分享一个人人都可以实现的方法,而且是那种傻瓜式的不用付钱的那种,甚至可以把软件…

大数据在IT行业的应用与发展趋势及IT行业的现状与未来

大数据在IT行业中的应用、发展趋势及IT行业的现状与未来 一、引言 随着科技的飞速发展,大数据已经成为IT行业的重要驱动力。从数据收集、存储、处理到分析,大数据技术为各行各业带来了深远的影响。本文将详细探讨大数据在IT行业中的应用、发展趋势&#…

详解依赖注入的三种方法以及遇到问题的解决

各位大佬光临寒舍,希望各位能赏脸给个三连,谢谢各位大佬了!!! 目录 1.三种依赖注入的方法 1.属性注入 优点 缺点 2.构造方法注入 优点 缺点 3.Setter注入 优点 缺点 4.小结 2.依赖注入常见问题的解决 1…

linux Nginx安装与启动

一、先到官网下载Nginx 官网地址: http://nginx.org/en/download.html 我下载的是nginx-1.20.2 二、下载好的文件上传到服务器,然后解压 1、上传到指定的服务器地址,我这里是公司服务器,目录都是定义好的,自己玩建…

本来还挺喜欢……

前阵子买了个天空星开发板,到手之后发觉不对劲。 之前我们玩玩开发板都是用的面包板的,就算是ESP那种比较宽的板子用两个面包板拼一下也勉强可以用。 但是天空星它的引脚是分为两组,每组有两排,如果我们还是直接使用面包板的话&a…

单页源码加密屋zip文件加密API源码

简介: 单页源码加密屋zip文件加密API源码 api源码里面的参数已改好,往服务器或主机一丢就行,出现不能加密了就是加密次数达到上限了,告诉我在到后台修改加密次数 点击下载

【文献阅读】企业ESG表现与创新——来自A股上市公司的证据

企业ESG表现与创新——来自A股上市公司的证据 1.引言 第一段——背景介绍 可持续发展 碳达峰、碳中和 ESG既是从微观层面解决全球性社会问题的必要,也是实现我国经济转型、促进高质量发展的有效手段。 2017.12证监会:重点排污企业的环境披露 2021.6证监…

【ARM Cortex-M 系列 2.1 -- Cortex-M7 Debug system registers】

请阅读【嵌入式开发学习必备专栏】 文章目录 Debug system registers中断控制状态寄存器(ICSR)Debug Halting Control and Status Register, DHCSR Debug 寄存器DCRSR与DCRDRCPU 寄存器读操作CPU 寄存器写操作CPU 寄存器选择CPU 寄存器读写示例 调试故障…

第十五篇:全面防护:构建不容侵犯的数据库安全策略与实战指南

全面防护:构建不容侵犯的数据库安全策略与实战指南 1. 引言:数据库安全的现代战略 1.1 简介:数据库安全在当今的数字化时代中的重要性 在数字化的浪潮中,数据已成为企业乃至国家的核心资产,其价值不亚于实体世界的黄…

第五百零三回

文章目录 1. 概念介绍2. 使用方法2.1 普通路由2.2 命名路由 3. 示例代码4. 内容总结 我们在上一章回中介绍了"使用get显示Dialog"相关的内容,本章回中将介绍使用get进行路由管理.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 我们在本章…

RAG应用中的路由模式

依据的用户查询意图在 RAG 应用程序使用“路由控制模式”可以帮助我们创建更强大的 RAG 应用程序。我们通常希望用户能够访问的数据可以来自各种来源,如报告、文档、图片、数据库和第三方系统。 对于基于业务的 RAG 应用程序,我们可能还希望用户能够与其它业务系统进行交互,…

大模型微调方法汇总

微调方法 Freeze方法P-tuning方法 prefix-tuningPrompt TuningP-tuning v1P-tuning v2Lora方法 重要相关参数LoRA 的优势Qlora方法 相关参数微调经验 模型选择模型大小选择数据处理微调方案英文模型需要做词表扩充吗?如何避免灾难遗忘大模型的幻觉问题微调后的输出…

戴尔数据泄露影响近五千万用户,数据保护应该得到重视

据BleepingComputer报道,电脑制造商戴尔因网站漏洞遭黑客入侵,约4900万用户信息疑遭泄露。根据黑客发布的销售帖子,泄露数据最多的前五个国家分别是美国、中国、印度、澳大利亚和加拿大。 据BleepingComputer报道,电脑制造商戴尔因…

Nios实验使用串口输出“Hello Nios-II”字符到笔记本电脑

目录 实验过程 创建工程 修改程序 编译工程 运行项目 效果实现 总结 参考 实验过程 硬件设计见博主上篇博客 软件部分设计 下面使用 Nios II Software Build Tools for Eclipse 来完成当前项目的软件开发。 启动 Nios II SBT 按照下图所示点击 Nios II Software Build…

编码器介绍与应用

一.概述 1.编码器 编码器,是一种用来测量机械旋转或位移的传感器。这种传感器能够测量机械部件在旋转或直线运动时的位移位置或速度等信息,并将其转换成一系列电信号。其可和电机组装到一起用,反馈电机方向、转换角度的,然后电机…

数据结构——循环队列(数组)

一、循环队列的定义 二、循环队列图示 三、循环队列使用规则 为解决队满和队空的判断条件相同。 我们 采用 损失一个单元不用的方法 即当循环队列元素的个数是MAXSIZE-1时,就认为队列已满(front指向空的单元) 这样循环队列的队满条件就变…