【论文精读】| KBS2023-TMBL-多模态情感分析系列文章解读

TMBL: Transformer-based multimodal binding learning model for multimodal sentiment analysis

一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型
- 1 Abstract
- - 1.1 Motivation
  - 1.2 Method
  - 1.3 Results
- 2. Related Work
- - 2.1 情感分析
  - 2.1 基于transformer的
  - 2.1 模态融合策略
- 3. 模型细节
- - 2.2 绑定学习模型
  - 2.3 损失函数
- 4. 结果
- 5. 自己的思考

一. KBS2023-TMBL-用于多模态情感分析的极向量和强度向量混合器模型

1 Abstract

多模态情感分析是人机交互研究的重要方向，它可以通过同时分析文本、视频和声音特征来准确识别个体的情绪状态。尽管当前的情绪识别算法使用多模态融合策略表现良好，但仍然存在两个关键挑战。第一个挑战是在融合之前有效提取模态不变和模态特定的特征，这需要不同模态之间的深层特征交互。第二个挑战涉及区分模态特征之间的高级语义关系的能力。为了解决这些问题，我们提出了一种新的模态绑定学习框架，并重新设计了 Transformer 模型的内部结构。我们提出的模态绑定学习模型通过结合双模态和三模态绑定机制解决了第一个挑战。这些机制分别处理模态特定和模态不变的特征，并促进跨模态交互。此外，我们通过在变压器结构的前馈层和注意层中引入细粒度卷积模块来增强特征交互。为了解决第二个问题，我们分别引入了 CLS 和PE特征向量来表示模态不变和特定模态特征。我们使用相似性损失和相异性损失来支持模型收敛。在广泛使用的 MOSI 和 MOSEI 数据集上的实验表明，我们提出的方法优于最先进的多模态情感分类方法，证实了其有效性和优越性。源代码可以在 https://github.com/JackAILab/TMBL 找到。

1.1 Motivation

多模态情感分析旨在判断互联网用户在各种社交媒体平台上上传的多模态数据的情感。

（1）然而，一方面，现有研究侧重于文本、音频和视觉等多模态数据的融合机制，而忽略了文本与音频、文本与视觉的相似性以及音频与视觉的异质性，导致情感分析存在偏差。

（2）另一方面，多模态数据带来与情感分析无关的噪声，影响融合效果。

1.2 Method

我们设计了一个 Polar-Vector (PV) 和一个 Strength-Vector (SV) 来分别判断情绪的极性和强度。

第一，PV是从文本和视觉特征的交流中获得的，用来决定情绪是积极的、消极的还是中性的。

第二，SV 是从文本和音频特征之间的通信中获得的，用于分析 0 到 3 范围内的情感强度。最后，我们混合 PV 和 SV 得到一个融合向量来判断情感状态。

第三，我们设计了一个由多个全连接层和激活函数组成的 MLP-Communication 模块（MLP-C），使不同的模态特征在水平和垂直方向上充分交互，是利用MLP进行多模态信息交流的一种新颖尝试。

在这里插入图片描述

图1 我们提出的TMBL的整个框架，其中优化的变压器由MBTA和GBFN组成。预测的特征将通过分类标记来区分，模态位置是可学习的。

1.3 Results

拟议的 TMBL 在两个公开可用的数据集 CMU-MOSEI 和 CMU-MOSI 上进行了测试，与基线方法相比，它在 CMU-MOSEI 上实现了最先进的 (SOTA) 性能。这些代码位于：https://github.com/JackAILab/TMBL

2. Related Work

2.1 情感分析

然而，由于早期融合和晚期融合都不能充分探索模态之间的跨视图动态交互，因此忽略了不同模态之间的低级交互 [1]。因此，研究人员提出了许多细粒度的融合方案，包括基于张量的融合[35,36]、词级融合[9,15]、基于翻译的融合[21,37,38]、基于上下文的融合[39,40]、基于量子的融合[41]和基于特征空间操作的融合[28]。值得注意的是，这些特征融合方案旨在促进模式之间更好的交互

2.1 基于transformer的

上述基于 Transformer 的模型取得了优异的性能。然而，大多数模型都旨在更有效地与两种模式交互 [18,23,43]，而很少考虑三种模式的交互。此外，现有的基于 Transformer 的模型不足以在一个框架中提取每个模式特征。本文提出的 Transformer 模型可以同时提取三个模态特征，我们还修改了 Transformer 模型的前馈层和注意力层，使模型能够提取更细粒度的模态特征。

2.1 模态融合策略

然而，现有的模态融合方法对于模态不变和模态特定的考虑是不够的，很少考虑不同模态特征之间的语义顺序。有趣的是，一个好的模态顺序可以帮助模型更好地理解提取特征的含义，从而提高模型的鲁棒性。

3. 模型细节

如图1所示，我们提出的模型框架首先将模态特征分为两类，模态不变和模态特异性。请注意，特定于模态的特征是指每个模态数据本身的固有特征信息，模态不变特征是指所有模态共享的特征信息，通常需要首先将模态数据投影到相同的隐藏层维度上。

具体来说，对于模态特定的特征数据，我们使用跨模态策略来完成模态特定特征的交互，对于模态不变特征，我们设计了一种模态绑定学习策略来完成模态之间的交互。其次，我们使用优化的 All-in-One Transformer 架构来更好地捕获这些交互模式之间的特征。优化后的Transformer由多头绑定转置注意(MBTA)和门控绑定前馈网络(GBFN)组成。第三，我们实现了包含 CLS Token 和 Position Embedding 以增强模型识别模态类型和上下文的能力。因此，模态集成的损失函数分为三个部分，包括情感预测的分类损失、模态不变相似损失和模态特定不相似损失。