记忆注意力用于多模态情感计算!

记忆注意力用于多模态情感计算!

目录

情感计算

一、概述

二、研究背景

三、模型结构和代码

六、数据集介绍

七、性能展示

八、复现过程

九、运行过程

模型总结

本文所涉及所有资源均在传知代码平台可获取。

情感计算

近年来,社交媒体的快速扩张推动了用户生成内容的大幅增加,特别是视频。跨不同模态的自动情感分析已成为旨在增强人机交互的关键研究领域。情感分析最初专注于提取和分析通过文本传达的情感。然而,随着计算能力的提高和视听通信的兴起,多模态情感分析(MSA)已经出现。这种方法集成了文本,音频和视觉输入,以加深对人类情感的理解。MSA在教育、客户反馈分析、心理健康监测和个性化广告等多个领域都有应用,显著增强了我们在各种沟通形式中解释和应对情感线索的能力。多模态情感分析(MSA)试图整合来自视觉,听觉和文本来源的情感线索来预测说话者的情感状态或倾向。然而,这些模式的情绪信号可能会有微妙的变化。下图示出了MSA的好处,展示了添加视觉和音频信息可以提高在歧义句和不同上下文中情感极性预测的准确性。

此外,由于现如今大多数的情感计算数据集都是基于英文语言开发的,所以我加入了中文数据集(SIMS, SIMSv2)应用在模型中,以开发适用于国人的情感计算分析模型,在未来,我也计划加入更多小众数据集,以便检测更隐匿的情感,如嫉妒、嘲讽等,使得AI可以更好的服务于社会。

【注】 我们文章中所用到的数据集,模型,checkpoint 下载链接都放在了附件的readme文件中,喜欢的同学可以下载;谢谢支持!

一、概述

本文在提出了两个新的模块,文本增强和记忆模块,应用在多模态情感计算中;这篇文章对两个模块进行讲解和手把手复现教学,解决当下热门的多模态情感计算问题,并展示在MOSI和MOSEI两个数据集上的效果

二、研究背景

随着多模态数据量的迅速增加,多模态情感分析(MSA)越来越受到关注。该方法通过整合不同数据模态间的信息,提高了情感极性提取的准确性,从而实现了信息的全面融合,提高了情感分析的精度。然而,当前的深度模型往往忽视了全局记忆信息,无法有效地辅助情感分析,因此我将介绍一种新的记忆注意力模块;此外现如今的研究表明,文本模态相对于其他模态拥有更丰富和准确的情感信息,因此,我提出了一个新的文本增强模块。

三、模型结构和代码

多模态情感分析是指从视频片段中的多个人体信号中判断人物的情感状态。对于视频片段XX,它通常由三个部分组成,包括 tt(文本)、aa(声学)和 vv(视觉),它们是由二维张量 Xt={Xm1,Xm2,...,XmLm},m∈{t,a,v}Xt ={Xm1 ,Xm2 ,...,XmLm },m∈{t,a,v} 表示。𝐿𝑚Lm 表示模态m的序列长度,xti,xai,xvixti ,xai ,xvi 表示每一帧视频、音频和第ii 个字。对于视觉序列,我们使用Facet或Pyfeat获取其原始特征。对于文本序列,我们使用来自预先训练的语言模型的标记器来获得其对应的标记序列 It∈RLtIt RLt 。另一方面,声学序列通过COVAREP处理以获得原始特征。其中,Sa∈RLa×daSa RLa ×da 和 Sv∈RLv×dvSv RLv ×dv 表示原始的声学和视觉特征序列。在这里,dvdv 和 dada 分别是视觉和声学向量维度。具体来说,受CENet的启发,我们采用kmeans算法将视觉和声学数据的真实的向量序列转换为索引,建立不同的“声学词汇”和“视觉词汇”,以减轻异构模态之间的初始分布差异。随后,我们使用Im={lm0,lm1,...,lmLm−1}Im ={lm0 ,lm1 ,...,lmLm −1 }表示模态m∈{a,v}m∈{a,v}.

1. 记忆注意力模块(EM)

记忆模块在多模态情感计算中起着关键作用,它允许模型通过注意机制根据查询动态地访问和整合记忆中的信息,从而增强特征的表达能力,使模型能够更准确地理解和捕捉复杂的情感内容。此外,EM可以存储和检索多模态数据中的关键信息,帮助模型减少噪声或不完整数据的不确定性,并提高情感分析任务的准确性和效率,并且通过动态更新和学习如何整合不同模态数据之间的关系,还使模型能够在训练后通过推广到以前看不见的数据来表现良好,保持高效和准确。同时,EM模块应用于所有三种模式(文本、视觉和声学)。

首先初始化一个可学习的记忆矩阵Et∈Rde×dvEt Rde ×dv ,其中 dede 表示记忆矩阵的维数,它可以根据模型的训练过程动态地更新参数,用于存储和检索模型的关键信息。之后,我们将对输入的视觉特征的查询 QvQv 、键 KvKv 和值 VvVv 进行线性更改,以保留输入维度;

Qv=Linear(dv)∈RB×dvQv =Linear(dv )∈RB×dv

Kv,Vv=Linear(de,dv)∈Rde×dvKv ,Vv =Linear(de ,dv )∈Rde ×dv

然后,在我们转移特征维度之后,我们可以使用Q和K计算注意力得分。

ATT_Sv=Qv⋅kv⊤dvATT_Sv =dv Qv kv

其中,ATT_SvATT_Sv 表示注意力得分,我们使用 SoftmaxSoftmax函数来获得注意力权重,并结合 VV进行加权求和,得到最终结果;

ATT_Wv=softmax(ATT_S)ATT_Wv =softmax(ATT_S)

Sum_Wv=ATT_Wv⋅VvSum_Wv =ATT_Wv Vv

在这个阶段,我们拥有包含关键记忆信息的特征,用于后续的特征交互。

下面是该模块的代码实现

class ExternalMemory(nn.Module):
    def __init__(self, text_dim, mem_size):
        super(ExternalMemory, self).__init__()
        self.text_dim = text_dim
        self.mem_size = mem_size        # 外部记忆矩阵
        self.memory = nn.Parameter(torch.randn(mem_size, text_dim))        # Linear transformations
        self.query_transform = nn.Linear(text_dim, text_dim)
        self.key_transform = nn.Linear(text_dim, text_dim)
        self.value_transform = nn.Linear(text_dim, text_dim)    def forward(self, query):
        # 将输入的查询向量query进行线性变换,得到变换后的查询向量。这个变换的目的是将查询向量调整到与记忆矩阵相同的维度,以便进行后续的注意力计算。
        query = self.query_transform(query)  # (batch_size, text_dim)
        # 使用self.key_transform(self.memory)和self.value_transform(self.memory)分别对外部记忆矩阵进行键和值的线性变换,
        # 得到变换后的键矩阵和值矩阵。这些变换将外部记忆中的每个条目映射到与查询向量相同的空间。
        key = self.key_transform(self.memory)  # (mem_size, text_dim)
        value = self.value_transform(self.memory)  # (mem_size, text_dim)        # 通过矩阵乘法torch.matmul(query, key.t())计算查询向量与每个键之间的点积注意力分数。
        # 这里使用了缩放点积注意力机制,通过除以math.sqrt(self.text_dim)来缩放注意力分数,其中self.text_dim是查询和键的维度大小
        scores = torch.matmul(query, key.t()) / math.sqrt(self.text_dim)  # (batch_size, mem_size)        # 对注意力分数应用softmax函数F.softmax(scores, dim=-1),得到注意力权重,表示每个外部记忆条目对查询的重要性。
        attention_weights = F.softmax(scores, dim=-1)  # (batch_size, mem_size)        # 使用注意力权重对值矩阵进行加权求和,计算加权平均值。weighted_sum表示基于注意力机制加权后的记忆信息.
        weighted_sum = torch.matmul(attention_weights.unsqueeze(1), value.unsqueeze(0))  # (batch_size, 1, text_dim)
        weighted_sum = weighted_sum.squeeze(1)  # (batch_size, text_dim)        return weighted_sum

2. 文本增强模块

模块的核心组件是跨模态嵌入单元。该单元利用跨模态注意力机制捕捉长程非文本情感信息,并生成基于文本的非语言嵌入。嵌入层的参数是可学习的,用于将经过特征转换策略处理后的非文本索引向量映射到高维空间,进而生成文本模态对非文本模态的注意力权重矩阵。换句话说,这一单元通过复杂的神经网络结构,有效地整合了不同模态之间的信息交互,从而提升了情感分析任务的多模态处理能力。训练开始阶段,由于语言表征和非语言表征处于不同的特征空间,它们之间的相关性通常较低。因此,注意力权重矩阵中的元素可能较小。为了更有效地学习模型参数,研究者在应用 softmax 函数之前使用超参数来缩放这些注意力权重矩阵。

基于注意力权重矩阵,可以生成基于文本的非语言向量。将基于文本的声学嵌入和基于文本的视觉嵌入结合起来,形成非语言增强嵌入。最后,通过整合非语言增强嵌入来更新文本的表示。因此,该模块的提出旨在为文本提供非语言上下文信息,通过增加非语言增强嵌入来调整文本表示,使其在语义上更加准确和丰富。

六、数据集介绍

1. CMU-MOSI: 它是一个多模态数据集,包括文本、视觉和声学模态。它来自Youtube上的93个电影评论视频。这些视频被剪辑成2199个片段。每个片段都标注了[-3,3]范围内的情感强度。该数据集分为三个部分,训练集(1,284段)、验证集(229段)和测试集(686段)。

2. CMU-MOSEI: 它类似于CMU-MOSI,但规模更大。它包含了来自在线视频网站的23,453个注释视频片段,涵盖了250个不同的主题和1000个不同的演讲者。CMU-MOSEI中的样本被标记为[-3,3]范围内的情感强度和6种基本情绪。因此,CMU-MOSEI可用于情感分析和情感识别任务。

3. SIMS/SIMSV2: CH-SIMS数据集是一个中文多模态情感分析数据集,为每种模态提供了详细的标注。该数据集包括2281个精选视频片段,这些片段来自各种电影、电视剧和综艺节目,每个样本都被赋予了情感分数,范围从-1(极度负面)到1(极度正面)

七、性能展示

● 在情感计算任务中,通过对比实验和消融实验,可以看到我们的模块使得模型性能明显提高,证明了其有效性;

1. 对比实验:

MOSI数据集:

MOSEI数据集:

2. Case Study:

八、复现过程

在准备好数据集并调试代码后,进行下面的步骤,附件已经调通并修改,可直接正常运行;

1.  数据集准备

2.  下载MOSI和MOSEI数据集已提取好的特征文件(.pkl)。把它放在"./dataset”目录。下载预训练语言模型

3.  下载SentiLARE语言模型文件,然后将它们放入"/pretrained-model / sentilare_model”目录。下载需要的包

pip install -r requirements.txt

九、运行过程

1.  训练过程

2.  最终结果

模型总结

我们的模型适用于多模态情感分析场景,特别是在需要同时处理文本、声音和视觉信息的任务中表现突出。以下是模型的项目特点和适用场景总结:

适用场景:

● 社交媒体监控与分析: 模型能够有效地从社交媒体上的多模态数据中提取情感信息,帮助分析用户在言语、音频和视频内容中的情感表达,用于品牌监控、舆情分析等。

● 视频内容理解: 在视频内容分析中,可以同时处理视频中的语言文本、音频和视觉信息,提升对视频内容情感和情绪的理解能力,适用于视频推荐系统、内容审核等应用。

● 电影和电视节目评价: 通过结合电影或电视节目中的对话文本、声音和场景图像,可以更全面地分析观众对作品的情感反应,用于市场调研、口碑分析等。

● 心理健康监测与干预: 模型的能力使其在心理健康领域具有潜在应用,例如通过分析患者的语音、文本和面部表情数据来识别抑郁症或其他情感健康问题的迹象,为个性化的干预和治疗提供支持。

项目特点:

● 多模态信息融合: 采用记忆注意力机制,能够有效地整合文本、声音和视觉信息,提升情感分析的准确性和丰富性。

● 自适应学习策略: 模型内部使用超参数来调节注意力权重矩阵,从而在初始训练阶段优化不同模态信息之间的关联性,提升模型性能和参数学习效率。

● 非语言信息增强: 模块引入了非语言增强嵌入和记忆模块,通过结合基于文本的声学和视觉嵌入来丰富和调整文本的语义表示,提高文本表达的准确性和情感丰富度。

● 应用领域广泛: 不仅适用于情感分析,CENet还可扩展到其他需要综合多模态信息的任务,如智能会话系统、娱乐内容推荐和情感驱动的虚拟助理等领域。

综上所述,我们的模型以其能够处理多种模态信息并提升情感分析精度的特性,在多个现实世界的应用场景中展现了广泛的潜力和价值。

感觉不错,点击我,立即使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/50830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信通院发布!首个大模型混合云标准

近日,中国信通院发布了首个大模型混合云标准,通过定位当前大模型混合云的能力水平,为基于混合云的大模型服务实践提供指引,并明确未来提升方向。同时,中国信通院基于标准展开大模型混合云能力成熟度专项测试&#xff0…

智能家居全在手机端进行控制,未来已来!

未来触手可及:智能家居,手机端的全控时代 艾斯视觉的观点是:在不远的将来,家,这个温馨的港湾,将不再只是我们休憩的场所,而是科技与智慧的结晶。想象一下,只需轻触手机屏幕&#xf…

VMware 上的 Debian Linux 虚拟机无法听到蓝牙耳机的声音解决方案

项目场景: 在Debian上安装QQ音乐,用来摸鱼 问题描述 在安装完QQ音乐后,发现虚拟机无法听到声音,音乐有在正常播放,但是蓝牙耳机没有听到任何声音: 原因分析: 感觉是虚拟机的声卡没有配置&…

WiFi通信——STM32通过ESP8266-01S与阿里云通信

嵌入式设计中常用的无线通信方式主要由蓝牙、WiFi、Zigbee、Lora、NB-IOT等等。这些是最常用的,也是在实际项目开发中根据项目的数据通信特点来选择相应的无线通信方式。本设计主要是讲解WiFi在嵌入式开发中的使用。 1.ESP8266的三种模式 1.1 STA模式(Station) 工…

FPGA开发——独立仿真和联合仿真

一、概述 我们在进行FPGA开发的过程之中,大部分情况下都是在进行仿真,从而验证代码实现结果的正确与否,这里我们引入了独立仿真和联合仿真进行一个简单介绍。 联合仿真:一般我们在进行仿真之前需要在相应的软件中建立相应的工程…

昇思25天学习打卡营第01天|昇思MindSpore大模型基础j介绍

昇思MindSpore和华为昇思MindSpore大模型学习打卡系列文章,本文仅供参考~ 文章目录 前言一、昇思MindSpore是什么?二、执行流程三、设计理念四、层次结构五、Huawei昇腾AI全栈 前言 随着计算机大模型的不断发展,Ai这门技术也越来越重要&#…

【LeetCode 随笔】C++入门级,详细解答加注释,持续更新中。。。

文章目录 58.【简单】最后一个单词的长度🌟 🌈你好呀!我是 山顶风景独好 🎈欢迎踏入我的博客世界,能与您在此邂逅,真是缘分使然!😊 🌸愿您在此停留的每一刻,都…

使用vfbox网关实现modbus opc profinet iec61850等协议间的转换

在当今物联网(IoT)与工业自动化日益融合的时代背景下,协议转换网关作为连接不同设备与系统之间的桥梁,扮演着至关重要的角色。VFBox协议转换网关,作为这一领域内的佼佼者,以其高效、灵活、可靠的性能&#…

学习周报:文献阅读+HEC RAS案例

目录 摘要 Abstract 文献阅读:通过HEC RAS软件为罗马尼亚布加勒斯特市的Dmbovița河水管理的水力模型 文献摘要 讨论|结论 理论知识 边界条件计算 流量计算方式 曼宁公式 (Mannings Equation) 连续性方程 (Continuity Equation) 能量方程 (Energy Equatio…

API资源对象CRD、认识Operator-理论知识和认识Operator-初次上手(2024-07-17)

一、API资源对象CRD Kubernetes 自定义资源定义(Custom Resource Definition,简称 CRD)是一种强大的 Kubernetes API 扩展机制,允许你定义和创建自己的资源类型,以满足您的应用程序或基础设施需求。 CRD 的核心思想是…

LeetCode 2766题: 重新放置石块(原创)

【题目描述】 给你一个下标从 0 开始的整数数组 nums ,表示一些石块的初始位置。再给你两个长度 相等 下标从 0 开始的整数数组 moveFrom 和 moveTo 。 在 moveFrom.length 次操作内,你可以改变石块的位置。在第 i 次操作中,你将位置在 moveF…

基于Pytorch框架的深度学习densenet121神经网络鸟类行为识别分类系统源码

第一步:准备数据 5种鸟类行为数据:self.class_indict ["bowing_status", "grooming", "headdown", "vigilance_status", "walking"] ,总共有23790张图片,每个文件夹单独放一…

从零搭建pytorch模型教程(八)实践部分(二)目标检测数据集格式转换

前言 图像目标检测领域有一个非常著名的数据集叫做COCO,基本上现在在目标检测领域发论文,COCO是不可能绕过的Benchmark。因此许多的开源目标检测算法框架都会支持解析COCO数据集格式。通过将其他数据集格式转换成COCO格式可以无痛的使用这些开源框架来训…

【计算机网络】静态路由实验

一:实验目的 1:掌握通过静态路由方法实现网络的连通性。 二:实验仪器设备及软件 硬件:RCMS-C服务器、网线、Windows 2019/2003操作系统的计算机等。 软件:记事本、WireShark、Chrome浏览器等。 三:实验方…

《分析模式:可重用对象模型》学习笔记之四:企业财务分析中的观察和测量02

这个模型基本解决问题,可以方便定义层次,以及反映了三个不同的维数元素,也反映了企业部门单元和维数元素的关系,但是很快可以看到,在这里,维数被局限在三个:也就是说,如果维数需要改…

静止轨道卫星大气校正(Atmospheric Correction)和BRDF校正

文章内容仅用于自己知识学习和分享,如有侵权,还请联系并删除 :) 目的: TOA reflectance 转为 surface refletance。 主要包含两步: 1)大气校正; 2)BRDF校正 进度&#x…

抖音矩阵管理系统开发:全面解析与推荐

在数字时代,短视频平台如抖音已经成为人们生活中不可或缺的一部分。随着内容创作者数量的激增,如何高效地管理多个抖音账号,实现内容矩阵化运营,成为了众多创作者关注的焦点。今天,我们就来全面解析抖音矩阵管理系统的…

Java_如何在IDEA中使用Git

注意:进行操作前首先要确保已经下载git,在IDEA中可以下载git,但是速度很慢,可以挂梯子下载。 导入git仓库代码 第一次导入: 首先得到要加载的git仓库的url: 在git仓库中点击 “克隆/下载” 按钮&#xf…

SpringBoot教程(十七) | SpringBoot集成swagger

SpringBoot教程(十七) | SpringBoot集成swagger 一、Swagger的简述二、SpringBoot集成swagger21. 引入依赖2. 新建SwaggerConfig配置类当 SpringBoot为2.6.x及以上时 需要注意 3.配置Swagger开关4. 给Controller 添加注解(正式使用&#xff0…

PCIe 以太网芯片 RTL8125B 的 spec 和 Linux driver 分析备忘

1,下载 RTL8125B driver 下载页: https://www.realtek.com/Download/List?cate_id584 2,RTL8125B datasheet下载 下载页: https://file.elecfans.com/web2/M00/44/D8/poYBAGKHVriAHnfWADAT6T6hjVk715.pdf3, 编译driver 解压: $ tar xj…