GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V with Emotion:A Zero-shot Benchmark forMultimodal Emotion Understanding

GPT-4V情感:多模态情感理解的zero-shot基准

1.摘要

最近,GPT-4视觉系统(GPT-4V)在各种多模态任务中表现出非凡的性能。然而,它在情感识别方面的功效仍然是个问题。本文定量评估了GPT-4V在多通道情感理解方面的能力,包括面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别等任务。我们的实验表明,GPT-4V表现出令人印象深刻的多模态和时间理解能力,甚至在某些任务中超过了监督系统。尽管取得了这些成就,GPT-4V目前是为一般领域定制的。它在需要专业知识的微表情识别中表现不佳。本文的主要目的是呈现GPT-4V在情绪理解方面的量化结果,并为未来的研究建立一个zero-shot基准。代码和评测结果可在:https://github . com/zero qiaoba/GPT 4v-emotion获取。

GPT-4V:

        虽然在多模态任务上表现良好,但情感识别方面仍有提升潜力

        GPT-4V的优点:多模态和时间理解能力优秀,甚至在某些任务中超过了监督系统

        GPT-4V的不足:在需要专业知识的微表情识别中表现不佳

多模态情感理解任务: 

        面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别

本文的目的:呈现GPT-4V在情绪理解方面的量化结果,并为未来的研究建立一个zero-shot基准

zero-shot就可以被定义为:利用训练集数据训练模型,使得模型能够对测试集的对象进行分类,但是训练集类别和测试集类别之间没有交集;期间需要借助类别的描述,来建立训练集和测试集之间的联系,从而使得模型有效。【摘自:Zero-shot(零次学习)简介-CSDN博客】

2.背景及研究意义

  • 多模态情感理解任务旨在整合多模态信息(即图像、视频、音频和文本)来理解情绪。
  • 为每项任务选择有限数量的样本,对GPT-4V的性能进行定性评估,当前GPT-4V请求限制100+左右。
  • 目前的GPT-4V只支持图像和文本,对于音频,我们试图转换成梅尔频谱图,以捕捉副语言信息然而,GPT-4V拒绝承认梅尔光谱图。因此,我们的评估主要集中在图像、视频和文本上

创新性:

        这是第一个定量评估GPT-4V在情绪任务中表现的工作。我们希望我们的工作可以为后续研究建立一个zero-shot基准,并启发情感计算的未来方向。

评估对象:

        GPT 4 API(GPT-4-1106-preview)

GPT-4对请求有三个限制:

        每分钟令牌数(TPM)、每分钟请求数(RPM)和每天请求数(RPD)

        为了满足RPM和RPD,我们遵循以前的工作[7]并采用批量输入。
 

面部表情识别为例

提示:请扮演一个面部表情分类专家的角色。我们提供20张图片。

请忽略说话者的身份,专注于面部表情。

对于每幅图像,请根据与输入的相似性从高到低对提供的类别进行排序。

以下是可选的类别:[快乐、悲伤、愤怒、恐惧、厌恶、惊讶、中性]。

每个图像的输出格式应该是{'name ':,' result ':}。

Prompt:

Please play the role of a facial expression classification expert.We provide 20 images.

Please ignore the speaker’s identity and focus on the facial expression.

For each image,please sort the provided categories from high to low according to the similarity with the input.

Here are the optional categories:[happy,sad,angry,fearful,disgusted,surprised,neutral].

The output format should be {’name’:,’result’:}for each image.

总结

        实验专注于:图像、视频和文本模态

        评估的模型GPT 4 API(GPT-4-1106-preview),为了满足RPM和RPD,我们遵循以前的工作[7]并采用批量输入

        创新性:第一个定量评估GPT-4V在情绪任务中表现的工作。目标为后续研究建立一个zero-shot基准,并启发情感计算的未来方向。 

3.实验和结果

在本文中,我们评估了GPT-4V在五个任务中的zero-shot性能

表1 2总结了数据集统计和标注方法:

  • 表1:五类基本情感理解任务及数据集信息:(面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别

        面部情绪识别识别:对于视频的处理:提取每个序列的最后三帧用于情感识别。

                                        提取关键帧,包括各种头部姿势、遮挡和光照

        视觉情感分析:旨在识别由图像引起的情感,而不要求图像以人为中心

                                为了与之前的作品进行公平的比较,我们将这些标签重新映射为积极和消极的情绪。

        微表情识别:微表情持续时间短,强度低,并且出现在稀疏的面部动作单元中[28]

                              使用apex框架评估GPT-4V对微表情的识别

        动态面部情绪识别将分析扩展到图像序列或视频。需要进一步利用时态信息。

                                        评价指标包括未加权平均召回率(UAR)和加权平均召回率(WAR)

        多模态情绪识别情绪:整合不同来源的信息

                                            本文主要研究否定/肯定分类任务。分别为< 0分和> 0分分配正类和负类。

  • 表2:数据集及采用的情感标签信息。

对于视觉情感分析(见表4),GPT-4V优于监督系统,表明其在从视觉内容理解情感方面的强大能力。然而,GPT-4V在微表情识别方面表现不佳(见表5),这表明GPT-4V目前用于一般领域。它不适合需要专业知识的领域

表6-7显示了GPT-4V和监督系统在视频理解方面的差距。值得注意的是,由于每个视频只采样三帧,一些关键帧可能会被忽略,从而导致性能受限。

对色彩空间的稳健性在表3中,GPT-4V在CK+和FERPlus上表现稍差。由于两个数据集都有灰度图像,一个合理的假设出现了:当面对灰度图像时,GPT-4V的表现会更差吗为了探索这种可能性,我们将RAF-DB中的所有RGB图像转换为灰度图像,并将结果报告在表8中。有趣的是,GPT-4V在不同的颜色空间表现出非常相似的性能。这种对色彩空间变化的弹性表明GPT-4V在这方面具有内在的鲁棒性

时间理解能力为了降低评估成本,我们对每个视频统一采样三帧。在本节中,我们将进一步研究不同采样数的影响。如表9所示,当采样帧数从3减少到2时,性能明显下降。这突出了在未来工作中增加采样帧数的重要性

多模态情感理解:表10报告了三个基准数据集上的单峰和多峰结果。

观察到多模态结果优于单峰结果,证明了GPT-4V整合和利用多模态信息的能力。但是对于CMU-MOSI,我们在多模态结果中观察到轻微的性能下降。这个数据集主要依赖于词汇信息[77],视觉信息的加入可能会给GPT-4V理解情绪带来一些困惑

总结

  1. 对于视觉情感分析,GPT-4V优于监督系统,其在从视觉内容理解情感方面的强大能力。
  2. GPT-4V在微表情识别方面表现不佳,GPT-4V目前用于一般领域。不适合需要专业知识的领域
  3. GPT-4V和监督系统在视频理解方面的差距。由于每个视频只采样三帧,一些关键帧可能会被忽略,从而导致性能受限。
  4. GPT-4V在不同的颜色空间表现出非常相似的性能。这种对色彩空间变化的弹性表明GPT-4V在这方面具有内在的鲁棒性
  5. 多模态结果优于单峰结果

4.结论

本文做了什么:提供了对GPT-4V在五个不同任务中的多模态情绪理解性能的评估

结论是什么:GPT-4V在理解视觉内容的情感方面有很强的能力,甚至超过了监督系统。然而,它在需要专业领域知识的微表情识别中表现不佳

本文还做了什么:为后续研究的zero-shot基准

本文还能做什么

  • 由于GPT-4V API成本较高,本文对视频输入统一采样3帧。未来的工作将探索更高采样率下的性能
  • 整合更多与情感相关的任务和数据集,以提供对GPT-4V的全面评估

5.读后感

1.本文的价值在哪里?

        对于最新的模型,GPT4的情感识别能力进行了第一次全方位评估。

2.本文的对于情感的可解释性做了哪些阐释?

        将模型的情感理解能力体现为以下任务的性能:面部情感识别、视觉情感分析、微表情识别、动态面部情感识别和多通道情感识别——【情感分类任务】

3.如何理解其作为zero-shot基准?

        本文工作希望为后续研究的zero-shot基准, 其目标在于让计算机模拟人类的情感推理方式,来识别从未见过的新事物的情感。

        其在大量的情感任务及数据集上做了初次尝试。

4.接下来的工作可能从哪些方面开展?

        视频更好的采样来观测性能变化

        收集更多的情感数据集评估GPT-4情感能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/231982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA版SSM入门到实战(Maven+MyBatis+Spring+SpringMVC) -Spring的AOP前奏

第一章 AOP前奏 1.1 代理模式 代理模式&#xff1a;我们需要做一件事情&#xff0c;又不期望自己亲力亲为&#xff0c;此时&#xff0c;可以找一个代理【中介】 我们【目标对象】与中介【代理对象】不能相互转换&#xff0c;因为是“兄弟”关系 1.2 为什么需要代理【程序中…

css+html横向滚动+固定宽

没什么好说的&#xff0c;快上代码&#xff01; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Do…

微服务实战系列之ZooKeeper(上)

前言 历经1个多月的创作和总结&#xff0c;纵观博主微服务系列博文&#xff0c;大致脉络覆盖了以下几个方面&#xff1a; 数据方面&#xff08;缓存&安全&#xff09; 比如Redis、MemCache、Ehcache、J2cache&#xff08;两级缓存框架&#xff09;、RSA加密、Sign签名…传…

Pycharm enable IntelliBot #patched后,工程无法打开

#本地环境# Pycharm&#xff1a;2023.12 Pro 对应robot pkg版本&#xff1a; robotframework 6.1 robotframework-databaselibrary 1.2.4 robotframework-pythonlibcore 4.1.2 robotframework-requests 0.9.4 robotframework-seleniumlibrary 6.1.…

各种不同语言分别整理的拿来开箱即用的8个开源免费单点登录(SSO)系统

各种不同语言分别整理的拿来开箱即用的8个开源免费单点登录&#xff08;SSO&#xff09;系统。 单点登录&#xff08;SSO&#xff09;是一个登录服务层&#xff0c;通过一次登录访问多个应用。使用SSO服务可以提高多系统使用的用户体验和安全性&#xff0c;用户不必记忆多个密…

electron与cesium组件入门应用功能

electron与cesium组件入门应用功能 运行应用效果图&#xff1a; electron应用目录&#xff0c;需要包括三个文件: index.html main.js package.json (一)、创建一个新项目 目录名称&#xff1a;project_helloWolrd (二)、生成package.json文件 npm init --yes(三&#x…

短视频账号矩阵系统3年技术独立源头正规开发搭建

短视频账号矩阵3年技术独立开发打造是一个非常有挑战性和前景的项目。以下是一些建议&#xff0c;帮助你成功打造一个成功的短视频账号矩阵&#xff1a; 1. 确定目标受众&#xff1a;首先需要明确你的目标受众是谁&#xff0c;了解他们的兴趣爱好、年龄、性别等&#xff0c;以便…

【Logback技术专题】「入门到精通系列教程」深入探索Logback日志框架的原理分析和开发实战技术指南(上篇)

深入探索Logback日志框架的原理分析和开发实战指南系列 Logback日志框架Logback基本模块logback-corelogback-classiclogback-accessLogback的核心类LoggerAppenderLayoutLayout和Appender filterlogback模块和核心所属关系 Logbackj日志级别日志输出级别日志级别介绍 Logback的…

向华为学习:基于BLM模型的战略规划研讨会实操的详细说明,含研讨表单(四)

2023年只剩下不到10天了&#xff0c;如何科学、系统地制定2024年的公司战略&#xff1f;如果您还没有找到好的方法&#xff0c;或者对过去的方法不是很满意&#xff0c;或者想探索习方法&#xff0c;不妨来看看华为和许多标杆企业在用的——基于BLM模型来组织战略规划。 前面三…

Word写大论文常见问题(持续更新)

脚注横线未定格 解决方案&#xff1a;“视图”-“草图”&#xff0c;“引用”-“显示备注”-选择“脚注分隔符”&#xff0c;把横线前的空格删掉。 2.PPT做的图插入word中清晰度太低 解决方案&#xff1a;PPT-图形-“另存为图片”-“可缩放矢量图格式”-粘贴到word中。 3.E…

Linux - 非root用户使用systemctl管理服务

文章目录 方式一 &#xff08;推荐&#xff09;1. 编辑sudoers文件&#xff1a;2. 设置服务文件权限&#xff1a;3. 启动和停止服务&#xff1a; 方式二1. 查看可用服务&#xff1a;2. 选择要配置的服务&#xff1a;3. 创建自定义服务文件&#xff1a;4. 重新加载systemd管理的…

【可用性】Redis作为注册中心配合Spring Task的高可用案例

需求&#xff1a; 假设当前有一个短信服务是多节点集群部署&#xff0c;我们希望每个服务节点在启动时能将服务信息"注册"到redis缓存中&#xff0c;所有服务节点每隔3分钟上报一次&#xff0c;表示当前服务可用。每个服务还会作为哨兵节点每隔10分钟查询一次redis&a…

CRM客户登记管理系统:企业数字化转型的必备工具

客户登记管理系统&#xff08;CRM&#xff09;是一种用于记录和管理客户信息的软件系统。它用于存储和跟踪客户的基本信息、联系方式、交易历史、服务请求等关键数据&#xff0c;以便企业能够更好地了解客户、提供个性化的服务&#xff0c;并进行有效的销售和营销活动。 CRM系统…

扫描电镜操作的注意点有哪些

扫描电子显微镜&#xff08;SEM&#xff09;是一种高分辨率的显微镜&#xff0c;用于观察微观尺度的表面形貌。在操作SEM时&#xff0c;需要注意一些关键的操作注意点&#xff0c;以确保获得高质量的显微图像和保护仪器的正常运行。以下是一些常见的扫描电子显微镜操作注意点&a…

【分治算法】运算的优先级

最典型的回溯算法就是归并排序&#xff0c;核心逻辑如下&#xff1a; public void sort(int[] nums, int lo, int ho){int mid (lo hi) / 2;//对数组的两部分分别排序sort(nums,lo, mid);sort(nums, mid1,hi);//合并两个排好序的子数组merge(nums, lo, mid, hi); }添加括号的…

uniapp 用于开发H5项目展示饼图,使用ucharts 饼图示例

先下载ucharts H5示例源码&#xff1a; uCharts: 高性能跨平台图表库&#xff0c;支持H5、APP、小程序&#xff08;微信小程序、支付宝小程序、钉钉小程序、百度小程序、头条小程序、QQ小程序、快手小程序、360小程序&#xff09;、Vue、Taro等更多支持canvas的框架平台&#…

企业电子招标采购系统源码Spring Cloud + Spring Boot + 前后端分离 + 二次开发

项目说明 随着公司的快速发展&#xff0c;企业人员和经营规模不断壮大&#xff0c;公司对内部招采管理的提升提出了更高的要求。在企业里建立一个公平、公开、公正的采购环境&#xff0c;最大限度控制采购成本至关重要。符合国家电子招投标法律法规及相关规范&#xff0c;以及审…

sqlserver dba日常操作

文章目录 查询慢sql的方法sqlserver备份全备差异备日志备ldf备份事务备份 注意事项SQL Server 还原全备还原差异备份还原日志备/尾日志还原事务日志还原备份还原中的问题还原失败&#xff0c;需要某些权限重命名sql Server数据库名称失败 作业迁移单个迁移批量迁移 登陆账号迁移…

PHP-PhpSpreadsheet导出带图片方法

需求描述 导出表格&#xff0c;项目名称对应项目详情页面二维码。 实现方法 1&#xff0c;先将各个项目生成的二维码存放到了一个指定目录里面&#xff1b; 2&#xff0c;导出数据到excel表格 <?phpuse PhpOffice\PhpSpreadsheet\Spreadsheet; use PhpOffice\PhpSpread…

Linux Centos 配置 Docker 国内镜像加速

在使用 Docker 进行容器化部署时&#xff0c;由于国外的 Docker 镜像源速度较慢&#xff0c;我们可以配置 Docker 使用国内的镜像加速器&#xff0c;以提高下载和部署的效率。本文将介绍如何在 CentOS 系统上配置 Docker 使用国内镜像加速。 步骤一&#xff1a;安装 Docker 首…