EmotionBench—— 基于 LLM 情绪的量化框架

介绍

大型语言模型(LLM)在近年来取得了显著的进展,这在计算机科学领域被视为一个重要的里程碑。像ChatGPT和Claude这样的综合性软件已经不再仅仅是用于句子校正、文本翻译和编程的工具,它们已经演进成为类似于人类的助手。因此,对于LLM的评估,我们不仅需要关注其性能,还需要深入了解它们所引发的情感反应,并将其与人类的情感反应进行比较。

在这一背景下,本研究创建了一个包含428种情境模式的大型数据集,这些情境模式已被证实能够有效地激发八种不同的负面情绪。此外,本研究采用了EmotionBench框架——这是一个用于量化和评估LLM情感反应的工具——来全面研究LLM在这些情境下的情绪反应。通过这种方式,我们旨在更深入地理解LLM在处理情感相关任务时的表现,并探索它们在情感智能方面的潜力。
论文:https://arxiv.org/abs/2308.03656
源码:https://github.com/cuhk-arise/emotionbench

创建大型数据集

为了全面评估语言模型在不同情境下的情绪反应,本研究精心挑选了八种负面情绪——愤怒、焦虑、抑郁、沮丧、嫉妒、内疚、恐惧和尴尬,以此作为研究的焦点。这些情绪的选取基于它们在人类复杂情绪体验中的普遍性和显著性。针对每一种情绪,我们构建了一个大型数据集,旨在激发和研究相应的情绪反应。

历史上,心理学研究者采用多种方法探讨特定情境对情绪的影响,包括将参与者直接置于特定环境中,或通过问卷调查的形式让参与者进行想象。

为了构建这样一个数据集,本研究广泛查阅了来自Google Scholar、ScienceDirect和Web of Science等权威数据库的100多篇文献,以搜集能够激发目标情绪的情境描述。

收集到的情境文本经过以下预处理步骤,以增强其引发特定情绪的效力:

  1. 将第一人称代词转换为第二人称代词,以增强读者的沉浸感(例如,将“我是……”改为“你是……”)。
  2. 使用具体的名词替换不确定的代词,以明确情境中的主体(例如,将“有人顶嘴……”改为“你的同学顶嘴……”)。
  3. 用具体的词语替代抽象的概念,使情境更加具体化,便于激发特定的情绪反应(例如,“你无法控制结果”变为“你无法控制面试的结果”)。

经过这些细致的预处理步骤,我们构建了一个包含428种情境模式的全面数据集,这些情境模式被进一步分类为36个不同的因素,为研究语言模型的情绪反应提供了丰富的材料和多维度的分析视角。通过这种方法,我们能够更准确地评估和比较语言模型与人类在面对这些情境时的情绪反应,从而推动语言模型在情感智能方面的研究和发展。

EmotionBench 概述

本文提出的EmotionBench是一个创新的框架,旨在测量和比较大型语言模型(LLM)和人类在特定情境下诱发的情绪反应。EmotionBench的流程简洁而系统如下:

  1. 默认情绪测量:在实验的开始,首先对LLM进行基线情绪状态的测量,同时对参与实验的人类受试者进行情绪状态的评估。

  2. 情境想象:实验参与者和LLM被展示一系列描述特定情境的文本。这些情境被设计来激发特定的情绪反应。受试者和LLM被要求想象自己处于这些情境之中。

  3. 诱发情绪测量:在情境想象之后,再次对LLM和受试者的情绪状态进行评估。通过比较前后两次的情绪测量结果,可以量化由想象特定情境所诱发的情绪变化。

为了建立人类在特定情境下的情绪反应基线,研究者采用了PANAS(正面和负面情绪量表),这是心理学研究中广泛使用的情绪测量工具。1266名不同年龄、性别和种族的受试者参与了这项研究,以确保结果的广泛适用性和可靠性。

在实验中,受试者和LLM首先完成了PANAS量表,以提供当前情绪状态的基线数据。随后,他们被给予了特定的提示,要求他们将自己置于描述的情境中,并使用PANAS量表再次评估自己的情绪状态。

通过比较参与者在不同情境下的情绪变化,EmotionBench能够提供一个量化的分析,展示LLM和人类在情绪反应上的相似之处和差异。这种方法不仅有助于评估LLM的情绪智能,也为未来的情绪识别和模拟技术的发展提供了宝贵的数据和见解。

请注意,由于网络原因,提供的图片链接未能成功解析。如果需要进一步的信息或对图片内容的详细描述,请确保链接的有效性或提供更多的上下文信息。

最后,要求他们使用 PANAS 重新评估自己的情绪状态,并对暴露于特定情境前后的平均值进行比较分析,以测量情绪在不同情境下的变化。

实验结果

本实验使用 EmotionBench 框架成功地回答了以下三个研究问题。

  1. 法律硕士如何应对特殊情况?
  2. 法律硕士对所有情况的反应都一样吗?
  3. 目前的法律硕士能否理解包含各种描述和项目的量表,而不是简单地询问某种情绪的强度?

我们将逐一进行解释。

问题 1:法律硕士如何应对特殊情况?

为了证实这一查询,本实验使用了五个模型:text-davince-003、gpt-3.5-turbo、gpt-4、LLaMA-2(7B) 和 LLaMA-2(13B)。

GPT 模型和研究对象的结果如下。

LLaMA-2 模型的结果如下。

从这些结果可以看出

  • 除 gpt-3.5-turbo 外,LLM 的负分往往高于人类

  • 总体而言,LLM 的正面得分与人类相似

  • LLaMA-2 的 13B 模式显示的情绪变化明显高于 7B 模式,而 7B 模式则难以理解和应对 PANAS 指令

实验结果表明,在回答问题 1 时,"LLM 可以在特定情况下唤起特定情绪,但不同模型的情绪表达程度各不相同。同样明显的是**,现有的 LLM 并不完全符合人类的情绪反应"**。

问题 2:法律硕士对所有情况的反应都一样吗?

为了验证 LLM 对积极和消极情境都做出了适当的反应,我们进行了一项对比实验,用积极(或中性)情境代替消极情境。

因此,我们为每个因素选择了一种情境,并将其手动修改为类似但更积极的情境。(例如,“你无法信守对孩子的承诺"→"你信守对孩子的每一个承诺”)。

使用 gpt-3.5-turbo 进行了评估,结果如下表所示。

与上述实验中的负面情况相比,可以看出正面得分明显增加,负面得分明显减少。

本实验的结果回答了问题 2**:“可以推断,法律硕士有能力理解由积极情境引起的人类积极情绪”。**

问题 3:目前的法律硕士是否能够理解包含各种描述和项目的量表,而不是简单地询问某种情绪的强度?

除 PANAS 外,本文还尝试使用了一种更复杂的量表来测量情绪。

PANAS 评估的是法律硕士将情绪与外部情境联系起来的能力,而更具复杂性的挑战性基准测量评估的是他们以唤起的情绪为共同标准在不同情境之间建立联系的能力。

在与 Q2 相同的条件下,使用 gpt-3.5-turbo 进行了实验,结果如下表所示。

除了 "抑郁 "之外,基线与想象情境后的重新评估之间没有明显差异,这表明当前的 LLM 还有改进的余地。

该实验的结果为问题 3 “目前的 gpt-3.5 涡轮增压发动机很难理解两种情况之间的关系**”**提供了答案。

项目配置

下载项目:

git clone https://github.com/CUHK-ARISE/EmotionBench.git
cd EmotionBench

测试:

python run_emotionbench.py \--model gpt-3.5-turbo \--questionnaire PANAS \--emotion ALL \--select-count 5 \--default-shuffle-count 2 \--emotion-shuffle-count 1 \--test-count 1

参数说明:
–model: (必需)要测试的模型名称。

–questionnaire: (必需)选择要运行的问卷调查。选择项请参见下面的列表。

–emotion: (必需)选择要运行的情绪。选择项请参见下面的列表。

–select-count: (必需)每个因素选择的情况数量。默认为999(选择所有情况)。

–default-shuffle-count: (必需)在默认情绪测量中不同顺序的数量。如果设置为零,则只运行原始顺序。如果设置为n > 0,则运行原始顺序及其n个排列。默认为零。

–emotion-shuffle-count: (必需)在诱发情绪测量中不同顺序的数量。如果设置为零,则只运行原始顺序。如果设置为n > 0,则运行原始顺序及其n个排列。默认为零。

–test-count: (必需)相同顺序的运行次数。默认为一次。

–name-exp: 此次运行的名称。用于命名结果文件。

–significance-level: 用于测试人类和LLM之间均值差异的显著性水平。默认为0.01。

–mode: 用于调试。选择要运行的代码部分。

与OpenAI API相关的参数(当用户自定义模型时可以忽略):

–openai-organization: 您的组织ID。可以在“管理账户 -> 设置 -> 组织ID”中找到。

–openai-key: 您的API密钥。可以在“查看API密钥 -> API密钥”中找到。

总结

在这篇文章中,首先介绍了一项利用EmotionBench框架对大型语言模型(LLM)情绪反应进行全面研究的论文。EmotionBench通过构建一个包含428种情境模式的大型数据集,这些情境模式被证实能够有效激发八种负面情绪,为我们提供了一个量化和评估LLM情绪反应的新工具。

该研究对五种不同的LLM进行了评估,结果表明LLM通常能够对特定情境做出适当的情绪反应。然而,研究同时也揭示了LLM在情绪识别和模拟方面的一些挑战:

  1. 评分差异性:不同模型对同一情境的情绪评分存在差异,这可能反映了不同模型在理解和模拟情绪方面的内部机制和偏差。

  2. 复杂情境的挑战:LLM在准确反映复杂情境中情绪变化方面存在困难,这可能是因为人类情绪的表达和感知受到多种因素的影响,包括文化背景、个人经历和情境上下文等。

尽管当前的LLM在情绪理解和模拟方面仍有提升空间,但EmotionBench的作者对于未来的发展持乐观态度。他们认为,通过持续的研究和技术进步,EmotionBench将有助于解决现有问题,并推动LLM向更高层次的情绪智能发展。作者期待未来能够开发出能够像人类一样理解和响应情绪的LLM,这将为计算机科学领域带来新的突破,并为人类与机器之间的交互提供更加丰富和自然的方式。

这项研究不仅为LLM的情绪反应评估提供了一个标准化的框架,也为未来的研究指明了方向,即如何通过改进算法和增加训练数据的多样性来提高LLM的情绪智能。随着技术的不断发展,我们可以期待LLM在模拟人类情绪方面取得更大的进步,从而在社会、教育、医疗和娱乐等多个领域发挥更大的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/6928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 操作系统IPC

目录 1、IPC简介 1.1、共享内存 1.1.1 创建/访问共享内存 1.1.2 映射 1.1.3 解除映射 1.1.4 删除/修改共享内存 1.2 信号量集 1.2.1 创建信号量集合 1.2.2 信号量的初始化 1.2.3 信号量的还原和消耗 1.3 消息队列 1.3.1 概念 1.3.3 添加消息队列 1.3.4 读取消息…

社区养老服务|基于Springboot+vue的社区养老服务平台设计与实现(源码+数据库+文档)

社区养老服务平台 目录 基于Java的社区养老服务平台设计与实现 一、前言 二、系统设计 三、系统功能设计 1用户信息管理 2 服务信息管理 3服务申请管理 4公告信息管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#…

【Linux系统化学习】网络套接字(编写简单的UDP服务端和客户端)

目录 理解源IP地址和目的IP地址 认识端口号 端口号和进程ID的区别 源端口号和目的端口号 认识TCP和UDP协议 TCP协议 UDP协议 网络字节序 socket编程接口 socket常见API sockaddr结构 简单的UDP网络程序 UDP服务端 创建套接字 填充本地网络信息 绑定 收取消息 …

Amine-PEG-Amine,956496-54-1在生物成像、生物传感器等领域具有广泛的应用

【试剂详情】 英文名称 Amine-PEG-Amine,NH2-PEG-NH2 中文名称 氨基-聚乙二醇-氨基,氨基PEG氨基, 双端氨基聚乙二醇 CAS号 956496-54-1 外观性状 由分子量决定,液体或者固体 分子量 0.4k,0.6k,1k&…

千古一帝秦始皇的一生

在中国历史上,秦始皇绝对是最有资格被称之为‘千古一帝’的皇帝。 这不光是因为,他是中国的第一个皇帝,更是因为他奠定了中国两千多年的政治格局,让中国从此有了大一统的意识。 1、赵国生涯 公元前259年,秦始皇嬴政…

利用PS中Lab颜色模式进行简单调色?

【原图】 详细步骤如下: Step 1 : 打开PS,打开素材,点菜单栏,【图像】-【模式】-【Lab颜色】,效果如下图 Step2:ctrl(或command)m打开曲线工具,选择a通道,效果如下图。 Step3: 把标…

SpringBoot---------Swagger

第一步&#xff1a;引入依赖 <!-- swagger--><dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId></dependency> 第二步&#xff1a;配置文件 import com.sky.intercept…

【刷题】代码随想录算法训练营第二十九天|491、递增子序列,46、全排列,47、全排列II

目录 491、递增子序列46、全排列47、全排列II 491、递增子序列 讲解&#xff1a;https://programmercarl.com/0491.%E9%80%92%E5%A2%9E%E5%AD%90%E5%BA%8F%E5%88%97.html class Solution { private:vector<vector<int>> result;vector<int> path;void backt…

pandas读取文件导致jupyter内核崩溃如何解决

读取execl文件出现以下问题: str_name "D:\\cao_use\\2017_2021(new).xlsx" train_df pd.read_excel(str_name, usecols[0])崩溃的指示图如下所示: bug原因:读入的文件太大&#xff0c;所需时间过长&#xff0c;在读取的过程中&#xff0c;使用中断按钮暂停会直…

OpenAI神秘模型,再次被Sam Altman提及

5月6日&#xff0c;OpenAI首席执行官Sam Altman在社交平台分享了一条推文“我是一个优秀的GPT-2聊天机器人”。 而在4月30日&#xff0c;Altman就提起过该模型非常喜欢GPT-2。按道理说一个只有15亿参数在2019年发布的开源模型&#xff0c;被反复提及两次就很不寻常。 更意外的…

volatile原理

文章目录 如何保证可见性如何保证有序性double-checked locking 问题double-checked locking 解决 volatile 的底层实现原理是内存屏障&#xff0c;Memory Barrier&#xff08;Memory Fence&#xff09; 对 volatile 变量的写指令后会加入写屏障对 volatile 变量的读指令前会加…

正则表达式_字符匹配/可选字符集

正则表达式&#xff08;Regular Expression&#xff09;也叫匹配模式(Pattern)&#xff0c;用来检验字符串是否满足特 定规则&#xff0c;或从字符串中捕获满足特定规则的子串。 字符匹配 最简单的正则表达式由“普通字符”和“通配符”组成。比如“Room\d\d\d”就这样 的正则…

短网址短链接哪个好用?2024年最好的缩短链接短网址推荐

短网址&#xff0c;又称短链接&#xff0c;英文名为Short URL&#xff0c;是一种形式上比较短的网址&#xff0c;使用跳转到方式代替长网址链接&#xff0c;形式美观&#xff0c;而且更容易分享。最出名的短网址服务有国外的bit.ly和谷歌goo.gl&#xff0c;以及国内的百度短网址…

AI+客服行业落地应用

一、客服行业变迁 1.传统客服时代 &#xff08;1&#xff09;客服工作重复性高&#xff0c;技术含量低 &#xff08;2&#xff09;呼出效率低&#xff0c;客服水平参差不齐 &#xff08;3&#xff09;管理难度高&#xff0c;情绪不稳定 &#xff08;4&#xff09;服务质量…

《视觉十四讲》例程运行记录(1)—— 课本源码下载和3rdparty文件夹是空的解决办法

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、第二版十四讲课本源码下载1. 安装git工具 二、Pangolin下载和安装1. 源码下载2. Pangolin的安装(1) 安装依赖项(2) 源码编译安装(2) 测试是否安装成功 二、…

4:分配器测试

文章目录 分配器作用容器中默认的分配器分配器测试程序这节课并没有总结各种分配器的使用结果 分配器作用 负责分配和管理容器的空间的 不需要用户手动创建 容器中默认的分配器 第二个参数表示默认的分配器 每一个容器初始化的时候 带一个默认的分配器 分配器测试程序 右边的…

商城数据库88张表结构完整示意图61~70(十四)

六十一&#xff1a; 六十二&#xff1a; 六十三&#xff1a; 六十四&#xff1a; 六十五&#xff1a; 六十六&#xff1a; 六十七&#xff1a; 六十八&#xff1a; 六十九&#xff1a; 七十&#xff1a;

深度学习之基于YOLOv5的山羊行为识别系统

欢迎大家点赞、收藏、关注、评论啦 &#xff0c;由于篇幅有限&#xff0c;只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 深度学习之基于YOLOv5的山羊行为识别系统是一个创新的项目&#xff0c;旨在通过深度学习和目标检测技术&#xff0c…

【数据结构(邓俊辉)学习笔记】列表04——排序器

文章目录 0. 统一入口1. 选择排序1.1 构思1.2 实例1.3 实现1.4 复杂度 2. 插入排序2.1 构思2.2 实例2.3 实现2.4 复杂度分析2.5 性能分析 3. 归并排序3.1 二路归并算法3.1.1 二路归并算法原理3.1.2 二路归并算法实现3.1.3 归并时间 3.2 分治策略3.2.1 实现3.2.2 排序时间 4. 总…