EmotionBench—— 基于 LLM 情绪的量化框架

介绍

大型语言模型(LLM)在近年来取得了显著的进展,这在计算机科学领域被视为一个重要的里程碑。像ChatGPT和Claude这样的综合性软件已经不再仅仅是用于句子校正、文本翻译和编程的工具,它们已经演进成为类似于人类的助手。因此,对于LLM的评估,我们不仅需要关注其性能,还需要深入了解它们所引发的情感反应,并将其与人类的情感反应进行比较。

在这一背景下,本研究创建了一个包含428种情境模式的大型数据集,这些情境模式已被证实能够有效地激发八种不同的负面情绪。此外,本研究采用了EmotionBench框架——这是一个用于量化和评估LLM情感反应的工具——来全面研究LLM在这些情境下的情绪反应。通过这种方式,我们旨在更深入地理解LLM在处理情感相关任务时的表现,并探索它们在情感智能方面的潜力。
论文:https://arxiv.org/abs/2308.03656
源码:https://github.com/cuhk-arise/emotionbench

创建大型数据集

为了全面评估语言模型在不同情境下的情绪反应,本研究精心挑选了八种负面情绪——愤怒、焦虑、抑郁、沮丧、嫉妒、内疚、恐惧和尴尬,以此作为研究的焦点。这些情绪的选取基于它们在人类复杂情绪体验中的普遍性和显著性。针对每一种情绪,我们构建了一个大型数据集,旨在激发和研究相应的情绪反应。

历史上,心理学研究者采用多种方法探讨特定情境对情绪的影响,包括将参与者直接置于特定环境中,或通过问卷调查的形式让参与者进行想象。

为了构建这样一个数据集,本研究广泛查阅了来自Google Scholar、ScienceDirect和Web of Science等权威数据库的100多篇文献,以搜集能够激发目标情绪的情境描述。

收集到的情境文本经过以下预处理步骤,以增强其引发特定情绪的效力:

  1. 将第一人称代词转换为第二人称代词,以增强读者的沉浸感(例如,将“我是……”改为“你是……”)。
  2. 使用具体的名词替换不确定的代词,以明确情境中的主体(例如,将“有人顶嘴……”改为“你的同学顶嘴……”)。
  3. 用具体的词语替代抽象的概念,使情境更加具体化,便于激发特定的情绪反应(例如,“你无法控制结果”变为“你无法控制面试的结果”)。

经过这些细致的预处理步骤,我们构建了一个包含428种情境模式的全面数据集,这些情境模式被进一步分类为36个不同的因素,为研究语言模型的情绪反应提供了丰富的材料和多维度的分析视角。通过这种方法,我们能够更准确地评估和比较语言模型与人类在面对这些情境时的情绪反应,从而推动语言模型在情感智能方面的研究和发展。

EmotionBench 概述

本文提出的EmotionBench是一个创新的框架,旨在测量和比较大型语言模型(LLM)和人类在特定情境下诱发的情绪反应。EmotionBench的流程简洁而系统如下:

  1. 默认情绪测量:在实验的开始,首先对LLM进行基线情绪状态的测量,同时对参与实验的人类受试者进行情绪状态的评估。

  2. 情境想象:实验参与者和LLM被展示一系列描述特定情境的文本。这些情境被设计来激发特定的情绪反应。受试者和LLM被要求想象自己处于这些情境之中。

  3. 诱发情绪测量:在情境想象之后,再次对LLM和受试者的情绪状态进行评估。通过比较前后两次的情绪测量结果,可以量化由想象特定情境所诱发的情绪变化。

为了建立人类在特定情境下的情绪反应基线,研究者采用了PANAS(正面和负面情绪量表),这是心理学研究中广泛使用的情绪测量工具。1266名不同年龄、性别和种族的受试者参与了这项研究,以确保结果的广泛适用性和可靠性。

在实验中,受试者和LLM首先完成了PANAS量表,以提供当前情绪状态的基线数据。随后,他们被给予了特定的提示,要求他们将自己置于描述的情境中,并使用PANAS量表再次评估自己的情绪状态。

通过比较参与者在不同情境下的情绪变化,EmotionBench能够提供一个量化的分析,展示LLM和人类在情绪反应上的相似之处和差异。这种方法不仅有助于评估LLM的情绪智能,也为未来的情绪识别和模拟技术的发展提供了宝贵的数据和见解。

请注意,由于网络原因,提供的图片链接未能成功解析。如果需要进一步的信息或对图片内容的详细描述,请确保链接的有效性或提供更多的上下文信息。

最后,要求他们使用 PANAS 重新评估自己的情绪状态,并对暴露于特定情境前后的平均值进行比较分析,以测量情绪在不同情境下的变化。

实验结果

本实验使用 EmotionBench 框架成功地回答了以下三个研究问题。

  1. 法律硕士如何应对特殊情况?
  2. 法律硕士对所有情况的反应都一样吗?
  3. 目前的法律硕士能否理解包含各种描述和项目的量表,而不是简单地询问某种情绪的强度?

我们将逐一进行解释。

问题 1:法律硕士如何应对特殊情况?

为了证实这一查询,本实验使用了五个模型:text-davince-003、gpt-3.5-turbo、gpt-4、LLaMA-2(7B) 和 LLaMA-2(13B)。

GPT 模型和研究对象的结果如下。

LLaMA-2 模型的结果如下。

从这些结果可以看出

  • 除 gpt-3.5-turbo 外,LLM 的负分往往高于人类

  • 总体而言,LLM 的正面得分与人类相似

  • LLaMA-2 的 13B 模式显示的情绪变化明显高于 7B 模式,而 7B 模式则难以理解和应对 PANAS 指令

实验结果表明,在回答问题 1 时,"LLM 可以在特定情况下唤起特定情绪,但不同模型的情绪表达程度各不相同。同样明显的是**,现有的 LLM 并不完全符合人类的情绪反应"**。

问题 2:法律硕士对所有情况的反应都一样吗?

为了验证 LLM 对积极和消极情境都做出了适当的反应,我们进行了一项对比实验,用积极(或中性)情境代替消极情境。

因此,我们为每个因素选择了一种情境,并将其手动修改为类似但更积极的情境。(例如,“你无法信守对孩子的承诺"→"你信守对孩子的每一个承诺”)。

使用 gpt-3.5-turbo 进行了评估,结果如下表所示。

与上述实验中的负面情况相比,可以看出正面得分明显增加,负面得分明显减少。

本实验的结果回答了问题 2**:“可以推断,法律硕士有能力理解由积极情境引起的人类积极情绪”。**

问题 3:目前的法律硕士是否能够理解包含各种描述和项目的量表,而不是简单地询问某种情绪的强度?

除 PANAS 外,本文还尝试使用了一种更复杂的量表来测量情绪。

PANAS 评估的是法律硕士将情绪与外部情境联系起来的能力,而更具复杂性的挑战性基准测量评估的是他们以唤起的情绪为共同标准在不同情境之间建立联系的能力。

在与 Q2 相同的条件下,使用 gpt-3.5-turbo 进行了实验,结果如下表所示。

除了 "抑郁 "之外,基线与想象情境后的重新评估之间没有明显差异,这表明当前的 LLM 还有改进的余地。

该实验的结果为问题 3 “目前的 gpt-3.5 涡轮增压发动机很难理解两种情况之间的关系**”**提供了答案。

项目配置

下载项目:

git clone https://github.com/CUHK-ARISE/EmotionBench.git
cd EmotionBench

测试:

python run_emotionbench.py \--model gpt-3.5-turbo \--questionnaire PANAS \--emotion ALL \--select-count 5 \--default-shuffle-count 2 \--emotion-shuffle-count 1 \--test-count 1

参数说明:
–model: (必需)要测试的模型名称。

–questionnaire: (必需)选择要运行的问卷调查。选择项请参见下面的列表。

–emotion: (必需)选择要运行的情绪。选择项请参见下面的列表。

–select-count: (必需)每个因素选择的情况数量。默认为999(选择所有情况)。

–default-shuffle-count: (必需)在默认情绪测量中不同顺序的数量。如果设置为零,则只运行原始顺序。如果设置为n > 0,则运行原始顺序及其n个排列。默认为零。

–emotion-shuffle-count: (必需)在诱发情绪测量中不同顺序的数量。如果设置为零,则只运行原始顺序。如果设置为n > 0,则运行原始顺序及其n个排列。默认为零。

–test-count: (必需)相同顺序的运行次数。默认为一次。

–name-exp: 此次运行的名称。用于命名结果文件。

–significance-level: 用于测试人类和LLM之间均值差异的显著性水平。默认为0.01。

–mode: 用于调试。选择要运行的代码部分。

与OpenAI API相关的参数(当用户自定义模型时可以忽略):

–openai-organization: 您的组织ID。可以在“管理账户 -> 设置 -> 组织ID”中找到。

–openai-key: 您的API密钥。可以在“查看API密钥 -> API密钥”中找到。

总结

在这篇文章中,首先介绍了一项利用EmotionBench框架对大型语言模型(LLM)情绪反应进行全面研究的论文。EmotionBench通过构建一个包含428种情境模式的大型数据集,这些情境模式被证实能够有效激发八种负面情绪,为我们提供了一个量化和评估LLM情绪反应的新工具。

该研究对五种不同的LLM进行了评估,结果表明LLM通常能够对特定情境做出适当的情绪反应。然而,研究同时也揭示了LLM在情绪识别和模拟方面的一些挑战:

  1. 评分差异性:不同模型对同一情境的情绪评分存在差异,这可能反映了不同模型在理解和模拟情绪方面的内部机制和偏差。

  2. 复杂情境的挑战:LLM在准确反映复杂情境中情绪变化方面存在困难,这可能是因为人类情绪的表达和感知受到多种因素的影响,包括文化背景、个人经历和情境上下文等。

尽管当前的LLM在情绪理解和模拟方面仍有提升空间,但EmotionBench的作者对于未来的发展持乐观态度。他们认为,通过持续的研究和技术进步,EmotionBench将有助于解决现有问题,并推动LLM向更高层次的情绪智能发展。作者期待未来能够开发出能够像人类一样理解和响应情绪的LLM,这将为计算机科学领域带来新的突破,并为人类与机器之间的交互提供更加丰富和自然的方式。

这项研究不仅为LLM的情绪反应评估提供了一个标准化的框架,也为未来的研究指明了方向,即如何通过改进算法和增加训练数据的多样性来提高LLM的情绪智能。随着技术的不断发展,我们可以期待LLM在模拟人类情绪方面取得更大的进步,从而在社会、教育、医疗和娱乐等多个领域发挥更大的作用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/6928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux 操作系统IPC

目录 1、IPC简介 1.1、共享内存 1.1.1 创建/访问共享内存 1.1.2 映射 1.1.3 解除映射 1.1.4 删除/修改共享内存 1.2 信号量集 1.2.1 创建信号量集合 1.2.2 信号量的初始化 1.2.3 信号量的还原和消耗 1.3 消息队列 1.3.1 概念 1.3.3 添加消息队列 1.3.4 读取消息…

Linux 系统下的一些常用命令和用法

keywords: Linux 类 Unix 系统下的一些常用命令和用法。 实用命令 fuser 查看文件被谁占用。 fuser -u .linux.md.swpid 查看当前用户、组 id。 lsof 查看打开的文件列表。 An open file may be a regular file, a directory, a block special file, a character speci…

Spring Cloud Gateway的部署

不要将 Spring Cloud Gateway 部署到 Tomcat 可以将Spring Cloud Gateway打成jar包&#xff0c;并通过jar包部署&#xff0c;步骤&#xff1a; 1. 修改构建配置 确保你的pom.xml文件中的打包方式为jar。 <packaging>jar</packaging> 2 打包项目 mvn clean pack…

社区养老服务|基于Springboot+vue的社区养老服务平台设计与实现(源码+数据库+文档)

社区养老服务平台 目录 基于Java的社区养老服务平台设计与实现 一、前言 二、系统设计 三、系统功能设计 1用户信息管理 2 服务信息管理 3服务申请管理 4公告信息管理 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#…

【Linux系统化学习】网络套接字(编写简单的UDP服务端和客户端)

目录 理解源IP地址和目的IP地址 认识端口号 端口号和进程ID的区别 源端口号和目的端口号 认识TCP和UDP协议 TCP协议 UDP协议 网络字节序 socket编程接口 socket常见API sockaddr结构 简单的UDP网络程序 UDP服务端 创建套接字 填充本地网络信息 绑定 收取消息 …

Amine-PEG-Amine,956496-54-1在生物成像、生物传感器等领域具有广泛的应用

【试剂详情】 英文名称 Amine-PEG-Amine&#xff0c;NH2-PEG-NH2 中文名称 氨基-聚乙二醇-氨基&#xff0c;氨基PEG氨基&#xff0c; 双端氨基聚乙二醇 CAS号 956496-54-1 外观性状 由分子量决定&#xff0c;液体或者固体 分子量 0.4k&#xff0c;0.6k&#xff0c;1k&…

5.3作业

这个声明定义了一个名为 s 的数组&#xff0c;数组包含 10 个元素&#xff0c;每个元素都是一个函数指针。(1)C (2)D (3)C (4)DE (5)C8 11 14(1)int IsFull(sequeue *seqn) { return ((seqn->frnt ((seqn->rear 1) % N)) ? 1 : 0); } (2)int IsEmpty(sequ…

C++命令行系统(三)

1 概述 在嵌入式开发中&#xff0c;经常会利用命令行交互系统测试功能&#xff0c;本文描述使用C语言开发的一个命令行交互系统&#xff0c;支持命令注册(C或C格式)&#xff0c;命令分组&#xff0c;执行命令&#xff0c;显示命令提示。 4 实例 4.1 实例代码 extern "C…

千古一帝秦始皇的一生

在中国历史上&#xff0c;秦始皇绝对是最有资格被称之为‘千古一帝’的皇帝。 这不光是因为&#xff0c;他是中国的第一个皇帝&#xff0c;更是因为他奠定了中国两千多年的政治格局&#xff0c;让中国从此有了大一统的意识。 1、赵国生涯 公元前259年&#xff0c;秦始皇嬴政…

软考 系统架构设计师系列知识点之软件可靠性基础知识(10)

接前一篇文章&#xff1a;软考 系统架构设计师系列知识点之软件可靠性基础知识&#xff08;9&#xff09; 所属章节&#xff1a; 第9章. 软件可靠性基础知识 第2节 软件可靠性建模 9.2.2 软件可靠性模型的建模方法 一个软件可靠性模型通常&#xff08;但不是绝对&#xff09;…

利用PS中Lab颜色模式进行简单调色?

【原图】 详细步骤如下&#xff1a; Step 1 : 打开PS&#xff0c;打开素材&#xff0c;点菜单栏&#xff0c;【图像】-【模式】-【Lab颜色】&#xff0c;效果如下图 Step2&#xff1a;ctrl(或command)m打开曲线工具&#xff0c;选择a通道&#xff0c;效果如下图。 Step3: 把标…

SpringBoot---------Swagger

第一步&#xff1a;引入依赖 <!-- swagger--><dependency><groupId>com.github.xiaoymin</groupId><artifactId>knife4j-spring-boot-starter</artifactId></dependency> 第二步&#xff1a;配置文件 import com.sky.intercept…

深入理解深度学习中的指数移动平均(EMA)

深入理解深度学习中的指数移动平均(EMA) 一、引言 在深度学习的优化过程中,模型权重的更新和优化是提升模型性能的关键步骤。其中,指数移动平均(EMA,Exponential Moving Average)作为一种常用的优化技巧,被广泛应用于提高模型的鲁棒性和测试指标。本文将详细介绍EMA在…

项目管理八大原则

之前我写了一篇文章《敏捷自组织真的存在吗》。我的结论是自组织管理是我们努力追求达成的一个状态&#xff0c;但不应该幻想自组织管理一下就能够达成。因为项目还是一个接着一个&#xff0c;需要我们做好项目管理的工作。项目管理对于一个公司来讲是非常重要的一个管理内容&a…

【GAN】简单的GAN模型搭建 -- 以线性模型和MNIST数据集为例子

文章目录 确定损失函数生成器网络架构 不讲原理&#xff0c;从简单的代码一步步开始&#xff0c;学会怎么用、怎么设计损失函数即可。 确定损失函数 生成器的任务是生成足够以假乱真的数据&#xff0c;判别器的任务是分辨出哪些数据是真实的&#xff0c;哪些数据是假的。因此&…

【刷题】代码随想录算法训练营第二十九天|491、递增子序列,46、全排列,47、全排列II

目录 491、递增子序列46、全排列47、全排列II 491、递增子序列 讲解&#xff1a;https://programmercarl.com/0491.%E9%80%92%E5%A2%9E%E5%AD%90%E5%BA%8F%E5%88%97.html class Solution { private:vector<vector<int>> result;vector<int> path;void backt…

pandas读取文件导致jupyter内核崩溃如何解决

读取execl文件出现以下问题: str_name "D:\\cao_use\\2017_2021(new).xlsx" train_df pd.read_excel(str_name, usecols[0])崩溃的指示图如下所示: bug原因:读入的文件太大&#xff0c;所需时间过长&#xff0c;在读取的过程中&#xff0c;使用中断按钮暂停会直…

超级好用的C++实用库之动态库加载器

概述 在C中&#xff0c;动态库也称为共享库或DLL&#xff0c;是一种可执行文件形式&#xff0c;其中包含可以被多个应用程序同时加载并使用的函数和数据。相较于静态库&#xff0c;动态库在运行时而不是编译链接阶段被程序所使用。加载动态库&#xff0c;在Windows和Linux操作系…

OpenAI神秘模型,再次被Sam Altman提及

5月6日&#xff0c;OpenAI首席执行官Sam Altman在社交平台分享了一条推文“我是一个优秀的GPT-2聊天机器人”。 而在4月30日&#xff0c;Altman就提起过该模型非常喜欢GPT-2。按道理说一个只有15亿参数在2019年发布的开源模型&#xff0c;被反复提及两次就很不寻常。 更意外的…