NLP论文速读(EMNLP2024)|多风格可控生成的动态多奖励权重

论文速读|Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation

论文信息:

图片

简介:

      本文探讨了文本风格在沟通中的重要性,指出文本风格传达了除原始语义内容之外的多种信息,如人际关系动态(例如正式性)和作者的情绪或态度(例如厌恶)。

      随着大型语言模型(LLMs)的能力增强和受欢迎程度提高,对LLMs输出风格进行细粒度控制的需求日益增长。然而,如何在生成文本时将目标风格编织在一起,例如产生既负面又无毒的文本,是一个开放性问题。

      本文提出使用多目标强化学习(RL)作为控制生成的一种方法,但如何最好地在奖励函数中结合多个目标是一个未解决的问题。

      本文的动机在于实际文本中通常不仅包含单一风格,而是风格的组合。例如,在工作场合给同事提供反馈时,可能需要同时使用正式和积极的风格。

      此外,为了响应用户偏好或应用需求,LLM可能需要同时控制其他属性,如幽默、正式性或比喻语言的使用。因此,需要一种可靠的多风格控制技术来实现这些目标。

论文方法:

图片

      本文提出了一种动态多奖励加权方法,用于多风格可控生成。该方法涉及以下几个关键步骤:

      1)预训练语言模型:使用LLaMA2 7B作为基模型,针对情感、正式性、讽刺、情绪和毒性训练判别器。

      2)强化学习(RL)框架:将生成语言模型视为一个策略网络,该策略网络是一个在给定状态下决定下一步行动的概率分布。

      3)多奖励控制公式:提出了多种结合多个风格判别器输出的方法,包括对数几率(Logits)、softmax、二值化(Binarized)、校准对数几率(Calibrated Logit scores)和动态加权(Dynamic Weighting)。其中,动态加权方法通过考虑每个判别器的梯度大小来加权结果,以此作为奖励函数的一部分。

      4)微调:使用PPO算法对语言模型进行微调,以最大化期望奖励值。

      5)实验设置:包括基模型、判别器训练、RL训练和评估集的详细配置。

      6)评估:基于模型生成的文本是否符合目标风格以及保持原始模型的语言质量进行评估,包括自动评估和人类评估。

论文实验:

图片

      根据Table 3,我们可以了解到论文中的实验部分主要关注了不同奖励公式对于模型生成文本的风格控制和生成质量的影响。

      实验比较了五种不同的奖励公式:SoftmaxCalibrated SoftmaxLogitsBinary 和 Dynamic Weighting

      这些奖励公式被用来训练模型以生成具有特定风格的文本,特别是结合了负面(Negative)和非正式(Informal)风格的文本。

      Softmax在负面和非正式风格的控制上表现最差,尤其是在同时控制两种风格时。

      Calibrated Softmax通过校准技术提高了风格判别器的置信度,但在风格控制上提升有限。

      Logits在风格控制上表现较好,但以牺牲生成质量为代价,生成的文本困惑度高,不够流畅。

      Binary在风格控制上表现不错,同时保持了较低的二元组重复率,表明生成的文本较为多样化。

      Dynamic Weighting(动态加权)在所有指标上表现最佳,不仅在风格控制上优于其他方法,同时保持了较低的困惑度和二元组重复率,表明生成的文本既符合目标风格,又保持了较高的语言质量。

论文链接:

https://arxiv.org/abs/2402.14146

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/61097.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙中的Image组件如何引用网络图片

1.引用网络图片资源 引入网络图片需要申请权限ohos.permission.INTERNET,此时,Image组件的src参数为网络图片的链接,为了成功加载网络图片,您需要在module.json5文件中申请网络访问权限 注意:实际可用的时候&#xff0…

七天掌握SQL--->第七天:项目实践与总结

一、项目实践 1.1 项目背景 假设我们正在开发一个名为“在线图书管理系统”的项目。该项目旨在帮助图书馆管理员管理图书的借阅、归还、库存等操作,同时为读者提供一个便捷的图书查询和借阅平台。 1.2 数据库设计 1.2.1 需求分析 根据项目的需求,我…

【C++】IO库(三):string流

8.3 string 流 sstream 头文件定义了三个类型来支持内存 IO,这些类型可以向 string 写入数据,也可以从 string 读取数据,就像 string 是一个 IO 流一样。 istringstream 从 string 读数据;ostringstream 向 string 写入数据&…

React Hooks中use的细节

文档 useState useState如果是以函数作为参数,那要求是一个纯函数,不接受任何参数,同时需要一个任意类型的返回值作为初始值。 useState可以传入任何类型的参数作为初始值,当以一个函数作为参数进行传入的时候需要注意&#xff…

springboot 配置跨域访问

什么是 CORS? CORS,全称是“跨源资源共享”(Cross-Origin Resource Sharing),是一种Web应用程序的安全机制,用于控制不同源的资源之间的交互。 在Web应用程序中,CORS定义了一种机制&#xff0…

应用于蛋白-小分子柔性对接的等变VAE模型 - FlexPose 测评

FlexPose 应用于蛋白-小分子柔性对接场景下,能够在欧几里得空间中直接对蛋白-小分子复合结构的进行预测的等变神经网络模型,而无需传统的采样和评分策略。此模型考虑了蛋白氨基酸主链和侧链的柔性,会根据小分子的情况对氨基酸的侧链和主链进行…

【Web前端】如何构建简单HTML表单?

HTML 表单是 Web 开发中非常重要的组成部分。它们是与用户交互的主要方式,能够收集用户输入的数据。表单的灵活性使它们成为 HTML 中最复杂的结构之一,但若使用正确的结构和元素,可以确保其可用性和无障碍性。 表单的基本结构 HTML 表单使用…

Spring Boot英语知识分享网站:技术与实践

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

乌班图单机(不访问外网)部署docker和服务的方法

面向对象:Ubuntu不能访问外网的机子,部署mysql、redis、jdk8、minio 过程: 1、安装docker(照着图去这里找对应的下载下来https://download.docker.com/linux/static/stable/),将7个docker官网下载的文件下载下来后,传上去服务器随便一个文件夹或者常用的opt或者/usr/lo…

IDEA全局设置-解决maven加载过慢的问题

一、IDEA全局设置 注意:如果不是全局设置,仅仅针对某个项目有效;例在利用网上教程解决maven加载过慢的问题时,按步骤设置却得不到解决,原因就是没有在全局设置。 1.如何进行全局设置 a.在项目页面,点击f…

狂野飙车8+(Asphalt 8+) for Mac 赛车竞速游戏 安装教程

Mac分享吧 文章目录 狂野飙车8(Asphalt 8) for Mac 赛车竞速游戏软件 效果图展示一、狂野飙车8(Asphalt 8) 赛车竞速游戏 Mac电脑版——v2.1.11️⃣:下载软件2️⃣:安装软件2.1 左侧安装包拖入右侧文件夹中,等待安装完成,运行软件…

标贝科技:自动驾驶中的数据标注类别分享

国内的自动驾驶行业正处于快速发展阶段。伴随随着芯片算力的提升、算法的优化以及数据采集标注传感设备的日益成熟,自动驾驶技术正逐步从实验室转向商业化应用。电车时代的来临,加速了自动驾驶时代的全面降临,23年国内汽车行业内卷的开始&…

(详细文档!)java swing学生信息管理系统 +mysql

第一章:系统功能分析 1.1、系统简介与开发背景 学生信息管理系统是在信息化时代,特别是在教育领域中产生的。随着学校规模的不断扩大和信息化技术的不断发展,传统的纸质档案管理方式已经无法满足学校对学生信息管理的需求,因此需…

JVM逃逸分析机制

JVM逃逸分析机制 简单来说,逃逸分析是分析了对象是否只在当前函数范围内使用,来确定是否在栈上进行分配,主要涉及到栈是函数运行完,立即清理的,所以不需要等到gc了,为了大大缓解了gc的压力。 一、定义 JVM…

【Petri网导论学习笔记】Petri网导论入门学习(十) —— 3.2 关联矩阵与状态方程

目录 3.2 关联矩阵与状态方程定义 3.3 关联矩阵引理 3.4引理 3.5定理 3.4例 3.7例 3.83.2 关联矩阵与状态方程 正如 Petri 网的一个标识可以表示成一个 $ m $ 维非负整数向量一样,Petri 网的结构也可以用一个矩阵来表示。这样,就可以引入线性代数的方法对 Petri 网的性质进行…

微信小程序常用全局配置项及窗口组成部分详解

微信小程序常用全局配置项及窗口组成部分详解 引言 微信小程序作为一种新兴的应用形态,凭借其轻量级、便捷性和丰富的功能,已成为开发者和用户的热门选择。在开发小程序的过程中,了解全局配置项和窗口组成部分是至关重要的。本文将详细介绍微信小程序的常用全局配置项及窗…

【H2O2|全栈】Node.js(1)

目录 前言 开篇语 准备工作 ES6导入导出 导入 有名导出 匿名导出 Node概念 Node导入导出 导入 有名导出 匿名导出 Node常用模块 path模块 和路径有关的全局变量 常见方法 导入方法 fs模块 常见方法 导入方法 结束语 前言 开篇语 本系列博客主要分享Java…

matlab -炉温串级控制PID

1、内容简介 略 92-可以交流、咨询、答疑 2、内容说明 略 基于PID的反馈控制能够使得炉温控制达到较好的控制效果,但系统的调节时间还是较长,一般都大于20分钟。考虑能否用其他系统来改进控制系统使得调节时间变短的同时还能满足控制要求。一种最直接…

#渗透测试#红蓝攻防#HW#经验分享#溯源反制

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章阅 目录 一、溯源反制 1、溯源反制的重要性 2、溯源…

java——SpringBoot中常用注解及其底层原理

SpringBoot中的注解是简化配置、自动装配组件和实现声明式服务的关键。以下是对SpringBoot中常用注解及其底层原理的详细解析: 常用注解 SpringBootApplication 标注在主程序类上,表示这是一个Spring Boot应用的入口。它是一个复合注解,包括…