自我对比: 通过不一致的解决视角更好地进行反思

一、写作动机:

LLM 在自我评价时往往过于自信或随意性较大,提供的反馈固执或不一致,从而导致反思效果不佳。为了解决这个问题,作者提倡 "自我对比": 它可以根据要求探索不同的解决角度,对比差异,并将这些差异总结为一个检查表,用于重新检查和消除差异。作者的方法能让 LLM 从不同的角度来缓解顽固的偏见。

二、主要贡献:

1)通过综合实验揭示了反思表现不佳的瓶颈在于 LLM 无法准确评估之前的反应。它通常表现为过度自信或反馈不一致,从而阻碍了自我反思的有效性。

2)提倡自我对比: 学习者可以从多个角度解决问题,以获得不同的结果,从而减少因单一提示而产生的过度自信的偏差。然后,从不同角度的对比中汲取灵感,LLM 总结出更准确的检查指导,以解决差异并加强反思。

3)从经验上看,与虚构的反思相比,自我对比在数学推理和具有挑战性的翻译场景中都有显著的改进和稳定性。

三、对大模型内在反思的评估:

3.1反思前后的变化:

3.2反馈分析:

1- 有效反思(Valid):错误回复被改正确。

2- 无效反思(Invalid):错误没有被改正。

3- 有毒反思(Toxic):刚开始正确的回复被反而被改错。

作者发现 feedback 主要存在两种情况:

1) 过于顽固的 feedback:初次回复中明明是存在明显的错误,但是 LLM 自我评估时候坚持认为没有任何问题。

2)多次自我评估的 feedback 不一致:对于同一个回复,多次自我评估产生的 feedback 非常不一致。

四、自我对比反思:

自我对比包括三个步骤: 创建不同视角、对比视角间差异和消除差异。在 "创建不同视角"中,鼓励LLM根据用户的要求自主创建各种提示,每种提示都提供了解决问题的独特视角,例如不同的思维方式、不同的身份、个性或偏好。这些不同的视角会促使 LLM 产生不同的回复。在第二阶段,LLM 会对比每对回应之间的差异。最后,为了消除差异,将这些差异归纳为一份详细的核对表,以供重新检查。该清单指导 LLM 仔细检查差异的原因,包括随机误差或内在偏差,这些都会导致不同观点的结果不一致。

五、实验设置:

5.1benchmarks:

使用 GSM8K、SVAMP 和 CommonMT 基准的数学推理和创意翻译。

5.2评估指标:

对于数学推理,评估的是逐步推理后最终答案的精确度。对于翻译任务,采用 BLEURT1 分数作为自动指标。

5.3LLM 模型和提示:

使用 GPT-3.5-Tubor-0613 和 GPT- 4-0613 API 以及具有三个参数范围(7B、13B 和 70B)的 Llama2-Chat 模型进行了实验。为了进行公平比较,将所有实验的温度统一设置为 0.2。对于标准提示和自我反省基线,我们使用不同的提示对其进行了 10 次评估,并对其在零样本场景下的结果进行了平均。

5.4baseline:

Standard CoT Prompt, Self-Reflection (Shinn et al., 2023),Multi-Agent Debate , ExpertPrompt , Hint-Prompt , Math-Prompt.

三种形式的自一致性:SC-Vote, SC-Select, SC-Reflect.

六、实验结果:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/722449.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT如何辅助医生改善AD患者教育的效果

特应性皮炎(AD)是一种常见的慢性炎症性皮肤病,在全球范围内造成了巨大的疾病负担。尽管在治疗方面取得了一定进展,但AD患者的生活质量较低,治疗满意度差,超过一半的患者认为中度至重度AD疾病控制不佳。AD的…

YOLO快速入门

Yolo简介 概述 YOLO(You Only Look Once)是一种流行的目标检测算法,由Joseph Redmon等人开发。 YOLO算法以其高效的实时性能和准确的检测能力而闻名。自YOLO的首次提出以来,已经经 历了多个版本的更新和改进。以下是YOLO发展史的…

周边类-找厕所小程序源码

源码获取方式 1,搜一搜 万能工具箱合集 点击资料库 即可进去获取 找厕所小程序源码依赖于腾讯地图的一款源码,腾讯地图api免费申请,是一款免费又永久的不需要服务器的小程序,起个好名字蹭蹭蹭~ 搭建教程: 1、下载源码…

使用css的transition属性实现抽屉功能

需求 使用css手写一个抽屉&#xff0c;并且不能遮挡住原来的页面 效果&#xff1a;&#xff08;录的gif有点卡&#xff0c;实际情况很丝滑&#xff09; 实现代码&#xff1a; <template><div class"dashboard-container"><div class"mainBox&…

Java项目:36 springboot图书个性化推荐系统的设计与实现003

作者主页&#xff1a;源码空间codegym 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 springboot003图书个性化推荐系统的设计与实现 管理员&#xff1a;首页、个人中心、学生管理、图书分类管理、图书信息管理、图书预约管理、退…

[element]element-ui框架下载

⭐作者介绍&#xff1a;大二本科网络工程专业在读&#xff0c;持续学习Java&#xff0c;努力输出优质文章 ⭐作者主页&#xff1a;逐梦苍穹 ⭐如果觉得文章写的不错&#xff0c;欢迎点个关注一键三连&#x1f609;有写的不好的地方也欢迎指正&#xff0c;一同进步&#x1f601;…

CSS中画一条0.5px的线

采用transform: scale()的方式&#xff0c;该方法用来定义元素的2D 缩放转换&#xff1a; transform: scale(0.5,0.5); 采用meta viewport的方式 <meta name"viewport" content"widthdevice-width, initial-scale0.5, minimum-scale0.5, maximum-scale0.5…

基于Springboot的足球俱乐部管理系统(有报告)。Javaee项目,springboot项目。

演示视频&#xff1a; 基于Springboot的足球俱乐部管理系统&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot项目。 项目介绍: 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&#xff09;三层体系结构&#xff…

【Datawhale组队学习:Sora原理与技术实战】Attention和LLM

Attention Attention 注意力&#xff0c;从两个不同的主体开始。 论文&#xff1a;https://arxiv.org/pdf/1703.03906.pdf seq2seq代码仓&#xff1a;https://github.com/google/seq2seq 计算方法&#xff1a; 加性Attention&#xff0c;如&#xff08;Bahdanau attention&…

数据库-ODBC操作

承接Qt/C软件开发项目&#xff0c;高质量交付&#xff0c;灵活沟通&#xff0c;长期维护支持。需求所寻&#xff0c;技术正适&#xff0c;共创完美&#xff0c;欢迎私信联系&#xff01; 一、ODBC 数据源配置 打开ODBC数据源管理器&#xff1a; 在Windows搜索栏中键入“ODBC数…

Flink hello world

下载并且解压Flink Downloads | Apache Flink 启动Flink. $ ./bin/start-cluster.sh Starting cluster. Starting standalonesession daemon on host DESKTOP-T4TU7JE. Starting taskexecutor daemon on host DESKTOP-T4TU7JE. Flink 的版本附带了许多示例作业。您可以快速将…

PyTorch搭建LeNet神经网络

函数的参数 1、PyTorch Tensor的通道排序 [batch, channel, height, width] batch: 要处理的一批图像的个数 channel: 通道数&#xff08;一般是R G B 三个通道&#xff09; height: 图像的高度 width: 图像的宽度 2.Conv 2d 卷积层的参数 [in_channels, out_channels, ke…

Golang 开发实战day01 - Variable String Numeric

Golang 教程01 - Variable String Numeric 1. Go语言的重要性 Go语言&#xff0c;又称Golang&#xff0c;是一种由Google开发的静态编译型编程语言。它于2009年首次发布&#xff0c;并在短短几年内迅速流行起来。Go语言具有以下特点&#xff1a; 语法简单易学&#xff1a;Go…

【牛客】SQL137 第二快/慢用时之差大于试卷时长一半的试卷-窗口函数

描述 现有试卷信息表examination_info&#xff08;exam_id试卷ID, tag试卷类别, difficulty试卷难度, duration考试时长, release_time发布时间&#xff09;&#xff1a; idexam_idtagdifficultydurationrelease_time19001SQLhard602021-09-01 06:00:0029002Chard602021-09-0…

C 运算符

运算符是一种告诉编译器执行特定的数学或逻辑操作的符号。C 语言内置了丰富的运算符&#xff0c;并提供了以下类型的运算符&#xff1a; 算术运算符关系运算符逻辑运算符位运算符赋值运算符杂项运算符 将逐一介绍算术运算符、关系运算符、逻辑运算符、位运算符、赋值运算符和…

第一节 JDBC是什么?

JDBC代表Java数据库连接(Java Database Connectivity)&#xff0c;它是用于Java编程语言和数据库之间的数据库无关连接的标准Java API&#xff0c;换句话说&#xff1a;JDBC是用于在Java语言编程中与数据库连接的API。 JDBC库包括通常与数据库使用相关&#xff0c;如下面提到的…

链表哨兵例子

哨兵链表例子_根据值删除链表 package linklist;public class leetcode203 {public static void main(String[] args) {ListNode listNode new ListNode(1,new ListNode(2,new ListNode(3)));ListNode listNode1 removeElements(listNode,2);System.out.println(listNode1);…

LeetCode.232. 用栈实现队列

题目 232. 用栈实现队列 分析 先了解一下栈和队列的特点&#xff1a; 栈&#xff1a;先进后出队列&#xff1a;先进先出 想用栈实现队列的特点&#xff0c;就需要使用两个栈。因为两个栈就可以将列表倒序。 假设第一个栈 s1 [1,2,3]&#xff0c;第二个栈 s2 [] 。若循环…

php压缩一个文件,多个文件,目录生成zip压缩包,压缩并下载zip包

我们将一个文件生成一个压缩包。 <?php $path "c:/wamp/www/log.txt"; $filename "test.zip"; $zip new ZipArchive(); $zip->open($filename,ZipArchive::CREATE); //打开压缩包 $zip->addFile($path,basename($path)); //向压缩包中添…

STM32FreeRTOS消息队列(STM32Cube高效开发)

文章目录 一、队列&#xff08;一&#xff09;简介&#xff08;二&#xff09;FreeRTOS队列特点1、入队阻塞&#xff1a;队列满了&#xff0c;此时无法继续写入数据2、出队阻塞&#xff1a;队列为空&#xff0c;此时无法读出数据3、入队阻塞解除&#xff0c;有多个任务等待时&a…