System 2 Attention:可以提高不同LLM问题的推理能力

推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力,但大多数llm经常被简单的错误绊倒,显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚,也就是说模型会更偏向与输入一致,而不管准确性如何。人们已经做出了各种努力来解决这些缺点,包括增加监督训练数据或应用强化学习方法。在最近的一项研究中,Meta AI认为问题的根源在于这些模型中使用的transformer 架构的基本设计,特别是注意力机制。这项研究的灵感来自丹尼尔·卡尼曼和阿莫斯·特沃斯基对行为心理学的研究,这些研究在《Thinking Fast and Slow》一书中得到了精彩的阐述。

  1. 系统1(System 1): 这是一种快速、直觉性、自动的思考方式。它是我们在处理日常事务时采用的那种直觉反应,几乎是无意识的。系统1负责快速做出决策,识别模式,感知情绪等。然而,它有时候可能会导致错误,因为它更容易受到情感和直觉的影响。
  2. 系统2(System 2): 这是一种更为缓慢、深思熟虑、理性的思考方式。当我们面临更复杂、挑战性的问题时,系统2被激活。这种思考方式需要更多的认知努力,包括逻辑分析、推理和意识层面的思考。系统2更能够进行深度思考,但也更耗费时间和精力。

问题

LLM通过广泛的前期训练,在推理和知识积累方面表现出色。它们被设计成高度关注当前语境来预测下一个单词。例如,如果一个特定的实体出现在文本中,模型会预测它的重复出现。基于“transformer”的模型,擅长在语境中识别相似的单词和概念。虽然这提高了他们预测的准确性,但也使他们容易受到分析环境中误导性相关性的影响。

S2A

Meta AI 的这种方法被称为系统2注意力(S2A),包括提示LLM创建一个上下文,剥离掉可能扭曲推理的不相关信息。这个概念的灵感来自人类的认知过程,其中“System 2”代表有意识的、努力的心理活动,特别是在容易出错的“System 1”推理不够充分的情况下。S2A旨在通过指导LLM的推理能力来克服transformer 注意力机制固有的缺陷来复制这一点。

在一个典型的场景中,LLM提供了一个上下文(x),并负责生成高质量的输出(y)。S2A通过两步法修改了这个过程。首先,S2A通过删除可能对输出产生负面影响的元素,将给定的上下文(x)重新表述为精炼的版本(x’)。用x ’ ~ S2A(x)表示。然后,LLM使用修改后的上下文(x ')生成最终响应(y),而不是用y ~ LLM(x ')表示的原始上下文。

S2A包含了一系列实现这第一步的技术。Meta AI的具体方法利用了已经熟练掌握推理和生成任务的指令调整LLM。他们使用这些功能通过提示来指示LLM执行S2A任务。在实践中,这涉及到创建一个零样本提示,引导LLM将System 2 Attention应用于给定的上下文,表示为S2A(x) = LLM(PS2A(x)),其中PS2A是生成提示的函数。

Meta AI选择LLaMA-2-70B-chat作为他们的主要评估模型。他们在两种不同的情况下评估其性能:

基线设置:在这种方法中,数据集的输入提示直接提供给模型,然后模型以零样本的方式生成响应。这种方法很简单,但有一个缺点。模型的输出容易受到输入提示中出现的任何偏见、意见或无关细节的影响。

默示(Oracle)提示:给模型一个清理过的提示,去掉任何多余的观点或不相关的句子。然后,模型以零样本的方式响应这个改进的提示。如果它能够从输入中完美地过滤掉无关信息,那么则可以衡量模型的理想性能水平。

结果

评估S2A在三种不同场景下的有效性,这些场景突出了LLM的推理能力。

事实问题回答:用了来自SycophancyEval1的TriviaQA版本,专为直接基于事实的查询而设计,但在提示中包含了额外的意见。他们用提示进行实验,提示或建议正确答案或错误答案,或反驳正确答案。众所周知,这些附加因素会影响标准模型的响应。研究结果表明,在这种受意见影响的场景中,S2A显著提高了准确性,与无偏见或“oracle”提示的性能密切匹配。

长篇论点生成:使用了SycophancyEval的论点提示,其中包括所提供论点上下文中的观点。这些提示带有评论,表达了对论点的喜欢、不喜欢、作者身份或非作者身份。标准模型往往会根据这些情绪来歪曲他们的反应。但是S2A在保持生成的参数的客观性方面有了显著的改进,甚至超过了oracle提示符的客观性水平。

数学单词问题解决:在GSM-IC任务上测试S2A,该任务涉及来自GSM8K的数学单词问题,但添加了不相关的句子。这些分散注意力的句子会显著降低llm的准确性。Meta AI使用两种类型的干扰进行实验:随机的和主题相关的。该设置旨在评估S2A如何有效地过滤掉无关信息,并专注于问题的基本方面,以提供准确的解决方案。

总结

S2A是LLM推理方法发展的一个重要里程碑。该方法与人类推理非常相似,避免了干扰。我们应该期待S2A在最近几个月成为推理研究的重要基线。

论文地址:System 2 Attention (is something you might need too)

https://avoid.overfit.cn/post/4d6dae0510b44b779668dc4ab51108e9

作者:Jesus Rodriguez

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/221446.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Apollo】编译 Apollo 源码

https://github.com/ApolloAuto/apollo/blob/master/docs/01_Installation%20Instructions/apollo_build_and_test_explained.md 查看apollo.sh 的用法 ./apollo.sh --help可以编译整个模块,也可以单独编译某一个子模块./modules 为简单起见,Apollo 6.0…

JAVA:注册表窗口的实现

目录 题目要求: 思路大意: 窗体的实现: 窗口A: 窗口B: 窗体之间的构思: 关键代码的实现: 窗口A: 封装列表: 窗口B: 题目要求: 使用…

网站使用CDN后无法获取用户真实IP的解决方法

宝塔或Nginx环境 如果你使用的宝塔或Nginx,可以在宝塔面板或Nginx中,找到配置文件增加如下代码后,重载配置或者重启 Nginx 即可: #CDN获取真实ip set_real_ip_from 0.0.0.0/0; real_ip_header X-Forwarded-For; PHP语言函数方法…

19 高速列车场景下3Gpp 5G NR的DMRS设计与评估

文章目录 解决问题设计DMRS仿真参数仿真结果 解决问题 多普勒/扩展影响十分显著,设计用于信道估计时,需要考虑解调参考信号,5G用DMRS结构而不是CRS结构,因此需要为高速UE设计DMRS结构,DMRS设计是为了提高信道估计并减…

【AI底层逻辑】——数学与机器学习:优雅的智慧之舞

目录 “宝藏网站” 聊聊数学 “华尔兹” “智慧之舞” 后续的章节我们将迎来新的篇章,新的切入点探索AI的奥秘,通过揭示高数、矩阵、概率论等数学知识与机器学习的关系来深入理解AI的奥秘! “宝藏网站” 开头先给大家上几个宝藏网站&am…

性能监控软件:优化系统运行的得力助手

随着科技的飞速发展,企业和组织对于其信息技术基础设施的性能要求也愈发提高。为了确保系统能够高效稳定地运行,性能监控软件成为不可或缺的工具。本文将探讨性能监控软件的主要作用,以及它们在提升系统性能和稳定性方面的关键作用。 1. 实时…

Mysql8.0实现主从复制

1、什么是主从复制 数据库的主从复制(master-slave replication)是一种数据复制技术,其中一台数据库服务器(主服务器)上的数据变更会复制到另一台或多台数据库服务器(从服务器)上。这种复制可以…

羊大师讲解,一天喝多少羊奶才是健康的饮用量?

羊大师讲解,一天喝多少羊奶才是健康的饮用量? 在当今快节奏的生活中,更加健康的生活方式备受追捧。作为一种营养丰富的饮品,羊奶备受人们的喜爱。但是,一天喝多少羊奶才是健康的饮用量呢?本文小编羊大师将…

mysql EXPLAIN命令的输出列简介

MySQL :: MySQL 8.2 Reference Manual :: 8.8.2 EXPLAIN Output Format explain命令提供了mysql数据库如何执行SQL语句的信息,可以跟 SELECT, DELETE, INSERT, REPLACE, UPDATE, 和 TABLE一起使用。 explain命令可能输出多行,每行涉及一个表 。 先来看…

3D摄影棚布光:Set A Light 3D Studio

Set A Light 3D Studio是一款专业的灯光模拟软件,旨在帮助摄影师和电影制片人在电脑上进行虚拟灯光布置和场景模拟,以实现更加精准和高质量的拍摄效果。该软件提供了丰富的灯光和场景模型,支持灵活调整光源位置、强度、颜色和效果等参数&…

PMP备考总结:项目管理PMP考试提高通过率,轻松上岸~

分享一篇左羊学霸的备考总结,希望能帮到正在备考的友友们~ 前言 作为⼀名通过PMP项⽬管理认证并且拿到3A成绩 ( PMP认证最好成绩) 的 学习者, 来跟⼤家分享下我考取PMP证书的动机与过程 。考证不是主要⽬ 的, 在考证的过程深化⾃⼰的项⽬管理…

element日历组件只显示月和日,把年份隐藏掉

最终效果: 把年份和旁边的两个小标志小标去掉, 也就是把这红色框框内的内容隐藏掉 我们先用控制台看看里面具体的样式 1、可以看到 class “el-date-picker__header” 的 div是控制日历组件的标题的,div里面的button和span就是对应标题里面…

Python自动化:selenium常用方法总结

使用的Python版本为3.8,selenium版本为4.15.2 Python自动化:selenium常用方法总结 1. 三种等待方式2. 浏览器操作3. 8种查找元素的方法4. 高级事件 1. 三种等待方式 强制等待 使用模块time下的sleep()实现等待效果隐式等待 使用driver.implicitly_wait()方法&#…

如何在Kali Linux安装Xrdp+cpolar内网穿透实现远程访问Kali系统

文章目录 前言1. Kali 安装Xrdp2. 本地远程Kali桌面3. Kali 安装Cpolar 内网穿透4. 配置公网远程地址5. 公网远程Kali桌面连接6. 固定连接公网地址7. 固定地址连接测试 前言 Kali远程桌面的好处在于,它允许用户从远程位置访问Kali系统,而无需直接物理访…

PyCharm连接远程服务器上Docker容器,使用远程服务器的python intercepter解释器和GPU资源 [本地调试深度学习代码]

概述 在编写常规深度学习代码时,总是需要使用服务器上的GPU资源,所以一般要写完代码,放到服务器,然后使用GPU运行。但是由于之前的习惯,总想本地调试一下或者本地直接跑测试结果,再放到服务器去跑。 网上…

【coco】掩膜mask影像转coco格式txt(含python代码)

最近在做实例分割,遇到二值掩膜影像——coco格式txt的实例分割转换问题,困扰很久,不知道怎么转换,转出来的txt没法用代码成功读取。一系列问题,索性记录下自己的结局路程,方便大家python代码自取。 目录 &…

DevOps搭建(五)-JDK安装详细步骤

1、官网下载 官方网站下载JDK,这里我们安装JDK8 https://docs.oracle.com/javase/8/docs/technotes/guides/install/install_overview.html 点击上图中的Java SE Downloads项目,也可直接点击下面链接进入: Java Downloads | Oracle 往下滚…

学习Linux(3)-Linux软件安装之yum

什么是yum yum( Yellow dog Updater, Modified)是一个在 Fedora 和 RedHat 以及 SUSE 中的 Shell 前端软件包管理器。 假设,在一台window系统的电脑上要用qq,那么我们回去下载qq的安装包,然后执行qq.exe文件在本机上进…

10 个顶级 iPhone 数据恢复软件工具评测

很多事情都可能导致 iPhone 数据丢失:iOS 更新失败、越狱错误、解锁问题等。如果您遇到类似情况并且想要访问您的文件,通常最好的解决方案是使用数据恢复工具。由于研究市场上可用的工具可能会花费您大量的时间(在尝试从 iPhone 恢复数据时&a…

7.25 SpringBoot项目实战【我的借阅记录】

文章目录 前言一、编写控制器二、编写服务层三、Git提交前言 至此,我们已经实现 图书借阅、收藏、评论等场景,最后来到【还书】场景,首先 还书的 入口 一般 是【我的借阅记录】,在这里可以根据产品设计,对于需要归还的书 操作【还书】,所以本文来实现【我的借阅记录】。…