Chain-of-Thought真能提高大模型的推理能力吗?

用于提高大语言模型(LLM)的推理、规划、算术等能力的思维链(Chain-of-Thought、CoT)技术,真的能帮助LLM一步步地回答问题吗?美国亚利桑那州立大学的研究人员近期发表了一篇论文[1],论文根据实验结果,对CoT能够通过一系列的提示、引导LLM进行推理的观点提出了质疑。

作者们在评估CoT的推理能力时,没有采用较流行的GSM8K、CommonSenseQA、StrategyQA等测试数据集,而主要针对国际规划竞赛(International Planning Competitions)所认可和使用的Blocksworld问题进行了试验,同时还试验了以下三类推理和算术问题:

  • 翻硬币(Coin Flip)问题;
  • 字母拼接(Letter Concatenation)问题;
  • 多步算术(Multi-step Arithmetic)问题。

Blocksworld问题及实验结果

Blocksworld问题在规划问题的文献中使用较广。Blocksworld问题所要解决的是将一定数量的积木从开始时的布局,通过一步步的移动,转变成为目标布局。作者们在实验中采用了Blocksworld问题中的较为简单的一部分子问题,具体而言,就是将台面上的一定数量的积木,按照目标顺序(例如积木A在积木B之上)堆成一个立柱的问题。

实验时,作者们采用了不同详细程度的多种CoT提示语,包括简单的Zero-Shot CoT提示语(即在提示语中增加“Let’s think step by step.”),以及几种更加详细具体的CoT提示语。所采用的LLM包括GPT-4、Claude-3-Opus和GPT-4-Turbo。

实验的主要结果是:

  • 未采用CoT的LLM基本不具备简单的规划能力;
  • 只有当CoT提示语中的示例很详细、并且与所求解的问题足够相似时,CoT才能起到明显的作用;
  • 不论采用多么详细具体的CoT提示语,当积木的数量增多时,堆叠积木的成功率都急剧下降,这意味着CoT所传授的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性;
  • 即使使用self-consistency(一种改进的CoT技术),得到的结果也类似、甚至更差。

翻硬币问题及实验结果

翻硬币问题,是告诉LLM一枚硬币最初正面朝上,“人员1”翻转了这枚硬币,“人员2”未翻转这枚硬币,.... ,“人员N”翻转了这枚硬币,然后提问LLM这枚硬币最终是否正面朝上。其中,“人员i”在提示语中被替换成不同的人名。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是:

  • 当提示语中涉及的人数N不超过30时,采用CoT的回答准确率随着人数的增加而有所下降,但能保持在90%以上;相比之下,未采用CoT的LLM的回答平均准确率不到60%;
  • 当提示语中涉及的人数N超过30时,采用CoT的回答准确率降至90%以下。

论文指出,只有翻硬币问题能以某种迹象展示出CoT的综合能力;论文同时也指出翻硬币问题非常简单,不需要太多的推理能力。

字母拼接问题及实验结果

字母拼接问题,是提供给LLM一组英文单词,让LLM将每个单词的特定位置的字母拼接在一起,例如:对于“Craig Alice”,将每个单词的最后一个字母拼接在一起(答案是“ge”)。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是:当英文单词的数量增多时,采用CoT的回答正确率急剧下降,这意味着CoT传授给LLM的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性。

多步算术问题及实验结果

多步算术问题,是让LLM简化算术表达式,例如:简化“3 / (9 - (5 + (1)))”(答案是“1”)。

实验时所采用的LLM是GPT-4-Turbo。实验的主要结果是:当算术表达式的长度增加、计算所需的步骤增多时,采用CoT的计算正确率快速下降,意味着CoT所传授的知识不能被延用到同类的、但是更大的问题中,所传授的知识不具有通用性。

结论

基于上述多个实验的结果,论文提出了以下的观点:

  • CoT不像宣传的那样,能让LLM学到通用的、解决新问题的能力,只能让LLM通过某种方式的模式匹配来达到有关能力的提升;
  • 非常贴切、具体的CoT提示语只可能在足够窄的问题领域中起到作用。

参考文献

[1] https://arxiv.org/abs/2405.04776


封面图:Suzy Hazelwood、Pexels

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/28443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

net start mysql服务名无效

问题背景 起因是我的电脑因为停电烧坏了系统固态硬盘,再新装系统后,之前的MySQL服务无法通过下面的命令启动。 net start mysql # 报错:服务名无效 报错:服务名无效 报错信息 未找到:在Windows服务中找不到MySQL 找…

关于HTTP劫持,该如何理解、防范和应对

一、引言 HTTP劫持(HTTP Hijacking)是一种网络安全威胁,它发生在HTTP通信过程中,攻击者试图通过拦截、篡改或监控用户与服务器之间的数据流量,以达到窃取敏感信息或执行恶意操作的目的。今天我们就来详细了解HTTP劫持…

Google Earth Engine(GEE)——计算闪闪红星的ndvi的值和直方图(时序分析)

函数: ui.Chart.image.histogram(image, region, scale, maxBuckets, minBucketWidth, maxRaw, maxPixels)

数据库 | 事务

事务:要么做要么不做 开始语句:BEGIN TRANSACTION 结束语句:COMMIT(正确) ROLLBACK(错误) 4个性质:ACID A(atomicity) 原子性:一个事务要么不做…

AWS无服务器 应用程序开发—第十三章 小结2

电子邮件发送(Amazon SES、Amazon SNS、AWS Lambda) 注意点和易错点 SES 配置:确保域名验证和 DKIM 签名配置正确,避免邮件被标记为垃圾邮件。 SNS 配置:订阅和发布权限需要配置正确。 Lambda 权限:确保 Lambda 函数有正确的执行权限。 移除沙盒:需要大量发送邮件的时…

Ant Design Vue 动态表头和数据填充

创作动态表头和数据填充的前端应用:使用 Ant Design Vue 在现代前端开发中,动态表格是一个常见而且非常有用的功能。Ant Design Vue作为一个优秀的UI组件库,为开发者提供了丰富的组件和API来实现复杂的前端需求,包括动态表头和数…

深入探究:Java SE中的数组高级用法

哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…

Rewrite the Stars

文章目录 摘要1、引言2、相关工作3、重写星操作3.1、单层中的星操作3.2、扩展到多层3.3、特殊情况3.4、实证研究3.4.1、星操作的实证优越性3.4.2、决策边界对比3.4.3、扩展到无激活函数的网络 3.5、开放讨论与更广泛的影响 4、概念验证:StarNet4.1、StarNet架构4.2、…

《Windows API每日一练》4.4 绘制填充区域

本节讲述如何填充由线条构建的封闭区域。当我们初始化一个窗口类时,往往已经指定了窗口的背景色画刷(WHITE_BRUSH),即默认的填充封闭区域背景的画刷。如果我们想更换背景颜色,需要选入其他系统预定义的画刷&#xff08…

Serializable 序列化详解

文章目录 一、什么是序列化二、Serializable 简介三、Serializable 序列化测试四、serialVersionUID 的作用五、serialVersionUID 默认 1L 和 64 位的哈希字段有什么区别?六、static 和 transient 字段 一、什么是序列化 序列化就是将对象属性转变为二进制数据。用…

LLVM 中 的 pass 及其管理机制

概述 LLVM 编译器框架的核心概念是任务调用和执行 编译器开发者将IR分解为不同的处理对象,并将其处理过程实现为单独的pass类型。在编译器初始化,pass被实例化,并被添加到pass管理中 pass 管理器(pass manager) 以流水线的方式将各个独立的…

DOM 总结

DOM 总结 1. 引言 文档对象模型(DOM,Document Object Model)是一种跨平台和语言独立的接口,它允许程序和脚本动态地访问和更新文档的内容、结构和样式。DOM 是万维网联盟(W3C)的标准,被广泛应用于网页设计和开发中。本文将总结 DOM 的基本概念、核心功能和实际应用。 …

【安装笔记-20240616-Linux-为 OpenWrt 自动挂载 Windows 主机共享目录】

安装笔记-系列文章目录 安装笔记-20240616-Linux-为 OpenWrt 自动挂载 Windows 主机共享目录 文章目录 安装笔记-系列文章目录安装笔记-20240616-Linux-为 OpenWrt 自动挂载 Windows 主机共享目录 前言一、软件介绍名称:cifsutils主页官方介绍特点 二、安装步骤测试…

华为校招机试 - 排列组合的回文字符串(20230515)

题目描述 如果一个字符串和它反转后的字符串相同,我们称这个字符串为回文字符串。 如:"aba"是一个回文字符串,"abb"不是一个回文字符串(长度为 1 的字符串也是回文字符串)。 要给定一个字符串,其长度范围为:[1, 1000),返回其通过重新排列组合后…

exit和_exit函数和atexit函数

相对于return函数,exit和_exit是用于专门退出进程的函数,而return不是用于专门退出进程的,只是执行mian函数时,return可以退出进程。(return退出当前函数执行的栈空间,并返回当前函数执行的结果&#xff09…

基于JSP技术的个人网站系统

开头语: 你好呀,我是计算机学长猫哥!如果有相关需求,文末可以找到我的联系方式。 开发语言:Java 数据库:MySQL 技术:JSP JavaBeans Servlet 工具:Eclipse、MySQL Workbench、…

.net8 blazor auto模式很爽(五)读取sqlite并显示(2)

在BlazorApp1增加文件夹data&#xff0c;里面增加类dbcont using SharedLibrary.Models; using System.Collections.Generic; using Microsoft.EntityFrameworkCore;namespace BlazorApp1.data {public class dbcont : DbContext{public dbcont(DbContextOptions<dbcont>…

Java高频面试题整理(几万字)

&#x1f469;&#x1f3fb; 作者&#xff1a;一只IT攻城狮 &#xff0c;关注我不迷路 ❤️《java面试核心知识》突击系列&#xff0c;持续更新… &#x1f490; 面试必知必会学习路线&#xff1a;Java技术栈面试系列SpringCloud项目实战学习路线 &#x1f4dd;再小的收获x365天…

卷积网络热图显示

【卷积神经网络可视化】之热度图可视化_visualizing heatmaps of class activation in an ima-CSDN博客

Java中的Stream API及其应用

Java中的Stream API及其应用 Java 8引入了Stream API,这是对集合进行复杂操作的强大工具。Stream API支持函数式编程风格,能够简洁、清晰地处理集合数据。本文将详细介绍Java中的Stream API及其实际应用场景。 一、Stream API简介 Stream是元素的序列,这些元素支持顺序和…