论文浅尝 | 从最少到最多的提示可在大型语言模型中实现复杂的推理

3c67bb606b9fd5d114c8a6b091391f46.png

笔记整理:王泽元,浙江大学博士

链接:https://openreview.net/forum?id=WZH7099tgfM

1. 动机

尽管深度学习已经取得了巨大的成功,但它与人类智慧仍然存在一些明显差距。这些差距包括以下几个方面:1)学习新任务:人类可以通过很少的示例快速学会新任务,而机器学习通常需要大量已标记的数据来完成相同的任务。2)逻辑解释:人类能够清晰地解释他们的思维过程,但机器学习似乎像一个黑盒,我们难以理解其中的工作原理。3)处理复杂问题:人类能够解决比以前遇到的更具挑战性的问题,而机器学习在训练和测试上遇到的难度大致相等。为了克服这些问题,研究人员提出了一种称为“从最少到最多提示”的方法。这个方法包括两个关键步骤:1)将复杂任务分解成一系列更简单的子任务,然后2)按照顺序逐一解决这些子任务。这有助于模型逐渐理解和解决整个复杂任务。在这两个阶段中,使用了很少的提示来指导模型,而不需要对模型进行大规模的微调。

2. 贡献

提出了基于学习简单任务来解决复杂任务的提示学习方法。该方法在如符号操纵、成分概括、数学推理上证明了其解决复杂问题的能力。

1fac50a3b2efd4f7a4600746ef0e04a1.png

3. 方法

它包含了两个阶段:

(1)分解:这个阶段的提示是固定的,描述了如何将一个具体的任务分解

(2)子任务解决:这个阶段的提示包含了三个部分:固定的例子说明如何解决子问题;一个可能为空的列表包含了先前回答的子问题和生成的解决方案;下一个要被回答的问题

4. 结果

符号操纵:最后字母拼接任务(输入一系列单词,输出是每个单词最后一个字母的拼接)

90e3fb6c0aaa6bf72a059de8858583fa.png

4332c43285f5368282f7b23096276c38.png

实验结果显示普通的提示在所有的测试中都失败了,思维连提示显著的提升了效果但仍与从最少到最多提示方法有差距。特别的,当序列长度增加时,思维链提示效果快速下降。

成分概括:将自然语言命令转换为行动序列

3c801c8a6ddbed17146fba4bd67cee17.png

b7909c2cf6c44357b889c93a96edefb6.png

成分概括数据以行动序列长度划分,从最少到最多提示达到了99.7%的准确率,一个有趣的发现是code-davinci-002优于text-davinci-002不论是使用哪种提示方法。在失败的例子中,有6个是因为没有正确理解“around”后面的“twice”和“thrice”,7个是因为错误地将“after”解释为“and”。

数学推理:作者用解决数学问题需要的步骤数量作为评价数学问题的难度

3f4383fd65ddba49a24485789bfd3470.png

3f5d3a2454f13e92f0fe1ea64e052d0c.png

b68d391e6c1af594afd22fbb6bccd3f4.png

从实验结果中可以看出,与思维链相比,当推理步骤数目大于5时,从最少到最多提示方法显著地提升了模型回答数学问题的准确性。作者发现在GSM8K中失败的问题,可以通过人为手工分割任务,让模型回答正确。这表明解决问题中最关键的一步是分解问题。

5. 总结

作者引入了从最少到最多的提示,使语言模型能够解决比提示中的问题更难的问题。这种方法需要两个过程:自上而下的问题分解和自下而上的解决方案生成。作者的实证研究结果包括符号操纵、构图概括和数学推理,表明从最不重要到最重要的提示明显优于标准提示和思维链提示。一般来说,提示可能不是教授大型语言模型推理技能的最佳方法。提示可以被视为一种单向交流形式,在这种形式中,我们指导语言模型而不考虑其反馈。一个自然的进展是将提示发展为完全双向的对话,从而能够立即反馈到语言模型,从而促进更高效和有效的学习。从最少到最多的提示技术代表了通过这种双向交互指导语言模型的一大进步。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

a3a7b4b55deda24cb7837c11c3505fdb.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41381.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【代码大全2 选读】看看骨灰级高手消灭 if-else 逻辑的瑞士军刀长啥样

文章目录 1 【写在前面】2 【心法】这把瑞士军刀长啥样3 【示例1】确定某个月份的天数(Days-in-Month Example)4 【示例2】确定保险费率(Insurance Rates Example)5 【示例3】灵活的消息格式(Flexible-Message-Format …

14-27 剑和诗人 1 – 请称呼我AI工程师

​​​​​ 仅初创企业的收入就超过 10 亿美元,随着 Gen AI 的早期成功迹象,每家有远见的科技公司都在竞相将 Gen AI 功能融入其产品、客户支持机器人和营销中。作为一种技术,AI 正处于与 90 年代末互联网相似的阶段,甚至完全相同…

【unity实战】Unity中使用A*寻路+有限状态机制作一个俯视角敌人AI

最终效果 文章目录 最终效果前言A*寻路插件介绍下载导入AI插件生成寻路网格节点的类型障碍物寻路测试A*只打印报错信息 代码控制寻路动画配置敌人状态机各种状态脚本效果完结 前言 前面做过有限状态机制作一个敌人AI:【unity实战】在Unity中使用有限状态机制作一个…

vxe-table合并行数据;element-plus的el-table动态合并行

文章目录 一、vxe-table合并行数据1.代码 二、使用element-plus的el-table动态合并行2.代码 注意&#xff1a;const fields 是要合并的字段 一、vxe-table合并行数据 1.代码 <vxe-tableborderresizableheight"500":scroll-y"{enabled: false}":span-m…

信创-办公软件应用工程师认证

随着国家对信息技术自主创新的战略重视程度不断提升&#xff0c;信创产业迎来前所未有的发展机遇。未来几年内&#xff0c;信创产业将呈现市场规模扩大、技术创新加速、产业链完善和国产化替代加速的趋势。信创人才培养对于推动产业发展具有重要意义。应加强高校教育、建立人才…

【信息学奥赛】CSP-J/S初赛07 排序算法及其他算法在初赛中的考察

本专栏&#x1f449;CSP-J/S初赛内容主要讲解信息学奥赛的初赛内容&#xff0c;包含计算机基础、初赛常考的C程序和算法以及数据结构&#xff0c;并收集了近年真题以作参考。 如果你想参加信息学奥赛&#xff0c;但之前没有太多C基础&#xff0c;请点击&#x1f449;专栏&#…

C++|海康摄像头实时预览时设置音量大小

使用海康API设置音量的函数是&#xff1a;NET_DVR_OpenSound。 在实际代码中我遇到了以下问题&#xff1a; 1&#xff1a;调用NET_DVR_OpenSound接口一直返回失败&#xff0c;错误是调用顺序出错。 2&#xff1a;音量设置不成功。 对于以上两种问题&#xff0c;我相信很多人…

FineBI在线学习资源-数据处理

FineBI在线学习资源汇总&#xff1a; 学习资源 视频课程 帮助文档 问答 数据处理学习文档&#xff1a; 相关资料&#xff1a; 故事背景概述-https://help.fanruan.com/finebi6.0/doc-view-1789.html 基础表处理-https://help.fanruan.com/finebi6.0/doc-view-1791.html …

六西格玛绿带培训如何告别“走过场”?落地生根

近年来&#xff0c;六西格玛绿带培训已经成为了众多企业提升管理水平和员工技能的重要途径。然而&#xff0c;不少企业在实施六西格玛绿带培训时&#xff0c;往往陷入形式主义的泥潭&#xff0c;导致培训效果大打折扣。那么&#xff0c;如何避免六西格玛绿带培训变成“走过场”…

【重磅】万能模型-直接能换迪丽热巴的模型

万能模型&#xff0c;顾名思义&#xff0c;不用重新训练src&#xff0c;直接可以用的模型&#xff0c;适应大部分原视频脸 模型用法和正常模型一样&#xff0c;但可以跳过训练阶段&#xff01;直接到合成阶段使用该模型 本模型没有做Xseg&#xff0c;对遮挡过多的画面不会自动适…

【C++】 解决 C++ 语言报错:Double Free or Corruption

文章目录 引言 双重释放或内存破坏&#xff08;Double Free or Corruption&#xff09;是 C 编程中常见且严重的内存管理问题。当程序尝试多次释放同一块内存或对已经释放的内存进行操作时&#xff0c;就会导致双重释放或内存破坏错误。这种错误不仅会导致程序崩溃&#xff0c…

谷粒商城学习-07-虚拟机网络设置

文章目录 一&#xff0c;找到配置文件Vagrantfile二&#xff0c;查询虚拟机网卡地址1&#xff0c;查看虚拟机网络配置2&#xff0c;查看宿主机网络配置 三&#xff0c;修改配置文件下的IP配置四&#xff0c;重新启动虚拟机即可生效五&#xff0c;Vagrantfile 的作用1&#xff0…

Java项目:基于SSM框架实现的校园快递代取管理系统【ssm+B/S架构+源码+数据库+毕业论文】

一、项目简介 本项目是一套基于SSM框架实现的校园快递代取管理系统 包含&#xff1a;项目源码、数据库脚本等&#xff0c;该项目附带全部源码可作为毕设使用。 项目都经过严格调试&#xff0c;eclipse或者idea 确保可以运行&#xff01; 该系统功能完善、界面美观、操作简单、…

Solo 开发者周刊 (第12期):连接独立开发者,共享开源智慧

这里会整合 Solo 社区每周推广内容、产品模块或活动投稿&#xff0c;每周五发布。在这期周刊中&#xff0c;我们将深入探讨开源软件产品的开发旅程&#xff0c;分享来自一线独立开发者的经验和见解。本杂志开源&#xff0c;欢迎投稿。 产品推荐 1、Soju————一个现代的书签…

【C++】 解决 C++ 语言报错:Undefined Reference

文章目录 引言 未定义引用&#xff08;Undefined Reference&#xff09;是 C 编程中常见的错误之一&#xff0c;通常在链接阶段出现。当编译器无法找到函数或变量的定义时&#xff0c;就会引发未定义引用错误。这种错误会阻止生成可执行文件&#xff0c;影响程序的正常构建。本…

扁鹊三兄弟的启示,探寻系统稳定的秘诀

一、稳定性的重要性 1. 公司收益的角度 从公司收益的视角审视&#xff0c;系统不稳定可能会引发直接损失。例如&#xff0c;当系统突然出现故障导致交易中断时&#xff0c;可能造成交易款项的紊乱、资金的滞留或损失&#xff0c;这不但会阻碍当前交易的顺利完成&#xff0c;还…

长沙(市场调研公司)源点 企业如何决定是否需要开展市场调研?

长沙源点调研咨询认为&#xff1a;对于一个特定问题&#xff0c;管理者在面临几种解决问题的方案时&#xff0c;不应该凭直觉草率开展应用性市场调研。事实上&#xff0c;首先需要做的决策是是否需要开展调研。在下述情况下&#xff0c;最好不要做调研&#xff1a; *缺乏资源。…

【qt】如何获取网卡的信息?

网卡不只一种,有有线的,有无线的等等 我们用QNetworkInterface类的静态函数allInterfaces() 来获取所有的网卡 返回的是一个网卡的容器. 然后我们对每个网卡来获取其设备名称和硬件地址 可以通过静态函数humanReadableName() 来获取设备名称 可以通过静态函数**hardwareAddre…

使用OpenCV对图像进行三角形检测、颜色识别与距离估算【附代码】

文章目录 前言功能概述必要环境一、代码结构1. 参数定义2. 距离估计3. 颜色转换4. 图像处理函数4.1 读取图像和预处理4.2 轮廓检测4.3 过滤面积并检测三角形4.4 提取边框并计算距离 二、效果展示红色三角形绿色三角形蓝色三角形黄色三角形 三、完整代码获取总结 前言 本文将介…

springai+pgvector+ollama实现rag

首先在ollama中安装mofanke/dmeta-embedding-zh:latest。执行ollama run mofanke/dmeta-embedding-zh 。实现将文本转化为向量数据 接着安装pgvector&#xff08;建议使用pgadmin4作为可视化工具&#xff0c;用navicate会出现表不显示的问题&#xff09; 安装好需要的软件后我们…