【论文阅读-思维链的构造方法02】4.1.2 Automatic Construction-02

提示1:本篇博客中涉及4篇相关论文,预计阅读时间10分钟+,望各位友友耐心阅读~
提示2:本篇所有涉及的论文已打包发布,不需要任何积分即可下载,指路 --> 论文集下载地址

大模型技术-思维链CoT

  1. 思维链综述
  2. 思维链的构造方法01-Manual Prompting
  3. 论文阅读-思维链的构造方法02-Automatic Construction-01

文章目录

  • 大模型技术-思维链CoT
  • 一、涉及论文
  • 二、Better Zero-Shot Reasoning with Self-Adaptive Prompting
    • 2.1 提出问题
    • 2.2 解决问题
    • 2.3 结果及展望
  • 三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
    • 3.1 提出问题
    • 3.2 解决问题
    • 3.3 结果及展望
  • 四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners
    • 4.1 提出问题
    • 4.2 解决问题
    • 4.3 结果及展望
  • 五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization
    • 5.1 提出问题
    • 5.2 解决问题
    • 5.3 结果及展望
  • 总结


一、涉及论文

  • 论文1:Better Zero-Shot Reasoning with Self-Adaptive Prompting, ACL 2023
  • 论文2:Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
  • 论文3:Agent Instructs Large Language Models to be General Zero-Shot Reasoners
  • 论文4:PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization

二、Better Zero-Shot Reasoning with Self-Adaptive Prompting

2.1 提出问题

  虽然 零样本链式思维(Zero-shot Chain of Thought, CoT) 方法在一定程度上提升了LLMs的推理能力,但是该方法仍面临如下挑战:
   ① 手工提示的成本高昂: 少样本 CoT 需要精心设计的示例,但这种人工设计难以扩展至多个任务场景。
   ② 零样本 CoT 性能不足: 虽然任务通用,但模型在没有明确指导的情况下经常产生不准确或冗余的推理。
   ③ 少样本 CoT示例要求高: fewshot CoT性能已被证明对演示的选择很敏感,因此提高性能需要大量的反复试验和/或特定的相关专业知识,对于人力及专业性有较大的挑战。

2.2 解决问题

  为了解决上述问题,作者提出了基于一致性的自适应提示 (COSP,见下图),该方法通过自动选择和构造演示样例,无需人工设计,提升零样本推理的效果。方法主要分为如下两步:
   ① 生成演示池: 使用零样本 CoT 生成候选演示,并计算每个问题的多种推理路径和答案;通过一致性评分(例如多路径输出的一致性)筛选出更有可能正确的演示;受自洽性启发的指标Wang et al, 2022a。
   ② 优化演示选择: 通过考虑一致性、多样性和冗余性,优化挑选演示的评分函数,确保所选演示既多样又高质量;将筛选出的演示添加到测试问题中,形成上下文提示,并再次调用模型进行推理。
   此外,提出了 COSP+ 方法,根据问题的难度自适应分配更多的演示以进一步提升性能。
COSP流程图

2.3 结果及展望

  • 实验结果:
      ① COSP 在多个数据集(包括算术推理、多选常识问答等)中表现优异,平均准确率相比零样本 CoT 提升 10%-15%,并在许多任务中超越了少样本 CoT。对于小规模模型(如 PaLM-62B 和 GPT-3),COSP 明显缩小了与大规模模型(如 PaLM-540B)的性能差距。
      ② COSP 方法能够有效规避因选择错误演示导致的性能下降问题,相比现有自动方法(如 Auto-CoT),在更具挑战性的任务上表现更稳定。
    实验部分结果
  • 未来研究方向:
    • 扩展任务类型:探索将 COSP 应用于更广泛的 NLP 任务,如翻译和对话生成。
    • 改进评估指标:进一步优化一致性和多样性评分函数。
    • 模型联合优化:结合多个语言模型,探索协同推理的潜力。

三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic

3.1 提出问题

  大型语言模型(LLMs)在零样本链式思维(Zero-shot Chain-of-Thought, CoT)推理中逻辑推理能力不足,容易出现以下问题:
   ① 推理路径不连贯: LLMs 生成的推理过程可能跳过逻辑步骤或包含错误。
   ② 错误传播: 中间推理步骤的错误会逐步影响最终答案的准确性。
   ③ 缺乏逻辑约束: 模型推理缺乏逻辑规则的指导,容易出现错误结论。

3.2 解决问题

  受逻辑推理过程的启发,作者提出了 LoT(Logical Thoughts)提示框架,是一种全自动推理范式,旨在进一步自我提升 LLM 的零样本推理能力。它不仅可以让 LLM 一步步思考,还可以按照归谬法的指导一步步验证,并在必要时修改推理链以保证推理的合理性,如下图所示:
LoT
  LoT的核心思想如下:
   ① 基于逻辑的验证与修正: 引入 归谬法(Reductio ad Absurdum),验证每一步推理是否与前提一致;发现矛盾时,对错误推理步骤进行修正。
   ② 后验解释与修订: 对推理链中每个步骤生成正反两个解释(Post-hoc Explanations);使用逻辑验证选择合理的解释,并通过修订改进推理链。
   ③ 自适应推理链生长: 根据逻辑验证结果动态扩展或修正推理链,确保推理的完整性和一致性。

3.3 结果及展望

  • 实验结果:
      LoT 方法在多个领域的推理任务(如数学推理、因果推理、常识问答等)中得到了验证,如下图所示。图中显示了使用不同 LLM 未使用(✗)和使用(✓)LoT 增强的 CoT(Kojima et al,2022)的百分比差异(绿色表示正,红色表示负)。结果显示:CoT 通常在通过 LoT 增强时获得更好的性能,较大的模型(例如 GPT-4)表现出强大而稳健的自我校正能力。
    结果
  • 未来研究方向:
    • 逻辑规则扩展:探索更多逻辑原则(如归纳法、演绎法)的应用。
    • 跨任务通用性:研究 LoT 方法在多任务和多语言环境中的适用性。
    • 与强化学习结合:通过 AI 自反馈(RLAIF)优化推理质量。

四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners

4.1 提出问题

  如何提升大型语言模型(LLMs)在零样本场景下的推理能力,尤其是面对多样化任务时的表现。现有方法主要面临以下问题:
   ① 缺乏任务适应性: 零样本提示通常使用固定提示模板,难以适配不同任务的具体需求。
   ② 低效的人工设计: 少样本提示依赖人工设计示例,耗费大量人力且难以推广。
   ③ 推理表现有限: 现有零样本链式思维(Zero-shot CoT)方法无法充分挖掘模型潜力,在复杂任务上效果不理想。

4.2 解决问题

  作者提出了Zero-shot AgentInstruct 的方法,通过构建自动化的智能代理生成任务特定的指令,改进零样本推理性能。其核心解决方案包括:
   ① 指令生成: 使用一个大型语言模型(如 GPT-4)作为智能代理,为每个任务生成一次性、高质量的任务指令;指令内容基于任务的语义特点,包括任务目标、输入特性和输出要求。
   ② 链式思维融合: 将生成的任务特定指令与链式思维提示相结合,使模型推理过程更符合任务需求;替代传统的固定提示(如“Let’s think step by step”)为动态指令提示。
   ③ 知识蒸馏: 利用更强大的模型(如 GPT-4)生成任务指令,将其知识传递给较小规模的模型(如 GPT-3.5 Turbo)。
演示图

4.3 结果及展望

  • 实验结果: 该方法在 29 个基准数据集(包括生成、分类和推理任务)中验证了方法的有效性,结果如下:
       ① Zero-shot AgentInstruct 在 20 个数据集上达到当前最佳零样本性能,平均比标准零样本方法提高 17.8%,比零样本 CoT 提升 6.5%;在推理任务中表现尤为突出,准确率平均提升 10.5%,在 12 个推理任务中的 10 个任务上取得最佳结果。
       ② 方法适用于多个模型(如 Vicuna-13b、Llama-2-70b-chat 和 GPT-3.5 Turbo),在各模型上的表现均显著提升;特别是,Llama-2-70b-chat 配合 Zero-shot AgentInstruct 的表现超越标准 GPT-3.5 Turbo 平均 10.2%。
       ③ 每个数据集的指令生成只需运行一次代理,大幅降低推理成本。
    实验结果
  • 未来研究方向:
    • 自适应指令生成:探索无需预先定义任务信息的自动指令生成技术。
    • 模型性能增强:结合强化学习进一步优化任务指令的生成和执行。
    • 跨语言和跨领域推广:验证方法在多语言任务和跨领域任务中的通用性。

五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization

5.1 提出问题

  Prompt engineering 是优化大型语言模型(LLMs)性能的关键。然而,目前生成高质量任务特定的提示仍然严重依赖专家知识,存在以下问题:
   ① 自动化程度低: 现有方法难以生成与专家手工设计相当的高质量提示。
   ② 探索不足: 现有优化方法在提示空间中的搜索效率低,容易陷入局部最优,难以探索复杂的专家级提示空间。
   ③ 缺乏领域知识整合: 大多数提示优化方法无法有效利用深层次的领域知识,导致提示在任务表现上有局限性。

5.2 解决问题

  本文提出了 PromptAgent,一种基于策略规划的新型提示优化框架,其关键特点包括:
   ① 将提示优化视为战略规划问题: 采用蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)作为核心算法,系统地探索专家级提示空间;通过试错和自反思生成改进的提示,模拟专家优化提示的过程。
   ② 错误反馈驱动优化: 基于模型的错误输出生成改进提示的反馈,结合任务需求动态调整提示内容;利用模型的自反思能力,引导提示逐步优化并整合领域知识。
   ③ 结构化提示生成: 在提示中添加多维指导信息(如任务描述、术语解释、解决策略、异常处理等),使其更接近专家设计的细致提示。
方法图示

5.3 结果及展望

  • 实验结果:
      在 12 个任务(包含 BIG-Bench Hard、医疗任务和通用 NLP 任务)上进行测试,PromptAgent 的性能均优于现有方法(如人类提示、链式思维提示和自动提示优化基线)。平均准确率相较于最新基线提升 9%-16%,在特定任务(如几何推理和生物医学实体识别)中,性能提升幅度高达 20%。
    实验结果
  • 未来研究方向:
    • 提示压缩:在保持提示性能的前提下研究如何简化提示的复杂性,减少推理成本。
    • 联合优化:探索与其他优化策略(如强化学习)的结合,进一步提升提示性能。
    • 长期规划能力:扩展 PromptAgent 的规划能力以适应更复杂的推理和决策任务。

总结

   以上就是本篇博客的全部内容了,具体的论文细节希望大家去阅读原文,关于有代码的论文,后期博主也会去进行尝试,有兴趣的朋友可以一直持续关注,感谢各位的支持!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/66661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【GIt原理与使用】Git远程仓库

一、理解分布式版本控制系统 我们目前所说的所有内容(工作区,暂存区,版本库等等),都是在本地!也就是在你的笔记本或者计算机上。而我们的 Git 其实是分布式版本控制系统!什么意思呢&#xff1f…

力扣-数组-88 合并两个有序数组

解析 分别维护指向两个数组的指针&#xff0c;不断往后增加指针即可&#xff0c;主要是边界&#xff0c;然后时间复杂度是。 代码 class Solution { public:void merge(vector<int>& nums1, int m, vector<int>& nums2, int n) {vector <int> new…

家用万兆网络实践:紧凑型家用服务器静音化改造(二)

大家好&#xff0c;这篇文章我们继续分享家里网络设备的万兆升级和静音改造经验&#xff0c;希望对有类似需求的朋友有所帮助。 写在前面 在上一篇《家用网络升级实践&#xff1a;低成本实现局部万兆&#xff08;一&#xff09;》中&#xff0c;我们留下了一些待解决的问题。…

小程序组件 —— 29 组件案例 - 字体图标的使用

这一节主要是完善公司信息区域&#xff0c;我们需要在文本之前添加一些字体图标&#xff0c;这一节我们学习如何在微信小程序中使用字体图标&#xff1b; 在项目中&#xff0c;我们使用的小图标&#xff0c;一般由公司设计师进行设计&#xff0c;设计好之后上传到阿里巴巴矢量…

RK3562编译Android13 ROOT固件教程,触觉智能开发板演示

本文介绍编译Android13 ROOT权限固件的方法&#xff0c;触觉智能RK3562开发板演示&#xff0c;搭载4核A53处理器&#xff0c;主频高达2.0GHz&#xff1b;内置独立1Tops算力NPU&#xff0c;可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。 关闭seli…

STM32-ADC模数转换

目录 1.0 逐次逼近型ADC 2.0 ADC触发 3.0 ADC时钟 4.0 转换模式 5.0 转换时间 6.0 校准 7.0 硬件电路 8.0 数据手册 9.0 程序实现 9.0.1 时钟初始化 9.0.2 GPIO结构体初始化 9.0.3 ADC结构体初始化 9.0.4 ADC转换 9.0.5 AD初始化 9.0.6 获取ADC值 9.0.7 ADC头文…

数据结构:LinkedList与链表—面试题(三)

目录 1、移除链表元素 2、反转链表 3、链表的中间结点 4、返回倒数第k个结点 5、合并两个有序链表 1、移除链表元素 习题链接https://leetcode.cn/problems/remove-linked-list-elements/description/ 描述&#xff1a;给你一个链表的头节点 head 和一个整数 val &#xff…

使用 SQL 和表格数据进行问答和 RAG(1)—数据库准备

一. 从 .sql/csv/xlsx 文件创建 sqlite 数据库。 要从.sql文件准备 SQL DB&#xff0c;这里会将创建数据库的代码放到了&#xff0c;将文件复制到data/sql目录中&#xff0c;然后在终端中的项目文件夹中执行&#xff1a; pip install sqlite3现在创建一个名为sqldb的数据库&a…

案例研究:UML用例图中的结账系统

在软件工程和系统分析中&#xff0c;统一建模语言&#xff08;UML&#xff09;用例图是一种强有力的工具&#xff0c;用于描述系统与其用户之间的交互。本文将通过一个具体的案例研究&#xff0c;详细解释UML用例图的关键概念&#xff0c;并说明其在设计结账系统中的应用。 用…

EasyExcel上传校验文件错误信息放到文件里以Base64 返回给前端

产品需求&#xff1a; 前端上传个csv 或 excel 文件&#xff0c;文件共4列&#xff0c;验证文件大小&#xff0c;类型&#xff0c;文件名长度&#xff0c;文件内容&#xff0c;如果某行某个单元格数据验证不通过&#xff0c;就把错误信息放到这行第五列&#xff0c;然后把带有…

机器学习免费使用的数据集及网站链接

机器学习领域存在许多可以免费使用的数据集&#xff0c;这些数据集来自于学习、研究、比赛等目的。 一、综合性数据集平台 1.Kaggle 网址&#xff1a;Kaggle 数据集https://www.kaggle.com/datasets Kaggle是一个数据科学竞赛和社区平台&#xff0c;提供了大量的数据集供用…

Nacos 3.0 Alpha 发布,在安全、泛用、云原生更进一步

自 2021 年发布以来&#xff0c;Nacos 2.0 在社区的支持下已走过近三年&#xff0c;期间取得了诸多成就。在高性能与易扩展性方面&#xff0c;Nacos 2.0 取得了显著进展&#xff0c;同时在易用性和安全性上也不断提升。想了解更多详细信息&#xff0c;欢迎阅读我们之前发布的回…

IP查询于访问控制保护你我安全

IP地址查询 查询方法&#xff1a; 命令行工具&#xff1a; ①在Windows系统中&#xff0c;我们可以使用命令提示符&#xff08;WINR&#xff09;查询IP地址&#xff0c;在弹窗中输入“ipconfig”命令查看本地网络适配器的IP地址等配置信息&#xff1b; ②在Linux系统中&…

解决 ssh connect to host github.com port 22 Connection timed out

一、问题描述 本地 pull/push 推送代码到 github 项目报 22 端口连接超时&#xff0c;测试连接也是 22 端口连接超时 ssh 密钥没问题、也开了 Watt Toolkit 网络是通的&#xff0c;因此可以强制将端口切换为 443 二、解决方案 1、测试连接 ssh -T gitgithub.com意味着无法通…

如何在Windows 11 WSL2 Ubuntu 环境下安装和配置perf性能分析工具?

在Windows 11 WSL2 Ubuntu 环境下完整安装和配置perf性能分析工具 一、背景二、准备工作三、获取并编译Linux内核源码四、安装和配置perf五、测试perf六、总结 一、背景 由于WSL2使用的是微软定制的内核&#xff0c;并非标准的Ubuntu内核&#xff0c;因此直接使用apt安装linux…

NOVA:AutoRegressive Video Generation Without Vector Quantization——自回归视频生成无需向量量化

这篇文章介绍了一种名为NOVA的新型自回归模型&#xff0c;用于高效的文本到图像和文本到视频生成。以下是文章的主要内容总结&#xff1a; 1. 研究背景与问题 自回归大语言模型&#xff08;LLMs&#xff09;在自然语言处理&#xff08;NLP&#xff09;中表现出色&#xff0c;但…

eNSP之家——路由器--入门实例详解

eNSP路由器配置&#xff1a;IP、DHCP与DNS详解-CSDN博客 练习1&#xff1a;两个路由器配置ip地址&#xff0c;并用ping命令测试连通性。 打开ensp&#xff0c;拉进来两个路由器AR2220,再用auto连接两个路由器。 选中两个路由器&#xff0c;右键启动&#xff0c;等待半分钟路由…

Spring 设计模式:经典设计模式

Spring 设计模式&#xff1a;经典设计模式 引言 Spring 框架广泛使用了经典设计模式。 这些模式在 Spring 内部发挥着重要作用。 通过理解这些设计模式在 Spring 中的应用&#xff0c;开发者可以更深入地掌握 Spring 框架的设计哲学和实现细节。 经典设计模式 控制反转&am…

【HarmonyOS NEXT】鸿蒙应用点9图的处理(draw9patch)

【HarmonyOS NEXT】鸿蒙应用点9图的处理&#xff08;draw9patch&#xff09; 一、前言&#xff1a; 首先在鸿蒙中是不支持安卓 .9图的图片直接使用。只有类似拉伸的处理方案&#xff0c;鸿蒙提供的Image组件有与点九图相同功能的API设置。 可以通过设置resizable属性来设置R…

STM32-笔记39-SPI-W25Q128

一、什么是SPI&#xff1f; SPI是串行外设接口&#xff08;Serial Peripheral Interface&#xff09;的缩写&#xff0c;是一种高速的&#xff0c;全双工&#xff0c;同步的通信总线&#xff0c;并且 在芯片的管脚上只占用四根线&#xff0c;节约了芯片的管脚&#xff0c;同时为…