提示1:本篇博客中涉及4篇相关论文,预计阅读时间10分钟+,望各位友友耐心阅读~
提示2:本篇所有涉及的论文已打包发布,不需要任何积分即可下载,指路 -->
论文集下载地址
大模型技术-思维链CoT
- 思维链综述
- 思维链的构造方法01-Manual Prompting
- 论文阅读-思维链的构造方法02-Automatic Construction-01
文章目录
- 大模型技术-思维链CoT
- 一、涉及论文
- 二、Better Zero-Shot Reasoning with Self-Adaptive Prompting
- 2.1 提出问题
- 2.2 解决问题
- 2.3 结果及展望
- 三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
- 3.1 提出问题
- 3.2 解决问题
- 3.3 结果及展望
- 四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners
- 4.1 提出问题
- 4.2 解决问题
- 4.3 结果及展望
- 五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization
- 5.1 提出问题
- 5.2 解决问题
- 5.3 结果及展望
- 总结
一、涉及论文
- 论文1:Better Zero-Shot Reasoning with Self-Adaptive Prompting, ACL 2023
- 论文2:Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
- 论文3:Agent Instructs Large Language Models to be General Zero-Shot Reasoners
- 论文4:PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization
二、Better Zero-Shot Reasoning with Self-Adaptive Prompting
2.1 提出问题
虽然 零样本链式思维(Zero-shot Chain of Thought, CoT) 方法在一定程度上提升了LLMs的推理能力,但是该方法仍面临如下挑战:
① 手工提示的成本高昂: 少样本 CoT 需要精心设计的示例,但这种人工设计难以扩展至多个任务场景。
② 零样本 CoT 性能不足: 虽然任务通用,但模型在没有明确指导的情况下经常产生不准确或冗余的推理。
③ 少样本 CoT示例要求高: fewshot CoT性能已被证明对演示的选择很敏感,因此提高性能需要大量的反复试验和/或特定的相关专业知识,对于人力及专业性有较大的挑战。
2.2 解决问题
为了解决上述问题,作者提出了基于一致性的自适应提示 (COSP,见下图),该方法通过自动选择和构造演示样例,无需人工设计,提升零样本推理的效果。方法主要分为如下两步:
① 生成演示池: 使用零样本 CoT 生成候选演示,并计算每个问题的多种推理路径和答案;通过一致性评分(例如多路径输出的一致性)筛选出更有可能正确的演示;受自洽性启发的指标Wang et al, 2022a。
② 优化演示选择: 通过考虑一致性、多样性和冗余性,优化挑选演示的评分函数,确保所选演示既多样又高质量;将筛选出的演示添加到测试问题中,形成上下文提示,并再次调用模型进行推理。
此外,提出了 COSP+ 方法,根据问题的难度自适应分配更多的演示以进一步提升性能。
2.3 结果及展望
- 实验结果:
① COSP 在多个数据集(包括算术推理、多选常识问答等)中表现优异,平均准确率相比零样本 CoT 提升 10%-15%,并在许多任务中超越了少样本 CoT。对于小规模模型(如 PaLM-62B 和 GPT-3),COSP 明显缩小了与大规模模型(如 PaLM-540B)的性能差距。
② COSP 方法能够有效规避因选择错误演示导致的性能下降问题,相比现有自动方法(如 Auto-CoT),在更具挑战性的任务上表现更稳定。
- 未来研究方向:
- 扩展任务类型:探索将 COSP 应用于更广泛的 NLP 任务,如翻译和对话生成。
- 改进评估指标:进一步优化一致性和多样性评分函数。
- 模型联合优化:结合多个语言模型,探索协同推理的潜力。
三、Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
3.1 提出问题
大型语言模型(LLMs)在零样本链式思维(Zero-shot Chain-of-Thought, CoT)推理中逻辑推理能力不足,容易出现以下问题:
① 推理路径不连贯: LLMs 生成的推理过程可能跳过逻辑步骤或包含错误。
② 错误传播: 中间推理步骤的错误会逐步影响最终答案的准确性。
③ 缺乏逻辑约束: 模型推理缺乏逻辑规则的指导,容易出现错误结论。
3.2 解决问题
受逻辑推理过程的启发,作者提出了 LoT(Logical Thoughts)提示框架,是一种全自动推理范式,旨在进一步自我提升 LLM 的零样本推理能力。它不仅可以让 LLM 一步步思考,还可以按照归谬法的指导一步步验证,并在必要时修改推理链以保证推理的合理性,如下图所示:
LoT的核心思想如下:
① 基于逻辑的验证与修正: 引入 归谬法(Reductio ad Absurdum),验证每一步推理是否与前提一致;发现矛盾时,对错误推理步骤进行修正。
② 后验解释与修订: 对推理链中每个步骤生成正反两个解释(Post-hoc Explanations);使用逻辑验证选择合理的解释,并通过修订改进推理链。
③ 自适应推理链生长: 根据逻辑验证结果动态扩展或修正推理链,确保推理的完整性和一致性。
3.3 结果及展望
- 实验结果:
LoT 方法在多个领域的推理任务(如数学推理、因果推理、常识问答等)中得到了验证,如下图所示。图中显示了使用不同 LLM 未使用(✗)和使用(✓)LoT 增强的 CoT(Kojima et al,2022)的百分比差异(绿色表示正,红色表示负)。结果显示:CoT 通常在通过 LoT 增强时获得更好的性能,较大的模型(例如 GPT-4)表现出强大而稳健的自我校正能力。
- 未来研究方向:
- 逻辑规则扩展:探索更多逻辑原则(如归纳法、演绎法)的应用。
- 跨任务通用性:研究 LoT 方法在多任务和多语言环境中的适用性。
- 与强化学习结合:通过 AI 自反馈(RLAIF)优化推理质量。
四、Agent Instructs Large Language Models to be General Zero-Shot Reasoners
4.1 提出问题
如何提升大型语言模型(LLMs)在零样本场景下的推理能力,尤其是面对多样化任务时的表现。现有方法主要面临以下问题:
① 缺乏任务适应性: 零样本提示通常使用固定提示模板,难以适配不同任务的具体需求。
② 低效的人工设计: 少样本提示依赖人工设计示例,耗费大量人力且难以推广。
③ 推理表现有限: 现有零样本链式思维(Zero-shot CoT)方法无法充分挖掘模型潜力,在复杂任务上效果不理想。
4.2 解决问题
作者提出了Zero-shot AgentInstruct
的方法,通过构建自动化的智能代理生成任务特定的指令,改进零样本推理性能。其核心解决方案包括:
① 指令生成: 使用一个大型语言模型(如 GPT-4)作为智能代理,为每个任务生成一次性、高质量的任务指令;指令内容基于任务的语义特点,包括任务目标、输入特性和输出要求。
② 链式思维融合: 将生成的任务特定指令与链式思维提示相结合,使模型推理过程更符合任务需求;替代传统的固定提示(如“Let’s think step by step”)为动态指令提示。
③ 知识蒸馏: 利用更强大的模型(如 GPT-4)生成任务指令,将其知识传递给较小规模的模型(如 GPT-3.5 Turbo)。
4.3 结果及展望
- 实验结果: 该方法在 29 个基准数据集(包括生成、分类和推理任务)中验证了方法的有效性,结果如下:
① Zero-shot AgentInstruct 在 20 个数据集上达到当前最佳零样本性能,平均比标准零样本方法提高 17.8%,比零样本 CoT 提升 6.5%;在推理任务中表现尤为突出,准确率平均提升 10.5%,在 12 个推理任务中的 10 个任务上取得最佳结果。
② 方法适用于多个模型(如 Vicuna-13b、Llama-2-70b-chat 和 GPT-3.5 Turbo),在各模型上的表现均显著提升;特别是,Llama-2-70b-chat 配合 Zero-shot AgentInstruct 的表现超越标准 GPT-3.5 Turbo 平均 10.2%。
③ 每个数据集的指令生成只需运行一次代理,大幅降低推理成本。
- 未来研究方向:
- 自适应指令生成:探索无需预先定义任务信息的自动指令生成技术。
- 模型性能增强:结合强化学习进一步优化任务指令的生成和执行。
- 跨语言和跨领域推广:验证方法在多语言任务和跨领域任务中的通用性。
五、PromptAgent: Strategic Planning with Language Models Enables Expert-level Prompt Optimization
5.1 提出问题
Prompt engineering 是优化大型语言模型(LLMs)性能的关键。然而,目前生成高质量任务特定的提示仍然严重依赖专家知识,存在以下问题:
① 自动化程度低: 现有方法难以生成与专家手工设计相当的高质量提示。
② 探索不足: 现有优化方法在提示空间中的搜索效率低,容易陷入局部最优,难以探索复杂的专家级提示空间。
③ 缺乏领域知识整合: 大多数提示优化方法无法有效利用深层次的领域知识,导致提示在任务表现上有局限性。
5.2 解决问题
本文提出了 PromptAgent,一种基于策略规划的新型提示优化框架,其关键特点包括:
① 将提示优化视为战略规划问题: 采用蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)作为核心算法,系统地探索专家级提示空间;通过试错和自反思生成改进的提示,模拟专家优化提示的过程。
② 错误反馈驱动优化: 基于模型的错误输出生成改进提示的反馈,结合任务需求动态调整提示内容;利用模型的自反思能力,引导提示逐步优化并整合领域知识。
③ 结构化提示生成: 在提示中添加多维指导信息(如任务描述、术语解释、解决策略、异常处理等),使其更接近专家设计的细致提示。
5.3 结果及展望
- 实验结果:
在 12 个任务(包含 BIG-Bench Hard、医疗任务和通用 NLP 任务)上进行测试,PromptAgent 的性能均优于现有方法(如人类提示、链式思维提示和自动提示优化基线)。平均准确率相较于最新基线提升 9%-16%,在特定任务(如几何推理和生物医学实体识别)中,性能提升幅度高达 20%。
- 未来研究方向:
- 提示压缩:在保持提示性能的前提下研究如何简化提示的复杂性,减少推理成本。
- 联合优化:探索与其他优化策略(如强化学习)的结合,进一步提升提示性能。
- 长期规划能力:扩展 PromptAgent 的规划能力以适应更复杂的推理和决策任务。
总结
以上就是本篇博客的全部内容了,具体的论文细节希望大家去阅读原文,关于有代码的论文,后期博主也会去进行尝试,有兴趣的朋友可以一直持续关注,感谢各位的支持!!!