【LLM综述】29种大模型Prompt Engineering技术

note

  • 从零样本(Zero-shot)提示到最新进展的各种提示技术,包括推理和逻辑链(Chain-of-Thought, CoT)提示、自动链式思考(Auto-CoT)提示、自我一致性(Self-Consistency)提示、逻辑链式思考(LogiCoT)提示等。
  • 减少幻觉(Reduce Hallucination)的技术,如检索增强生成(Retrieval Augmented Generation, RAG)和链式验证(Chain-of-Verification, CoVe)提示,以及用户交互、微调和优化、基于知识的推理和生成、提高一致性和连贯性、管理情感和语调、代码生成和执行、优化和效率、理解用户意图、元认知和自我反思等方面的技术。

文章目录

  • note
  • 一、Prompt
  • 二、相关对比
  • 三、相关实验

一、Prompt

论文:A Systematic Survey of Prompt Engineering in Large Language Models:
Techniques and Applications
链接:https://arxiv.org/pdf/2402.07927.pdf

在这里插入图片描述

(1)零样本提示:该方法通过精心设计的提示引导模型处理新任务,而不需要大量的训练数据。模型接收任务描述但缺乏特定输入输出的标注数据,然后利用其预存的知识基于提示生成预测。

(2)少样本提示:与零样本提示不同,少样本提示提供几个输入输出的例子来引导模型理解任务。尽管需要额外的标记,但即使是少量的例子也能显著提高模型在复杂任务上的表现。

(3)链式思维提示:该方法通过提示LLM以连贯和逐步的方式思考问题,从而提高其在复杂推理任务上的表现。CoT提示展示了其独特性,能够引导LLM通过逻辑推理链生成响应。

(4)自动链式思维提示:为了减少手动创建高质量CoT例子的时间和资源消耗,Auto-CoT通过多样化采样自动生成推理链,从而提高模型的鲁棒性和少样本学习效果。

(5)自一致性:该方法通过从语言模型的解码器中采样生成多样的推理链,并通过边缘化这些链来识别最一致的最终答案,从而提高推理性能。

(6)逻辑链式思维提示:LogiCoT利用符号逻辑原理来增强推理的连贯性和结构性,通过假设检验每一步推理来减少逻辑错误和幻觉。

(7)符号链式思维提示:CoS使用简化的符号代替自然语言,以提高LLM的空间推理能力和人类可解释性。

(8)树状思维提示:ToT通过管理中间推理步骤的树结构来增强提示能力,允许语言模型系统地探索和前瞻性地推理。

(9)思维图提示:GoT通过建模推理过程为有向图来改进CoT提示,允许动态的相互作用、回溯和想法评估。

(10)系统2注意力提示:S2A利用LLM的推理能力选择性地关注相关部分,通过再生输入上下文来提高注意力和响应质量。

(11)思维线索提示:ThoT将广泛的上下文分段进行增量分析,通过两阶段方法先总结和检查每个分段,再细化信息以生成最终响应。

(12)表格链式思维提示:CoT提示通过动态生成和执行常见的SQL/DataFrame操作来处理复杂的表格场景。

(13)检索增强生成:RAG通过将信息检索无缝融入提示过程中,分析用户输入,制定有针对性的查询,并在预建的知识库中搜索相关资源,从而生成准确且富有创意的响应。

(14)反应提示:ReAct使LLMs能够同时生成推理轨迹和任务特定的动作,增强了推理和动作之间的协同作用。

(15)验证链提示:CoVe通过系统性的四步过程包括模型生成基线响应、计划验证问题、独立回答问题以及生成修订响应来减少幻觉。

(16)笔记链提示:CoN通过系统评估文档相关性,强调关键和可靠的信息来过滤无关内容,从而生成更精确和上下文相关的响应。

(17)知识链提示:CoK通过动态知识适应阶段系统地分解复杂任务,建立上下文和问题框架,并从各种来源收集证据。

(18)主动提示:Active-Prompt通过任务特定的例子提示和链式思维推理来提高LLMs在复杂问答任务上的表现。

(19)自动提示工程师:APE通过动态生成和选择最有影响力的提示来自动生成和选择LLMs的指令,从而提高其推理能力。

(20)自动推理和工具使用:ART通过集成外部工具和专业知识来增强LLMs的多步推理能力,使其能够解决复杂问题。

(21)对比链式思维提示:Cot通过提供有效和无效的推理示范来推动LLMs逐步推理,从而提高其策略和数学推理评估。

(22)情感提示:EmotionPrompt通过添加情感刺激句子来增强LLMs的情感智能,从而提高其在各种任务上的表现。

(23)草稿提示:Scratchpad提示通过生成任意序列的中间标记来增强语言模型在复杂多步算法计算中的表现。

(24)思维程序提示:PoT通过使用外部语言解释器来表达推理步骤,从而提高语言模型在数学表达式和财务问题上的表现。

(25)结构化链式思维提示:SCoT通过将程序结构(序列、分支和循环结构)纳入推理步骤来增强LLMs在代码生成任务中的表现。

(26)代码链提示:CoC通过鼓励LLMs将语义子任务格式化为灵活的伪代码来提高其逻辑和语义任务的推理能力。

(27)提示优化:OPRO通过利用LLMs作为优化器来迭代生成解决方案,从而提高其在不同任务上的快速适应性和定制化优化过程。

(28)重述和响应:RaR通过允许LLMs在单个提示中重述和扩展问题来提高其理解和响应准确性。

(29)退一步提示:Step-Back提示通过抽象和推理来增强LLMs在复杂多步推理任务中的表现。
在这里插入图片描述

二、相关对比

在这里插入图片描述

三、相关实验

(1)零样本提示:在Arithmetic和Symbolic任务上,零样本提示显著提高了模型的准确性。这种技术使得经过大量数据训练并调整指令的LLM能够在没有示例的情况下执行任务,展示了其在零样本学习中的能力。

(2)少样本提示:在NaturalQS、WebQS和TriviaQA任务上,少样本提示显著提高了模型的性能,特别是在处理复杂任务时表现尤为突出。少样本提示通过提供少量示例提升模型的表现,适用于特定领域的任务,如法律、医学等。

(3)链式思维提示:CoT提示在PaLM 540B模型上取得了90.2%的准确率,显示出其在复杂推理任务上的强大能力。这种提示方法通过引导LLM以连贯和逐步的方式思考问题,从而提高其在复杂推理任务上的表现。

(4)自动链式思维提示:Auto-CoT在算术和符号推理任务上分别提高了1.33%和1.5%的平均准确率,表明其自动化多样性采样策略的有效性。

(5)自一致性:自一致性在多个基准测试上显著提高了推理性能,例如在GSM8K任务上提高了17.9%,通过从语言模型的解码器中采样生成多样的推理链,并识别最一致的最终答案来提高推理性能。

(6)逻辑链式思维提示:LogiCoT在GSM8K和AQuA数据集上分别提高了0.16%和3.15%的准确率,展示了其在逻辑推理中的优势。

(7)符号链式思维提示:CoS在Brick World任务上将准确率从31.8%提高到92.6%,显著提升了空间推理能力。

(8)树状思维提示:ToT在Game of 24任务上取得了74%的成功率,显著优于CoT的4%成功率,通过管理中间推理步骤的树结构来增强提示能力。

(9)思维图提示:GoT在GSM8K和科学QA数据集上分别提高了3.41%和6.63%的准确率,展示了其在非线性思维过程中的优势。

(10)系统2注意力提示:S2A在事实问答任务上达到了80.3%的准确率,显著提高了事实性。

(11)思维线索提示:ThoT在问题和对话数据集上分别提高了47.20%和17.8%的性能,特别是在混乱上下文中表现尤为突出。

(12)表格链式思维提示:CoT在TabFact和WikiTQ数据集上分别提高了8.69%和6.72%的性能,展示了其在表格推理中的优势。

(13)检索增强生成:RAG在ODQA基准测试上达到了56.8%的精确匹配得分,显著优于seq2seq模型和任务特定的架构。

(14)反应提示:ReAct在HotpotQA和Fact Verification任务上显著减少了幻觉和错误传播问题,展示了其在交互式决策任务中的有效性。

(15)验证链提示:CoVe在列表问题、问答和长形式生成任务上减少了幻觉,同时保持了事实的准确性。

(16)笔记链提示:CoN在嘈杂的开放域问答数据集上平均提高了7.9%的精确匹配得分,显著提高了模型在未知场景下的响应能力。

(17)知识链提示:CoK在MMLU物理和化学任务上提高了7%的性能,展示了其在复杂任务中的潜力。

(18)主动提示:Active-Prompt在文本-davinci-002和code-davinci-002任务上分别平均提高了7.0%和1.8%的性能,展示了其在复杂推理任务中的优势。

(19)自动提示工程师:APE在BIG-Bench套件和CoT推理任务上显著提高了LLMs的推理能力,大多数情况下超过了人类编写的提示。

(20)自动推理和工具使用:ART在Big-Bench和MMLU基准测试上显著提高了LLMs的性能,有时甚至与手工制作的示范相当。

(21)对比链式思维提示:Cot在SQuAD和COPA推理基准上提高了4-16%的性能,进一步结合自一致性技术时提高了约5%。

(22)情感提示:EmotionPrompt在BIG-Bench任务上提高了115%的表现,显著增强了LLMs在处理情感信号方面的能力。

(23)草稿提示:Scratchpad提示在MBPP和MBPP-aug任务上取得了46.8%的成功率,展示了其在复杂多步算法计算中的潜力。

(24)思维程序提示:PoT在涉及数学表达式和金融问题的数据集上平均提高了约12%的性能。

(25)结构化链式思维提示:SCoT在ChatGPT和Codex上显著提高了代码生成的性能,最高可达13.79%。

(26)代码链提示:CoC在BIG-Bench Hard任务上达到了84%的准确率,展示了其在逻辑和语义任务中的优势。

(27)提示优化:OPRO在GSM8K数据集上提高了最多8%的性能,在Big-Bench挑战任务上提高了最多50%的性能。

(28)重述和响应:RaR在各种任务上显著提高了模型的理解和响应准确性。

(29)退一步提示:Step-Back提示在STEM、知识问答和多跳推理任务上显著提高了推理能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/65770.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的实验室信息管理系统【源码+文档+部署讲解】

系统介绍 视频演示 基于SpringBootVue实现的实验室信息管理系统采用前后端分离的架构方式,系统分为管理员、老师、用户三种角色,实现了用户管理、设备管理、实验室查询、公告、课程、实验室耗材管理、我的等功能 技术选型 开发工具:idea2…

arcgis模版空库怎么用(一)

这里以某个项目的数据为例: 可以看到,属性表中全部只有列标题,无数据内容 可能有些人会认为空库是用来往里面加入信息的,其实不是,正确的用法如下: 一、下图是我演示用的数据,我们可以看到其中…

基于Spring Boot + Vue3实现的在线汽车保养维修预约管理系统源码+文档

前言 基于Spring Boot Vue3实现的在线汽车保养维修预约管理系统是一种前后端分离架构的应用,它结合了Java后端开发框架Spring Boot和现代JavaScript前端框架Vue.js 3.0的优势。这样的系统可以为汽车服务站提供一个高效的平台来管理客户的预约请求 技术选型 系统…

2024年总结

2024年是努力打破思维边界的一年,为了突破自己,努力阅读更多的书籍,变换更多的角度思考问题; 努力的写博客,写文字,总结自己的思想; 不断的实践,克制自己的思维和行动的惯性&#…

论文研读:Text2Video-Zero 无需微调,仅改动<文生图模型>推理函数实现文生视频(Arxiv 2023-03-23)

论文名:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators 1. 摘要 1.1 方法总结 通过潜空间插值, 实现动作连续帧。 以第一帧为锚定,替换原模型的self-attention,改为cross-attention 实现 保证图片整体场…

python 归并排序(Merge Sort)

归并排序(Merge Sort) 归并排序是一种高效的排序算法,采用分治法(Divide and Conquer)策略。它的基本思想是:将数组递归地分成两半,分别对两半进行排序,然后将排序后的两半合并成一…

AI安全的挑战:如何让人工智能变得更加可信

引言 随着人工智能(AI)技术在各个领域的广泛应用,尤其是在医疗、金融、自动驾驶和智能制造等行业,AI正在重塑我们的工作和生活方式。从提高生产效率到实现个性化服务,AI带来了前所未有的便利。然而,在享受这…

去除el-tabs 下面的灰色横线,并修改每一项的左右间距,和字体颜色

HTML <el-tabs v-model"activeName" class"demo-tabs" tab-click"handleClick"><el-tab-pane label"全部" :name"null"></el-tab-pane><el-tab-pane label"问答陪练" name"general-t…

C++算法20例

1、求两个数的最大公约数 int gcd(int a, int b) { 2 return b 0 ? a : gcd(b, a % b); 3} 2、判断素数 bool isPrime(int n) {if (n < 1) return false; for (int i 2; i * i < n; i) {if (n % i 0) return false;}return true; } 3、冒泡排序 void bubbleSort…

截图技术方案

安卓截屏技术附带悬浮窗自动存储功能_安卓截图浮窗-CSDN博客 https://chat.baidu.com/search?dyTabStrMCwxMiwzLDEsMiwxMyw3LDYsNSw5&pdcsaitab&setypecsaitab&extParamsJson%7B%22apagelid%22%3A%2210990774271994514433%22%2C%22enter_type%22%3A%22a_ai_index%…

气象数据Grib及Python绘图

文章较长&#xff0c;却将所有常见的气象数据类型进行了详细的介绍&#xff0c;对各种方法的优劣势进行了详细分析&#xff0c;相信对于阅读者来说会有一定程度的帮助 目录 GRIB 数据格式简介 使用Python处理Grib文件 法1&#xff1a;使用pygrib库 法2&#xff1a;使用cf…

sqlite3 python如何查表结构

在SQLite3中&#xff0c;通过Python的sqlite3模块可以方便地查询表结构。以下是几种常用的方法来获取表结构信息&#xff0c;包括列名、数据类型和其他属性。 使用 PRAGMA table_info 最直接的方法是使用 PRAGMA table_info 命令。这个命令会返回指定表中每一列的信息&#x…

Selenium和WebDriver的安装与配置

1、Selenium的安装 直接黑窗口执行&#xff1a;pip install selenium3.141.0 可能遇到的问题&#xff1a; 解决方法配置环境变量&#xff1a; 找到目录&#xff1a;&#xff08;以自己电脑为准&#xff09; C:\Users\Administrator\AppData\Local\Programs\Python\Python38-…

HTML——45.单元格合并

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>表格</title></head><body><!--合并单元格&#xff1a;1.在代码中找到要合并的单元格2.在要合并的所有单元格中&#xff0c;保留要合并的第一个单元格…

APP项目测试 之 APP性能测试-- 性能测试工具(SoloPi工具)

1.SoloPi简介 &#xff08;1&#xff09;什么是SoloPi&#xff1f; SoloPi&#xff1a; 是一个无线化、非侵入式的 Android 自动化工具 &#xff0c;具备 录制回放、性能测试 等功能。 &#xff08;2&#xff09;SoloPi的作用是什么&#xff1f; 基础性能测试&#xff1a;能够…

chatgpt model spec 2024

概述 这是模型规范的初稿&#xff0c;该文档规定了我们在OpenAI API和ChatGPT中的模型的期望行为。它包括一组核心目标&#xff0c;以及关于如何处理冲突目标或指令的指导。 我们打算将模型规范作为研究人员和数据标注者创建数据的指南&#xff0c;这是一种称为从人类反馈中进…

IOS safari 播放 mp4 遇到的坎儿

起因 事情的起因是调试 IOS 手机下播放服务器接口返回的 mp4 文件流失败。对于没调试过移动端和 Safari 的我来说着实费了些功夫&#xff0c;网上和AI也没有讲明白。好在最终大概理清楚了&#xff0c;在这里整理出来供有缘人参考。 问题 因为直接用 IOS 手机的浏览器打开页面…

Mac 环境 VVenC 编译与编码命令行工具使用教程

VVenC VVenC 是一个开源的高效视频编码器&#xff0c;专门用于支持 H.266/VVC (Versatile Video Coding) 标准的编码。H.266/VVC 是继 HEVC (H.265) 之后的新一代视频编码标准&#xff0c;主要目的是提供比 HEVC 更高的压缩效率&#xff0c;同时保持或提高视频质量。H.266/VVC…

【0379】Postgres内核 Walreceiver (libpqwalreceiver API)分析

文章目录 1. libpqwalreceiver API1.1 四个函数2. Walreceiver IPC3. Walsender IPC4. Walsender - walreceiver protocol1. libpqwalreceiver API walreceiver 中与传输相关的部分,其负责连接主服务器、接收 WAL 文件以及发送消息,是动态加载的,以避免主服务器的二进制文件…

Mediatek Android13 ROM定制

目录 1、系统签名 2、默认关闭WIFI 3、默认关闭Bluetooth 4、默认关闭NFC 5、移除物理键盘支持 6、禁止 ANR、崩溃等的对话框显示 7、修改默认壁纸 8、取消USB PTP MTP MIDI等支持 9、设置Screen Lock默认为None 10、设置Data&time自动 11、设置特定时区 12、设…