文献阅读:Large Language Models as Optimizers

  • 文献阅读:Large Language Models as Optimizers
    • 1. 文章简介
    • 2. 方法介绍
      • 1. OPRO框架说明
      • 2. Demo验证
        • 1. 线性回归问题
        • 2. 旅行推销员问题(TSP问题)
      • 3. Prompt Optimizer
    • 3. 实验考察 & 结论
      • 1. 实验设置
      • 2. 基础实验结果
        • 1. GSM8K
        • 2. BBH
        • 3. 泛化性
      • 3. 消融实验
        • 1. meta-prompt
        • 2. 生成prompt的数目
        • 3. 起始点
        • 4. diversity
      • 4. 过拟合分析
      • 5. 与EvoPrompt的对比
    • 4. 总结 & 思考
  • 文献链接:https://arxiv.org/abs/2309.03409

1. 文章简介

这篇文章是Google在23年9月发表的一个工作,在这篇文章当中,他们提出了一个OPRO的框架,在这个框架当中,他们使用LLM来模拟模型训练当中的optimizer,然后通过迭代的方式不断地预设的NLP问题进行持续迭代,从而获得最优的问题回答。

基于这个框架,文中首先在两个简单的问题上做了可行性验证:

  1. 线性回归问题
  2. 旅行推销员问题(TSP问题)

这个框架天然地适用于prompt的优化问题,因为这同样是一个有明确定义的文本优化问题,因此文中使用这个框架同样进行了LLM的prompt优化,然后在GSM8K和BBH两个NLP数据集当中获得了SOTA的结果。

在这里插入图片描述

以下就是OPRO获得的GSM8K上面的prompt与其他当前使用的主流的prompt的一些对比示例:

在这里插入图片描述

下面,我们来看一下OPRO的具体设计以及文中给出的实验及其效果。

2. 方法介绍

1. OPRO框架说明

OPRO的全称为Optimization by PROmpting,具体来说就是使用LLM来作为optimizer来通过另外一个prompt来持续迭代优化输入的文本。

我们首先回想一下模型训练当中的Optimizer是怎么工作的,对于一般的training过程,就是通过输入的训练数据,计算出来一个loss,然后计算出梯度之后通过optimizer来反向更新模型当中的参数值。

文中的OPRO框架也基本就是这么个思路,给出一段文本,然后计算出这段文本的score,然后通过一个meta prompt交给LLM来迭代优化这段文本,直到计算出来的score达到一个最大值。

我们给出文中的OPRO框架的整体示意图如下:

在这里插入图片描述

2. Demo验证

下面,我们来通过两个具体的case来说明一下OPRO框架的具体运行方式。

1. 线性回归问题

首先,文中在线性回归问题当中进行了一下考察,具体来说,就是用下述公式生成50个点:

y = k x + b + ϵ y = kx + b + \epsilon y=kx+b+ϵ

然后让OPRO进行 ( k , b ) (k, b) (k,b)的学习。

给出这个问题的meta prompt如下:

在这里插入图片描述

得到结果如下:

在这里插入图片描述

可以看到:

  • OPRO框架确实可以来拟合学习 ( k , b ) (k, b) (k,b)的值,且GPT4的效果优于其他模型。
2. 旅行推销员问题(TSP问题)

然后,文中还考察TSP问题,具体来说,就是给定一些点和边,求遍历所有点所需经过的边的权重总和最小值。

同样的,给出文中对于这个问题的meta prompt如下:

在这里插入图片描述

对应的实验结果如下:

在这里插入图片描述

可以看到:

  • OPRO同样可以一定程度上解决掉TSP问题,且GPT4模型效果优于其他模型。

3. Prompt Optimizer

有了上面的基础,我们来看一下如何使用OPRO框架来优化prompt,同样的,我们就是给出一个prompt,然后通过几个case考察以下这个prompt的效果,然后给出一个score,然后让LLM重新基于之前的一系列prompt以及其对应的打分score,去尝试迭代优化下一个版本的prompt。

给出文中在GSM8K下的prompt迭代优化的meta prompt的示例如下:

在这里插入图片描述

可以看到,整体上这个meta prompt就是包含了几个部分:

  1. prompt examples & scores
    • 过去给出prompt以及对应的打分结果
  2. problem examples
    • 一些具体的case以及给出prompt然后给出的答案
  3. instruction
    • instruction to optimize prompt

然后就是整体上不断地加入case进行迭代优化,直至获得最优的prompt内容即可。

下面,我们来看一下文中关于OPRO对prompt优化的实验结果。

3. 实验考察 & 结论

1. 实验设置

首先,我们来看一下文中给出的OPRO优化的prompt的实验设置。

在模型方面,文中使用的prompt优化模型和打分模型分别如下:

  1. Optimizer:
    • Pre-trained PaLM 2-L
    • instruction-tuned PaLM 2-L
    • text-bison
    • gpt-3.5-turbo
    • gpt-4
  2. Scorer:
    • Pre-trained PaLM 2-L
    • text-bison

而实验使用的测试数据方面,则主要为:

  1. GSM8K
  2. BBH

2. 基础实验结果

1. GSM8K

下面,我们首先来看一下文中给出的GSM8K上的实验结果如下:

在这里插入图片描述

可以看到:

  • 随着迭代的深入,prompt的效果确实可以得到持续地优化。

文中还给出了OPRO优化得到的GSM8K上的prompt示例如下:

在这里插入图片描述

2. BBH

下面,我们来看一下文中在BBH数据集上的实验结果。

在这里插入图片描述

可以看到,以"Let’s think step by step"作为baseline,OPRO获得的prompt在BBH数据集的各个子任务下基本都有明显的accuracy的提升。

另外,文中同样给出了accuracy与迭代的关系示意图:

在这里插入图片描述

可以看到,随着迭代的增加,prompt的效果确实是越来越好的。

最后,文中同样给出了一些BBH数据集下的OPRO的prompt例子如下:

在这里插入图片描述

3. 泛化性

除了上述两个数据集下的基础实验之外,文中还考察了一下OPRO生成的prompt的泛化能力,具体来说,就是使用在BBH上优化得到的prompt在其他数据集上测试效果,得到结果如下:

在这里插入图片描述

可以看到:

  • 在GSM8K上迭代得到的prompt在Multi-Arith以及AQuA数据集上同样有着优秀的效果。

3. 消融实验

下面,我们来看一下文中给出的消融实验的实验结果。

文中主要考察了以下几个部分的消融实验:

  1. meta-prompt的设计
  2. 每一步生成的prompt的数目
  3. 起始点
  4. Diversity per step

下面,我们具体来看一下各个部分对结果的影响。

1. meta-prompt

关于具体的meta prompt的设计方面,文中又细化到了以下三个部分的影响:

  • 输入之前prompt的顺序
  • scores
  • exampler的作用

得到实验结果如下:

在这里插入图片描述

可以看到:

  • 迭代中prompt历史的给出顺序最好是按照递增顺序给入,可以使模型得到最好的学习优化;
  • 评估时使用buckets越多,模型训练的效果往往越好;
  • 一定的examplar有利于模型的学习,但是过多的examplar会导致模型效果下滑,可能是由于prompt的混淆。
2. 生成prompt的数目

其次,我们考察一下文中对于单次迭代中生成的prompt数目的考察,类比到ML当中,可以视作learning rate的选择。

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  • 同样的,一定程度上增加生成数目有利于模型的学习,但也不是越大越好,文中给出的建议值是一轮生成8个prompt。
3. 起始点

然后,文中还考察了一下起始点对OPRO效果的影响,即最开始的prompt设置对效果的影响。

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  • 不同的起始点对于OPRO最终的收敛效果并不会有太大的影响。
4. diversity

最后,文中还考察一下迭代中diversity对迭代效果的影响。

具体来说,就是在生成中temperature参数对实验效果的影响,即调整生成过程中的随机性,看生成效果的影响,得到结果如下:

在这里插入图片描述

可以看到,这里也存在一个trade-off,当temperature取1.0时,可以获得一个最优的效果。

4. 过拟合分析

此外,由于文中将LLM视为一个optimizer进行prompt的优化,那么自然也可能会出现过拟合的现象,因此文中也对过拟合进行了一下考察,得到结果如下:

在这里插入图片描述

可以看到,在文中的两个case当中,过拟合现象并不明显,但是文中提到,确实存在一些case可能会有过拟合现象的发生,因此可以的话最好还是设置一下early stop机制比较好。

5. 与EvoPrompt的对比

最后,文中还和当前其他的一些类似工作进行了比较(EvoPrompt),得到结果如下:

在这里插入图片描述

可以发现:

  • OPRO的效果是明显优于EvoPrompt的。

4. 总结 & 思考

综上,文中给出了一个新的Prompt的调优方式,即将LLM视为一个optimizer来通过反向传播迭代的方式来自行优化prompt的方法。

坦率地说,还是比较巧妙的,感觉后面可以试试,或许真能获得一些惊喜也说不定,就是迭代成本文中没提,可能不太好搞,但是即便不好搞,直接使用文中给出的这个"Take a Deep Breath"或许也能获得一些意外的惊喜,毕竟按文中的意思,他们调出来的prompt是具有一定的泛化能力的。

不过还是得说,我是真的不喜欢prompt tuning啊,唉,不知道是不是只有我一个人这么想……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/623628.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多测师肖sir___ui自动化测试po框架讲解版

po框架 一、ui自动化po框架介绍 (1)PO是Page Object的缩写(pom模型) (2)业务流程与页面元素操作分离的模式,可以简单理解为每个页面下面都有一个配置class, 配置class就用来维护页面…

如何用GPT/GPT4进行AI绘图?

详情点击链接:如何用GPT/GPT4进行AI绘图? 一OpenAI 1.最新大模型GPT-4 Turbo 2.最新发布的高级数据分析,AI画图,图像识别,文档API 3.GPT Store 4.从0到1创建自己的GPT应用 5. 模型Gemini以及大模型Claude2二定制自…

HCIA的网络地址转换NAT

NAT:网络地址转换 功能: 1.将大量的私有地址转换成公有地址(节约IP地址) 2.将一个IP地址转换成另一个IP地址(公有的)(增加内部网络设备的安全性):比如有一个内网&#xf…

Python学习从0到1 day4 python格式化输出和输入方法

其实我不是我,我是青山辽阔 ——24.1.14 一、百分号形式的格式化输出 1.普通输出 #1.定义一些变量 name 陈浩南 age 25 address 广州市天河区#2.变量的输出(普通输出) print(name) print(age) print(address)#3.Python中,还允…

论文阅读:Attention is all you need

【最近课堂上Transformer之前的DL基础知识储备差不多了,但学校里一般讲到Transformer课程也接近了尾声;之前参与的一些科研打杂训练了我阅读论文的能力和阅读源码的能力,也让我有能力有兴趣对最最源头的论文一探究竟;我最近也想按…

Vue2-Vuex中State、Mutation及mapState辅助函数、mapMutations的基本用法

Vuex 是一个专为 Vue.js 应用程序开发的状态管理模式。它采用集中式存储管理应用的所有组件的状态,并以相应的规则保证状态以一种可预测的方式发生变化。 个人笔记,仅供参考。 state:全局共享的响应式数据 mutation:声明修改全局响应式数据…

分数1/1-1/2+1/3-1/4+1/5 …… + 1/99 - 1/100 求和

要求&#xff1a;计算1/1-1/21/3-1/41/5 …… 1/99 - 1/100 的值&#xff0c;打印出结果。 法一&#xff1a; 从要求&#xff0c;我们可以看出&#xff0c;计算内容分为正数和负数。对他们求和&#xff0c;可以通过分别求和再相加。 #include<stdio.h> int main() {fl…

9.云原生存储之ceph在k8s中应用及问题处理

云原生专栏大纲 文章目录 ceph应用场景ceph应用在k8s集群外使用块设备ceph客户端配置创建块挂载使用删除pool 在k8s集群内使用块设备创建块池和StorageClass使用存储 块存储映射问题处理问题现象事件分析csi-rbdplugin pod日志分析问题小结CentOS 7 编译安装 nbd 模块nbd内核模…

Chapter 9 运算符重载

目的&#xff1a;运用运算符重载 &#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&#x1f353;&…

MySQL8密码重置——Windows环境

1. 环境变量配置 加入操作会方便点&#xff0c;不用每次都要进入其安装目录 Path环境变量加入&#xff1a;%MYSQL_HOME%\bin 2. 停掉服务及服务安装 3. 创建my.ini MySQL安装目录&#xff08;C:\Program Files\MySQL\MySQL Server 8.0&#xff09;下创建my.ini文件 my.ini文…

有哪些品牌的超声波清洗机是值得入手的?超声波清洗机推荐

作为一个既对生活品质有追求&#xff0c;又只想躺平的懒人&#xff0c;一直在努力尝试让轻松的生活少一点绊脚石&#xff0c;而其中最重要的一个&#xff0c;就是清洗眼镜清洗日常生活的一些小物件&#xff0c;讲真&#xff0c;洗这些东西有时候就跟下班回家的KPI一样。白天不累…

《吐血整理》保姆级系列教程-玩转Fiddler抓包教程(6)-Fiddler状态面板详解

1.简介 按照从上往下&#xff0c;从左往右的计划&#xff0c;今天就轮到介绍和分享Fiddler的状态面板了。 2.状态面板概览 Fiddler的状态面板概览&#xff0c;如下图所示&#xff1a; 3.状态面板详解 Fiddler底端状态栏面板详解&#xff0c;如下图所示&#xff1a; 3.1Captu…

重新分区扩展C盘

电脑 – 管理 使用第三方工具&#xff1a;DiskGenius数据恢复及分区管理软件 要选择完成后重启 &#xff0c;如果这里忘记勾选&#xff0c;后面也会再次提醒并默认勾选重启 "调整后容量"是指图片上显示的非C盘之外的盘符的容量&#xff0c;这里指E盘大小 上面已经利…

vue知识-05

聊天室案例(django接口) # chat.hetm<<script src"/static/axios.js"></script><script src"/static/vue.js"></script><body> <div id"app"><h1>聊天室</h1><button click"handleS…

从事铁路工作保护足部,穿什么劳保鞋更安全

铁路运输在我国交通运输业中起着骨干作用&#xff0c;为国民经济的可持续发展和人口流动做出了巨大贡献。安全是铁路运输不可忽视的问题&#xff0c;在作业场地随处能见到“安全就是生命&#xff0c;责任重于泰山”的安全标语&#xff0c;由此可见安全问题是放在首位的。 铁路施…

PyTorch深度学习实战(30)——Deepfakes

PyTorch深度学习实战&#xff08;30&#xff09;——Deepfakes 0. 前言1. Deepfakes 原理2. 数据集分析3. 使用 PyTorch 实现 Deepfakes3.1 random_warp.py3.2 Deepfakes.py 小结系列链接 0. 前言 Deepfakes 是一种利用深度学习技术生成伪造视频和图像的技术。它通过将一个人的…

学习Vue配置代理总结

今天学习了Vue的配置代理&#xff0c;当我们想要向服务器取回来数据时就先要向服务器发送请求&#xff0c;但前端发送请求的方式也有很多种&#xff0c;首先是发送请求的鼻祖JS的XMLHttpRequest&#xff08;xhr&#xff09;&#xff0c;它操作起来相对麻烦&#xff0c;开发中也…

SpringBoot自定义Starter(@EnableXXX和META-INF的SPI自动添加)

目录 1. 自定义Starter1.1 场景和效果1.2 starter实现1.2.1 创建自定义starter项目1.2.2 把所有maven依赖导入1.2.3 实现公共代码逻辑1.2.4 添加方式一&#xff1a;实现RobotAutoConfiguration配置类1.2.5 添加方式二&#xff1a;实现RobotAutoConfiguration配置类 EnableRobo…

Linux下如何快速调试I2C设备

Linux下如何快速调试I2C设备 目录 1 什么场景下需要快速调试I2C设备 2 如何快速调试I2C设备 3 如何获取I2C Tools工具集 3.1 获取I2C Tools工具集源码 3.2 编译I2C Tools工具集源码 3.3 为设备添加I2C Tools工具集 4 如何使用I2C Tools工具集 5 小结 1 什么场景下需要快…

强化app广告变现用户隐私合规,移动广告变现合规技巧

移动广告技术的发展帮助开发者极大提升了广告变现效率&#xff0c;APP作为用户个人信息处理的重要载体&#xff0c;自从《个人信息保护法》颁布以来&#xff0c;个人信息的使用已经成为监管重点&#xff0c;开发者强化合规意识&#xff0c;让广告变现业务“细水长流”&#xff…