【AIGC】关于Prompt你必须知道的特性

代码和数据:https://github.com/tonyzhaozh/few-shot-learning

一、实践验证的大模型的特性

1. 大模型的偏差

示例:(文本的情感分析:一句话->P(积极)或者N(消极)

Input: I hate this movie. Sentiment: Negative
Input: I love this movie. Sentiment: Positive

如果不做调整,对于无意义输入,比如“N/A”或者“”Nothing,LLM回答的概率如下:

p("Positive" | "Input: N/A Sentiment:") = 0.9
p("Negative" | "Input: N/A Sentiment:") = 0.1

因为LLM的训练语料里可能更多积极的东西,所以LLM更倾向于输出P(这就是bias的来源)。期望的是P50%, N50%。

2. 大模型偏差形成的原因

大模型的bias主要有以下几种原因:

  • 多数类标签偏差(样本):大模型在预测结果时会偏向出现频率较高的答案,即偏向与prompt中出现频率较高的标签。例如,在文本分类任务中,如果一个类别的样本数量比其他类别多,模型会更倾向于预测这个多数类别,导致其他类别的准确率下降。
  • 最近性偏差(样本):大模型会倾向于重复出现在prompt末尾的答案。当prompt末尾出现多个相同的答案时,模型会更倾向于预测这个答案。这种偏差可以比多数类标签偏差更加影响预测结果。
  • 常见词偏差(预训练语料):大模型在预测结果时更倾向于输出在预训练数据中常见的词汇。这有助于解释为什么标签名称的选择很重要。

以上是导致大模型bias的主要原因,这些偏差会使得模型在few-shot学习中的准确率变化较大,但通过进行上下文校准可以减少这些偏差并提高模型的准确率。

多数类标签偏差,最近性偏差:
在这里插入图片描述

3. prompt的组成

prompt由三个组成部分组成:

  • 格式(format)
  • 一组训练样例(examples)
  • 这些样例的排列顺序(permutation/ordering)

可通过改变着这三个部分,消除偏差

4. 实验和实验数据

### 4.1 SST-2
在这里插入图片描述

5. 现有事实

5.1 样例数和模型大小

在这里插入图片描述
看红色区域,结论:

  1. 准确性的方差不会因为于更多的数据和更大的模型而减少。一定程度后,在prompt中添加更多的训练示例并不一定会降低方差。
  2. 此外,添加更多的训练示例有时会影响准确性(例如,DBPedia 0到1-shot的平均准确性从36.0%下降到25.9%)。

遗留:方差的出现是因为temperature没设置成0还是选取的样例的差异导致?

5.2 样例顺序

基础:箱线图怎么看?
在这里插入图片描述
箱子大小:四分位数间距(IQR)

在这里插入图片描述
使用一个固定的prompt格式,只选择不同的随机训练示例集。对于每一组训练示例,评估所有可能的排列的准确性,下图为SST-2数据4-shot的结果:在这里插入图片描述
一共抽了10组数据,结论:

  1. 不同样例的选择,对结果的影响也大(可能同种样例选得过多)
  2. 不同的排列,对结果的影响特别大

样例顺序的例子:
在这里插入图片描述

5.3 prompt格式

保持训练示例和排列集的固定不变,但改变prompt格式, SST-2数据集,用下面15个format,
在这里插入图片描述
其中10个format的表现:
在这里插入图片描述
仍然时4-shot不同的训练集得到的箱线图。

结论:

  1. 其中一些格式平均比其他格式好
  2. 所有的格式在不同的训练集之间仍然存在很大的差异

遗留问题

  1. 生成问题,不用限定最大值吗?在这里插入图片描述

二、解决方案

可同时解决上面三种原因引起的偏差。

首先,LLM可以输出候选token以及其对应概率(非归一化的,openAI一次最多只能给出top的5个,但可以想办法让它给出更多,见后面章节):
在这里插入图片描述
假设候选标签为A、B、C、D,则上述方法调用并归一化后可得到:
p ^ = p ( [ A B C D ] ) = [ p A p B p C p D ] \hat{p}=p(\left[ \begin{matrix} A\\ B\\ C \\ D \end{matrix} \right])=\left[ \begin{matrix} p_A\\ p_B\\ p_C \\ p_D \end{matrix} \right] p^=p( ABCD )= pApBpCpD
求解如下 W , b W,b W,b使得无意义输入(比如“N/A”或者“Nothing”)的候选集能有相等的概率:
q ^ = W p ^ + b \hat{q}=W\hat{p}+b q^=Wp^+b

通常 W W W取对角矩阵,有两种求解方法,针对不同问题效果不一样:

  1. W = d i a g ( p ) − 1 , b = 0 W=diag(p)^{-1},b=0 W=diag(p)1,b=0,对分类问题准确率更高
  2. W = I , b = − p ^ W=I,b=-\hat{p} W=I,b=p^,对生成问题准确率更高

如何获取超过限制的token概率?

由于这个参数openAI输出候选token以及其对应概率的最大限制是5,当我们想要更多token概率的时候,需要怎么办呢?该文章代码中提供了一种实现:

# 分类问题中
def get_label_probs(params, raw_resp, train_sentences, train_labels, test_sentences):"""Obtain model's label probability for each of the test examples. The returned prob is NOT normalized"""num_classes = len(params['label_dict'])approx = params['approx']assert len(raw_resp) == len(test_sentences)# Fill in the labels that is in the top k proball_label_probs = []all_missing_positions = []for i, ans in enumerate(raw_resp):top_logprobs = ans['logprobs']['top_logprobs'][0]  # [0] since we only ask for complete one more tokenlabel_probs = [0] * len(params['label_dict'].keys())for j, label_list in params['label_dict'].items():all_found = Truefor label in label_list:  # each possible label correspond to the same classlabel = " " + label  # notice prompt does not have space after 'A:'if label in top_logprobs:label_probs[j] += np.exp(top_logprobs[label])else:all_found = Falseif not all_found:position = (i, j) # (which test example, which label)all_missing_positions.append(position)all_label_probs.append(label_probs)all_label_probs = np.array(all_label_probs) # prob not normalized# Fill in the label probs that are NOT in top k probs, by asking the model to rate perplexity# This helps a lot in zero shot as most labels wil not be in Top 100 tokens returned by LMif (not approx) and (len(all_missing_positions) > 0):print(f"Missing probs: {len(all_missing_positions)}/{len(raw_resp) * num_classes}")all_additional_prompts = []num_prompts_each = []for position in all_missing_positions:which_sentence, which_label = positiontest_sentence = test_sentences[which_sentence]label_list = params['label_dict'][which_label]for label in label_list:prompt = construct_prompt(params, train_sentences, train_labels, test_sentence)prompt += " " + labelall_additional_prompts.append(prompt)num_prompts_each.append(len(label_list))# chunk the prompts and feed into modelchunked_prompts = list(chunks(all_additional_prompts, chunk_size_helper(params)))all_probs = []for chunk_id, chunk in enumerate(chunked_prompts):resp = complete(chunk, 0, params['model'], echo=True, num_log_probs=1)for ans in resp['choices']:prob = np.exp(ans['logprobs']['token_logprobs'][-1])all_probs.append(prob)assert sum(num_prompts_each) == len(all_probs)assert len(num_prompts_each) == len(all_missing_positions)# fill in corresponding entries in all_label_probsfor index, num in enumerate(num_prompts_each):probs = []while num > 0:probs.append(all_probs.pop(0))num -= 1prob = np.sum(probs)i, j = all_missing_positions[index]all_label_probs[i][j] = probassert len(all_probs) == 0, "all should be popped"assert (all_label_probs > 0).all(), "all should be populated with non-zero value"return all_label_probs # NOT NORMALIZED

其他

论文作者在最后说,后面的工作会研究这种方案对比SFT有何优劣,这也是我比较关注问题,期待他的后续研究。

参考

openai.Completion.create 接口参数说明
官方文档
OpenAI Completions 解码参数详解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/181655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查看mysql 或SQL server 的连接数,mysql超时、最大连接数配置

1、mysql 的连接数 1.1、最大可连接数 show variables like max_connections; 1.2、运行中连接数 show status like Threads_connected; 1.3、配置最大连接数, mysql版本不同可配置的最大连接数不同,mysql8.0的版本默认151个连接数,…

java ssh 二手车交易管理系统eclipse开发mysql数据库MVC模式java编程网页设计

一、源码特点 JSP ssh 二手车交易管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用 B/S模式开发。开发环境为TOMCAT…

“2024年国考公共科目”趣谈

黄金的熔点仅为1064.43C,不锈钢、耐高温钢所需的冶炼温度也仅需2000℃以上,因此与正在进行中的“2024年国考公共科目笔试”的“报名人数首破300万,平均约77人竞争一岗位”相比,炼金炼钢温度全都败落下风。 网络图片 其中宁夏的一…

hugegraph-server安装部署(docker)

1、安装docker不说了,可以直接看我文章一键安装docker https://blog.csdn.net/qq_41060647/article/details/131568289?spm1001.2014.3001.5502 2、一个docker-compose文件解决。 如果不使用mysql,可以将docker-compose.yml文件中的mysql配置修改为其他…

CDC with Async FIFO

https://zipcpu.com/blog/2018/07/06/afifo.html

浏览器插api开发文档

chrome谷歌浏览器开发文档

数据结构与算法之美学习笔记:28 | 堆和堆排序:为什么说堆排序没有快速排序快?

目录 前言如何理解“堆”?如何实现一个堆?1. 往堆中插入一个元素2. 删除堆顶元素 如何基于堆实现排序?1. 建堆2. 排序 解答开篇内容小结 前言 本节课程思维导图: 我们今天讲另外一种特殊的树,“堆”(Heap&…

figma 基础使用——准备阶段

1. 注册账号 2. figma有客户端也有网页端,使用注意同步字体 之后点击下载window installeer 字体 3. 安装 Figma汉化包 通过figma.cool 网站,下载离线的汉化包 之后通过谷歌的扩展程序添加

python开发之个微自动转发朋友圈

简要描述: 转发朋友圈,直接xml数据。(对谁不可见) 请求URL: http://域名地址/forwardSns 请求方式: POST 请求头Headers: Content-Type:application/jsonAuthorization:login接口返回 参…

uView ui 1x uniapp 表格table行内容长度不一导致高度不统一而出现的不对齐问题

问题 因为td单元格内空长度不定导致行单元格未对齐 解决&#xff1a; 重置td的高度&#xff1a;height:100% 改为height:auto !import <u-table><u-tr v-for"(item,index) in Lineinfo.Cust_Name" ><u-td style"height: auto !important;back…

csgo/steam游戏搬砖项目的五大认知误区

CSGO/steam游戏搬砖项目的5大认知误区 1、卡价越高越难选品&#xff1f;越没利润&#xff1f; 2、明明buff卖价《 steam求购价&#xff0c;为什么还能赚钱&#xff1f; 3、实名资料少就没法批量操作账号&#xff1f; 4、本金少就没法玩&#xff1f; 5、这个项目的风险是不是很大…

pgsql分别获取日期中的年、月、日,并处理前台展示有小数点的情况

使用extract()函数 select extract(YEAR from 需要处理的日期字段) from tablename; --获取年份 select extract(MONTH from 需要处理的日期字段) from tablename; --获取月份 select extract(DAY from 需要处理的日期字段) from tablename; --获取日 实际应用&#xff1a;…

什么是线程安全问题?如何确保线程安全?进来看看就明白了!!

&#x1f308;&#x1f308;&#x1f308;今天给大家分享的是:什么是线程安全&#xff0c;在程序中多线程并发执行的时候&#xff0c;是否会产生线程不安全问题&#xff0c;以及如何解决线程不安全问题。 清风的CSDN博客 &#x1f6e9;️&#x1f6e9;️&#x1f6e9;️希望我的…

电脑资料删除后如何恢复?3个简单方法轻松恢复文件!

“我平常喜欢在电脑上保存很多学习资料&#xff0c;但由于资料太多&#xff0c;在清理电脑时我可能会误删一些比较有用的资料。想问问大家电脑资料删除后还有机会恢复吗&#xff1f;应该怎么操作呢&#xff1f;” 在数字化时代&#xff0c;很多用户都会选择将重要的文件直接保存…

vue2 el-table 封装

vue2 el-table 封装 在 custom 文件夹下面创建 tableList.vue直接上代码&#xff08;代码比较多&#xff0c;复制可直接用&#xff09; <template><div class"mp-list"><el-tableref"multipleTable"class"mp-custom-table":dat…

GitHub----使用记录

一、上传文件到仓库 1、首先新建一个github仓库 然后先记住这一句指令 2、下载git工具 https://git-scm.com/downloads 下载工具安装不用运行 3、使用git工具上传文件并推送 找到你想上传的文件的位置&#xff0c;右击git Bush here git init &#xff1a;初始化这个仓…

Windows下搭建Tomcat HTTP服务,发布公网远程访问

文章目录 前言1.本地Tomcat网页搭建1.1 Tomcat安装1.2 配置环境变量1.3 环境配置1.4 Tomcat运行测试1.5 Cpolar安装和注册 2.本地网页发布2.1.Cpolar云端设置2.2 Cpolar本地设置 3.公网访问测试4.结语 前言 Tomcat作为一个轻量级的服务器&#xff0c;不仅名字很有趣&#xff0…

C语言--根据成绩判断等级

一.题目描述 如果学生的成绩小于60分&#xff0c;那么输出不及格 如果学生的成绩大于60分小于85分&#xff0c;那么输出良好 如果学生的成绩大于85分&#xff0c;那么输出优秀 二.代码实现 #define _CRT_SECURE_NO_WARNINGS #include<stdio.h> //根据成绩打印等级 //scor…

高效工作利器:UI设计师常去的6个设计网站!

即时设计 即时设计是一种强大的云设计工具&#xff0c;已成为许多设计师、产品经理和开发人员的首选工具之一。即时设计用户可以使用内置的工具和功能快速创建和编辑设计&#xff0c;或与其他用户共享和合作。此外&#xff0c;即时设计还有一个丰富的资源广场&#xff0c;为用…

Maven——使用Nexus创建私服

私服不是Maven的核心概念&#xff0c;它仅仅是一种衍生出来的特殊的Maven仓库。通过建立自己的私服&#xff0c;就可以降低中央仓库负荷、节省外网带宽、加速Maven构建、自己部署构件等&#xff0c;从而高效地使用Maven。 有三种专门的Maven仓库管理软件可以用来帮助大家建立…