大模型笔记:Prompt tuning

1  NLP模型的几个阶段

1.1 第一阶段(在深度学习出现之前)

  • 通常聚焦于特征工程(feature engineering)
  • 利用领域知识从数据中提取好的特征

1.2 第二阶段(在深度学习出现之后)

  • 特征可以从数据中习得——>研究转向了结构工程(architecture engineering)
  • 通过设计一个合适的网络结构,学习好的特征

1.3 第三阶段(预训练 + 微调)

  • 用一个固定的结构预训练一个语言模型(language model, LM)
    • 预训练的方式就是让模型补全上下文(比如完形填空)
    • 预训练不需要专家知识,因此可以在网络上搜集的大规模文本上直接进行训练
  • 这一阶段的一个研究方向是目标工程(objective engineering)
    • 为预训练任务和微调任务设计更好的目标函数
    • 让下游任务的目标与预训练的目标对齐是有利的
    • 几种经典预训练任务
      • Masked Language Modeling(MLM)
        • 随机选取一个固定长度的词袋区间,然后挖掉中心部分的词,让模型预测该位置的词
      • Next Sentence Prediction(NSP)
        • 给定两个句子,来判断他们之间的关系
        • 存在三种关系
          • entailment(isNext)
            • 紧相邻的两个句子
          • contradiction(isNotNext)
            • 这两个句子不存在前后关系,例如两个句子来自于不同的文章
          • Neutral
            • 中性关系,当前的两个句子可能来自于同一篇文章,但是不属于isNext关系的

1.4 第四阶段(预训练 + Prompt Tuning)

  • 通过添加模板的方法来避免引入额外的参数,从而让语言模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想的效果

2 prompt tuning

  • Prompt的目的是将Fine-tuning的下游任务目标转换为Pre-training的任务

2.1 举例说明

给定一个句子

[CLS] I like the Disney films very much. [SEP]

  • 传统的Fine-tuning方法
    • 通过BERT的Transformer获得 [CLS]表征
    • 之后再喂入新增加的MLP分类器进行二分类,预测该句子是积极的(positive)还是消极的(negative)
    • 需要一定量的训练数据来训练
  • Prompt-Tuning
    • 构建模板(Template Construction)
      • 通过人工定义、自动搜索、文本生成等方法,生成与给定句子相关的一个含有[MASK]标记的模板
      • 拼接到原始的文本中,获得Prompt-Tuning的输入
        • [CLS] I like the Disney films very much. [SEP] It was [MASK]. [SEP]
      • 将其喂入BERT模型中,并复用预训练好的MLM分类器,即可直接得到[MASK]预测的各个token的概率分布
    • 标签词映射(Label Word Verbalizer)
      • ​​​​​​​因为[MASK]部分我们只对部分词感兴趣【比如 positive/negative】
      • ——>需要建立一个映射关系
        • 如果[MASK]预测的词是“great”,则认为是positive类
        • 如果是“terrible”,则认为是negative类
    • 训练
      • ​​​​​​​​​​​​​​只对预训练好的MLM head进行微调

3 PET(Pattern-Exploiting Training)

《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》(EACL2021)

3.1 pattern 和verbalizer

3.1.1 Pattern(Template) 

  • 记作T  ,即上文提到的模板,为额外添加的带有[mask]标记的短文本
  • 通常一个样本只有一个Pattern(因为我们希望只有1个让模型预测的[mask]标记)
  • 不同的任务、不同的样本可能会有其更加合适的pattern
    • ——> 如何构建合适的pattern是Prompt-Tuning的研究点之一 

3.1.2 Verbalizer

  • 记作V  ,即标签词的映射,对于具体的分类任务,需要选择指定的标签词(label word)。
  • 例如情感分析中,期望Verbalizer可能是
    • V(positive)=great; V(negative)=terrible  
    • (positive和negative是类标签)
  •  如何构建Verbalizer是另一个研究挑战 

上述两个组件被称为Pattern-Verbalizer-Pair(PVP),一般记作P=(T,V) 

3.2 Patterns Ensembling 

  • 一般情况下,一个句子只能有一个PVP
  • 这可能并不是最优的,是否可以为一个句子设计多个不同的PVP呢?
  • ——>Prompt-Tuning的集成
    • Patterns Ensembling :同一个句子设计多个不同的pattern

3.3 Verbalizers Ensembling

  • 在给定的某个Pattern下,并非只有1个词可以作为label word。
    • 例如positive类,则可以选择“great”、“nice”、“wonderful”。当模型预测出这三个词时,均可以判定为positive类。
  • 在训练和推理时,可以对所有label word的预测概率进行加权或投票处理,并最后获得概率最大的类

3.4 PVPs Ensembling(Prompt Ensembling)

  • Pattern和Verbalizer均进行集成,此时同一个句子有多个Pattern,每个Pattern又对应多个label word

3.5  选择不同的Pattern和Verbalizer会产生差异很大的结果

4 挑选合适的pattern

  • 从3.5可以看出,不同的pattern对结果影响很大,所以如何挑选合适的pattern,是近几年学术界的一个热点
    • 离散的模板构建(Hard Prompt)
      • ​​​​​​​直接与原始文本拼接显式离散的字符,且在训练中这些离散字符的词向量(Word Embedding) 始终保持不变
      • ——>很难寻找到最佳的模板
      • ——>效果不稳定
    •  连续的模板构建(Soft Prompt)
      • 让模型在训练过程中根据具体的上下文语义和任务目标对模板参数进行连续可调
离散的模板构建

Hard Prompt
启发式法(Heuristic-based Template)通过规则、启发式搜索等方法构建合适的模板
生成(Generation)根据给定的任务训练数据(通常是小样本场景),生成出合适的模板
连续的模板构建

​​​​​​​Soft Template
词向量微调(Word Embedding)
  • 显式地定义离散字符的模板,但在训练时这些模板字符的词向量参与梯度下降
  • 初始定义的离散字符用于作为向量的初始化
伪标记(Pseudo Token)不显式地定义离散的模板,而是将模板作为可训练的参数

4.1 soft prompt

The Power of Scale for Parameter-Efficient Prompt Tuning, EMNLP 2021

  • 记Y是LLM的输出,X是输入token,θ是Transformer的权重参数
    • NLP中的文本生成任务可以表示为P_\theta(Y|X)
  • 之前的hard Prompting在生成 Y 时向模型添加额外信息以作为条件:
    • 这一过程可以表示为P_\theta(Y|[P;X])
    • 也就是将prompt的语句和输入token 连接在一起,输入给pre-train 模型,在pre-train 模型中,用它的参数生成 embedding,经过一系列的流程得到对应的输出
  • soft prompt/prompt tuning 使用一组特殊Token作为prompt
    • 给定一系列 n 个Token,\{x_1,x_2,\cdots,x_n\}
      • 第一步是将这些Token向量化,形成一个矩阵X_e \in R^{n \times e} 
        • 【使用pre-train 模型的参数】
        • (e是向量空间的维度)
      • soft prompt以参数P_e\in R^{p\times e}的形式表示
        • (p是prompt的长度)
      • 将prompt与向量化后的输入连接起来,形成一个整体矩阵[P_e;X_e] \in R^{(p+n) \times e}
      • 该矩阵接着正常地通过编码器-解码器流动
      • 模型旨在最大化 P_{\theta,\theta_P}(Y|[P_e;X_e])的概率,但仅更新prompt参数θP

参考内容:一文详解Prompt学习和微调(Prompt Learning & Prompt Tuning)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/804201.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据相关组件安装及使用

自学大数据相关组件 持续更新中。。。 一、linux安装docker 1、更新yum sudo yum update2、卸载docker旧版本 sudo yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \docker-logrotate \docker-engine3、…

大话设计模式——18.策略模式(Strategy Pattern)

简介 是一系列算法的封装,即做的事情相同(方法名称相同)但是实现的方式不同,以相同方式调用所有的算法,减少算法与使用算法的耦合。直接调用方法。 UML图 应用场景 Java AWT中的LayoutManager(布局管理器&…

ARCHE-2024第三届上海国际智慧档案展览会暨高峰论坛即将开幕

一、ARCHE-2024精彩即将开幕 为进一步推动档案行业新科技创新应用与档案信息化再上台阶,加强档案行业交流互动,强化档案行业创新意识,实现相互促进、共同发展,作为6.9国际档案日系列活动的重要延伸——“2024第三届上海国际智慧档…

(十三)强缓存和协商缓存的区别

一、浏览器的缓存策略 浏览器的缓存策略是指浏览器在加载页面时如何使用和管理缓存机制。可以提高网页加载速度,减轻服务器负载,并提供更好的用户体验。常用的缓存策略有两种:一种是发送请求(协商缓存),一…

echarts 如何设置(dataZoom)多个图形的数据区域一起联动缩放响应

数据区域联动缩放需要用到 dataZoom 的专属事件 dispatchAction 实现多个数据区域联动缩放功能 <div style"width:100%;height:320px;" id"test01"></div> <div style"width:100%;height:320px;" id"test02"></…

ssm 项目 连接 redis 报错 : 可能是 不加 密码就不报错了

ssm 项目 连接 redis 报错 &#xff1a; 可能是 不加 密码就不报错了**

MAC(M1芯片)编译Java项目慢且发热严重问题解决方案

目录 一、背景二、排查三、解决四、效果以及结果展示五、总结 一、背景 使用idea编译项目等操作&#xff0c;经常性发热严重&#xff0c;并且时间慢。直到昨天编译一个项目用时30分钟&#xff0c;电脑温度很高&#xff0c;并且有烧灼的味道&#xff0c;于是有了此篇文章。 二、…

C++(六个默认成员函数)

目录 六个默认成员函数构造函数析构函数拷贝构造函数 总结 六个默认成员函数 默认成员函数的概念&#xff1a;如果用户不显式写&#xff0c;编译器会自动生成的函数&#xff0c;就是默认成员函数 构造函数 构造函数是六个默认成员函数之一&#xff0c;构造函数的功能类似于init…

C#面:什么链式委托

链式委托是指将多个委托实例连接在一起&#xff0c;形成一个委托链&#xff0c;使得多个方法可以按照一定的顺序依次被调用。 在C#中&#xff0c;可以使用""运算符来连接多个委托实例&#xff0c;形成一个新的委托实例。 当调用链式委托时&#xff0c;每个委托实例都…

懒人必备!4个PS抠图技巧,让你轻松处理复杂背景!

今天带给大家的又是一个绝对重要的知识&#xff0c;那就是“抠图”&#xff01; 在我们的设计中&#xff0c;抠图可以说是最常见的运用啦&#xff0c;简单的PS抠图我们都会&#xff0c;但是最令我们头痛的人物或者动物的毛发的抠图了&#xff0c;很多人都抠不好&#xff0c;我…

合并单元格的excel文件转换成json数据格式

github地址: https://github.com/CodeWang-Ay/DataProcess 类型1 需求1: 类似于数据格式: https://blog.csdn.net/qq_44072222/article/details/120884158 目标json格式 {"位置": 1, "名称": "nba球员", "国家": "美国"…

华为机试题

目录 第一章、HJ1计算字符串最后一个单词的长度&#xff0c;单词以空格隔开。1.1&#xff09;描述1.2&#xff09;解题第二章、算法题HJ2 计算某字符出现次数1.1&#xff09;题目描述1.2&#xff09;解题思路与答案第三章、算法题HJ3 明明的随机数1.1&#xff09;题目描述1.2&a…

eBPF专题一 | 手把手教你用eBPF诊断MySQL(含源码)

DBdoctor 是一款数据库内核级性能诊断工具&#xff0c;利用eBPF技术深入数据库内核&#xff0c;致力于解决数据库的一切性能问题。 被称之为“革命性”内核技术的eBPF一直以来都备受关注&#xff0c;而DBdoctor作为一款数据库性能诊断工具&#xff0c;首次将eBPF技术深入应用…

centos 安装 stable-diffusion 详细流程

一、准备环境 安装git 新版 先安装git 工具来更新git源码 &#xff0c; 载下源码后卸载git 版本(centos 默认1.8版本&#xff0c;说是安装会引起失败) 安装git 命令&#xff0c;可使用 git --version查看版本 sudo yum install git -y 卸载git命令 sudo yum remove git 正式…

golang 中 sync包

WaitGroup WaitGroup 的用途&#xff1a;它能够一直等到所有的 goroutine 执行完成&#xff0c;并且阻塞主线程的执行&#xff0c;直到所有的 goroutine 执行完成。 WaitGroup 总共有三个方法&#xff1a;Add(delta int), Done(), Wait()。简单的说一下这三个方法的作用。 Add&…

FPGA实现Canny算法(Verilog)

在边缘检测算法里面Sobel是比较简单的一个算法&#xff0c;但是其检测出来的边缘往往是比较粗的&#xff0c;效果不是很好&#xff0c;因为我们最理想的边缘肯定就是一个宽度为1的细线。 Canny算法在此基础上进行了改进&#xff0c;通过使用边缘的梯度信息进行非最大值抑制(NM…

PCL 点到圆柱的距离(3D)

文章目录 一、简介二、实现代码三、实现效果参考资料一、简介 这里的思路也很简单,我们只需要将点转换到圆柱坐标系下,在该系统中,点(0,0,0)为圆柱轴原点,(0,0,1)为圆柱轴方向,那么此时计算点到圆柱的距离就简单很多了,我们可以利用正射投影快速的获得距离结果。 二、实现…

【随笔】Git 高级篇 -- 最近标签距离查询 git describe(二十一)

&#x1f48c; 所属专栏&#xff1a;【Git】 &#x1f600; 作  者&#xff1a;我是夜阑的狗&#x1f436; &#x1f680; 个人简介&#xff1a;一个正在努力学技术的CV工程师&#xff0c;专注基础和实战分享 &#xff0c;欢迎咨询&#xff01; &#x1f496; 欢迎大…

【计算机毕业设计】企业仓储管理系统——后附源码

&#x1f389;**欢迎来到我的技术世界&#xff01;**&#x1f389; &#x1f4d8; 博主小档案&#xff1a; 一名来自世界500强的资深程序媛&#xff0c;毕业于国内知名985高校。 &#x1f527; 技术专长&#xff1a; 在深度学习任务中展现出卓越的能力&#xff0c;包括但不限于…

5.消息队列

消息队列 ​ 消息队列是一种常用的线程间通讯方式&#xff0c;用来传输数据。使用消息队列传输数据时有两种方法&#xff1a;拷贝&#xff1a;把数据、把变量的值复制进消息队列里&#xff1b;引用&#xff1a;把数据、把变量的地址复制进消息队列里。rtt使用拷贝值的方法。 …