Mindspore 公开课 - prompt

Mindspore 公开课 - prompt

news/2025/4/27 5:07:05/文章来源:https://blog.csdn.net/Wolf_xujie/article/details/135612018

prompt 介绍

Fine-Tuning to Prompt Learning

在这里插入图片描述

Pre-train, Fine-tune

BERT

bidirectional transformer，词语和句子级别的特征抽取，注重文本理解
Pre-train: Maked Language Model + Next Sentence Prediction
Fine-tune: 根据任务选取对应的representation（最后一层hidden state输出），放入线性层中

例：Natural Language Inference

在这里插入图片描述

Pre-train, Fine-tune: models

BERT
- bidirectional transformer，词语和句子级别的特征抽取，注重文本理解
- Pre-train: Maked Language Model + Next Sentence Prediction
- Fine-tune: 根据任务选取对应的representation（最后一层hidden state输出），放入线性层中
  例：Named Entity Recognition

Pre-train, Fine-tune: models

GPT
- auto-regressive model，通过前序文本预测下一词汇，注重文本生成
- Pre-train: $L_1(\mathcal{U})=\sum_i \log P\left(u_i \mid u_{i-k}, \ldots, u_{i-1} ; \Theta\right)$
- Fine-tune: task-specific input transformations + fully-connected layer

Pre-train, Fine-tune: challenges

gap between pre-train and fine-tune

少样本学习能力差、容易过拟合

在这里插入图片描述

Pre-train, Fine-tune: challenges

gap between pre-train and fine-tune

少样本学习能力差、容易过拟合
在这里插入图片描述

Pre-train, Fine-tune: challenges

cost of fine-tune

现在的预训练模型参数量越来越大，为了一个特定的任务去 finetuning 一个模型，然后部署于线上业务，也会造成部署资源的极大浪费
在这里插入图片描述

Pre-train, Prompt, Predict: what is prompting

fine-tuning: 通过改变模型结构，使模型适配下游任务
prompt learning: 模型结构不变，通过重构任务描述，使下游任务适配模型

在这里插入图片描述

Pre-train, Prompt, Predict: workflow of prompting

在这里插入图片描述

Pre-train, Prompt, Predict: workflow of prompting

Template: 根据任务设计prompt模板，其中包含 input slot[X] 和 answer slot [Z]，后根据模板在 input slot 中填入输入
Mapping (Verbalizer): 将输出的预测结果映射回label

在这里插入图片描述

Pre-train, Prompt, Predict: prompt design

Prompting 中最主要的两个部分为 template 与 verbalizer 的设计。

他们可以分别基于任务类型和预训练模型选择(shape)或生成方式(huamn effort)进行分类。

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/625646.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

算法通关村第十六关—滑动窗口经典问题(白银)

算法通关村第十六关—滑动窗口经典问题(白银)

滑动窗口经典问题一、最长子串专题 1.1 无重复字符的最长子串 LeetCode3给定一个字符串s，请你找出其中不含有重复字符的最长子串的长度。例如： 输入：s"abcabcbb" 输出：3 解释：因为无重复字符的最长子串是…

阅读更多...

【Java万花筒】数据之舞：Java数据库连接与操作库全景视角

【Java万花筒】数据之舞：Java数据库连接与操作库全景视角

数据库连接与操作：Java 应用开发者的综合指南前言随着Java应用的不断发展，数据库连接与操作成为关键技能之一。本文将深入探讨主流Java库，涵盖了JDBC、Hibernate、MyBatis、Spring Data JPA、Apache Commons DBUtils、JOOQ以及Querydsl。…

阅读更多...

牛客周赛 Round 28 F

牛客周赛 Round 28 F

以后需要使用map，set进行二分，并且需要知道二分位置的信息时，不妨考虑使用树状数组进行维护因为简单版本保证了每个数都为正整数，所以前缀和保证了一定的递增的，即有序的，那么考虑固定左端点，去…

阅读更多...

多线程并发与并行

多线程并发与并行

📑前言本文主要是【并发与并行】——并发与并行的文章，如果有什么需要改进的地方还请大佬指出⛺️ 🎬作者简介：大家好，我是听风与他🥇 ☁️博客首页：CSDN主页听风与他 🌄每日一句&…

阅读更多...

自动化测试理论（1）—概述需要掌握的内容

自动化测试理论（1）—概述需要掌握的内容

要在自动化测试领域取得成功，需要掌握一系列技能和概念。以下是一些关键的内容： 编程语言： 了解并精通至少一种编程语言，如Python，Java，JavaScript等。编写自动化测试脚本通常需要编程技能。自动化测试框…

阅读更多...

SpringBoot3

SpringBoot3

有用的新特性 JDK8-19 新增了不少新特性，这里我们把实际常用的新特性，给大家介绍一下。包括以下几个方面： Java RecordSwich 开关表达式Text Block 文本块var 声明局部变量sealed 密封类 Java14 中预览的新特性叫做 Record ，在…

阅读更多...

explorer.exe 作用

explorer.exe 作用

Explorer.exe是什么在Windows操作系统中，Explorer.exe是桌面进程的意思，它负责显示用户桌面信息，如果用户将它结束掉就看不到桌面上的任何图标了，相当于Windows操作系统中的人机交互界面，其重要性不言而喻。如果用户发…

阅读更多...

【算法笔记】分支限界专题

【算法笔记】分支限界专题

分支限界整体结构本质上感觉还是遍历解树剪枝，但是配合优先队列使用以后可以更好的找到最优解。例题 P8011 ⾛迷宫对于迷宫问题，某一节点的关联节点指的是它四个方向上相邻的节点。要利用flag数组确保不会重复访问。 void bfs(){//1、初始化队…

阅读更多...

重写equals方法为什么还要重写hashcode方法？

重写equals方法为什么还要重写hashcode方法？

目录什么是 hashcode（哈希码、散列码）？ 为什么 equals() 方法要重写？ hashCode() 与 equals() 的关系重写equals方法为什么还要重写hashcode方法？ 什么是 hashcode（哈希码、散列码）&#…

阅读更多...

python爬虫之线程与多进程知识点记录

python爬虫之线程与多进程知识点记录

一、线程 1、概念线程在一个进程的内部，要同时干多件事，就需要同时运行多个“子任务”，我们把进程内的这些“子任务”叫做线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中，是进程中的实际运作单位。一条线程指…

阅读更多...

DAY01_Spring—Spring框架介绍IOCSpring工厂模式

DAY01_Spring—Spring框架介绍IOCSpring工厂模式

目录 1 什么是框架2 Spring框架2.1 Spring介绍2.2 MVC模型说明2.3 IOC思想2.3.1 问题说明2.3.2 IOC说明 3 Spring IOC具体实现3.1 环境准备3.1.1 关于JDK说明3.1.2 检查JDK环境配置 3.2 创建项目3.3 关于Maven 命令3.3.1 install 命令3.3.2 clean 命令 3.4 添加jar包文件3.4.1 …

阅读更多...

flutter使用getx进行数据状态管理，实现页面响应式

flutter使用getx进行数据状态管理，实现页面响应式

无论是什么样的应用，都还是需要最基础的数据来支撑的，而且不同的页面之间可能需要共享数据状态，这就显得数据状态管理非常有必要了。因为我这里使用了get依赖库，所以就可以直接在项目中使用getx来管理状态，不想再使用别…

阅读更多...

【笔记】软件下载链接汇总

【笔记】软件下载链接汇总

🎈欢迎加群交流🎈 ✨✨✨https://ling71.cn/hmf.jpg✨✨✨ 浏览器历史版本下载 Firefox史版本下载：（官网） http://ftp.mozilla.org/pub/mozilla.org//firefox/releases/ Chrome历史版本、ChromeDriver历史版本&#x…

阅读更多...

服务器机房上架交付流程

服务器机房上架交付流程

服务器上架交付服务器到货验收后，会进行机房机房上架，完成重装系统、网络配置后交付使用 1、到货验收采购服务器到货后，会联合多部门进行SN、配置、数量等多方面验收，如数量是否匹配，配置是否相符等也会拆开机箱看看…

阅读更多...

Python基础知识：整理10 异常相关知识

Python基础知识：整理10 异常相关知识

1 异常的捕获 1.1 基础写法 """基本语法：try:可能发生错误的代码except:如果出现异常，将执行的代码""" try:fr open("D:/abc.txt", "r", encoding"utf-8") except:print("出现异常…

阅读更多...

APM传感器校准

APM传感器校准

文章目录前言一、校准加速度计二、校准罗盘三、校准陀螺仪四、校平地平线前言固件：rover 4.2.3 地面站：独家汉化版QGC 一、校准加速度计点击左上角软件图标-》载具设置-》传感器-》加速度计飞控方向默认为None即可，点击确定点击确…

阅读更多...

德语怎么翻译，中文翻译成德文有何要求？

德语怎么翻译，中文翻译成德文有何要求？

近年来，随着中德之间的贸易往来日益频繁，德语翻译需求在市场上持续升温。那么，如何做好德语翻译，特别是将中文翻译成德文需要注意哪些要求呢？ 首先，深入理解中文原文的语境和含义至关重要。中文含蓄且抽象&…

阅读更多...

存储的基本架构

存储的基本架构

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、存储的需求背景二、自下而上存储架构总结一、存储的需求背景 1、人的身份信息需要存储这种信息可以用关系型数据库，例如mysql，那种表…

阅读更多...

c++的宏举例和理解

c++的宏举例和理解

宏提供了一种机制，能够使你在编译期替换代码中的符号或者语句。当你的代码中存在大量相似的、重复的代码时，使用宏可以极大的减少代码量，便于书写。 // 定义圆周率 #define PI 3.14159265 // 定义一个空指针 #define NULL ((void*)0) // 定…

阅读更多...

第十二章 Java内存模型与线程（二）

第十二章 Java内存模型与线程（二）

文章目录 12.4 Java与线程12.4.1 线程的实现12.4.2 Java线程调度12.4.3 状态转换 12.4 Java与线程 12.4.1 线程的实现实现线程主要有三种方式：使用内核线程实现（1： 1 实现），使用用户线程实现（1&#xff…

阅读更多...

最新文章