大型语言模型LLM - Finetuning vs Prompting

资料来自台湾大学李宏毅教授机器学课程ML 2023 Spring,如有侵权请通知下架

台大机器学课程ML 2023 Springicon-default.png?t=O83Ahttps://speech.ee.ntu.edu.tw/~hylee/ml/2023-spring.php2023/3/10 课程 機器如何生成文句

内容概要

主要探讨了大型语言模型的两种不同期待及其导致的两类不同使用方式,具体内容如下:

 

  1. 两种不同期待
    • 成为专才:专注于解决某一个特定任务,在单一任务上有机会胜过通才。例如在翻译任务中,不同翻译系统的表现各有优劣,如 Google、DeepL、Tencent 和 ChatGPT 在不同语言对的翻译任务中准确率有所差异
    • 成为通才:期望模型具备多种能力,类似 ChatGPT 的路线,只要重新设计 prompt 就可以快速开发新功能,无需编写程序25。
  2. 不同期待导致的使用方式
    • 成为专才
      • 对预训练模型做改造
        • 加外挂(Head):如针对不同任务有 bertForSequenceClassification(单一句子分类任务)、bertForTokenClassification(单一句子标注任务)、用于问答任务的相关设置等,常见任务包括情感分析、命名实体识别、问答任务等
        • 微调和 Adapter:通过更新网络参数或在 adapter 中更新参数来实现,如在翻译任务中,不同的调整方式对模型的翻译能力有影响。100 个任务如果采用传统方式需要存 100 个大模型,而使用 adapter 则只需存 1 个大模型和 100 个 adapter。
    • 成为通才
      • 机器学会读题目叙述或范例
        • Instruction Learning(指令学习):通过题目叙述让机器理解任务要求,如英语语法选择题目,给出情境和选项,让机器选择正确答案121212。
        • In - context Learning(上下文学习):通过给出范例让机器学习,如情感分析任务中,给出不同情感倾向的句子作为范例,让机器判断新句子的情感。包括分类任务(如判断句子情感倾向)、多选项任务(如选择合适的输出)等,还涉及不同模型在该学习方式下的表现及相关研究。
      • Instruction - tuning(指令微调):如 FLAN 模型在多种任务类型上的表现,涵盖自然语言推理、阅读理解、闭卷问答等任务。还涉及 Chain of Thought(CoT)Prompting(思维链提示)相关内容,包括标准提示和思维链提示在数学应用题等任务中的不同表现,以及思维链提示中的 Few - shot、Few - shot - CoT、Self - consistency 等方法的应用,还有 Problem Reduction(问题分解)方法在解决问题时的步骤和示例。
      • 用机器来找 Prompt:包括 Hard Prompt 和 Soft Prompt,可通过任务特定的标记数据训练、在输入添加 Adapter、使用强化学习、利用语言模型(如 GPT - 3、BlenderBot、DialoGPT 等)来找 Prompt,如使用正向生成模板、让语言模型遵循指令生成内容等方式,并且有不同方法在准确率上的对比。

  • 專才的期待要求模型專注於特定任務,因此需要進行微調和配置;而通才的期待則是希望模型能夠靈活應對多種任務,自然語言下指令即可,無需要頻繁調整。
  • GPT專注於生成任務,例如文字接龍,而BERT則是填空任務,主要關注於理解句子結構和補全缺失部分,兩者的應用場景和使用方式大相逕庭。

 

【生成式AI】Finetuning vs. Prompting:對於大型語言模型的不同期待所衍生的兩類使用方式 (1/3) Go to original video by Hung-yi Leeicon-default.png?t=O83Ahttps://youtube.com/watch?v=F58vJcGgjt0

【生成式AI】Finetuning vs. Prompting:對於大型語言模型的不同期待所衍生的兩類使用方式

大型語言模型的兩種期待

“人們對大型語言模型有兩種不同的期待。”

  • 大型語言模型在歷史上引發了兩種截然不同的期待。第一種期待是希望這些模型能作為解決特定問題的專才,例如翻譯或摘要生成。使用者小心地調整模型,使其專注於特定任務。這意味著對模型的使用需要一定的改造與微調,以確保它能履行特定的功能。

  • 第二種期待則是希望大型語言模型成為一個通才,具備解決多元任務的能力。這種期待要求模型能夠理解並執行用戶以自然語言下的指令,而不需要事先進行特別調整。這樣的模型會以更靈活的方式來處理用戶的各種需求。

GPT與BERT的差異

“GPT做的事情就是文字接龍,而BERT則是文字填空。”

  • GPT和BERT都是知名的語言模型,卻擁有不同的工作方式。GPT擅長進行“文字接龍”,透過上下文補全句子,使得用戶能夠自然而流暢地進行對話。

  • 相對而言,BERT主要執行“文字填空”的任務。它的工作是接收一段文字時,將其中的缺失部分進行填充。這種填空方式使BERT能夠在理解和生成語言時有著不同的應用場景,尤其在多任務的自然語言處理中。

使用大型語言模型的方式

“這兩種期待導致兩種不同類型的使用與大型語言模型的方式。”

  • 第一種期待,針對專才的期望,通常使用BERT類的模型,這類模型需要進行專門的外掛和參數微調,讓它們能夠專注於特定的任務。例如,對BERT進行翻譯任務時,就必須進行參數調整,來專注於翻譯這一任務。

  • 而第二種期待則是在通才模式下使用大型語言模型,如GPT。用戶能夠直接使用自然語言來給模型下指令,讓模型進行翻譯、摘要等任務,無需過多的調整。這樣的模式在使用上更加靈活,也讓開發新功能變得更加迅速和簡便。

【生成式AI】Finetuning vs. Prompting:對於大型語言模型的不同期待所衍生的兩類使用方式 (2/3) Go to original video by Hung-yi Leeicon-default.png?t=O83Ahttps://youtube.com/watch?v=aZ_jXZvxyVg

  • 機器理解人類指令的過程涉及透過範例及任務敘述來學習,機器依賴這些信息來解析和執行特定的任務。
  • 選擇通才能夠讓模型在不同的任務上保持靈活性,提高適應性,並能有效地處理未來可能遇到的各種任務類型。

【生成式AI】Finetuning vs. Prompting:對於大型語言模型的不同期待所衍生的兩類使用方式

機器如何成為通才的探索

我們希望機器能夠閱讀任務的敘述,並根據範例進行學習。

  • 機器需具備理解任務敘述的能力,以便能夠按照人類的指令執行任務。為達成這一目標,我們會為機器提供一些範例作為參考,使其能夠理解該執行的任務類型。

  • 這樣的學習方式稱為「Instruction learning」,透過精心設計的敘述與範例來引導機器的行為,使其更像人類。

  • 在這個過程中,機器的學習能力會逐漸進化,並能根據不同任務自動調整其反應。

Instruction Learning與In-context Learning的定義

給定任務敘述和範例之後,機器能夠正確地回答問題。

  • Instruction learning是指機器學習如何解讀指令並執行任務的過程,而In-context learning則是指根據提供的範例進行學習和回答問題的方式。

  • 這兩種學習模式是ChatGPT系列希望達成的核心目標。

  • 因為過去其他模型如BERT主攻專才微調,GPT系列則選擇朝著通才發展,這使得它在面對多種任務時能夠保持靈活性和適應性。

微調與通才模型的選擇

GPT系列不選擇像BERT一樣微調參數,而是專注於通才模型的開發。

  • OpenAI在一開始就抱有高期待,希望創建能夠理解各種人類指令的通才模型,這代表了他們對於人工智慧未來的一種高瞻遠矚的見解。

  • 相較於BERT的專才導向,GPT系列採取的路線是尋求創新,讓機器在多樣化的任務中表現出色而非僅僅對單一任務進行微調。

  • 微調這條路或許相對狹隘,因此選擇更為大膽、通才的做法讓其具有更廣泛的應用潛力。

Machine Learning以範例學習的實驗

基於範例機器學習的過程有賴於示範是否正確。

  • 進行情感分析時,我們不能僅僅給機器一個句子,還需要告訴它任務的類型以及它應該如何回應。透過提供正確的範例,機器能學會判別句子的情感。

  • 然而,研究表明即使範例標記出現錯誤,機器的表現下降仍然有限,顯示出其內在的理解能力或許不完全依賴範例的精確性。

  • 此外,如果範例的內容與目標任務差異過大,則學習效果會顯著降低,表明範例的相關性對於機器學習成效至關重要。

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/62068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Scikit-learn Pipeline完全指南:高效构建机器学习工作流

在机器学习工作流程中,组合估计器通过将多个转换器(Transformer)和预测器(Predictor)整合到一个管道(Pipeline)中,可以有效简化整个过程。这种方法不仅简化了数据预处理环节,还能确保处理过程的一致性,最大限度地降低数据泄露的风险。构建组合估计器最常用的工具是Scikit-learn…

kali Linux中foremost安装

记录一下 foremost工具介绍 foremost是基于文件开始格式,文件结束标志和内部数据结构进行恢复文件的程序。该工具通过分析不同类型文件的头、尾和内部数据结构,同镜像文件的数据进行比对,以还原文件。它默认支持19种类型文件的恢复。用户还可…

ChatGPT如何辅助academic writing?

今天想和大家分享一篇来自《Nature》杂志的文章《Three ways ChatGPT helps me in my academic writing》,如果您的日常涉及到学术论文的写作(writing)、编辑(editing)或者审稿( peer review)&a…

2024年11月26日Github流行趋势

项目名称:v2rayN 项目维护者:2dust yfdyh000 CGQAQ ShiinaRinne Lemonawa 项目介绍:一个支持Xray核心及其他功能的Windows和Linux图形用户界面客户端。 项目star数:70,383 项目fork数:11,602 项目名称:fre…

大数据面试SQL题-笔记02【查询、连接、聚合函数】

大数据面试SQL题复习思路一网打尽!(文档见评论区)_哔哩哔哩_bilibiliHive SQL 大厂必考常用窗口函数及相关面试题 大数据面试SQL题-笔记01【运算符、条件查询、语法顺序、表连接】大数据面试SQL题-笔记02【查询、连接、聚合函数】​​​​​​​ 目录 01、查询 01…

Unity类银河战士恶魔城学习总结(P145 Save Skill Tree 保存技能树)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址:https://www.udemy.com/course/2d-rpg-alexdev/ 本章节实现了技能树的保存 警告!!! 如果有LoadData()和SaveData()…

redmi 12c 刷机

刷机历程 一个多月前网购了redmi 12c这款手机, 价格只有550,用来搞机再适合不过了, 拆快递后就开始倒腾,网上有人说需要等7天才能解锁,我绑定了账号过了几天又忍不住倒腾,最后发现这块手机不用等7天解锁成功了,开始我为了获取root权限, 刷入了很火的magisk,但是某一天仍然发现/…

YOLO系列论文综述(从YOLOv1到YOLOv11)【第1篇:概述物体检测算法发展史、YOLO应用领域、评价指标和NMS】

目录 1 前言2 YOLO在不同领域的应用3 物体检测指标和NMS3.1 mAP和IOU3.2 mAP计算流程3.2.1 VOC 数据集3.2.2 微软 COCO 数据集 3.3 NMS 1 前言 最近在做目标检测模型相关的优化,重新看了一些新的论文,发现了几篇写得比较好的YOLO系列论文综述&#xff0…

【通俗理解】步长和学习率在神经网络中是一回事吗?

【通俗理解】步长和学习率在神经网络中是一回事吗? 【核心结论】 步长(Step Size)和学习率(Learning Rate, LR)在神经网络中并不是同一个概念,但它们都关乎模型训练过程中的参数更新。 【通俗解释&#x…

STL之算法概览

目录 算法概览 算法分析与复杂度标识O() STL算法总览 质变算法mutating algorithms----会改变操作对象之值 非质变算法nonmutating algorithms----不改变操作对象之值 STL算法的一般形式 算法的泛化过程 算法概览 算法,问题之解法也。 以有限的步骤&#xff0…

华为IPD流程管理体系L1至L5最佳实践-解读

该文档主要介绍了华为IPD流程管理体系,包括流程体系架构、流程框架实施方法、各业务流程框架示例以及相关案例等内容,旨在帮助企业建立高效、规范的流程管理体系,实现业务的持续优化和发展。具体内容如下: 1. 华为流程体系概述 -…

【青牛科技】 D2822M 双通道音频功率放大电路芯片介绍,用于便携式录音机和收音机作音频功率放大器

概述: D2822M 用于便携式录音机和收音机作音频功率放大器。D2822M 采用 DIP8 和 SOP8 封装形式。 特点:  电源电压降到 1.8V 时仍能正常工作  交越失真小  静态电流小  可作桥式或立体声式功放应用  外围元件少  通道分离度高  开机和关机…

【Python中while循环】

一、深拷贝、浅拷贝 1、需求 1)拷贝原列表产生一个新列表 2)想让两个列表完全独立开(针对改操作,读的操作不改变) 要满足上述的条件,只能使用深拷贝 2、如何拷贝列表 1)直接赋值 # 定义一个…

抖音短视频矩阵源代码部署搭建流程

抖音短视频矩阵源代码部署搭建流程 1. 硬件准备 需确保具备一台性能足够的服务器或云主机。这些硬件设施应当拥有充足的计算和存储能力,以便支持抖音短视频矩阵系统的稳定运行。 2. 操作系统安装 在选定的服务器或云主机上安装适合的操作系统是关键步骤之一。推…

kmeans 最佳聚类个数 | 轮廓系数(越大越好)

轮廓系数越大,表示簇内实例之间紧凑,簇间距离大,这正是聚类的标准概念。 簇内的样本应该尽可能相似。不同簇之间应该尽可能不相似。 目的:鸢尾花数据进行kmeans聚类,最佳聚类个数是多少? plot(iris[,1:4…

day04 企业级Linux安装及远程连接知识实践

1. 使用传统的网卡命名方式 在启动虚拟机时,按tab键进入编辑模式 添加命令: net.ifnames0 biosdevname0 这样linux系统会使用传统的网卡命名,例如eth0、eth1…… 2. 快照 做系统关键操作时,一定要使用快照(先将系统关机) 3.…

STM32C011开发(2)----nBOOT_SEL设置

STM32C011开发----2.nBOOT_SEL设置 概述硬件准备视频教学样品申请源码下载参考程序自举模式BOOT0设置配置 nBOOT_SEL生成STM32CUBEMX串口配置LED配置堆栈设置串口重定向主循环演示 概述 STM32CubeProgrammer (STM32CubeProg) 是一款用于编程STM32产品的全功能多操作系统软件工…

onvif协议相关:3.1.5 Digest方式获取预置位

背景 关于onvif的其实很早之前我已经在专栏中写了不少了, 使用onvif协议操作设备 但最近有陆陆续续的粉丝问我, 希望我在写一些关于 onvif的设备自动发现、预置位跳转、云台操作的博客。 满足粉丝的需求,安排。 今天我们来实现 获取预置位 准备工作 我们这里的话选择Diges…

docker 通过Dockerfile自定义的镜像部署Springboot项目

一、镜像结构介绍: 镜像:层(Layer)添加安装包、依赖、配置等,每一次操作都形成新的一层;基础镜像(BaseImage)应用依赖的系统函数库、环境、配置、文件等;入口&#xff0…

【Canvas与图标】GUI图标

【成图】 120*120的png图标 各种大小图&#xff1a; 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>GUI图标 Draft1</titl…