无监督学习、自监督学习、有监督学习、SFT监督微调介绍

无监督学习(Unsupervised Learning)

  • 解释:无监督学习是一种机器学习的方法,其中模型从未标记的数据中学习。也就是说,给模型提供输入数据,但没有给出相应的期望输出或标签。模型需要自己发现数据中的模式、结构或关联。

  • 技术术语:

    • “未标记的数据”:指的是没有附带额外信息(如类别标签或值)的数据。

    • “模式、结构或关联”:无监督学习的目标通常是识别数据中的群集、异常值、降维或某种内在结构。

自监督学习(Self-Supervised Learning)

  • 解释:自监督学习是无监督学习的一个子集,它利用输入数据本身的结构或特性来生成标签,然后利用这些标签进行有监督的学习。换句话说,模型首先从未标记的数据中生成自己的标签或监督信号,然后使用这些标签来训练。

  • 技术术语:

    • “生成标签”:自监督学习算法会设计任务,使得模型能够从输入数据中提取有用的信息,并将这些信息用作训练时的标签。

    • “监督信号”:指的是用于指导模型学习的标签或信息。在自监督学习中,这些监督信号是由模型自己从数据中生成的。

有监督学习(Supervised Learning)

  • 解释:有监督学习是一种机器学习的方法,其中模型从标记的数据中学习。也就是说,给模型提供输入数据以及相应的期望输出或标签。模型的目标是学会将输入映射到正确的输出。

  • 技术术语:

    • “标记的数据”:指的是附带额外信息(如类别标签或具体值)的数据。

    • “输入映射到输出”:有监督学习的目标是训练模型,使其能够根据给定的输入数据预测出正确的输出或标签。

这些学习范式各有其优缺点,并适用于不同类型的问题和数据集。例如,当有大量未标记的数据但标记数据很少时,无监督或自监督学习可能更为合适;而当有充足的标记数据时,有监督学习通常能够提供更好的性能。

SFT监督微调

SFT监督微调基本概念

SFT(Supervised Fine-Tuning)监督微调是指在源数据集上预训练一个神经网络模型,即源模型。然后创建一个新的神经网络模型,即目标模型。目标模型复制了源模型上除了输出层外的所有模型设计及其参数。这些模型参数包含了源数据集上学习到的知识,且这些知识同样适用于目标数据集。源模型的输出层与源数据集的标签紧密相关,因此在目标模型中不予采用。微调时,为目标模型添加一个输出大小为目标数据集类别个数的输出层,并随机初始化该层的模型参数。在目标数据集上训练目标模型时,将从头训练到输出层,其余层的参数都基于源模型的参数微调得到。

监督微调的步骤

具体来说,监督式微调包括以下几个步骤:

  • 预训练: 首先在一个大规模的数据集上训练一个深度学习模型,例如使用自监督学习或者无监督学习算法进行预训练;
  • 微调: 使用目标任务的训练集对预训练模型进行微调。通常,只有预训练模型中的一部分层被微调,例如只微调模型的最后几层或者某些中间层。在微调过程中,通过反向传播算法对模型进行优化,使得模型在目标任务上表现更好;
  • 评估: 使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标。

监督微调的特点

监督式微调能够利用预训练模型的参数和结构,避免从头开始训练模型,从而加速模型的训练过程,并且能够提高模型在目标任务上的表现。监督式微调在计算机视觉、自然语言处理等领域中得到了广泛应用。然而监督也存在一些缺点。首先,需要大量的标注数据用于目标任务的微调,如果标注数据不足,可能会导致微调后的模型表现不佳。其次,由于预训练模型的参数和结构对微调后的模型性能有很大影响,因此选择合适的预训练模型也很重要。

 SFT监督微调的主流方法

随着技术的发展,涌现出越来越多的大语言模型,且模型参数越来越多,比如 GPT3 已经达到 1750 亿的参数量,传统的监督微调方法已经不再能适用现阶段的大语言模型。为了解决微调参数量太多的问题,同时也要保证微调效果,急需研发出参数高效的微调方法(Parameter Efficient Fine Tuning, PEFT)。目前,已经涌现出不少参数高效的微调方法,其中主流的方法包括:

  • LoRA
  • P-tuning v2
  • Freeze

具体对比描述可参考:人工智能大语言模型微调技术 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/743451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软考高级:需求验证概念和例题

作者:明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

linux环境下安装运行环境JDK、Docker、Maven、MySQL、RabbitMQ、Redis、nacos、Elasticsearch

安装JDK 1、提前下载好jdk 官网:点击下载 2、将下载的文件放到自己喜欢的目录下 然后使用下面命令进行解压 tar -zxvf jdk-8u161-linux-x64.tar.gz3、配置环境变量 使用命令 vim /etc/profile在文件的最后插入 export JAVA_HOME/source/java/jdk1.8.0_161 #…

同程旅行前端面试汇总

一、同程旅行一面 自我介绍技术提问 打开新的tab页、window.open是否共享sessionStorage存储的数据vue、react 源码有没有看过,说一下react17 与 react18区别webpack中loader与plugin,有没有自己写过vuex、reactx 刷新数据丢失 怎么做的持久化 反问 总…

内存操作函数

memcpy mem--memory--内存 指向计算机内存 cpy-copy-拷贝 也就是内存拷贝 针对内存的函数 void* memcpy(void * destination,const void * source,size_t num) 把source的空间 复制到 destination的部分 长度是num 如果source 和 dest 的部分有重叠,会复制的结果是未定义的(建…

如何让Windows 10的开始菜单回到7的样子?这里提供详细步骤

前言 在新版本的Windows推出时,你可能会听到一个抱怨,那就是他们对开始菜单做了什么,如果你只想让Windows 10中的开始菜单像Windows 7的开始菜单那样外观和功能,我们将提供帮助。 准备条件 除了Windows 10安装之外,我们唯一需要的是一个非常方便的小程序,那就是Classic…

监听抖音直播间的评论并实现存储

监听抖音直播间评论,主要是动态监听dom元素的变化,如果评论是图片类型的,获取alt的值 主要采用的是MutationObserver:https://developer.mozilla.org/zh-CN/docs/Web/API/MutationObserver index.js如下所示:function getPL() {…

基于深度学习的图像去雨去雾

基于深度学习的图像去雨去雾 文末附有源码下载地址 b站视频地址: https://www.bilibili.com/video/BV1Jr421p7cT/ 基于深度学习的图像去雨去雾,使用的网络为unet, 网络代码: import torch import torch.nn as nn from torchsumm…

拼图小游戏制作教程:用HTML5和JavaScript打造经典游戏

🌟 前言 欢迎来到我的技术小宇宙!🌌 这里不仅是我记录技术点滴的后花园,也是我分享学习心得和项目经验的乐园。📚 无论你是技术小白还是资深大牛,这里总有一些内容能触动你的好奇心。🔍 &#x…

自动化构建平台(七)使用Jenkins+Gitblit/Gitlab构建Java项目并生成镜像推送到Harbor/Nexus

文章目录 前言一、准备项目二、在Jenkins中创建项目三、Jenkins项目配置:General四、Jenkins项目配置:源码管理五、Jenkins项目配置:Build六、Jenkins项目配置:Post Steps1、创建项目启动脚本2、创建Dockerfile文件3、构建镜像4、推送镜像到私有库七、Jenkins开始构建八、检…

【数据结构】栈与队列的“双向奔赴”

目录 前言 1.使用“栈”检查符号是否成对出现 2.使用“栈”实现字符串反转 3.使用“队列”实现“栈” 4.使用“栈”实现“队列” 前言 什么是栈? 栈(stack)是一种特殊的线性数据集合,只允许在栈顶按照后进先出LIFO&#xff…

网上商城购物系统|基于springboot框架+ Mysql+Java+B/S架构的网上商城购物系统设计与实现(可运行源码+数据库+设计文档+部署说明)

推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 目录 前台功能效果图 管理员功能登录前台功能效果图 用户功能模块 系统功能设计 数据库E-R图设计 lunwen参…

matlab 中文比较case

1.matlab %区别 cc大学 %as两个字符 dd大学 ccdd ans 12 logical array1 1cc1"大学" %as一个字符整体 dd1"大学" cc1dd1ans logical12.实际应用 问题:simple不精确匹配 ‘康奈尔大学’——‘康乃尔大学’,如果两个中文字符之间有…

ip广播智慧工地广播喊话号角 IP网络号角在塔吊中应用 通过寻呼话筒预案广播

ip广播智慧工地广播喊话号角 IP网络号角在塔吊中应用 通过寻呼话筒预案广播 SV-704XT是深圳锐科达电子有限公司的一款壁挂式网络有源号角,具有10/100M以太网接口,可将网络音源通过自带的功放和号角喇叭输出播放,可达到功率50W。SV-704XT内置有…

LocalDateTime 转 String

import java.time.LocalDateTime; import java.time.format.DateTimeFormatter; public class Main { public static void main(String[] args) { // 获取当前时间 LocalDateTime now LocalDateTime.now(); // 定义日期格式化器 DateTimeFormatter formatter DateTime…

OneDrive教育版迁移记录

背景 微软再次削减教育版优惠的OneDrive容量,从原先的5T直接砍到100G/人,同时对每个学校保留总共100TB的共享存储容量。 右键Onedrive图标——设置——存储容量可见 100GB对于重度用户显然是不够使用的,为此笔者改换Microsoft Office365家庭…

Mysql 死锁案例6-并发 insert on duplicate key 导致的死锁

场景复现 mysql 5.7.12 ,事务隔离级别RR CREATE TABLE t (id int(11) NOT NULL,a int(11) DEFAULT NULL,b int(11) DEFAULT NULL,PRIMARY KEY (id),UNIQUE KEY a (a) ) ENGINEInnoDB DEFAULT CHARSETutf8;/*Data for the table t */insert into t(id,a,b) values (0,0,0),(5,…

mac启动skywalking报错

这个命令显示已经成功 但是日志报错了以上内容。 然后去修改。vim .bash_profile 查看全局变量,这个jdk却是有2个。所以这个问题没解决。

C++基础——C++ make_pair用法,map与pair的使用

C基础——C make_pair用法-CSDN博客 std::pair用法 std::pair主要的作用是将两个数据组合成一个数据&#xff0c;两个数据可以是同一类型或者不同类型。 例如std::pair<int,float> 或者 std::pair<double,double>等。 pair实质上是一个结构体&#xff0c;其主要的…

【哈希映射】【 哈希集合】 381. O(1) 时间插入、删除和获取随机元素 - 允许重复

作者推荐 视频算法专题 本文涉及知识点 哈希映射 哈希集合 LeetCode 381. O(1) 时间插入、删除和获取随机元素 - 允许重复 RandomizedCollection 是一种包含数字集合(可能是重复的)的数据结构。它应该支持插入和删除特定元素&#xff0c;以及删除随机元素。 实现 Randomiz…

【java/image】将指定路径下所有的png图片进行反色处理

【需求】 在桌面上有若干png图片&#xff0c;是使用截图软件FSCapture7.6对通达信的K线图截图而得&#xff0c;在打印这些K线图前&#xff0c;需要将它们进行反色处理。 【代码】 package test240313;import java.awt.image.BufferedImage; import java.awt.image.ByteLooku…