预训练语言模型PLM(课程笔记)

一:分为两种范式

1. Feature-based

        预训练的模型参数(word-enbeddings)作为下游任务的输入,不更新预训练参数。

        代表:word2vec,ELMO

2. Fine-tuning

        在下游任务时对模型参数进行更新

        代表:BERT,GPT

 二:GPT模型与BERT对比

1.模型结构        

        GPT是第一个基于transformer架构的PLM,使用的是transformer的Decoder;而Bert使用的是transformer的Encoder,相比于GPT结构更简单。

2.预训练方式

        GPT:自回归语言模型预训练(预测下一个词),单向的,更适合生成式任务。

        BERT:掩码语言模型(MLM)和下一句预测(NSP),双向的,更适合文本理解的任务。

3.存在的问题

        BERT用了MLM,pre-training和fine-tuning不能统一起来,且训练效率比较低。

三:GPT,GPT2,GPT3对比

整体趋势,模型越来越大,大力出奇迹。

GPT:Fine-tuning

GPT2:Zero-Shot Learning

GPT3:Few-Shot Learning,但不更新参数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/52047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

笔记本一线品牌有哪些

笔记本电脑的一线品牌通常指的是在市场上具有较高市场份额、良好口碑、较强的技术实力和服务能力的品牌。根据目前的信息,笔记本电脑市场的一线品牌主要包括以下几个: 联想 (Lenovo):联想在全球笔记本市场上的占有率较高,其产品线…

tomcat日志文件切割

文章目录 引言I 使用用crontab工具,定时执行任务II 通过Linux系统自带的切割工具logrotate来进行切割logrotate 简介用法结合crontab进行自定义的定时轮转操作III 基于其他日志框架进行分隔引言 tomcat 的 catalina.out 文件不会进行日志切割,当这个文件大于2G 时,会影响to…

flume系列之:flume生产环境sink重要参数理解

flume系列之:flume生产环境sink重要参数理解 sink1.hdfs.maxOpenFilessink1.hdfs.threadsPoolSizesink1.hdfs.rollTimerPoolSizesink1.hdfs.rollCountsink1.hdfs.rollSizesink1.hdfs.rollSizesink1.hdfs.rollIntervalsink1.hdfs.idleTimeoutsink1.hdfs.batchSizesink1.hdfs.wr…

PyTorch 基础学习(12)- 自定义运算符

系列文章: 《PyTorch 基础学习》文章索引 介绍 在深度学习的开发中,常常需要为特殊需求定义自定义运算符。PyTorch 提供了 torch.library 这一API集合,允许开发者扩展 PyTorch 核心运算符库,测试自定义运算符,并创建…

C/C++ 多线程[1]---线程创建+线程释放+实例

文章目录 前言1. 多线程创建2. 多线程释放3. 实例总结 前言 说来惭愧,写了很久的代码,一个单线程通全部。可能是接触的项目少吧,很多多线程的概念其实都知道,但是实战并没有用上。前段时间给公司软件做一个进度条,涉及…

[Qt][QSS][下]详细讲解

目录 1.样式属性0.前言1.盒模型(Box Model) 2.常用控件样式属性1.按钮2.复选框3.单选框4.输入框5.列表6.菜单栏7.注意 1.样式属性 0.前言 QSS中的样式属性⾮常多,不需要都记住,核⼼原则是⽤到了就去查 ⼤部分的属性和CSS是⾮常相似的 QSS中有些属性&am…

RK3588——网口实时传输视频

由于通过流媒体服务器传输画面延迟太高的问题,不知道是没有调试到合适的参数还是其他什么问题。诞生了这篇博客。 RK3588板端上接摄像头,采集画面,通过网口实时传输给上位机并显示。 第一代版本 RK3588代码 import cv2 import socket imp…

C++发送邮件:如何稳定实现邮件发送功能?

C发送邮件安全性探讨!C编程中发送邮件的技巧? 邮件发送功能是许多应用程序的重要组成部分,无论是用于通知用户,还是用于自动化报告。AokSend将探讨如何在C环境中稳定地实现邮件发送功能,确保邮件能够可靠地到达收件人…

windows环境基于python 实现微信公众号文章推送

材料: 1、python 2.7 或者 python3.x 2、windows 可以通过 “python -m pip --version” 查看当前的pip 版本 E:\Downloads\newsInfo>python -m pip --version pip 20.3.4 from C:\Python27\lib\site-packages\pip (python 2.7) 3、windows 系统 制作&#xf…

云计算实训30——自动化运维(ansible)

自动化运维 ansible----自动化运维工具 特点: 部署简单,使用ssh管理 管理端与被管理端不需要启动服务 配置简单、功能强大,扩展性强 一、ansible环境搭建 准备四台机器 安装步骤 mo服务器: #下载epel [rootmo ~]# yum -y i…

windows主机查询url请求来自哪里发起的

最近使用fiddler抓包,看到一直有http://conna.gj.qq.com:47873 的请求, 对此进行溯源,确定是不是被攻击了。 在dos里查询端口进程:netstat -ano | findstr :47873 查到来自8020的进程id 查看此进程应用,发现竟然是…

C++ 设计模式——外观模式

外观模式 C 设计模式——外观模式主要组成部分1. 外观类(Facade)2. 子系统类(Subsystem)3. 客户端(Client) 例一:工作流程示例1. 外观类(Facade)2. 子系统类(…

IT管理:我与IT的故事6--数字化建设规划工作坊圆满开展

在数字化浪潮席卷全球的时代背景下,企业的数字化转型已成为必然趋势。IT 部落精心打造的数字化规划实操工作坊顺利举办,为众多CIO的数字化转型之路点亮了明灯。 本次工作坊特别邀请到了业界知名的大咖讲师 Frank,他在数字化领域深耕多年&am…

最长的严格递增或递减子数组

给你一个整数数组 nums 。 返回数组 nums 中 严格递增 或 严格递减 的最长非空子数组的长度。 示例 1: 输入:nums [1,4,3,3,2] 输出:2 解释: nums 中严格递增的子数组有[1]、[2]、[3]、[3]、[4] 以及 [1,4] 。 nums 中…

【源码+文档+调试讲解】学院网站

摘 要 使用旧方法对冀中工程技师学院网站的信息进行系统化管理已经不再让人们信赖了,把现在的网络信息技术运用在冀中工程技师学院网站的管理上面可以解决许多信息管理上面的难题,比如处理数据时间很长,数据存在错误不能及时纠正等问题。这次…

Etcd:分布式键值存储的基石

Etcd 是一个分布式的、一致性的键值存储系统,由 CoreOS 设计并开源。它主要用于共享配置和服务发现,并且被广泛应用于 Kubernetes、Docker 和其他云原生工具中作为核心组件之一。Etcd 使用 Raft 一致性算法来保证数据的一致性,使得它非常适合…

MinerU 是一款将PDF转化如markdown、json工具

MinerU 项目简介 MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时…

Day23 第十站 文件IO的多路复用

#include <myhead.h>void insert_client(int *client_arr,int *len,int client) {//client_arr[n]{3,4} len&client_count,client_count2;//添加 5 client_arr[2(*len)]5(client)client_arr[*len]client;(*len); } int find_client(int *client_arr,int len,int clie…

Rembg.js - 照片去背景AI开发包

Rembg.js适用于为人物、建筑、电商产品等各种照片自动去除背景&#xff0c;可直接在浏览器内运行&#xff0c; 提供前端JavaScirpt二次开发接口。官方下载地址&#xff1a;Rembg.js图片去背景开发包 。 1、目录组织 Rembg.js开发包的目录组织说明如下&#xff1a; rembg …

ECMAScript性能优化技巧与陷阱

1. 简介 1.1. 概述 ECMAScript是一种编程语言,它是JavaScript的核心语法。ECMAScript是由Ecma International组织定义的标准,它规定了JavaScript的基本语法和核心特性。ECMAScript的前身是JavaScript,但是随着JavaScript的发展,它已经逐渐脱离了JavaScript,成为了一种独…