transformers模型预训练

模型预训练是指在深度学习领域中,先在一个大规模数据集上对模型进行初步训练,使模型能够学习到基本的特征表示和模式,然后再针对具体任务或特定数据集进行微调的过程。本次主要介绍掩码语言模型预训练以及因果语言模型预训练。

掩码语言模型预训练是自然语言处理领域中的一种重要技术,主要用于学习文本的上下文表征。其中最具代表性的模型是BERT(Bidirectional Encoder Representations from Transformers)。
在BERT的预训练过程中,它引入了“遮蔽语言模型”(Masked Language Model, MLM)的任务。具体来说,模型会随机地对输入序列中的部分词汇进行遮蔽(通常遮蔽比例为15%左右),然后让模型根据上下文信息预测这些被遮蔽掉的词汇内容。
例如,在一个句子"猫喜欢吃鱼"中,模型可能会将"吃"字遮蔽并用特殊标记[MASK]替代,然后通过理解上下文"猫喜欢"和"鱼"来预测出"吃"这个动作词。
这种预训练方法使得模型能够从双向上下文中学习到词汇的语义和句法特征,从而获得强大的语言理解和生成能力。预训练结束后,可以将得到的模型参数用于下游各种自然语言处理任务,如分类、问答、命名实体识别等,只需在此基础上进行微调即可。

因果语言模型(Autoregressive Language Model)预训练是一种自然语言处理中基于自回归机制的模型训练方法,与掩码语言模型(如BERT)不同,因果语言模型在预训练时是单向预测序列中的下一个词。
以GPT(Generative Pre-training Transformer)系列模型为例,它们在预训练阶段主要遵循的是左到右(或右到左)的顺序建模原则。对于一个给定的文本序列,模型会根据当前时刻之前的所有词汇来预测下一个词汇的概率分布。换句话说,在训练过程中,每个时间步仅能看到历史信息而不能看到未来信息。
例如,在句子"狗喜欢吃骨头"中,预训练过程会对模型进行训练,使其学会根据"狗喜欢"预测出下一个词“吃”,然后根据"狗喜欢吃"预测出“骨头”。
通过这种自回归的方式学习大量未标注文本数据,因果语言模型能够捕获词语间的长期依赖关系和潜在的语言规律,并在预训练完成后应用于各种下游任务,如文本生成、问答系统等,同样需要微调来适应特定任务的需求。

1、掩码语言模型预训练:

# 导包
from datasets import load_dataset, Dataset
from transformers import AutoTokenizer, AutoModelForMaskedLM, TrainingArguments, Trainer, DataCollatorForLanguageModeling
# 加载数据集
dataset = Dataset.load_from_disk("/wiki_cn_filtered")
print(dataset[0])
# 数据处理
tokenizer = AutoTokenizer.from_pretrained(&#

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/708670.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入探讨Qt树状显示功能:理论与实践

在当今的软件开发领域,数据的组织和展示方式对于提升用户体验至关重要。树状显示功能作为一种常见的数据展示方式,能够以层次分明的形式展示复杂的数据结构,极大地增强了应用程序的可用性和可理解性。Qt框架作为一种跨平台的C图形用户界面应用…

SRC漏洞挖掘思路手法

这段时间挖掘了挺多的SRC漏洞,虽然都是一些水洞,也没有一些高级的漏洞挖掘利用手法,但是闲下来也算是总结一下,说说我对SRC漏洞挖掘的思路技巧。 很多人可能都挖过很多漏洞其中包括一些EDU或者别的野战,但是对于SRC往…

QQ录屏会录到外界声音吗?这篇文章告诉你答案

在现代网络科技快速发展的今天,屏幕录制已成为人们日常办公、学习、娱乐的重要工具。qq作为国内最受欢迎的社交软件之一,其内置的屏幕录制功能受到很多人的青睐。可是使用的过程中,很多人会有疑问:qq录屏会录到外界声音吗&#xf…

数据结构(C语言版)01

//顺序存储 int main(){ int ans[5]{1,1,1,1,3};//定义并初始化 printf("%d",ans[4]); return 0; } //链式存储 Typdef struct Lnode{ElemType data;struct Lnode *next; }Londe,*LinKlist;Londe *L; L(LinkList)malloc(sizeof(Lnode)); A->nextB;B->nextC;…

Python中re模块的使用

在Python中,处理正则表达式的模块是re模块。通过re模块,可以使用正则表达式来进行字符串的匹配、查找、替换等操作。执行效率特别高,可读性不强。 1.方法 match 从头开始匹配 返回Match 或者None import re r re.match(".\w{10}"…

单片机烧录方式 -- IAP、ISP和ICP

目录 背景 1 什么是ICP 2 什么是ISP 3 什么是IAP 4 总结 背景 对于51单片机,我们使用STC-ISP上位机软件通过串口进行程序的烧写;对于STM32系列单片机,我们既可以通过串口烧写程序,也能通过JLink或是STLink进行程序的烧写&am…

如何保护服务器的安全

互联网的迅速发展,让很多企业都很重视网络技术的使用,但是网络的传播速度比较快,同时容易造成数据、隐私方面的泄露现在每个企业基本有自己的服务器。有几点需要注意,可以参考: 1.基础密码安全 最基本的安全就是密码安…

linux 如何给服务器批量做免密,如何批量挂在磁盘

前提条件 所有机器网络互通,且已做了免密登录 linux服务器批量做免密脚本如下 #!/bin/bash # 定义服务器列表文件 SERVERS_FILE"host" # 定义生成的密钥的存储目录 KEY_DIR"/root/.ssh" # 检查是否输入了文件路径 if [ $# -ne 1 ]; then …

车载电子电器架构 —— 基础技术开发概述

车载电子电器架构 —— 基础技术开发概述 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗…

.Net Core与存储过程(一)

例子1 C# 调用存储过程 CREATE PROCEDURE [dbo].[spFunc] id BIGINT, isTrue BIT, str NVARCHAR (60), strZh NVARCHAR (60) AS BEGINSELECT *FROM tableAWHERE id idAND isTrue isTrueAND str strAND strZh strZh; ENDlong idLong 18; bool isBoolean true; string …

【element-ui】el-select multiple多选,表单校验问题解决方法

在项目开发过程中发现,el-select设置了multiple支持多选属性之后,el-select赋值之后,表单校验不通过 解决思路及解决方法: 1、首先看看v-model 、prop属性、rules校验是否正确,这里注意el-select的rules校验的trigger…

代码随想录三刷day17

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、力扣144. 二叉树的前序遍历二、力扣145. 二叉树的后序遍历三、力扣94. 二叉树的中序遍历四、力扣144. 二叉树的前序遍历无、力扣145. 二叉树的后序遍历六、…

【Go语言】Go语言中的指针

Go语言中的指针 变量的本质是对一块内存空间的命名,我们可以通过引用变量名来使用这块内存空间存储的值,而指针则是用来指向这些变量值所在内存地址的值。 注:变量值所在内存地址的值不等于该内存地址存储的变量值。 Go语言中,…

42.do...while语句

目录 一.什么是do...while语句 二.语法 三.执行流程图 四.举例 五.视频教程 一.什么是do...while语句 do...while语句也是循环语句,和while语句的区别是,while语句是先判断表达式,如果表达式成立才会执行循环体中的内容,否则…

新书速览|Python数据分析快速上手

从零开始,小白轻松入手,一步一步教你学数据分析,让数据分析变得简单易懂 本书内容 《Python数据分析快速上手》通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行数据分析应该掌握的各方面技术。本书内容包括Python基…

LeetCode215: 数组中的第K个最大元素

题目描述 给定整数数组 nums 和整数 k,请返回数组中第 k 个最大的元素。 请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素。 你必须设计并实现时间复杂度为 O(n) 的算法解决此问题。 示例 1: 输入: [3,2,1,5,6,4…

区块链游戏解说:什么是 Arcade Champion

作者:lesleyfootprint.network 编译:cicifootprint.network 数据源:Arcade Champion Dashboard 什么是 Arcade Champion Arcade Champion 代表了移动游戏世界的重大革新。它将经典街机游戏的怀旧与创新元素结合在一起,包括 NF…

自学Python笔记总结(2——了解)

网络了解 网络调试助手 NetAssist.exe NetAssist.exe 使用方法请自行寻找 UDP协议 (只能一来一回的的发消息,不可连续发送) UDP 是User Datagram Protocol的简称, 中文名是用户数据报协议。在通信开始之前,不需要建…

计算机网络体系结构

本篇博客是基于谢希仁编写的《计算机网络》和王道考研视频总结出来的知识点,本篇总结的主要知识点是第一章的计算机网络概述。 计算机网络概述 整体介绍 概念 计算机网络:是一个将分散的。具有独立功能的计算机系统,通过通信设备和线路连…

Android13 framework添加关机接口

framework层修改: t0_sys/frameworks/base/core/api/current.txt method RequiresPermission(android.Manifest.permission.REBOOT) public void reboot(Nullable String);method public void rebootp();t0_sys/frameworks/base/core/java/android/os/IPowerManager…