做视频网站资金多少/数据分析师资格证书怎么考

做视频网站资金多少,数据分析师资格证书怎么考,ui设计的工作流程分为哪三类,wordpress要不要放网站地图📕参考::2020-11-02,https://kns.cnki.net/kcms/detail/11.2127.tp.20201030.1952.017.html 主要是这篇文章的自己摘了点笔记。 预训练模型的深度学目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现…

📕参考::2020-11-02,https://kns.cnki.net/kcms/detail/11.2127.tp.20201030.1952.017.html

主要是这篇文章的自己摘了点笔记。


预训练模型的深度学目标是如何使预训练好的模型处于良好的初始状态,在下游任务中达到更好的性能表现。对预训练技术及其发展历史进行介绍,并按照模型特点划分为基于概率统计的传统模型和基于习的新式模型进行综述。

1.预训练技术的概述

预训练技术是指预先设计网络结构,并对编码后的数据输入到网络结构中进行训练,增加模型的泛化能力。

预训练后的模型可以直接根据下游任务需求进行微调,免去了从零开始的过程。

语言模型可以看作是一串词序列的概率分布,因此在早期,研究人员提出了N-gram模型,它是基于统计语言模型的算法,但是这种做法只能通过概率统计进行判断,会使数据出现严重的稀疏性,无法考虑词内部的关联

随着深度学习技术的迅速发展,词嵌入正式登上历史的舞台,Bengio等人在2003年提出NNLM模型[4],随后出现了一系列词向量技术(如Word2Vec、Glove、FastTest等)为文本提供了一种数值化的表示方法,但是无法解决一词多义的问题

于是ELMo应运而生,它采用双向的长短期记忆网络(Long Short-Term Memory,
LSTM)进行进行预训练,将词向量由静态转化为动态,使其可以结合上下文来赋予词义

GPT首次提出了无监督的预训练和有监督的微调,使得训练好的模型能够更好地适应下游任务。BERT首次将双向Transformer用于语言模型,使得该模型相对GPT对语境的理解会更加深刻。

2.预训练技术模型简介

在NLP领域上,其发展趋势可以概括为三阶段:规则-统计-深度学习。

基于规则的

        一开始,研究人员的研究的重点放在如何设定语言规则上面,但是这个阶段不能处理复杂
的语言问题,因此没有太大的应用价值。

统计语言模型

        统计语言模型是基于语料库对语句进行预处理,然后对下游任务进行基于概率的判别。

        N-gram是自然语言处理领域中具有显著历史意义的特征处理模型,基本思想是将文本内容按照字节大小为N的滑动窗口进行操作,形成长度是N的字节片段序列,然后对所有的序列的出现频度进行统计,并且按照实现设定好的阈值进行过滤,形成了这个文本的特征向量空间。然后用训练后的模型对语句进行概率评估,来判断组成是否合理。

        N-gram模型是对文本特征进行预处理,它是将相邻的n个词作为一组进行编码,这就导致它过于依赖训练语料的丰富程度,否则就很容易出现数据稀疏问题,并且计算复杂度会随着n的增加而产生指数级的增长。

传统预训练模型

        Word2Vec模型的计算复杂度和选取的窗口大小无关,而是由词典大小和词向量维度来决定。但是静态的词向量对一词多义等问题仍然无法解决,仍然属于浅层语言模型。

        尽管Word2Vec极大改善了对文本的处理任务,但是难以捕获上下文的高级概念,如多义词消除、句法结构等问题。

        Word2Vec提出了两个新的模型体系结构:Skip-gram和CBOW,其中Skip-gram模型是通过输入特定词向量,输出上下文对应的词向量。CBOW是通过输入某一特征词的上下文对应词向量来输出特定向量。两个模型基本思想相似,都是通过训练学习得到权重矩阵,根据矩阵得到文本中词所对应的词向量,节省了再次训练的时间和资源。

基于深度学习的预训练模型

  ELMo

        ELMo等动态预训练模型的提出很好地解决了这些问题,比如ELMo中的词向量不再是简单的向量对应关系,而是通过前后语境对多义词进行理解,用其内部函数来表达。

        ELMo是基于特征的语言模型,可以结合上下文语境对词进行建模。ELMo中词向量表示的是内部网络状态函数,对于相同的词它所展现出来的词向量是动态变化的

它首先采用双向LSTM进行预训练,这个模型包括前向LSTM模型和后向LSTM模型

前向公式:前k-1个词预测第k个词。

后向公式:已知第k个词后面的词,预测第k个词。

GPT模型
 

GPT首次无监督的预训练和有监督的微调相结合,使得模型更加符合下游任务的需求。,GPT针对NLP下游任务采用统一框架,直接在Transformer[11]上的最后一层接上softmax作为任务输出层,减少了计算复杂度。

GPT的训练过程也包括两个阶段,第一阶段是在大型文本语料库上对模型进行预训练,第二阶段是微调阶段,让模型更好地适应下游任务。

无监督的预训练阶段:自回归,已知几个词预测下一个词的概率。

有监督训练:对标签,学习已知 x1 x2 x3....预测标签为y的概率。并极大化似然函数来调参。

BERT

BERT证明了使用双向预训练效果更好,解决了GPT模型为了防止泄密,在进行预测时舍弃了下文信息的局限性。,它使用的是Transformer编码器,由于self-attention机制,所以模型上下层直接全部互相连接的。

在模型输入方面,BERT输入的编码向量是词向量、位置向量、句子切分向量这三个嵌入特征的单位和。
在模型的预训练上,BERT利用两个监督任务进行预训练。
第一个任务是Mask LM(MLM),为了解决GPT完全舍弃下文的问题,不再进行整个句子的预测而是对某个词去做预测,首先屏蔽一定百分比的词,然后通过模型实现对屏蔽词的预测,来进行训练。但是会存在两点不足:一是由于屏蔽的词在微调期间并不会出现,在进行微调时会出现与预训练不匹配的问题。二是预测的是屏蔽掉的是词而非句子,会使整个句子预训练的收敛速度更慢。

针对第一个不足的解决办法是在80%时间保持屏蔽的状态,10%的时间里进行随机词替换,10%
的时间使用词本身
。对于第二个问题,作者认为收敛速度算是对模型效果提升的妥协。
第二个任务是Next Sentence Prediction(NSP),主要是为了实现基于上个句子对下个句子的预测,首先在50%的时间是拼接原始的上下句子,标签设为正例。50%的时间里拼接原始句子与随机的下一句,标签设为负例,这样做的目的是提取句子间的关系。在随后发布的XLNet取消了这个任务,并且RoBERTa[38]和SpanBERT[39]通过测试发现,没有NSP的话模型的效果会更好。
 

目前的研究表明,在大型无标注语料库进行预训练,可以在NLP任务上显著提高模型性能。

目前主要有两种常见的迁移学习方式:特征提取和微调,两者的区别就是以ELMo等为代
表的模型使用的特征提取方法冻结了预训练参数
,而以BERT等为代表的模型采用的微调则是动态地改变参数,根据下游任务进行参数上的微调。特征提取需要更复杂的任务架构,并且就综合性能来看,微调的方法更适合下游任务。
 


NLP常见的下游任务可以分为四大类:

第一类任务是序列标注,比如分词、命名实体识别、语义标注等;

第二类任务是分类任务,比如文本分类、情感分析等;

第三类任务是句子关系判断,比如句法分析、问答QA、自然语言推理等;

第四类是生成式任务,比如机器翻译、文本摘要、阅读理解、对话系统等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一次Linux下 .net 调试经历

背景: Xt160Api, 之前在windows下用.net调用,没有任何问题。 但是移植到Linux去后,.net程序 调用 init(config_path) 总是报错 /root/test 找不到 traderApi.ini (/root/test 是程序目录) 然后退出程序 解决过程: 于是考虑是不是参数传错了&…

iOS底层原理系列01-iOS系统架构概览-从硬件到应用层

1. 系统层级结构 iOS系统架构采用分层设计模式,自底向上可分为五个主要层级,每层都有其特定的功能职责和技术组件。这种层级化结构不仅使系统更加模块化,同时也提供了清晰的技术抽象和隔离机制。 1.1 Darwin层:XNU内核、BSD、驱动…

日志存储与分析

日志是系统运行的详细记录,包含各种事件发生的主体、时间、位置、内容等关键信息。出于运维可观测、网络安全监控及业务分析等多重需求,企业通常需要将分散的日志采集起来,进行集中存储、查询和分析,以进一步从日志数据里挖掘出有…

Flutter 边框按钮:OutlinedButton 完全手册与设计最佳实践

目录 1. 引言 2. OutlinedButton 的基本用法 3. 主要属性 3.1 核心属性详解 3.2 ButtonStyle 子属性详解 (styleFrom/copyWith) 状态响应优先级说明 4. 自定义按钮样式 4.1 修改边框颜色和文本颜色 4.2 修改按钮形状 4.3 修改按钮大小 4.4 集中演示 5. 结论 相关推…

【Node.js入门笔记4---fs 目录操作】

Node.js入门笔记4 Node.js---fs 目录操作一、目录操作1.fs.mkdir():创建目录。异步,非阻塞。创建单个目录创建多个目录创建目前之前需要确认是否存在: 2. fs.mkdirSync():用于创建一个新的目录。异步,非阻塞。3.fs.rmd…

IP风险度自检,互联网的安全“指南针”

IP地址就像我们的网络“身份证”,而IP风险度则是衡量这个“身份证”安全性的重要指标。它关乎着我们的隐私保护、账号安全以及网络体验,今天就让我们一起深入了解一下IP风险度。 什么是IP风险度 IP风险度是指一个IP地址可能暴露用户真实身份或被网络平台…

【软考-架构】5.3、IPv6-网络规划-网络存储-补充考点

✨资料&文章更新✨ GitHub地址:https://github.com/tyronczt/system_architect 文章目录 IPv6网络规划与设计建筑物综合布线系统PDS💯考试真题第一题第二题 磁盘冗余阵列网络存储技术其他考点💯考试真题第一题第二题 IPv6 网络规划与设计…

SVN学习笔记

svn:版本控制软件 解决:1.协作开发 2.远程开发 3.版本回退 服务端软件: VisualSVN http://www.visualsvn.com 客户端软件:Tortoisesvn http://tortoisesvn.net/downloads 1.checkout(检出) 第一查更新数据到本地, 2.update&#xf…

基于asp.net实现的连锁餐厅收银系统[包运行成功+永久免费答疑辅导]

基于ASP.NET实现的连锁餐厅收银系统背景,可以从以下几个方面进行阐述: 一、技术背景 ASP.NET框架的普及与优势: ASP.NET是微软开发的一种用于构建Web应用程序的框架,它基于.NET Framework,提供了丰富的类库和开发工具…

PyTorch 深度学习实战(11):强化学习与深度 Q 网络(DQN)

在之前的文章中,我们介绍了神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、Transformer 等多种深度学习模型,并应用于图像分类、文本分类、时间序列预测等任务。本文将介绍强化学习的基本概念&#xff0…

92.HarmonyOS NEXT开发学习路径与最佳实践总结:构建高质量应用

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT开发学习路径与最佳实践总结:构建高质量应用 文章目录 HarmonyOS NEXT开发学习路径与最佳实践总结:构建高质…

HarmonyOS-应用程序框架基础

应用程序框架与应用模型的区别 应用框架可以看做是应用模型的一种实现方式,开发人员可以用应用模型来描述应用程序的结构和行为的描述,然后使用应用程序框架来实现这些描述。 应用模型 应用模型是一个应用程序的模型,它是一种抽象的描述&a…

审批工作流系统xFlow

WorkFlow-审批流程系统 该项目为完全开源免费项目 可用于学习或搭建初始化审批流程系统 希望有用的小伙伴记得点个免费的star gitee仓库地址 仿钉钉飞书工作审批流系统 介绍 前端技术栈: vue3 ts vite arcodesign eslint 后端技术栈:springbootspring mvc mybatis mavenmysq…

本地算力部署大模型详细流程(二)

1、前景回顾 上一篇我们通过ollama本地部署了一个DeepSeek,因为没有前端操作页面,我们只能使用cmd的方式和deepseek对话体验感并不是很好,下面我们通过Docker部署一个前端页面(Open WebUI) Open WebUI地址:…

django+vue3实现前后端大文件分片下载

效果: 大文件分片下载支持的功能: 展示目标文件信息提高下载速度:通过并发请求多个块,可以更有效地利用网络带宽断点续传:支持暂停后从已下载部分继续,无需重新开始错误恢复:单个块下载失败只…

ICMP、UDP以及IP、ARP报文包的仲裁处理

在之前的章节中,笔者就UDP、ICMP、IP、ARP、MAC层以及巨型帧等做了详细介绍以及代码实现及仿真,从本章节开始,笔者将就各个模块组合在一起,实现UDP协议栈的整体收发,在实现模块的整体组合之前,还需要考虑一…

【NLP 38、实践 ⑩ NER 命名实体识别任务 Bert 实现】

去做具体的事,然后稳稳托举自己 —— 25.3.17 数据文件: 通过网盘分享的文件:Ner命名实体识别任务 链接: https://pan.baidu.com/s/1fUiin2um4PCS5i91V9dJFA?pwdyc6u 提取码: yc6u --来自百度网盘超级会员v3的分享 一、配置文件 config.py …

Linux 蓝牙音频软件栈实现分析

Linux 蓝牙音频软件栈实现分析 蓝牙协议栈简介蓝牙控制器探测BlueZ 插件系统及音频插件蓝牙协议栈简介 蓝牙协议栈是实现蓝牙通信功能的软件架构,它由多个层次组成,每一层负责特定的功能。蓝牙协议栈的设计遵循蓝牙标准 (由蓝牙技术联盟,Bluetooth SIG 定义),支持多种蓝牙…

JetBrains(全家桶: IDEA、WebStorm、GoLand、PyCharm) 2024.3+ 2025 版免费体验方案

JetBrains(全家桶: IDEA、WebStorm、GoLand、PyCharm) 2024.3 2025 版免费体验方案 前言 JetBrains IDE 是许多开发者的主力工具,但从 2024.02 版本起,JetBrains 调整了试用政策,新用户不再享有默认的 30 天免费试用…

Prosys OPC UA Gateway:实现 OPC Classic 与 OPC UA 无缝连接

在工业自动化的数字化转型中,设备与系统之间的高效通信至关重要。然而,许多企业仍依赖于基于 COM/DCOM 技术的 OPC 产品,这给与现代化的 OPC UA 架构的集成带来了挑战。 Prosys OPC UA Gateway 正是为解决这一问题而生,它作为一款…