自然语言处理(NLP)中的迁移学习

Transfer Learning in NLP

迁移学习(Transfer Learning)无疑是目前深度学习中的新热点(相对而言)。在计算机视觉领域,它已经应用了一段时间,人们使用经过训练的模型从庞大的ImageNet数据集中学习特征,然后针对较小的数据针对不同的任务对其进行进一步的训练。但是,在NLP中,迁移学习主要限于使用预训练的单词嵌入(这大大改善了基线)。最近,研究人员正在努力将整个模型从一项任务转移到另一项任务,这就是本文的主题。

Sebastian Ruder和Jeremy Howard也许是第一个通过其提出的ULMFiT方法,在NLP中的应用了迁移学习方法,该方法超越了所有最新的文本分类技术。

紧接着,OpenAI 在几个NLP任务上扩大了他们的想法,并超越了SOTA。

在2018年NAACL上,获得最佳论文奖的是介绍ELMo的论文,该论文是一种新的词嵌入技术,与ULMFiT背后的思想非常相似,该技术来自位于UWash的AllenAI和 Luke Zettlemoyer小组的研究人员。

在本文中,我将讨论所有这些新工作以及它们之间的相互关系。让我们从Ruder和Howard的引领潮流的架构开始。

用于文本分类的通用语言模型微调

《Universal Language Model Fine-Tuning for Text Classification》

用于文本分类(或任何其他受监督的NLP任务)的大多数数据集都非常小。这使得训练深度神经网络非常困难,因为深度神经网络倾向于过度拟合这些小的训练数据,并且在实践中不能很好地概括。

在计算机视觉领域,在庞大的ImageNet语料库上对任何模型进行预训练,是近些年的趋势。这比随机初始化好得多,因为该模型可以学习一般的图像特征,然后可以将其用于任何视觉任务(例如字幕或检测)。

Howard和Ruder从这个想法中得到启发,提出了一个bi-LSTM模型,该模型在一般的语言建模(LM)任务上进行训练,然后在文本分类上进行微调。原则上讲,这会很好地执行,因为该模型将能够使用从生成式预训练中获得的语 言语义知识。理想地,可以从任何源任务(source task)S到目标任务(target task)T进行此迁移。作者使用LM作为源任务,因为:

  • 它能够捕获语言的长期依赖long-term dependencies
  • 它有效地合并了层级hierarchical关系
  • 它可以帮助模型学习情绪sentiments
  • LM很容易获得大数据语料库

正式地,“ LM引入了一个假设空间H,该假设空间H对于许多其他NLP任务应该是有用的。”

对于体系结构,他们使用当时的SOTA: AWD-LSTM(应该是一个多层的双向LSTM网络,没有注意力模块,详参Salesforce Research的论文中的详细信息)。该模型在WikiText-103语料库上进行了训练。

训练完通用LM后,可以进行一些微调,将其按原样用于多个分类任务。为了进行这种微调和后续分类,作者提出了3种实现技巧。

区分性微调 Discriminative fine tuning:在LM的微调阶段(针对目标任务),不同的学习速率用于不同的层。这样做是因为这些层捕获了不同类型的信息。

斜三角学习率 Slanted triangular learning rates (STLR):学习率首先线性增加,然后在切割后逐渐降低,即“短暂增加 short increase”和“长时间衰减 long decay”。这类似于积极的余弦退火学习策略,现在很流行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/19055.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英飞凌24GHz毫米波雷达-BGT24LTR11N16家用机器人应用

BGT24LTR11N16基础描述: 关于BGT24LTR11N16,它是一款用于信号生成和接收的硅锗雷达MMlC,工作频率为24.00GHz至24.25GHz ISM频段。它基于24GHz基本电压控制振荡器(VCO)。 这颗芯片是属于1T1R,也就是一发一收…

真实机安装完Centos7没有网卡驱动,ifconfig后,只有lo

文章目录 前言一、1查看网卡型号2 下载相应的驱动程序3、参考官方说明 二、总结 前言 参考1 参考2](https://blog.csdn.net/weixin_46945904/article/details/136365222?spm1001.2101.3001.6650.2&utm_mediumdistribute.pc_relevant.none-task-blog-2defaultYuanLiJiHuaP…

检索字符串

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中,字符串对象提供了很多应用于字符串查找的方法,这里主要介绍以下几种方法。 (1)count()方…

【busybox记录】【shell指令】rmdir

目录 内容来源: 【GUN】【rmdir】指令介绍 【busybox】【rmdir】指令介绍 【linux】【rmdir】指令介绍 使用示例: 删除空目录 - 默认 删除dirname下的所有空目录,包括因删除其他目录而变为空的目录 常用组合指令: 指令不…

多激光雷达ip与端口配置

首先是雷达的ip 我们连上雷达,想要进入雷达的上位机的时候,需要对本机ip进行一些配置: 第一个是ip,第二个是掩码,第三个是网关。 其中ip可以通过wireshark来进行读取,一般就是192.168.102(雷达默认) 然后掩…

Selenium中使用的三种等待

文章目录 1.前言2.在selenium中常见的等待操作一般有3个 1.前言 在使用selenium时很多元素在使用的时候都需要加载,如果不等待加载结束直接使用就会报错,功能不能继续。一般解决的办法就是使用等待操作。 2.在selenium中常见的等待操作一般有3个 slee…

自定义数据集上的3D目标检测:使用OpenPCDet训练CenterPointPillar模型

前言 在自动驾驶和机器人领域,3D目标检测是关键技术之一。它能够提供关于周围环境中物体的精确位置和尺寸信息。OpenPCDet是一个基于PyTorch的开源3D目标检测框架,支持多种3D检测网络。在本文中,我们将探讨如何使用OpenPCDet框架和CenterPoi…

springboot3 controller中的参数 本地开发可以正常注入,但是打包到生产后就无法识别,必须使用@RequestParam后才可以识别问题解决

问题 在Controller代码中声明了一个参数,本地可以正常注入: RestController public class TestController {GetMapping("test")public String test(String testParam) {return "test" testParam;} }在本地 访问 GET http://local…

树莓派4B 学习笔记1:TF卡系统盘烧录_初次启动_远程端连接配置

今日开始学习树莓派4B 4G:(Raspberry Pi,简称RPi或RasPi) TF卡系统盘烧录_初次启动_远程端连接配置 目录 格式化SD卡: 烧录系统Win32DiskImager: Raspberry Pi Imager镜像烧写: 树莓派官网资料…

浅谈traceroute网络诊断工具

traceroute 是一个网络诊断工具,用于跟踪和显示数据包从源主机到目标主机所经过的每一跳(路由器)的路径。它能够帮助用户识别网络路径中的瓶颈和故障点。traceroute 的工作原理主要基于 ICMP(Internet Control Message Protocol&a…

合约之间调用-如何实现函数静态调用?

合约之间的函数调用 EOA,external owned account,外部账号,例如metamask调用最终总是由EOA发起的合约之间的调用使得一次完整的调用成为一个调用链条 合约间调用过程 调用者须持有被调用合约的地址得到被调用合约的信息将地址重载为被调用合…

NAS搭建自己的Git私服

去年公司采购了一台NAS设备,本来是给文化业务部门做素材库用的,结果我发现磁盘利用率很低,看着那么贵的希捷酷狼闲置真心痛啊!突然想到目前公司软件研发的源码管理分两块,一个是gitee,一个是阿里云ECS服务器…

据报导,SK海力士的HBM团队源自三星,暗示三星不幸失去HBM优势

最新科技动态显示,三星的高带宽记忆体(High Bandwidth Memory, HBM)技术尚未获得GPU巨头英伟达(NVIDIA)的认证,导致其落后于竞争对手SK海力士。这一挫折直接导致三星半导体部门负责人更迭。尽管三星官方否认…

使用swagger2做测试,报java.lang.NumberFormatException: For input string: ““ 的异常

文章目录 一、问题描述二、原因分析三、解决方案3.1、方案一&#xff1a;手动添加example值&#xff08;费时费力不推荐&#xff09;3.2、方案二&#xff1a;导入1.5.21(及之后)版本的swagger-models&#xff08;推荐&#xff09; 本文基于swagger2.9.2进行讲解 <!--swagge…

C# CryptoStream流的详解与示例

在当今数字时代&#xff0c;数据安全变得越来越重要。保护敏感信息免受未授权访问是每个开发者的责任。在C#中&#xff0c;使用CryptoStream流可以方便地对数据进行加密和解密。本文将详细介绍C# CryptoStream库的用法、功能以及它如何对数据进行加密和解密。 一、CryptoStrea…

理解和使用JSON Web Tokens(JWT)进行Web应用程序授权

理解和使用JSON Web Tokens(JWT)进行Web应用程序授权 如今,Web令牌是在网络中进行授权的一种非常流行的方式。JWT在Microsoft的背景下也变得非常流行,并且对我们今天构建应用程序的方式产生了一些其他影响。在本篇笔记中,我们将学习JWT是什么,以及如何在保护Web应用程序…

HTTP Digest Access Authentication Schema

HTTP Digest Access Authentication Schema 背景介绍ChallengeResponse摘要计算流程总结参考 背景 本文内容大多基于网上其他参考文章及资料整理后所得&#xff0c;并非原创&#xff0c;目的是为了需要时方便查看。 介绍 HTTP Digest Access Authentication Schema&#xff…

基础—SQL—DQL(数据查询语言)基础查询

一、引言 1、介绍&#xff1a; 分类全称描述DQL英文全称&#xff1a;Data Query Language(数据查询语言)主要是学习对数据库表中的记录进行查询的语句 2、讲解 日常的开发中或者对于一个正常的业务系统中&#xff0c;对于查询的操作次数是远远多于数据的增删改的频次。例如…

8. CSS弹性布局基础

第8章 弹性布局基础 CSS3引入了一个强大的布局模块——弹性布局&#xff08;Flexbox&#xff09;&#xff0c;它提供了一种更加高效、直观的方式来排列和对齐元素&#xff0c;使复杂布局的实现变得更加简单。本章将详细介绍弹性布局的基本概念和属性&#xff0c;并通过具体示例…

哪里能下载到合适的衣柜3D模型素材?

室内设计师在进行家居设计时&#xff0c;衣柜3D模型素材是非常重要的工具。那么&#xff0c;哪里能下载到合适的衣柜3D模型素材呢? 一、建e网&#xff1a; ①建e网是一个专注于3D模型素材分享的平台&#xff0c;上面可以找到大量的衣柜3D模型。 ②该网站提供的模型种类丰富&am…