BERT 论文阅读笔记

文章目录

    • 前言
    • 论文阅读
      • 同类工作比较
      • 模型架构
      • 训练方式
      • 使用步骤
      • 实验结果
    • 其他

前言

BERT是在NLP领域中第一个预训练好的大型神经网络,可以通过模型微调的方式应用于后续很多下游任务中,从而避免了下游NLP应用需要单独构建一个新的神经网络进行复杂的预训练。这样既简化了下游NLP任务的模型训练,又提高了性能。

论文阅读

同类工作比较

  • BERT和GPT的区别:GPT采用的是语言模型的方式进行训练,即用前文的信息来预测下一个单词;而BERT采用的是一种完型填空的方式进行训练,即根据左右的文本预测中间的单词。
  • BERT和ELMo的区别:ELMo采用的网络架构是基于RNN的,而BERT采用的网络架构是基于Transformer的。因此,ELMo应用于下游任务时,需要对网络进行一定的调整,而BERT应用于下游任务的调整更少,相对更加简单。

模型架构

  • 基本架构:双向的Transformer的编码器,并没有对Transformer进行很大的改动。
  • 可以调整的参数:Transformer编码器的层数、隐藏层的维度和多头注意力的头数。
  • 两个不同大小的BERT模型:BERT_base中含有12层Transformer编码器,隐藏层维度为768,注意力的头数为12;BERT_large中含有24层Transformer编码器,隐藏层维度为1024,注意力的头数为16。BERT_large的大小是BERT_base的三倍多,参数量分别是一亿多和三亿多。
  • 模型输入:由于下游任务的多样性,因此BERT的输入可以是一个句子,也可以是一个句子对(这里的句子都是广义的句子,即一段连续的文字)。每一个句子的开头词元都是一个特殊的[CLS]。
  • BERT中的词元嵌入:对于每一个词元,都先对其进行一次嵌入获得一个向量;接着,根据这个词元所在的句子获得第二个嵌入向量;最后,根据这个词元在这个句子中的位置获得第三个嵌入向量。将三个嵌入向量进行相加,即可得到每一个词元的完整嵌入表示形式。

训练方式

  • 第一种训练方式:在文本中随机找出一些token并将其用掩码盖住,模型通过这些token的上下文复原这些词元。具体来说,将预训练数据中12%的词元用特殊词元[MASK]进行替代,1.5%的词元替换为另外一个随机的词元,1.5%的概率仍然保留这个词元。模型训练时,需要对这总共占15%的词元进行预测。第一种训练方式用于学习词元层面的信息。
  • 第二种训练方式:让模型判定给定的两个句子在文本中是否应该是相邻的。第二种训练方式用于学习句子层面的信息。

使用步骤

预训练和微调是BERT的两个使用步骤。

  • 预训练:在没有标号的大量数据集上进行训练;
  • 微调:在少量有标号的数据集上进行微调,模型的所有权重都参与微调过程。

实验结果

在11个NLP任务上取得了目前最好的结果。

其他

BERT及其之后的一些工作,证明了在大量没有标号的数据集上进行模型训练的效果会比在少量有标号数据集上进行模型训练的效果更好。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/762010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

合根植物。

4.合根植物 - 蓝桥云课 (lanqiao.cn) 题目描述 w星球的一个种植园,被分成mxn个小格子(东西方向m行,南北方向n列)。每个格子里种了一株合根植物 这种植物有个特点,它的根可能会沿着南北或东西方向伸展从而与另一个格子的植物合成为一体。 如果…

马斯克开源Grok-1

Grok-1是由马斯克AI创企xAI发布的第一代大语言模型,它以其巨大的参数量——高达3140亿,引起了全球范围内的广泛关注。这一参数量远超其他知名模型,如OpenAI的GPT-3.5,后者仅有1750亿参数。在2024年3月17日,马斯克宣布将…

【jvm】jinfo使用

jinfo介绍 jinfo 是一个命令行工具,用于查看和修改 Java 虚拟机(JVM)的配置参数。它通常用于调试和性能调优。 使用 jinfo 命令,你可以查看当前 JVM 的配置参数,包括堆大小、线程数、垃圾回收器类型等。此外&#xf…

天翼云防火墙配置端口转换案例

环境: 天翼云 云墙 问题描述: 天翼云防火墙配置端口转换案例 云主机192.168.10.9:2231 解决方案: 1.先登入云墙 可以从控制中心登入不用再输入密码 2.新建对象和端口 192.168.10.9:2231 3.到弹性IP这选个公网IP 记住弹性IP和后面虚拟IP 4.新建 目的NAT,按原有复制…

【Arxml专题】-29-使用Cantools将CAN Matrix Arxml自动生成C语言代码

目录 1 安装Python和Cantools 1.1 查看Python已安装的Package包 1.2 在Python中安装Cantools插件包 1.3 获取更多Cantools工具的更新动态 2 CAN Matrix Arxml自动生成C语言代码 2.1 批处理文件CAN_Matrix_Arxml_To_C.bat内容说明 2.2 CAN Matrix Arxml文件要求 2.3 如何…

论文翻译 - Automatically Auditing Large Language Models via Discrete Optimization

Automatically Auditing Large Language Models via Discrete Optimization Abstract1 Introduction2 Related Work3 Formulating and Solving the Auditing Optimization Problem3.1 Preliminaries3.2 The auditing optimization problem Abstract 为意外行为审计大型语言模型…

20232831 2023-2024-2 《网络攻防实践》第3次作业

目录 20232831 2023-2024-2 《网络攻防实践》第3次作业1.实验内容2.实验过程(1)动手实践tcpdump(2)动手实践Wireshark(3)取证分析实践,解码网络扫描器(listen.cap) 3.学习…

【小程序开发】家庭 API 集合(总)

ty.home.getCurrentHomeInfo 获取当前家庭信息 需引入HomeKit,且在>3.0.1版本才可使用 请求参数 Object object 属性类型默认值必填说明completefunction否接口调用结束的回调函数(调用成功、失败都会执行)successfunction否接口调用成…

react拖拽react-beautiful-dnd,一维数组,二维数组

写在前边,二维数组可以拖拽,但是不可以编辑拖拽,如果想要实现编辑拖拽,还是需要转换成一维数组。原因是因为插件的官方规定,在拖拽过程中不可以编辑Droppable层的Props。 相关地址: 中文文档地址 react-be…

VUE中添加视频播放功能

转载https://www.cnblogs.com/gg-qq/p/10782848.html 常见错误 vue-video-player下载后‘vue-video-player/src/custom-theme.css‘找不到 解决方法 卸载原来的video-play版本 降低原来的版本 方法一 npm install vue-video-player5.0.1 --save 方法二 或者是在pack.json中直…

Lucene的lukeall工具的下载和使用图解

Lucene的lukeall工具的下载和使用图解-CSDN博客 Releases DmitryKey/luke (github.com) 需要github的用户名和密码,没有是下载不成功的.

OpenGL学习笔记【4】——创建窗口

一、前三章节的前情回顾 章节一:上下文(Context) OpenGL学习笔记【1】——简介-CSDN博客 章节一讲述了OpenGL在渲染的时候需要一个Context来记录了OpenGL渲染需要的所有信息和状态,可以把上下文理解成一个大的结构体,它里面记录了当前绘制使…

FPGA_AD9361

1.集成12位DAC和ADC的一款器件,2个输入模拟通道和2个输出模拟通道 2.• TX频段:47 MHz至6.0 GHz • RX频段:70 MHz至6.0 GHz 3.SPI配置成LVDS或CMOS接口,也可以还可以选择FDD(频分双工——全双工,操作时需…

JVM垃圾回收之内存分配,死亡对象判断方法

Java 堆是垃圾收集器管理的主要区域,因此也被称作 GC 堆。 堆划分为新生代 老生代 永久代。 下图所示的 Eden 区、两个 Survivor 区 S0 和 S1 都属于新生代,中间一层属于老年代,最下面一层属于永久代。 内存分配原则 对象优先在Eden区域分…

基于PID控制器的四旋翼无人机控制系统的simulink建模与仿真,并输出虚拟现实动画

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1四旋翼无人机的动力学模型 4.2 PID控制器设计 4.3 姿态控制实现 4.4 VR虚拟现实动画展示 5.完整工程文件 1.课题概述 基于PID控制器的四旋翼无人机控制系统的simulink建模与仿真,并输出vr虚拟现实…

docker基础(五)之docker run(第二弹)

文章目录 概述docker run语法命令选项用法速查OPTIONS说明:-h "mars"-e username"ritchie"--env-file[]拓展:为什么 env.list ,拓展名是.list那命名为env.txt 是否能使用--env-file识别呢 --cpuset"0-2" or --…

Chronicles 是什么数据库

可以理解的是 Chronicles 是 EPIC 公司根据 IRIS 进行魔改后的一个 DBMS。 简单的来说 Chronicles 就是一个数据库管理系统,但这个数据库管理系统不是我们常说的关系数据库的管理系统。 数据库结构 只要对数据库有所了解的都知道数据库通常就是 2 个部分&#xf…

10W字解析 SpringBoot技术内幕文档,实战+原理齐飞,spring事务实现原理面试

第3章,Spring Boot构造流程源码分析,Spring Boot的启动非常简单,只需执行一个简单的main方法即可,但在整个main方法中,Spring Boot都做了些什么呢?本章会为大家详细讲解Spring Boot启动过程中所涉及的源代码…

会声会影2023新版本特点以及会声会影2023序列号注册机keygen下载

会声会影简介 虽然现在已经是2024年了,但是大家对会声会影2024的热爱一直不减,很多人后台问我,有没有会声会影2023序列号和注册机,这不,今天这篇文章它来了。 会声会影2023新版特性 1.全新的进入/中场/退出标题动态功…

【Godot 4.2】常见几何图形、网格、刻度线点求取函数及原理总结

概述 本篇为ShapePoints静态函数库的补充和辅助文档。ShapePoints函数库是一个用于生成常见几何图形顶点数据(PackedVector2Array)的静态函数库。生成的数据可用于_draw和Line2D、Polygon2D等进行绘制和显示。因为不断地持续扩展,ShapePoint…