2025秋招NLP算法面试真题(十四)-RoBERTa-Bert的改进

RoBERTa:更大更多更强

今天分享一个Bert的改进工作RoBERTa。RoBERTa是训练充分的Bert。

主要掌握以下几点,与Bert相比较,RoBERTa预训练的时候:

  1. 动态掩码:comparable or slightly better
  2. 去掉NSP任务并且更改数据输入格式为全部填充可以跨越多个文档
  3. 更多数据,更大bsz,更多的步数,更长训练时间

1. 动态掩码

首先明确Bert使用的是静态掩码。但是这样会存在一个现象,比如我训练40个epoches,那么每次epoches都是使用同一批数据。

这其实不是什么大问题,我们在深度学习训练模型的时候,每个epoches基本都没咋变过。

不过对于Bert,其实本质是一个自监督模型。每次的训练输入如果是不同的,对于模型肯定是更好的。

比如我们句子为:今天去哪里吃饭啊?

mask之后为:今天去哪里[mask]饭啊?

每次训练使用同一个mask样本,那么模型见得就少。

如果换一个mask:[mask]天去哪里吃饭啊?

模型对于同一个句子,在预测不同的单词,那么模型对句子的表达能力直觉上肯定是会上升的。

所以为了缓解这种静态掩码的问题,Bert的操作是这样的:

复制原始样本10份,每份都做不同的静

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/39892.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《浔川AI社 AI 产品上线公告》——浔川总社(浔川周报第一期 24.7.2pm)

《浔川 Python 社 AI 产品上线公告》 尊敬的用户: 您好! 我们非常高兴地向您宣布,浔川 AI 社经过不懈的努力和创新,现已成功上线 3 款令人瞩目的 AI 产品! 这 3 款 AI 产品分别是: 浔川AI翻译v3.0&#xff…

Qt时间日期处理与定时器使用总结

一、日期时间数据 1.QTime 用于存储和操作时间数据的类,其中包括小时(h)、分钟(m)、秒(s)、毫秒(ms)。函数定义如下: //注:秒(s)和毫秒(ms)有默认值0 QTime::QTime(int h, int m, int s 0, int ms 0) 若无须初始化时间数据,可…

redis 消息订阅命令

在 Redis 中,消息订阅和发布是一种用于实现消息传递的机制。主要命令包括 SUBSCRIBE、UNSUBSCRIBE、PUBLISH 和 PSUBSCRIBE 等。下面是如何使用这些命令的详细说明和示例。 1. SUBSCRIBE 命令 SUBSCRIBE 命令用于订阅一个或多个频道,以接收这些频道发布…

常见sql语句练习

Tips:之前查看网上的文章感觉太乱了,所以自己整理了一套sql语句来练习,主要也可以拿来应对面试,需要的可以自行下载练习 包含基本语句、聚合函数、模糊查询、范围查询、排序、聚合、分组、分页、子查询、索引和视图、左右连接、双…

无人值守过磅管理系统实现数据实时传递

依据为某公司信息化系统建设前提下,客商平台在线预约称重、车辆到场智能排队系统、空车入场取装车票装车、门岗智能管控系统、建设地磅无人值守、进出货场管理系统、手机APP远程派车、查询报表、查询实时过磅数据,集中式监控管理系统,配合无人…

分享快乐,分享5款我认为好用的软件

​ 分享是奉献的果实,分享是快乐的前提。每天给小伙伴们分享自己认可的软件,也是莫大的一种幸福,今天依然带来五款好用的软件。 1.文本编辑——Notepads ​ Notepads是一款简约高效的文本编辑器,专为Windows10及以上版本设计。它…

Debian linux安装最新版Cmake

直接sudo apt install camke不是最新版本 卸载cmake sudo apt autoremove cmake下载cmake cmake官网 最上面的是候选版本,往下滑是最新稳定版 解压(改成自己的包) tar -zxvf cmake-3.30.0-rc4.tar.gz进入解压后的文件夹 lscd cmake-3.3…

每天一个数据分析题(三百九十二)- 多元线性回归

多元线性回归的正规方程组中系数矩阵X’X的阶数等于?(p个变量,n个观测值) A. n B. p-1 C. p D. n-1 数据分析认证考试介绍:点击进入 题目来源于CDA模拟题库 点击此处获取答案 数据分析专项练习题库 内容涵盖Py…

等保测评——云计算扩展测评项

安全物理环境-基础设施位置 应保证云计算基础设置位于中国境内。 该控制点是针对云计算平台提出的安全要求,公有云服务商和自建私有云的企业或组织在规划设计时应同步考虑此安全要求。无论是自建数据中心还是租赁第三方基础设施,其数据机房及云计算相关…

java常用类(3)

目录 一. 正则表达式 二. Math类 三. Random类 四. Date类 五. Calendar类 六. SimpDateFormate类 七. BigInteger类 八. BigDecimal类 一. 正则表达式 正则表达式(Regular Expression)就是用一些特殊的符号去匹配一个字符串是否符合规则,利用String类中的matches()方…

提升效能:Symfony 性能优化实用指南

Symfony 是一个功能丰富的 PHP Web 框架,但在构建高性能应用程序时,开发者需要考虑多种性能优化策略。本文将探讨一系列实用的 Symfony 性能优化技巧,帮助开发者提高应用程序的响应速度和整体性能。 1. 了解 Symfony 缓存机制 Symfony 提供…

蒙阴蜜桃节:北纬 35 度的甜蜜盛宴

蒙阴,这座位于北纬 35 度黄金水果带的魅力之城,凭借着沙壤土、长日照、大温差、好生态的天然禀赋,孕育出了令人陶醉的“蒙阴蜜桃——北纬 35 度的甜”。 7月2日—3日,主题为“蒙阴好丰景 桃香产业兴”的国家鲁中山区桃产业集群项目…

3d打开模型的时候怎么没有灯光?---模大狮模型网

在3D建模与渲染过程中,灯光是至关重要的元素之一,直接影响到最终场景的视觉效果和真实感。然而,有时打开3D模型时可能会发现缺乏适当的灯光设置,这会导致场景显得暗淡或平淡无奇。本文将探讨为何在打开3D模型时可能没有灯光的原因…

QGC添加添加QML可访问的单例

文章目录 前言一、添加文件二、修改qgroundcontrol.pro三、修改QGCApplication.cc四、修改QGroundControlQmlGlobal.h五、修改QGroundControlQmlGlobal.cc六、测试前言 QGC 4.2 一、添加文件 在src目录下添加文件夹SingletonTest,在里面新建SingletonTest.cc和SingletonTes…

OCR text detect

主干网络 VoVNet:实时目标检测的新backbone网络_vovnet pytorch-CSDN博客 DenseNet: arxiv.org/pdf/1608.06993 密集连接: DenseNet 的核心思想是将网络中的每一层与其前面的所有层直接连接。对于一个 L 层的网络,DenseNet 具有…

GIT将文件推送到远程仓库,即添加文件

摘自这里公开资料: git怎么让文件推送 • Worktile社区 要将文件推送到Git仓库,需要经过以下步骤: 1. 初始化Git仓库:在本地项目文件夹中打开命令行工具,并执行以下命令来初始化Git仓库: “shell git in…

Git学习(常用的一些命令)

🍎个人博客:个人主页 🏆个人专栏:日常聊聊 ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 配置相关: 创建与克隆仓库: 基本操作: 分支操作: 远程仓库操作&#xff1a…

重保期间的网站安全防护:网站整站锁的应用与实践

标题:重保期间的网站安全防护:网站整站锁的应用与实践 一、引言 在重大活动或事件(通常被称为“重保”)期间,网站的安全问题尤为突出。由于此时网站的访问量和关注度可能达到高峰,因此也成为了黑客攻击的…

【AI原理解析】—k-means原理

目录 步骤 注意事项 优点 缺点 步骤 初始化: 选择 k 个初始质心(通常通过随机选择数据集中的 k 个点作为初始质心)。迭代过程: 分配数据点到最近的质心: 对于数据集中的每个数据点,计算它与 k 个质心之…

博客的部署方法论

博客写完后,当然是要发布到网络上的。如果想要部署到服务器上,则需编译构建成静态文件,然后将其上传到服务器上的路径(该路径由我们自己决定),然后在 web 服务器(Nginx 等)上配置访问…