论文阅读 BERT GPT - transformer在NLP领域的延伸

文章目录

  • 不会写的很详细,只是为了帮助我理解在CV领域transformer的拓展
  • 1 摘要
    • 1.1 BERT - 核心
    • 1.2 GPT - 核心
  • 2 模型架构
    • 2.1 概览
  • 3 区别
    • 3.1 finetune和prompt
  • 3.2 transformer及训练
  • 总结

不会写的很详细,只是为了帮助我理解在CV领域transformer的拓展

1 摘要

1.1 BERT - 核心

双向 编码器 加上mask做完形填空超大模型无监督预训练 需要整个模型作为pretrain weight到下游任务做fintune

1.2 GPT - 核心

自回归 解码器 无需训练 只需Prompt

2 模型架构

2.1 概览

在这里插入图片描述
在这里插入图片描述

3 区别

3.1 finetune和prompt

BERT需要全部参数进行训练
GPT不需要训练即可完成下游任务
在这里插入图片描述

3.2 transformer及训练

BERT使用双向的编码器
在这里插入图片描述

GPT使用自回归的解码器
在这里插入图片描述

总结

总结个毛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/611782.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1.10 力扣回溯中等题

93. 复原 IP 地址 代码随想录 (programmercarl.com) 有效 IP 地址 正好由四个整数(每个整数位于 0 到 255 之间组成,且不能含有前导 0),整数之间用 . 分隔。 例如:"0.1.2.201" 和 "192.168.1.1"…

构建安全可靠的系统:第十六章到第二十章

第四部分:维护系统 原文:Part IV. Maintaining Systems 译者:飞龙 协议:CC BY-NC-SA 4.0 准备应对不舒适情况的组织有更好的机会处理关键事件。 尽管不可能为可能扰乱您组织的每种情况制定计划,但作为综合灾难规划策略…

接口数据使用了 RSA 加密和签名?一篇文章带你了解

接口数据使用了RSA加密和签名?一篇文章带你搞定! 1、前言 很多童鞋在工作中,会遇到一些接口使用RSA加密和签名来处理的请求参数,那么遇到这个问题的时候,第一时间当然是找开发要加解密的方法,但是开发给加…

1991-2022年A股上市公司股价崩盘风险指标数据

1991-2022年A股上市公司股价崩盘风险指标数据 1、时间:1991-2022年 2、来源:整理自csmar 3、指标:证券代码、交易年度、NCSKEW(分市场等权平均法)、NCSKEW(分市场流通市值平均法)、NCSKEW(分市场总市值平均法); NCSKEW(综合市…

【Spring 篇】JdbcTemplate:轻松驾驭数据库的魔法工具

欢迎来到数据库的奇妙世界,在这里,我们将一同揭开Spring框架中JdbcTemplate的神秘面纱。JdbcTemplate是Spring提供的一个简化数据库操作的工具,它为我们提供了一种轻松驾驭数据库的魔法。本篇博客将详细解释JdbcTemplate的基本使用&#xff0…

我的 AI 成长星球,邀请你加入

大家好啊,我是董董灿。 2023年终总结时我这个小白坚持写作一整年,赚了多少?提到了一点,2024希望自己创建一个免费星球。 其实一直就想弄一个高质量的 AI 知识交流平台,方便大家一起交流和学习,同时提高对 …

我的年度总结(大一程序员的自述)

呀哈喽,我是结衣。 我也来参加这个年度总结的话题咯,喜欢的话可以点个赞哦。 作为一个大一新生,我从1级的编程小白到了现在的2级编程小白。在7月份之前我可以说是完全不了解编程的一位新人,对应电脑的了解也就只会打游戏看电视和浏…

Qt QCheckBox复选按钮控件

文章目录 1 属性和方法1.1 文本1.2 三态1.3 自动排他1.4 信号和槽 2 实例2.1 布局2.2 代码实现 Qt中的复选按钮类是QCheckBox它和单选按钮很相似,单选按钮常用在“多选一”的场景,而复选按钮常用在"多选多"的场景比如喜欢的水果选项中&#xf…

暴雨信息发布算力网络应用平台打造零感知算网服务新模式

为进一步优化算力网络应用服务能力和降低算力网络使用难度,暴雨信息突破基于算力网络的实例跨域协同与迁移、基于测试评估的应用度量和解构等技术,研发并推出算力网络应用平台。该系统通过提供一种即开即用、按需付费的零感知算网应用服务,使…

13年老鸟整理,自动化测试落地实施方案总结,看这篇就够了...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 一般来说&#xf…

RK平台计算GPIO对应的整型数

GPIO是比较常用的资源,比如说控制LED灯亮灭,控制LCD上电,控制模块的复位电路,做外设的中断脚等等,这些都有对GPIO的操作和使用,所以说,GPIO开发是驱动开发中必不可少的操作,而且也是…

如何轻松拿捏LIO-SAM?

LOAM是目前为止激光里程计(LO)领域最经典最广泛使用的方法,堪称LO领域的baseline,至今仍在KITTI数据集上名列前茅。但是它存在诸多问题,比如:它直接存储全局体素地图而不是局部地图,从而很难执行回环检测以修正漂移&am…

任务管理器的 top

文章目录 任务管理器的 top常规使用显示完整命令设置信息更新次数设置信息更新时间显示指定的进程信息指定用户的进程信息更多信息 任务管理器的 top top命令比较像Windows里面的任务管理器,提供一个动态实时的系统状态检测,可以检测实时显示内存、CPU、…

性能测试很简单-JMeter性能测试实践

最近破费买了一台服务器,准备搭建自己的网站,顺便将自己开发的一些测试小工具部署到服务器上,虽然机器配置一般,还是决定对服务器进行压测一番,看一下服务器性能如何。本次压测选择的工具是JMeter,这个工具…

[机缘参悟-122] :IT人如何认识自己的?自省、面试、考核、咨询?

目录 一、为什么要认识自己 二、认识自己的哪些方面? 三、如何认识自己 3.1 通过自省认识自己 3.2 通过面试认识自己 3.3 通过咨询认识自己 3.4 通过相亲认识自己 3.5 通过一段感情关系认识自己 一、为什么要认识自己 认识自己在人类的成长和心灵发展过程中…

Java jar文件变更jar或者xml方法

1. 解压jar文件 // 解压在同级 jar -xvf XXXX.jar2.解压后 在解压出来的文件中,找到修改的文件3.开始替换 jar -uvf0 XXXX.jar BOOT-INF4.校验方法 Java -jar XXXX.jar 是否正常启动

备战2024美赛数学建模,文末获取历史优秀论文

总说(历年美赛优秀论文可获取) 数模的题型千变万化,我今天想讲的主要是一些「画图」、「建模」、「写作」和「论文结构」的思路,这些往往是美赛阅卷官最看重的点,突破了这些点,才能真正让你的美赛论文更上…

css三大特性

css 三大特性 一、层叠性:css样式冲突采取原则(后者覆盖前者) 二、继承性:对于部分属性样式会有天生的继承 (1)字体系列属性 font-family:字体系列 font-weight:字体的粗细 fon…

Java-布隆过滤器的实现

文章目录 前言一、概述二、误差率三、hash 函数的选择四、手写布隆过滤器五、guava 中的布隆过滤器 前言 如果想要判断一个元素是不是在一个集合里,一般想到的是将所有元素保存起来,然后通过比较确定。链表,树等等数据结构都是这种思路&…

LeetCode 145. 二叉树的后序遍历

145. 二叉树的后序遍历 给你一棵二叉树的根节点 root ,返回其节点值的 后序遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[3,2,1]示例 2: 输入:root [] 输出:[]示例 3: 输入&…