李宏毅bert记录

李宏毅bert记录

news/2025/4/26 19:39:20/文章来源:https://blog.csdn.net/qq_55736201/article/details/134820117

一、自监督学习（Self-supervised Learning）

在监督学习中，模型的输入为x，若期望输出是y，则在训练的时候需要给模型的期望输出y以判断其误差——有输入和输出标签才能训练监督学习的模型。

自监督学习在没有标注的训练集中，把训练集分为两部分，一个作为输入，另一个作为模型的标签。自监督学习是一种无监督学习的方法。

二、Contextualized Word Embedding

从上下文中学习word embedding，同样一个词在不同的上下文中会学到不同的word embedding

三、ELMO

以双向RNN为基础，最初输入的词汇的token，通过学习得到embedding，中间hidden layer的就是输入词汇的embedding。图中的蓝色块是正向学到的embedding，黄色块是逆向得到的embedding，将二者接起来

如果是deep RNN，每层的embedding都留着，以不同的权重阿尔法1、阿尔法2等将每层的embedding和原始token相加得到最终的embedding

阿尔法1、阿尔法2的大小如何确定：在执行不同的下游任务时，与下游任务的参数一起训练。那么不同的下游任务训练出的阿尔法1、阿尔法2也不同

四、BERT

bert先在未标记的文本语料库上训练pre-training（自监督学习），但它本身没有什么用，BERT 只能做填空题，然后在少量的标记数据上做fine-tuning,把它用在其他下游的任务里面

bert pre-training两种方法（在未标记的文本语料库上训练的）

第一种方法masking input：mask掉（换成某种特殊的token [MASK]）或替换15%的词输出对该单词的预测

BERT并不知道我们遮盖住的文字，因此BERT的目标就是最小化输出 y和期望值 y ’的误差，损失函数使用交叉熵。

第二种方法next sentence prediction：同时利用第一种办法的mask 输出这两个句子是否相接

bert fune-tuning四种例子（在有标记的数据上训练）：

该部分bert参数是由 bert pre-training中参数初始化的

fune-tuning过程中linear classifier参数从头学，bert参数微调即可

1：句子分类（情感分析）输入一个句子输出句子类别

2. 对每个单词分类（词性标注（POS tagging））输入一个句子输出每个单词类别

3.前提假设（自然语言推理（NLI））输入两个句子输出该前提是否支持假设

4.回答问题（基于信息抽取的问答系统（QA））输入文章和问题输出答案

其他内容

What does BERT learn？

分析一下BERT每一层究竟学到了什么。假设BERT有24层，文献上的意思是，第一层是分析词性，第二层是分析语法，第三层是词汇之间的关系，以此类推。文献的做法是将每一层做weight sum，任务不同，比如词性和语法任务，那么每一层的权值也不同，根据权值来判断这一层主要是贡献什么。接近input的层就做简单的任务，而接近output的层就做困难的任务。下图右侧中蓝色的条越长，证明该层对总任务贡献更大

参考：

李宏毅《深度学习》 - BERT_李宏毅 bert ppt_Beta Lemon的博客-CSDN博客

李宏毅机器学习--self-supervised：BERT、GPT、Auto-encoder-CSDN博客

ELMO，BERT和GPT的原理和应用总结（李宏毅视频课整理和总结）-CSDN博客

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/203413.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【后端】JVM 远程调试

【后端】JVM 远程调试

前言再好的代码，也还是有瑕疵的，不是代码不给力，是线上问题太牛逼太玄幻。这不刚部署就出现了问题，幸好还是测试的时候，早点发现早点解决，不给任何人带来不必要的损失，是我做人的原则，只要钱到位，任何问题都不是问题。 JVM 远程调试不得不说 IDEA 和宝塔配合是真…

阅读更多...

工厂方法设计模式项目实践

工厂方法设计模式项目实践

前言以采集数据处理逻辑为例，数据采集分为不同种类如：MQTT、MODBUS、HTTP等，不同的采集数据有不同的解析处理逻辑。但总体解析处理步骤是固定的。可以使用工厂方法设计模式简化代码，让代码变得更加优雅。代码实战抽象类总体…

阅读更多...

gpt3、gpt2与gpt1区别

gpt3、gpt2与gpt1区别

参考：深度学习：GPT1、GPT2、GPT-3_HanZee的博客-CSDN博客 Zero-shot Learning / One-shot Learning-CSDN博客 Zero-shot（零次学习）简介-CSDN博客 GPT-2 模型由多层单向transformer的解码器部分构成，本质上是自回归模型…

阅读更多...

10_企业架构NOSQL数据库之MongoDB

10_企业架构NOSQL数据库之MongoDB

企业架构NOSQL数据库之MongoDB 学习目标和内容 1、能够简单描述MongoDB的使用特点 2、能够安装配置启动MongoDB 3、能够使用命令行客户端简单操作MongoDB 4、能够实现基本的数据操作 5、能够实现MongoDB基本安全设置 6、能够操作安装php的MongoDB扩展一、背景描述及其方案设计…

阅读更多...

Vue实战（十）：对数组数据的拆分和分组合并

Vue实战（十）：对数组数据的拆分和分组合并

Vue实战（十）：对数组数据的拆分和分组合并数据初始化 //第一种情况 tableData: [{ id: 1, name: ["A", "B"] },{ id: 2, name: ["A", "C"] },{ id: 3, name: ["B", "C"] },{ …

阅读更多...

配置阿里云CLI-aliyun命令与安装ossutil

配置阿里云CLI-aliyun命令与安装ossutil

1.aliyun命令官网文档可以参考文档配置不同账户凭证 https://help.aliyun.com/document_detail/121259.html?spma2c4g.121193.0.i1 使用阿里云 CLI可以参考 https://help.aliyun.com/document_detail/110289.html?spma2c4g.121259.0.0.5ad27f08HvO1dw1）账号添加…

阅读更多...

springcloud alibaba-Sentinel

springcloud alibaba-Sentinel

文章目录一.前置知识1.雪崩问题2.服务保护技术对比二.Sentinel三.微服务整合Sentinel1.限流规则1.流控模式2.流控效果热点参数限流(更细粒度的限流方式) 2.隔离和降级Feign整合Sentinel1.线程隔离2.熔断降级 3.授权规则4.规则持久化一.前置知识 1.雪崩问题设想一下以下场…

阅读更多...

【C语言】用户空间使用非缓存内存

【C语言】用户空间使用非缓存内存

在用户空间使用非缓存内存通常不是标准做法，因为非缓存内存的操作与硬件平台紧密相关，并且通常被保留给内核模块或设备驱动程序使用。一、方法用户空间程序一般不直接处理非缓存内存问题，因为它们依赖于操作系统来管理内存缓存一致性。尽…

阅读更多...

AIGC: 关于ChatGPT中基于Whisper模型实现音频转文本

AIGC: 关于ChatGPT中基于Whisper模型实现音频转文本

概述到目前，GPT只能去接收文本的输入，但是在现实的生活当中，会有语音的需求GPT也有相关的能力接入，我们就需要一个能够将语音内容转换成文本的能力当然其他第三方的软件或者接口也是支持这个功能在 Open AI 有一个语音转文本的…

阅读更多...

【五分钟】熟悉np.all()和np.any()的常见用法（干货！！！）

【五分钟】熟悉np.all()和np.any()的常见用法（干货！！！）

常见使用场景举例判断numpy数组中是否【全是】非0元素 # 判断数组中是否全是非0元素 a np.array([1, 2, 3, 4]) b np.array([0, 1, 2, 3]) c np.array([np.nan, 1, 2, 3]) # nan --> Not a Number ---> 算非0元素 d np.array([np.inf, 1, 2, 3]) # np.inf -->…

阅读更多...

C++使用策略模式，减少使用switch...case...

C++使用策略模式，减少使用switch...case...

目录原理函数类模板函数使用switch...case...不使用switch...case... 知识点decltypestd::remove_reference 原理函数 #include <iostream> #include <functional> #include <map>void fun1(int a, int b) {std::cout << "fun1 : a "<…

阅读更多...

鸿蒙Harmony ArkUI十大开源项目

鸿蒙Harmony ArkUI十大开源项目

一 OH哔哩 https://gitee.com/ohos_port/ohbili 项目简介【OH哔哩】是一款基于OpenHarmony系统ArkUI框架开发的哔哩哔哩动画第三方客户端用到的三方库 bilibili-API-collect 哔哩哔哩-API收集整理ohos_ijkplayer 基于FFmpeg的视频播放器PullToRefresh 下拉刷新、上拉加载组件…

阅读更多...

html css样式选择器介绍

html css样式选择器介绍

目录一、单标签选择器二、多标签选择器三、类选择器四、标签结合类选择器五、多个标签结合类选择器六、子标签选择器七、所有子标签选择器八、相邻选择器九、多种选择器混合使用十、超链接样式选择器一、单标签选择器下面的 css 会将所有 h1 标签里的文字设置为红色 <!…

阅读更多...

【FPGA图像处理实战】- 图像处理前景如何？就业前景如何？

【FPGA图像处理实战】- 图像处理前景如何？就业前景如何？

图像处理是FPGA应用的主要领域之一，图像处理数据量特别大且对实时性处理要求高的场景，这恰好能发挥FPGA流水线可实时处理的优势。那么FPGA图像处理的前景如何？ 一、FPGA开发（图像处理）招聘就业情况看FPGA图像处理…

阅读更多...

c++ memset

c++ memset

memset 函数是 C/C 中的一个函数，用于将一块内存的内容设置为指定的值。在 C 中，你可以使用 #include 头文件来包含 memset 函数的声明。以下是 memset 函数的基本语法： cpp #include void *memset(void *ptr, int value, size_t num); …

阅读更多...

五花八门客户问题(BUG) - 重复打印

五花八门客户问题(BUG) - 重复打印

根据commit猜测客户问题 git://sourceware.org / glibc.git / commitcommitsummary | shortlog | log | commit | commitdiff | tree (parent: 4573c6b) | patch Dont flush write buffer for ftell author Siddhesh Poyarekar <siddheshredhat.com> Fri, 28 Sep 2012 …

阅读更多...

ELK 日志解决方案

ELK 日志解决方案

ELK 是目前最流行的集中式日志解决方案，提供了对日志收集、存储、展示等一站式的解决方案。 ELK 分别指 Elasticsearch、Logstash、Kibana。 Elasticsearch：分布式数据搜索引擎，基于 Apache Lucene 实现，可集群，提供…

阅读更多...

B 站基于 StarRocks 构建大数据元仓

B 站基于 StarRocks 构建大数据元仓

作者：bilibili 大数据高级开发工程师杨洋 B站大数据元仓是一款用来观测大数据引擎运行情况、推动大作业治理的系统诊断产品。经过调研和性能测试，大数据元仓最终以 StarRocks 为技术底座，从实际的应用效果来看，大部分查询都能在几…

阅读更多...

mvn site 命令

mvn site 命令

概述在Maven中，site指的是一个特定的阶段，其目的是生成项目相关的站点文档。这些站点文档可以为项目的开发者、用户、以及其他利益相关者提供有关项目的详细信息。 Maven的站点文档通常包括以下内容： 项目信息：这部分提供了关于…

阅读更多...

Mysql大数据量删除

Mysql大数据量删除

Mysql大数据量删除在一些操作中，可能需要清理一下积压的数据，如果数据量小的话自然没有问题，但是如果是个大数据量的问题，那么就该考虑一个合适的办法了。在清理大数据量的时候需要考虑是清理部分数据还是清理所有数据&#xf…

阅读更多...

最新文章