神经网络模型底层原理与实现8-BERT

神经网络模型底层原理与实现8-BERT

news/2025/7/13 9:07:37/文章来源:https://blog.csdn.net/m0_60792028/article/details/137590295

首先介绍什么是自监督学习：

普通的有监督学习是每个x对应有个y'，x训练得到y，将y与y'作比较，而自监督是没有对应y'，直接把一部分样本x作为训练目标x''，训练得x'后和x''对比

bert中如何创造x'：以文字处理为例，把字随机遮住或者随机替换一些，把新的字符串组输入bert后经过linear和softmax层得到的结果和实际字符（比如这里是湾）做交叉熵，从而训练bert的参数

在模型学会做填空题之后，经过微调就可以解决其他不同的任务，测试的时候会根据8个任务看总体效果

如何使用bert：4个case：

1.语言情感分析（输入一个序列，输出这个序列是积极还是消极的）

方法：在输入的字符串前面加cls字符，通过这个字符的输出经过线性层后得到类别，bert的作用是得到一个比较好的初始化参数（注：需要有提前标注的数据）

2.词性分析

根据每个词的输出过线性层看词性

3.判断两个句子是否矛盾

把两个句子中间加个分割符，根据句首的cls符对应的输出判断关系

4.根据一个问题，从一段话里截出一部分作为答案

方法：随机初始两个向量（需要训练的两个东西）把他们分别和d1，d2，d3的输出做内积并过softmax层，得到最大值的位置就是截取文本的开始和结束位置

注意：因为attention运算量较大，一般不输入太长的，因此会把文本分成一段一段放进去

为什么bert有效：一个词的意思可以从它的上下文得出，而bert学做填空题的过程就是抽取上下文的资信

bert实验结果的神奇之处：bert可以让不同语言得到的词语向量很接近，每个词的英文和中文的差距几乎是一个固定值

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/809451.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

4/11 QT_day5

4/11 QT_day5

服务器端头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QTcpServer> #include <QMessageBox> #include <QTcpSocket> #include <QList> QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass …

阅读更多...

MSTP/RSTP与STP的兼容性

MSTP/RSTP与STP的兼容性

原理概述 MSTP(Multiple STP)协议和RSTP(Rapid STP)协议都可以向下兼容STP（Spanning Tree Protocol ）协议。运行MSTP/RSTP协议的交换机会根据收到的BPDU版本号信息自动判断与之相连的交换机的运行模式。如果收到的是STP BPDU，MSTP/RSTP交换机…

阅读更多...

Oracle 21c 数据库迁移到DM8（达梦）数据库

Oracle 21c 数据库迁移到DM8（达梦）数据库

一、环境准备 1、创建脚本执行dmCreateUser.sql脚本创建GLJ用户（注意：需要与需要迁移的oracle用户名一样），如，脚本内容如下： -- 开始将输出重定向到指定的日志文件 spool start /home/dmdba/dmdbms/sql/…

阅读更多...

蓝桥杯算法题：蓝桥骑士

蓝桥杯算法题：蓝桥骑士

题目描述小明是蓝桥王国的骑士，他喜欢不断突破自我。这天蓝桥国王给他安排了 N 个对手，他们的战力值分别为 a_1,a_2,…,a_n，且按顺序阻挡在小明的前方。对于这些对手小明可以选择挑战，也可以选择避战。身为高傲的骑士&#xff…

阅读更多...

基于物联网的智能家居远程视频监控系统设计与实现

基于物联网的智能家居远程视频监控系统设计与实现

基于物联网的智能家居远程视频监控系统设计与实现摘要：随着物联网技术的快速发展，智能家居系统已成为提升家居安全性和便利性的重要手段。本文设计并实现了一套基于物联网的智能家居远程视频监控系统，该系统结合了嵌入式技术、网络通信技术…

阅读更多...

节流和防抖

节流和防抖

节流和防抖定义和区别: 节流和防抖的概念。节流是一种减少函数执行频率的技术，它通过设定一个等待时间(delay)，确保函数在这段时间内只执行一次。如果在等待时间内再次触发事件，则不会执行函数，直到等待时间结束。防抖是一种控…

阅读更多...

【Go语言】go语言简单的变量声明和结构体使用

【Go语言】go语言简单的变量声明和结构体使用

目录数字类型布尔类型字符串类型 Rune 类型 Byte 类型类型转换结构体结构体定义结构体作为函数参数结构体方法 1. 接收者类型 2. 方法定义 3. 值接收者 vs 指针接收者 4. 调用方式的灵活性 5. 方法集 6. 方法与继承 7. 方法声明的位置在Go语言中&…

阅读更多...

【Linux】sudo分权管理实战

【Linux】sudo分权管理实战

一般sudo命令是默认安装的，如果你的机器里没有，可以使用命令 yum install sudo 来安装 [rootgaosh-64 ~]# yum install sudo 我们来看一下配置文件： 在上图root下面添加一行 ，给gaosh用户加权限 [rootgaosh-64 ~]# vim /etc/su…

阅读更多...

中移物联网 OneOS 操作系统环境搭建和工程创建

中移物联网 OneOS 操作系统环境搭建和工程创建

一、官网 OneOS Lite是中国移动针对物联网领域推出的轻量级操作系统，具有可裁剪、跨平台、低功耗、高安全等特点，支持ARM Cortex-A和 Cortex-M、MIPS、RISC-V等主流芯片架构，兼容POSIX、CMSIS等标准接口，支持Javascript、MicroPyt…

阅读更多...

nvm安装详细教程（安装nvm、node、npm、cnpm、yarn及环境变量配置）

nvm安装详细教程（安装nvm、node、npm、cnpm、yarn及环境变量配置）

一、安装nvm 1. 下载nvm 点击网盘下载进行下载 2、双击下载好的 nvm-1.1.12-setup.zip 文件 3.双击 nvm-setup.exe 开始安装 4. 选择我接受，然后点击next 5.选择nvm安装路径，路径名称不要有空格，然后点击next 6.node.js安装路径&#…

阅读更多...

哨兵-1A与DInSAR技术监测尼泊尔地震前后地表形变

哨兵-1A与DInSAR技术监测尼泊尔地震前后地表形变

2015年4月25号，尼泊尔发生里氏7.8级地震，超过5000人伤亡和几百万人受到影响。大量的卫星影像支持地震救援。地理学家利用卫星影像量测地震对陆地的影响。 Sentinel-1A是欧洲委员会发起的哥白尼环境监测计划中的第一颗卫星。可获取全天候的数据&#xff0…

阅读更多...

实验6 单臂路由方式实现VLAN间路由

实验6 单臂路由方式实现VLAN间路由

实验6 单臂路由方式实现VLAN间路由一、原理描述二、实验目的三、实验内容四、实验配置五、实验步骤1.配置IP地址2.交换机配置3.路由器配置一、原理描述 VLAN将一个物理的LAN在逻辑上划分为多个广播域。VLAN内的主机间可以互相通信，但是VLAN之间却不能互通。…

阅读更多...

JAVAEE——网络初始

JAVAEE——网络初始

文章目录网络发展史独立模式网络模式局域网LAN路由器的诞生网络通信的基础IP地址端口号认识协议OSI七层模型TCP/IP五层模型网络发展史独立模式在原始的年代中电脑间想要通信需要两台电脑连接一根网线，但是一台电脑基本上只有一个接口。因此想要链接更多的电…

阅读更多...

ChatGPT 写作秘籍：指导您如何利用ChatGPT撰写学术论文

ChatGPT 写作秘籍：指导您如何利用ChatGPT撰写学术论文

ChatGPT无限次数:点击直达 ChatGPT 写作秘籍：指导您如何利用ChatGPT撰写学术论文作为CSDN网站的作者，您可能经常面临不同类型的写作任务，包括学术论文的撰写。在这篇文章中，我们将探讨如何利用ChatGPT这一强大的文本生成工具来辅…

阅读更多...

计算机基础知识-第9章-存储的本质（2）——硬盘和文件系统基础知识

计算机基础知识-第9章-存储的本质（2）——硬盘和文件系统基础知识

一、机械硬盘的原理概括来说，硬盘的工作原理是利用特定的磁粒子的极性来记录数据。磁头在读取数据时，将磁力子的不同极性转换成不同的电脉冲信号，再利用数据转换器将这些原始信号变成电脑可以使用的数据，写的操作正好与此相反。…

阅读更多...

ubuntu或类Debian获取某些包的离线版本-包括依赖（还有一些意想不到的用途，哈哈）

ubuntu或类Debian获取某些包的离线版本-包括依赖（还有一些意想不到的用途，哈哈）

前言偶尔能碰到很特殊的情况。网址白名单，纯内网，超多依赖及一些很难描述的场景。比如一些少见的发行版缺少某些包。这时候可以找一台类似的系统环境来下载离线包及其依赖包，然后转移到内网进行安装。如果是网址白名单，或者纯内…

阅读更多...

【讲解下常见的分类算法】

【讲解下常见的分类算法】

🎥博主：程序员不想YY啊 💫CSDN优质创作者，CSDN实力新星，CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益，如有不足之处，欢迎在评论区提出…

阅读更多...

牛客NC413 两个升序数组的中位数【hard 数组，模拟 Java、Go、PHP】

牛客NC413 两个升序数组的中位数【hard 数组，模拟 Java、Go、PHP】

题目题目链接： https://www.nowcoder.com/practice/b3b59248e61f499482eaba636305474b 思路直接模拟2个数组有顺序放到一个数组中help中如果help长度为奇数，返回中间的数如果help长度为偶数，返回中间2个数的和除以2参考答案java import j…

阅读更多...

【AI 测试】八：数学基础在算法测试工程师工作中的具体应用

【AI 测试】八：数学基础在算法测试工程师工作中的具体应用

算法测试工程师在测试和优化算法时，确实需要具备扎实的数学基础。这是因为算法往往涉及到复杂的计算、逻辑推理和数据分析，而这些都需要依靠数学工具和方法来进行有效的处理。以下是数学基础在算法测试工程师工作中的具体应用： 线性代数&…

阅读更多...

会话跟踪技术基础：Cookie和Session

会话跟踪技术基础：Cookie和Session

久违了，之前忙碌了一周赶毕设，今天抽空更新~ 一.理论知识 1.会话：用户打开浏览器，访问web服务器的资源，会话建立，直到有一方断开连接，会话结束。在一次会话中可以包含多次请求和响应~ 2.会话跟…

阅读更多...

最新文章