深度学习-自注意力机制

深度学习-自注意力机制

news/2025/7/13 2:11:56/文章来源:https://blog.csdn.net/Cuteboom/article/details/135749239

文字编码

one-hot编码，让模型自己去学习怎么进行编码

常见的输出

1.每个词都有一个输出值

2.每个句子输出一个值，情感分类

3.输入与输出长度不对应，翻译任务，生成任务。

RNN最早的语言处理

RNN解决的是模型去考虑前面的输入

RNN的缺点，每一代都要向传家宝中装东西，导致后面看不到祖先。

长短期记忆（LSTM,long short-term memory）

RNN与LSTM速度很慢，需要一代一代，无法一下生成全部。所以引入了自注意力机制。

自注意力机制的原理：

什么是注意力，分配给每个任务的注意力，注意力的高低是自己决定的。

注意力分配

如何计算注意力？

在不同的句子中，注意力应该不同，并且模型要有学习设置注意力的能力。因此采用点乘的方式。

加了wq，wk得到的矩阵。

得到a1对其他的注意力分数。

利用soft-max对分数进行归一化，化为合为1的概率。

b1的生成过程：a1矩阵化为q（通过wq），利用这个q与其他（a2、a3、a4）生成的w分别进行点乘，生成a1.1、a1.2、a1.3、a1.4。再讲a1、a2、a3、a4的value与a1.1、a1.2、a1.3、a1.4相乘。成绩和为b1。

总结过程为：

总公式可以表示为：

A：注意力矩阵。

Wq 和 Wk、Wv是学习到的权重矩阵

bert，该图左侧部分构成了bert。右边为提取特征，然后再生成，即为GPT

bert就是一个特征提取器。

1.预训练

2.微调

自监督预训练

Bert结构

1.embedding

2.多层自注意力机制

3.池化输出

Bert的输出

EA,EB为给句子的编码

CLS相当于链表头，SEP相当于句号，句尾结束。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/658821.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

第38章补充定义6 正交，紧性

第38章补充定义6 正交，紧性

继续之前讲的内容，之前的坐标开始进入到笛卡尔坐标了，这个笛卡尔其实是个半成品的东西，能用但是不够好用，通用性确实好，不过作为各种各样的空间的基础够用了， 还是需要用到点乘和纯量乘基底（…

阅读更多...

TS项目实战一：流淌的字符动画界面

TS项目实战一：流淌的字符动画界面

使用ts实现虚拟世界，创建ts项目，并编写ts代码，使用tsc编译后直接加载到html界面，实现类似黑客帝国中的流淌的代码界面的效果。源码下载地址：点击下载讲解视频 TS实战项目一：数字流界面项目创建 TS实战项…

阅读更多...

计算机设计大赛深度学习 opencv python 实现中国交通标志识别

计算机设计大赛深度学习 opencv python 实现中国交通标志识别

文章目录 0 前言1 yolov5实现中国交通标志检测2.算法原理2.1 算法简介2.2网络架构2.3 关键代码 3 数据集处理3.1 VOC格式介绍3.2 将中国交通标志检测数据集CCTSDB数据转换成VOC数据格式3.3 手动标注数据集 4 模型训练5 实现效果5.1 视频效果 6 最后 0 前言 🔥 优质…

阅读更多...

useEffect的第二个参数

useEffect的第二个参数

目录 1、第一个参数： 2、第二个参数： 2.1 不传值：无限循环 2.2 空数组作为依赖：执行一次 2.3 基本类型作为依赖：无限循环 2.4 引用类型 2.4.1 数组作为依赖：无限循环 2.4.2 函数作为依赖&#…

阅读更多...

力扣（leetcode）第118题杨辉三角（Python）

力扣（leetcode）第118题杨辉三角（Python）

118.杨辉三角题目链接：118.杨辉三角给定一个非负整数 numRows，生成「杨辉三角」的前 numRows 行。在「杨辉三角」中，每个数是它左上方和右上方的数的和。示例 1: 输入: numRows 5 输出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]] …

阅读更多...

高光谱图像加载、归一化和增强（jupyter book）

高光谱图像加载、归一化和增强（jupyter book）

1.获取高光谱图像：我用的是indian_pines的数据集，感兴趣的兄弟可以自行去官方网下载，gt的那个是它的标签哦，别搞错了。 2.图像加载： （1）从本地路径加载 import scipy.io as sio# 文件路径 fil…

阅读更多...

乘积数量(c++题解)

乘积数量(c++题解)

题目描述给定一个长度为 n 且不包含 0 的整数序列。请你计算以下两值： 使得为负的索引对 l,r 的数量。使得为正的索引对 l,r 的数量。输入格式第一行一个整数。第二行包含个整数。输出格式共一行，输出单个空格隔开的两个整数&a…

阅读更多...

蓝桥杯---牌型种数

蓝桥杯---牌型种数

小明被劫持到X赌城，被迫与其他3人玩牌。一副扑克牌(去掉大小王牌,共52张)，均匀发给4个人，每个人13张。这时，小明脑子里突然冒出一个问题：如果不考虑花色，只考虑点数，也不考虑自己得到的牌的先后…

阅读更多...

排序链表---归并--链表OJ

排序链表---归并--链表OJ

https://leetcode.cn/problems/sort-list/submissions/499363940/?envTypestudy-plan-v2&envIdtop-100-liked 这里我们直接进阶，用时间复杂度O(nlogn)，空间复杂度O(1)，来解决。对于归并，如果自上而下的话，空间复…

阅读更多...

Collections集合工具类-JAVA

Collections集合工具类-JAVA

java.util.Collections:是个集合工具类它不是集合，而是集合的工具类常用 API：注意 binarySearch 方法要求元素有序方法实现： public class Test01 {public static void main(String[] args) {ArrayList<String>list1new ArrayList…

阅读更多...

SpringBoot整合RabbitMq企业级使用封装

SpringBoot整合RabbitMq企业级使用封装

SpringBoot整合RabbitMq企业级使用封装 1、RabbitMq基础说明2、SpringBoot整合RabbitMq，以及RabbitMq的封装和高级用法2.1、pom.xml2.2、application.yml2.3、Mq配置类MessageQueueConfiguration2.3.1、代码2.3.2、设置replyTimeout2.3.3、publisher-confirm-type和…

阅读更多...

【C语言】探索数据结构：单链表和双链表

【C语言】探索数据结构：单链表和双链表

目录 💡链表的概念和结构 💡链表的分类 💡无头单向非循环链表（单链表）的实现定义节点结构单链表的尾部插入单链表的头部插入单链表的尾部删除单链表的头部删除在指定位置插入前数据在指定位置之后插入数…

阅读更多...

w3c标准

w3c标准

w3c（万维网联盟）：是一个公益基金组织，由互联网之父（博纳斯李）牵头组织起来的，用于专门维护互联网相关技术的发展和规范。 w3c标准，不是一个标准，而是一系列标准的集合&am…

阅读更多...

人工智能基础-Numpy.array基本操作

人工智能基础-Numpy.array基本操作

基本属性查看维度 x.ndim查看维度（元组形式） x.shape元素个数 x.size数据访问子矩阵内容同步修改加是copy（）则不同步修改 Reshape 修改维度参数为-1时自动识别个数合并 np.concatenate([x, y])沿着列合并 np.co…

阅读更多...

Springboot使用数据库连接池druid

Springboot使用数据库连接池druid

springboot框架中可以使用druid进行数据库连接池，下面介绍druid在springboot中使用和参数配置介绍。数据库连接池（Druid）是一种用于管理数据库连接的机制，其工作原理和常见使用方法如下： 原理：数据库连接…

阅读更多...

kafka实现延迟队列

kafka实现延迟队列

前言首先说一下延迟队列这个东西，实际上实现他的方法有很多，kafka实现并不是一个最好的选择，例如redis的zset可以实现，rocketmq天然的可以实现，rabbitmq也可以实现。如果切换前几种方案成本高的情况下，那…

阅读更多...

OSDI 2023: LVMT: An Efficient Authenticated Storage for Blockchain

OSDI 2023: LVMT: An Efficient Authenticated Storage for Blockchain

我们使用以下6个分类标准对本文的研究选题进行分析： 1. 研究方向: 区块链可扩展性: 提高交易吞吐量和减少确认时间的研究，例如零知识证明、分片和状态通道。密码学技术: 开发或改进用于区块链应用的新密码原语，例如椭圆曲线、承诺方案和累加器。区块链存储和效率: 优化区块…

阅读更多...

02神经网络的学习及代码实现

02神经网络的学习及代码实现

“学习”是指从训练数据中自动获取最优权重参数的过程。引入损失函数指标，学习的目的是以该损失函数为基准，找出尽可能小的损失函数的值。 1、从数据中学习从数据中学习规律，模式，避免人为介入。先从图像中提取特征量&#x…

阅读更多...

【GAMES101】Lecture 13 光线追踪 Whitted-Style

【GAMES101】Lecture 13 光线追踪 Whitted-Style

目录光线追踪基本的光线追踪算法 Whitted-Style光线追踪求曲面交点求三角形交点 Mller Trumbore Algorithm（MT算法） 光线追踪这里讲一下为什么我们需要光线追踪，主要是因为光栅化没有办法很好的处理全局的光照效果，就…

阅读更多...

MySQL备份和恢复（二）mysqldump

MySQL备份和恢复（二）mysqldump

注意：mysqldump是完全备份一、mysqldump备份命令 1、备份数据库含创建库语句 （1）备份指定数据库完全备份一个或多个完整的库， mysqldump -uroot -p[密码] --databases 库名1 [库名2].. >/备份路径/备份文件名.sql#导出…

阅读更多...

最新文章