Transformer详解(3)-多头自注意力机制

attention

在这里插入图片描述

在这里插入图片描述

multi-head attention

在这里插入图片描述
在这里插入图片描述

pytorch代码实现

import math
import torch
from torch import nn
import torch.nn.functional as Fclass MultiHeadAttention(nn.Module):def __init__(self, heads=8, d_model=128, droput=0.1):super().__init__()self.d_model = d_model  # 128self.d_k = d_model // heads  # 128//8=16self.h = heads  # 8self.q_linear = nn.Linear(d_model, d_model)  # (50,128)*(128,128)=(50,128),其中(128*128)属于权重,在网络训练中学习。self.k_linear = nn.Linear(d_model, d_model)self.v_linear = nn.Linear(d_model, d_model)self.dropout = nn.Dropout(droput)self.out = nn.Linear(d_model, d_model)def attention(self, q, k, v, d_k, mask=None, dropout=None):scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(d_k)  # 矩阵乘法 (32,8,50,16)*(32,8,16,50)->(32,8,50,50)if mask is not None:mask = mask.unsqueeze(1)scores = scores.masked_fill(mask == 0, -1e9)scores = F.softmax(scores, dim=-1)if dropout is not None:scores = dropout(scores)output = torch.matmul(scores, v)  # (32,8,50,50)*(32,8,50,16)->(32,8,50,16)return outputdef forward(self, q, k, v, mask=None):bs = q.size(0)  # batch_size 大小  这里的例子是32k = self.k_linear(k).view(bs, -1, self.h, self.d_k)q = self.k_linear(q).view(bs, -1, self.h, self.d_k)v = self.k_linear(v).view(bs, -1, self.h, self.d_k)# (32,50,128)->(32,50,128)->(32,50,8,16)  8*16=128 每个embedding拆成的8份,也就是8个头k = k.transpose(1, 2)  # (32,50,8,16)->(32,8,50,16)q = q.transpose(1, 2)v = v.transpose(1, 2)scores = self.attention(q, k, v, self.d_k, mask, self.dropout)  # (32,8,50,16)concat = scores.transpose(1, 2).contiguous().view(bs, -1, self.d_model)  # (32,50,128)output = self.out(concat)  # (32,50,128)return outputif __name__ == '__main__':multi_head_attention = MultiHeadAttention(8, 128)normal_tensor = torch.randn(32, 50, 128)  # 随机生成均值为0,方差为1的正态分布。batch_size=32,序列长度=50,embedding维度=128。x = torch.sigmoid(normal_tensor)  # 把每个数缩放到(0,1)output = multi_head_attention(x, x, x)print('done')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/14646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

比较含退格的字符串-力扣

做这道题时出现了许多问题 第一次做题思路是使用双指针去解决&#xff0c;快慢指针遇到字母则前进&#xff0c;遇到 # 则慢指针退1&#xff0c;最开始并未考虑到 slowindex < 0 ,从而导致越界。第二个问题在于&#xff0c;在最后判断两个字符串是否相同时&#xff0c;最初使…

力扣HOT100 - 31. 下一个排列

解题思路&#xff1a; 数字是逐步增大的 步骤如下&#xff1a; class Solution {public void nextPermutation(int[] nums) {int i nums.length - 2;while (i > 0 && nums[i] > nums[i 1]) i--;if (i > 0) {int j nums.length - 1;while (j > 0 &&…

Linux中“用户管理”

我们linux中是靠用户登陆的&#xff0c;每一个用户都是唯一的&#xff0c;不可重复的&#xff0c;也是标识2计算机上的资源归属&#xff0c;那么它Linux中关联什么作用我们详细了解一下&#xff1a; 一、了解用户 &#xff08;1&#xff09;保存用户的位置 保存账号和密码的数…

Tina-Linux -- 5. 网络通信(有线网络,无线网络,SSH链接)

有线网络 bash 指令 ifconfig eth0 192.168.2.222 netmask 255.255.255.0 up route add default gw 192.168.2.1开机自启 修改网络设置文件 /etc/init.d/S40network #!/bin/sh # # Start the network.... ## Debian ifupdown needs the /run/network lock directory mkdir …

视频码流分析工具

一、VQ Analyzer 在线使用说明&#xff1a; https://vicuesoft.com/vq-analyzer/userguide/ ref&#xff1a; Video Analyzer and Streaming Tester Software – VQ Analyzer HEVC 分析工具 - 懒人李冰 推荐一个开源且跨平台的免费码流分析软件YUView - 知乎

企业管理咨询在当前市场环境下的基本现状

随着全球经济的深度融合和数字化转型的加速推进&#xff0c;企业对于高效、专业的管理咨询服务的需求日益旺盛。那么&#xff0c;企业管理咨询在当前市场环境下究竟呈现出了怎样的基本现状呢&#xff1f; 首先&#xff0c;从市场规模来看&#xff0c;企业管理咨询行业正在持续扩…

网络设备的优势

网络设备在构建和维护高效、安全、可靠的网络环境中发挥着至关重要的作用。它们的功能多样&#xff0c;涉及数据传输、连接、安全、管理等多个方面。接下来&#xff0c;我们将深入探讨几种常见网络设备的优势及其应用场景。 交换机&#xff08;Switch&#xff09; 交换机主要…

寻找峰值 ---- 二分查找

题目链接 题目: 分析: 因为题目中要找的是任意一个峰值即可, 所以和<山脉数组的峰值索引>这道题差不多因为峰值左右都小于峰值, 所以具有"二段性", 可以使用二分查找算法如果nums[mid] < nums[mid 1], mid一定不是峰值, 所以left mid 1如果nums[mid] &…

自主创新助力科技强军,麒麟信安闪耀第九届军博会

由中国指挥与控制学会主办的中国指挥控制大会暨第九届北京军博会于5月17日-19日在北京国家会议中心盛大开展&#xff0c;政府、军队、武警、公安、交通、人防、航天、航空、兵器、船舶、电科集团等从事国防军工技术与产业领域的30000多名代表到场参加。 麒麟信安作为国产化方案…

重学java 42.多线程 等待唤醒机制案例分析

Strength is built under a heavy load,I am expecting to pick up all of my loads and travel on. —— 24.5.24 章节重点 1.会用wait和notify两个方法 2.会使用Lock锁对象 3.会利用Cal1able接口实现多线程 4.会使用线程池完成多线程 等待唤醒案例分析&#xff08;线程之间的…

C++ TCP发送Socket数据

DEVC需要加入ws2_32库 #include <iostream> #include <winsock2.h>#pragma comment(lib, "ws2_32.lib")void sendData(const char* ip, int port, const char* data) {WSADATA wsaData;SOCKET sockfd;struct sockaddr_in server_addr;// 初始化Winsock…

Qt moc系统的黑魔法?

Qt的元对象系统&#xff08;Meta-Object System&#xff09;是Qt框架的核心功能之一&#xff0c;为C语言增加了一些动态特性&#xff0c;借助元对象系统Qt可以实现以下功能 信号与槽机制&#xff08;Signals and Slots&#xff09;运行时类型信息&#xff08;Run-Time Type In…

【高频】从输入URL到页面展示到底发生了什么?

一、相关衍生面试问题&#xff1a; 浏览器输入美团网站&#xff0c;从回车到浏览器展示经历了哪些过程 &#xff1f; http输入网页之后的流程&#xff1f; 百度搜索页面&#xff0c;从点开搜索框&#xff0c;到显示搜索页面经历了什么&#xff1f; 二、探究各个过程&#x…

XML Schema 字符串数据类型及约束详解

字符串数据类型用于包含字符字符串的值。字符串数据类型可以包含字符、换行符、回车符和制表符。 以下是模式中字符串声明的示例&#xff1a; <xs:element name"customer" type"xs:string"/>您文档中的一个元素可能如下所示&#xff1a; <custo…

maven--解决Idea没有拉取SNAPSHOT的问题

原文网址&#xff1a;maven--解决Idea没有拉取SNAPSHOT的问题_IT利刃出鞘的博客-CSDN博客 简介 本文介绍Idea解决maven没有拉取SNAPSHOT的问题。 问题描述 项目依赖了以-SNAPSHOT结尾的包&#xff0c;它更新了。Idea点了重新导入后没有拉取到最新的包&#xff1a; 解决方案…

什么是分账系统呢?云分帐系统的实现功能有哪些?

随着电商平台的发展&#xff0c;越来越多的商家开始通过在线平台进行销售&#xff0c;平台业务场景的逐渐复杂&#xff0c;多渠道收款、多方分账。在些场景下如何解决这些问题成为电商平台急需解决的核心问题。 为了解决这些问题&#xff0c;电商平台可以引入分账系统即可轻松解…

从“图形可视化”到“图生代码”,低代码平台的新挑战

前言&#xff1a; 低代码平台最大的一个特点就是可视化&#xff0c;将代码采用可视化的方式展示管理。一时间拥有图形化界面的各类系统都挂上了低代码的标签。但更多的代码从业者在使用中却发现&#xff0c;在众多的低代码平台中都是“别人家的代码”其可视化主要是别人家的代…

如何解决vcruntime140.dll丢失问题,详细介绍5种靠谱的解决方法

vcruntime140.dll是Microsoft Visual C Redistributable Package的一部分&#xff0c;它为使用Visual C编译器开发的应用程序提供必要的运行时环境。该DLL文件包含了大量应用程序运行时需要调用的库函数&#xff0c;这些函数是实现C标准库、异常处理机制、RTTI&#xff08;运行…

图搜索算法教程(个人总结版)

图搜索算法是一类用于遍历或搜索图结构的算法&#xff0c;广泛应用于网络分析、路径规划、人工智能等领域。常见的图搜索算法包括深度优先搜索&#xff08;DFS&#xff09;、广度优先搜索&#xff08;BFS&#xff09;、Dijkstra算法、A*算法等。本文将详细介绍这些图搜索算法的…

创建JSON数据包

在C语言中&#xff0c;JSON不是一种内置的数据类型&#xff0c;因此你需要使用第三方库来创建和解析JSON数据。一个流行的库是cJSON&#xff0c;它允许你以C语言的方式操作JSON数据。 以下是一个使用cJSON库创建类似于你给出的JSON数据包的示例&#xff1a; 首先&#xff0c;…