N10 - NLP中的注意力机制

  • 🍨 本文为🔗365天深度学习训练营 中的学习记录博客
  • 🍖 原作者:K同学啊

目录

  • 1. 注意力机制是什么
  • 2. 注意力实现步骤
    • 0. 准备隐藏状态
    • 1. 获取每个编码器隐藏状态的分数
    • 2. 通过softmax层运行所有分数
    • 3. 通过softmax得分将每个编码器的隐藏状态相乘
    • 4. 向量求和
    • 5. 将上下文向量输入编码器
    • 最后来一个总的动图
  • 总结与心得体会


1. 注意力机制是什么

在上节的seq2seq框架中,让两个循环神经网络(RNN)构成了 编码器-解码器 结构。其中编码器逐个读取输入词,获得固定维度的向量表示,然后解码器基于这些输入逐个提取输出词。
RNN构成 编码器-解码器结构
上面的结构的问题在于,解码器从编码器接受的唯一信息是 最后一个编码器隐藏状态,这是类似于对输入的序列进行总结。

所以对于较长的输入文本,结构会变成如下图所示
较长文本的RNN结构
如果仍然希望解码器仅仅利用最后一个编码器的隐藏状态的输出就输出完成的译文,肯定是不太合理地,会导致灾难性遗忘。

所以我们如果可以向解码器提供每个编码器时间步的向量表示,而不是只把最终的给它,是不是就能改进翻译的结果呢,这就需要引入注意力机制。

注意力机制
注意力机制是编码器和解码器之间的接口,它为解码器提供每个编码器隐藏状态的信息(最后一层的除外)。通过这个设置,模型能够有选择地侧重输入序列中游泳的部分,有助于模型更高效地处理输入长句。

注意力机制的本质:通过为每个单词分配值,注意力机制可以为不同单词分配不同的注意力。然后利用softmax对编码器隐藏状态进行加权求和,得到上下文向量(Context Vector)。

注意力层的实现可以分成6个步骤。

2. 注意力实现步骤

0. 准备隐藏状态

首先需要准备一个解码器隐藏状态和所有可用的编码器的隐藏状态
状态准备

1. 获取每个编码器隐藏状态的分数

分数(标量)通过评分函数获得。图示是解码器和编码器隐藏状态之间的点积。
计算隐藏状态的分数

2. 通过softmax层运行所有分数

将上一步的得分放到softmax层,这些得分代表注意力分布。
通过softmax计算注意力分布

3. 通过softmax得分将每个编码器的隐藏状态相乘

将每个编码器隐藏状态与对应的softmax得分相乘,获得alignment向量
获得alignment向量

4. 向量求和

将所有的alignment向量相加,生成上下文向量(Context Vector)
生成上下文向量

5. 将上下文向量输入编码器

最后一步就是把生成的上下文向量给编码器作为输入使用
把上下文向量给编码器

最后来一个总的动图

注意力计算的过程

总结与心得体会

在没有本节学习之前,我一直以为注意力机制就是Transformer中使用的自注意力机制。通过注意力机制的过程学习,我才发现,自注意力机制只是注意力机制中的一种,并且Transformer这种也只是自注意力机制的一种实现形式。宏观上来看,自注意力机制可以用在更广泛的场景中,比如计算一下特征图每层之间的注意力分数,叫做通道注意力机制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/52919.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

k3s安装部署说明

前言: 为什么不是k8s,k8s机子要求资源太高了,先来个简单的k3s 1:环境 ubuntu18 2安装docker ubuntu18.0.4 如下 1:禁用防火墙及SELinux(可能需要禁止) systemctl stop firewalld && systemctl disable firewalld 2: 开启路由转发 sudo vim /e…

以低代码技术加速推动企业数字创新

在数字化转型的浪潮中,企业面临着前所未有的挑战和机遇。随着技术的不断进步,企业需要快速适应市场变化,创新产品和服务,以保持竞争力。低代码技术作为一种新兴的开发模式,正逐渐成为企业数字创新的重要推动力。 低代码…

《深入浅出WPF》读书笔记.8路由事件

《深入浅出WPF》读书笔记.8路由事件 背景 路由事件是直接响应事件的变种。直接响应事件,事件触发者和事件响应者必须显示订阅。而路由事件的触发者和事件响应者之间的没有显示订阅,事件触发后,事件响应者安装事件监听器,当事件传…

财富趋势金融大模型已通过备案

财富趋势金融大模型已通过备案 8月28日晚,国内领先的证券软件与信息服务提供商——财富趋势,公布了其2024年上半年财务报告: 今年上半年,财富趋势营收1.48亿元,同比增长0.14%;实现归母净利润为1亿元&#x…

国标GB28181视频监控EasyCVR视频汇聚平台国标注册被陌生IP入侵如何处理?

GB28181国标/GA/T1400协议/安防综合管理系统EasyCVR视频汇聚平台能在复杂的网络环境中,将前端设备统一集中接入与汇聚管理。智慧安防/视频存储/视频监控/视频汇聚EasyCVR平台可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级…

java 接口创建对象

Java 接口创建对象:深度解析与示例 在 Java 编程中,接口是一种非常重要的概念。它不仅为不同类之间的交互提供了规范,也促进了代码的重用和解耦。本文将深入探讨如何在 Java 中使用接口创建对象,带您理解这一关键特性。 什么是接…

nginx容器映射配置文件后,启动一直报错提示:failed (13: Permission denied)的排查

问题现象: 使用harbor 的install.sh 创建docker-compose之后,出现nginx容器一直重启。 查看日志发现是:配置文件无权限。报错信息如下: Sep 2 16:43:13 172.28.0.1 nginx[1344]: 2024/09/02 08:43:13 [emerg] 1#0: open() “/e…

UNION和UNION ALL的区别

一、区别 去重功能 UNION会去除结果集中的重复行。UNION ALL不会去除重复行,它只是简单地将多个结果集合并在一起。 性能 UNION ALL通常比UNION性能更好,因为UNION需要进行去重操作,这会增加额外的计算开销。 二、具体例子 假设有两个表tab…

HarmonyOS开发实战( Beta5版)线程间通信场景最佳实践

简介 在应用开发中,经常会需要处理一些耗时的任务,如果全部放在主线程中执行就会导致阻塞,从而引起卡顿或者掉帧现象,降低用户体验,此时就可以将这些耗时操作放到子线程中处理。通常情况下,子线程可以独立…

linux离线安装nacos

1、打开 Nacos-GitHub ,点击 Release 可以看到 Nacos 的各版本跟新信息和安装包之类的 点击下载nacos-server-2.4.1.tar.gz,在linux创建nacos文件夹,把下载好的文件上传到nacos文件夹,并通过命令解压:tar -zxvf nacos-server-2.4.…

MySQL用户管理:用户管理、用户授权、用户权限撤销

MySQL的用户管理涉及用户创建、权限授予以及权限撤销等多个方面,是数据库管 理中至关重要的一环。以下是对MySQL用户管理、用户授权和用户权限撤销的详细描述:一、用户管理 1. 创建用户 在MySQL中,可以使用CREATE USER语句来创建新用户。创建…

《花100块做个摸鱼小网站! 》第五篇—通过xxl-job定时获取热搜数据

⭐️基础链接导航⭐️ 服务器 → ☁️ 阿里云活动地址 看样例 → 🐟 摸鱼小网站地址 学代码 → 💻 源码库地址 一、前言 我们已经成功实现了一个完整的热搜组件,从后端到前端,构建了这个小网站的核心功能。接下来,我们…

chrome插件模拟isTrusted的事件

文章目录 方法原理 使用js模拟的事件isTrusted的值时false。有的时候我们想要模拟sTrusted未true的事件就比较麻烦了。 我们可以利用chrome插件的 chrome.debugger解决改问题。 方法 大体思路是:模拟事件的请求从content_script.js发出,到达background…

【类模板】类模板的特化

一、类模板的泛化 与函数模板一样&#xff0c;类模板的泛化就是普通的模板&#xff0c;不具有特殊性的模板。 以下的类模板为泛化的版本 //类模板的泛化 template<typename T,typename U> struct TC {//静态成员变量static int static_varible; //声明TC() {std::cout…

常见图像图片属性的介绍与说明

图像属性是指图像的一些基本特征和参数&#xff0c;它们定义了图像的外观和存储方式。以下是一些常见的图像属性&#xff1a; 1. 分辨率&#xff1a; 分辨率通常以像素数&#xff08;如800x600&#xff09;来表示&#xff0c;指的是图像的宽度和高度上的像素点数。分辨率越高&…

【Spring Boot-IDEA创建spring boot项目方法】

1. 使用Spring Initializr 的 Web页面创建项目 2. 使用 IDEA 直接创建项目&#xff0c;其中有两种不同的搭建路径 3. 使用 IDEA 创建Maven项目并改造为springBoot 最常使用的两种方法其实就是一种&#xff0c;这里介绍在ieda中如何搭建 SpringBoot项目。 1.new Project--> 2…

剑侠情缘c#版(游戏源码+资源+工具+程序),百度云盘下载,大小1.68G

剑侠情缘c#版&#xff08;游戏源码资源工具程序&#xff09;&#xff0c;c#开发的&#xff0c;喜欢研究游戏的可以下载看看。亲测可进游戏。 剑侠情缘c#版&#xff08;游戏源码资源工具程序&#xff09;下载地址&#xff1a; 通过网盘分享的文件&#xff1a;【游戏】剑侠情缘c#…

误删文件回收站也清空了怎么找回?误删文件的救援方案

在数字化时代&#xff0c;电脑中的文件安全至关重要。然而&#xff0c;有时我们可能因为一时疏忽&#xff0c;误删了重要文件&#xff0c;甚至在慌乱中清空了回收站。面对这种情况&#xff0c;很多人会感到惊慌失措&#xff0c;担心重要数据就此丢失。但请不要绝望&#xff0c;…

系统架构设计师——系统性能

性能指标 计算机性能指标 操作系统性能指标 网络的性能指标 数据库的性能指标 数据库管理系统的性能指标 应用系统的性能指标 Web服务器的性能指标 性能计算 定义法 计算方法主要包括定义法、公式法、程序检测法和仪器检测法。这些方法分别通过直接获取理想数据、应用衍生出的…

shell脚本—————局域网IP扫描

#!/bin/bash #该脚本用于采集某个C类网络存活主机的MAC地址 #使用方法&#xff1a;bash 脚本名字网卡名字网段前三位.10.144.100. #ETH$(ifconfig | grep eth | awk {print $1})for ip in {1..254} do { arping -c 2 -w 1 -I $1 $2$ip| grep "reply from" > /dev/…