【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

同学你好!本文章于2021年末编写,获得广泛的好评!

故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现

Pytorch深度学习·理论篇(2023版)目录地址为:

CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!https://v9999.blog.csdn.net/article/details/127587345欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

 


    注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量。在抛去无用特征对拟合结果于扰的同时,又提升了运算速度。

1 注意力机制

所谓Attention机制,便是聚焦于局部信息的机制,比如图像中的某一个图像区域。随着任务的变化,注意力区域往往会发生变化。

 面对上面这样的一张图,如果你只是从整体来看,只看到了很多人头,但是你拉近一个一个仔细看就了不得了,都是天才科学家。

图中除了人脸之外的信息其实都是无用的,也做不了什么任务,Attention机制便是要找到这些最有用的信息,可以想见最简单的场景就是从照片中检测人脸了。

1.1 注意力机制的实现

    神经网络中的注意力机制主要是通过注意力分数来实现的。注意力分数是一个0-1的值,注意力机制作用下的所有分数和为1。每个注意力分数代表当前项被分配的注意力权重。
    任意力分激常由神经网络的权重参数在模型的训练中学习得来,并最终使用Softmax函数进计算。这种机制可以作用在任何神经网络模型中。
    (1)注意力机制可以作用在RNN模型中的每个序列上,令RNN模型对序列中的单个样本给予不同的关注度, 这种方式常用在RNN层的输出结果之后。

(2)注意力机制也可以作用在模型输出的特征向量上,这种针对特征向量进行注意力计算的方式适用范围更为广泛。该方式不但可以应用于循环神经网络,而且可以用于卷积神经网络,甚至图神经网络。

1.2 注意力控制的两种形式

1.2.1 软模式

所有数据均被主注意,计算相应的权重值,不设置筛选条件。

1.2.2 硬模式

在生成注意力权重之后删除一部分不符合条件的注意力,使其注意力权值为0,即不再注意不符合条件的部分。

1.3 注意力机制模型的原理

    注意力机制模型是指完全使用注意力机制搭建起来的模型。注意力机制可以辅助其他神经网络,本身也具有拟合能力

1.3.1 数学模型的推导

 1.3.2注意力机制模型的应用

    注意力机制模型非常适合序列到序列(Sq2Sg)的拟合任务。例如,在实现文字阅读理解任务中,可以把文章当成Q。阅读理解的问题和答案当成K和V(形成键值对)。下面以个翻译任务为例,详细介绍其拟合过程。

1.4 多头注意力机制

    注意力机制因2017年谷歌公司发表的一篇论文Attention is All You Need而受到广泛关注。多头注意力机制就是这篇论文中使用的主要技术之一。多头注意力机制是对原始注意力机制的改进。多头注意力机制可以表示为:Y=MultiHead(Q,K,V),Y代表多头注意力结果,其原理如图所示。

多头注意力机制的工作原理介绍如下。

  1. 把Q、K、V通过参数矩阵进行全连接层的映射转化。
  2. 对第(1)步中所转化的3个结果做点积运算。
  3. 将第(1)步和第(2)步重复运行h次,并且每次进行第(1)步操作时,都使用全新的参数矩阵(参数不共享)。
  4. 用concat()函数把计算h次之后的最终结果拼接起来。操作与多分支卷积技术非常相似,其理论可以解释为:每一次的注意力机制运算,都会使原数据中某个方面的特征发生注意力转化(得到部分注意力特征);当发生多次注意力机制运算之后,会得到更多方向的局部注意力特征;将所有的局部注意力特征合并起来,再通过神经网络将其转化为整体的特征,从达到拟合效果。

1.5 自注意力机制

自注意力机制,又称内部注意力机制,用于发现序列数据的内部特征。其具体做法是将Q、K、V都变成X,即计算Attention(X,X,X),这里的X代表待处理的输入数据。
    使用多头注意力机制训练出的自注意力特征可以用于Seq2Seq模型(输入和输出都是序列数据的模型)、分类模型等各种任务,并能够得到很好的效果,即Y=MultiHead(X,X,X),Y代表多头注意力结果。

2 扩展

2.1 使用梯度剪辑技巧优化训练过程

2.1.1 梯度抖动的原因

梯度剪辑是一种训练模型的技巧,用来改善模型训练过程中抖动较大的问题:在模型使用反向传播训练的过程中,可能会出现梯度值剧烈抖动的情况。而某些优化器的学习率是通过策略算法在训练过程中自学习产生的。当参数值在较为“平坦”的区域进行更新时,由于该区域梯度值比较小,学习率一般会变得较大,如果突然到达了“陡峭”的区域,梯度值陡增,再与较大的学习率相乘,参数就有很大幅度的更新,因此学习过程非常不稳定。

2.1.2 梯度剪辑的具体做法

将反向求导的梯度值控制在一定区间之内,将超过区间的梯度值按照区间边界进行截断,这样,在训练过程中,权重参数的更新幅度就不会过大,使得模型更容易收敛。

2.1.3 在PyTorch中,实现梯度剪辑的三种方式

1.简单方式直接使用cclip_grad_value_()函数即可实现简单的梯度剪辑。

torch.nn.utils.clip_grad_value_(parameters=network.parameters(),clip_value=1.0)

该代码可以将梯度按照[-1,1]区间进行剪辑。这种方法能设剪辑区间的上限和下限,且绝对值必须一致。如果想对区间的上限和下限设置不同的值,那么需要使用其他方法。

2.自定义方式可以使用钩子函数,为每一个参数单独指定剪辑区间。

for param in network.parameters():param.register_hook(lambda gradient:torch.clamp(gradient,-0.1,1.0))

该代码为实例化后的模型权重添加了钩子函数,并在钩子函数内部实现梯度剪辑的设置。
    这种方式最为灵活。在训练时,每当执行完反向传播(loss.backward)之后,所计算的梯度会触发钩子函数进行剪辑处理。

3.使用范数的方式

直接使用clip_grad_norm_()函数即可以范数的方式对梯度进行剪辑。

torch.nn.utils.clip_grad_norm_(network.parameters(),max_norm=1,norm_type=2)

函数clip_grad_norm_()会迭代模型中的所有参数,并将它们的梯度当成向量进行统的范数处理。第2个参数值1表示最大范数,第3个参数值2表示使用L2范数的计算方法。

2.2 使用JANET单元完成RNN

在GitHub网站中,搜索pytorch-janet关键词,在使用时,只需要将pytorch-janet项目中的源码复制到本地,并在代码中导入。

在pytorch-janet项目中,JANET类的实例化参数与torch.nn.LSTM类完全一致,可以直接替换。如果要将LSTM模型替换成JANET,那么需要如下3步实现。
(1)将pytorch-janet项目中的源码复制到本地。
(2)在代码文件LSTMModel.py的开始处添加如下代码,导入JANET类。

from pytorch_janet import JANET

(3)将代码文件LSTMModel.py中的torch.nn.LSTM替换成JANET。

2.3 使用indRNN单元实现RNN

在GitHub网站中,搜索indrnn-pytorch关键词,该项目中实现了两个版本的IndRNN单元。这两个版本的IndRNN接口分别为IndRNN、IndRNNv2类,可以直接替换torch.nn.LSTM类。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/469344.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Pytorch神经网络实战案例】12 利用注意力机制的神经网络实现对FashionMNIST数据集图片的分类

1、掩码模式:是相对于变长的循环序列而言的,如果输入的样本序列长度不同,那么会先对其进行对齐处理(对短序列补0,对长序列截断),再输入模型。这样,模型中的部分样本中就会有大量的零…

爬虫实战学习笔记_4 网络请求urllib3模块:发送GET/POST请求实例+上传文件+IP代理+json+二进制+超时

1 urllib3模块简介 urllib3是一个第三方的网络请求模块(单独安装该模块),在功能上比Python自带的urllib强大。 1.1了解urllib3 urllib3库功能强大,条理清晰的用于HTTP客户端的python库,提供了很多Python标准库里所没…

C. Jon Snow and his Favourite Number DP + 注意数值大小

http://codeforces.com/contest/768/problem/C 这题的数值大小只有1000&#xff0c;那么可以联想到&#xff0c;用数值做数组的下标&#xff0c;就是类似于计数排序那样子。。 这样就可以枚举k次操作&#xff0c;然后for (int i 0; i < 1025; i)&#xff0c;也就是O(1000 *…

【Pytorch神经网络理论篇】 21 信息熵与互信息:联合熵+条件熵+交叉熵+相对熵/KL散度/信息散度+JS散度

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络理论篇】 22 自编码神经网络:概述+变分+条件变分自编码神经网络

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络实战案例】13 构建变分自编码神经网络模型生成Fashon-MNST模拟数据

1 变分自编码神经网络生成模拟数据案例说明 变分自编码里面真正的公式只有一个KL散度。 1.1 变分自编码神经网络模型介绍 主要由以下三个部分构成&#xff1a; 1.1.1 编码器 由两层全连接神经网络组成&#xff0c;第一层有784个维度的输入和256个维度的输出&#xff1b;第…

【Pytorch神经网络实战案例】14 构建条件变分自编码神经网络模型生成可控Fashon-MNST模拟数据

1 条件变分自编码神经网络生成模拟数据案例说明 在实际应用中&#xff0c;条件变分自编码神经网络的应用会更为广泛一些&#xff0c;因为它使得模型输出的模拟数据可控&#xff0c;即可以指定模型输出鞋子或者上衣。 1.1 案例描述 在变分自编码神经网络模型的技术上构建条件…

hibernate持久化对象

转载于:https://www.cnblogs.com/jianxin-lilang/p/6440101.html

【Pytorch神经网络理论篇】 23 对抗神经网络:概述流程 + WGAN模型 + WGAN-gp模型 + 条件GAN + WGAN-div + W散度

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络实战案例】15 WGAN-gp模型生成Fashon-MNST模拟数据

1 WGAN-gp模型生成模拟数据案例说明 使用WGAN-gp模型模拟Fashion-MNIST数据的生成&#xff0c;会使用到WGAN-gp模型、深度卷积GAN(DeepConvolutional GAN&#xff0c;DCGAN)模型、实例归一化技术。 1.1 DCGAN中的全卷积 WGAN-gp模型侧重于GAN模型的训练部分&#xff0c;而DCG…

Android启动过程深入解析

转载自&#xff1a;http://blog.jobbole.com/67931/ 当按下Android设备电源键时究竟发生了什么&#xff1f;Android的启动过程是怎么样的&#xff1f;什么是Linux内核&#xff1f;桌面系统linux内核与Android系统linux内核有什么区别&#xff1f;什么是引导装载程序&#xff1…

【Pytorch神经网络实战案例】16 条件WGAN模型生成可控Fashon-MNST模拟数据

1 条件GAN前置知识 条件GAN也可以使GAN所生成的数据可控&#xff0c;使模型变得实用&#xff0c; 1.1 实验描述 搭建条件GAN模型&#xff0c;实现向模型中输入标签&#xff0c;并使其生成与标签类别对应的模拟数据的功能&#xff0c;基于WGAN-gp模型改造实现带有条件的wGAN-…

Android bootchart(二)

这篇文章讲一下MTK8127开机启动的时间 MTK8127发布版本开机时间大约在&#xff12;&#xff10;秒左右&#xff0c;如果发现开机时间变长&#xff0c;大部分是因为加上了客户订制的东西&#xff0c;代码累赘太多了。 &#xff11;、下面看一下&#xff2d;&#xff34;&#…

Android Camera框架

总体介绍 Android Camera 框架从整体上看是一个 client/service 的架构, 有两个进程: client 进程,可以看成是 AP 端,主要包括 JAVA 代码与一些 native c/c++代码; service 进 程,属于服务端,是 native c/c++代码,主要负责和 linux kernel 中的 camera driver 交互,搜集 li…

【Pytorch神经网络实战案例】17 带W散度的WGAN-div模型生成Fashon-MNST模拟数据

1 WGAN-div 简介 W散度的损失函数GAN-dv模型使用了W散度来替换W距离的计算方式&#xff0c;将原有的真假样本采样操作换为基于分布层面的计算。 2 代码实现 在WGAN-gp的基础上稍加改动来实现&#xff0c;重写损失函数的实现。 2.1 代码实战&#xff1a;引入模块并载入样本-…

【Pytorch神经网络理论篇】 24 神经网络中散度的应用:F散度+f-GAN的实现+互信息神经估计+GAN模型训练技巧

同学你好&#xff01;本文章于2021年末编写&#xff0c;获得广泛的好评&#xff01; 故在2022年末对本系列进行填充与更新&#xff0c;欢迎大家订阅最新的专栏&#xff0c;获取基于Pytorch1.10版本的理论代码(2023版)实现&#xff0c; Pytorch深度学习理论篇(2023版)目录地址…

【Pytorch神经网络实战案例】18 最大化深度互信信息模型DIM实现搜索最相关与最不相关的图片

图片搜索器分为图片的特征提取和匹配两部分&#xff0c;其中图片的特征提取是关键。将使用一种基于无监督模型的提取特征的方法实现特征提取&#xff0c;即最大化深度互信息&#xff08;DeepInfoMax&#xff0c;DIM&#xff09;方法。 1 最大深度互信信息模型DIM简介 在DIM模型…

【Pytorch神经网络实战案例】19 神经网络实现估计互信息的功能

1 案例说明&#xff08;实现MINE正方法的功能&#xff09; 定义两组具有不同分布的模拟数据&#xff0c;使用神经网络的MINE的方法计算两个数据分布之间的互信息 2 代码编写 2.1 代码实战&#xff1a;准备样本数据 import torch import torch.nn as nn import torch.nn.fun…

爬虫实战学习笔记_6 网络请求request模块:基本请求方式+设置请求头+获取cookies+模拟登陆+会话请求+验证请求+上传文件+超时异常

1 requests requests是Python中实现HTTP请求的一种方式&#xff0c;requests是第三方模块&#xff0c;该模块在实现HTTP请求时要比urlib、urllib3模块简化很多&#xff0c;操作更加人性化。 2 基本请求方式 由于requests模块为第三方模块&#xff0c;所以在使用requests模块时…

201521123044 《Java程序设计》第01周学习总结

1.本章学习总结 你对于本章知识的学习总结 1.了解了Java的发展史。 2.学习了什么是JVM,区分JRE与JDK,下载JDK。 3.从C语言的.c 到C的 .cpp再到Java的.java&#xff0c;每种语言编译程序各有不同&#xff0c;却有相似之处。 2. 书面作业 **Q1.为什么java程序可以跨平台运行&…