Attentive Sequence to Sequence Networks

Attentive Sequence to Sequence Networks

news/2025/7/8 17:28:53/文章来源:https://maokun.blog.csdn.net/article/details/83240463

转载自 Attentive Sequence to Sequence Networks

Attentive Sequence to Sequence Networks

1、Encoder-Decoder 框架

首先我们模型的整体框图如下：

Encoder-Decoder 框架可以这么直观地去理解：可以把它看作适合处理由一个句子（或篇章）生成另外一个句子（或篇章）的通用处理模型。

对于句子对<X,Y>，我们的目标是给定输入句子 X，期待通过Encoder-Decoder 框架来生成目标句子 Y。

X 和 Y 可以是同一种语眼，也可以是两种不同的语言。

而 X 和 Y 分别由各⾃的单词序列构成：

Encoder 为对输入句子X 进行编码，将输入句子通过非线性变换转化为中间语义表示 C：

2、机器翻译例子

在本次讲解内容中，采用机器翻译作为讲解例子。

我们的目标是将法语翻译成中文，如下图所示：

首先可以看一个翻译例子对应的 Encoder-Decoder network：

其中编码和解码的模型，可以是 MLP、RNN、CNN 或者其它模型， 不限定模型的种类，也体现了 Encoder-Decoder 的灵活性。

继续来细看模型图：

在上图中，我们能看出源语言通过模型 encoder 为一个句子表示 c，然后再解码的过程中 c 和 yi 生成下一时刻的 y（i+1）单词。

如下图所示：

3、Attention 机制

3.1 引出 Attention 机制

注意力模型（Attention Model）的作用在于重新分配“注意力”。

人类在接收信息时，总是会有选择性的注意某些特定内容，比如过马路时总是会注意来往的车辆而不是天空，上课时总是会注意老师说的话而不是教室外面的噪音等等。

注意力集中对于人类有着重要的意义，使得人类能够把有限的精力放到重要的事情上去；如果注意力不集中，那么无论是学习还是生活，效率都会大大降低。

对于深度学习模型，同样存在“注意力”不集中的问题。

以自然语言处理中的 Encoder-Decoder 结构为例，在逐词解码的过程中，每一项都使用了相同的语义特征 C 来帮助解码。

换言之，Encoder 整个输入句子中的所有词语对于 Decoder 解码出的每一个词语都有相同的贡献。

显然，这种方法是不合理的：输一句子中的不同字符对于输出中不同位置的字符的影响应该是不相同的。

以机器翻译的任务举例，法语中“le chat est noir EOS”会被翻译成英语“the cat is black EOS”，对于翻译出“is”这个词语，其信息应该是由单词“est”提供的，而与“le chat” ⽆关。

然而在 Encoder-Decoder 结构解码过程中，整个句子的特征 C 会一直作用于每个词语的解码过程，也就是说，“le chat”对于解码出词语 “is”也起到了和单词“est”相同的作用。

为了解决上述的不合理情况，注意力机制被引入 Seq2Seq 模型中。顾名思义，“注意力”机制使得在解码过程中，关注的重点从整个输入句子转移到某些特定的、可能对当前解码词语更加重要的输入词语上去。

转移关注的重点是通过加权值的方法来完成的。

Attention 模型有着相应权重调整机制，简单来说，就是对在组成特征向量时对每一项进行动态赋权。

有了相应的权重，得到的新的特征 C 就具备了表示不同输入词语重要性的能力；因为引入了 Attention 这样⼀种新的信息，在较长句子上的实际效果要明显优于未加入 Attention 机制的模型。

下图显示了翻译成目标语言的时候，源语言的每个词对目标语言的每个词的权重分布，其中颜色越深代表相应的权重越大。

那么我们如何在原来的结构中加入 attention 机制，根据上面分析，也就是将原来不变的 c 改为能够动态改变的ci" ，其中 i 代表的是此时已经解码到了第 i 个单词了，结构图如下：

3.2 训练方式以及如何求解 ci

如何求解? 总共有三种方式。

1、dot 方式：直接做点积

2、general 方式：两个向量之间加入一个参数矩阵，可以训练得到。

3、concat 方式：两个向量做拼接如下图所示：

训练方式有如下俩种：

1、Teacher Forcing Use standard sequence as input for decoding

2、Scheduled Sampling Use (sampled) automatically predicted output as input for decoding 形式化表示如下图所示：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/324725.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

ssl2331OJ1373-鱼塘钓鱼之3【dp】

ssl2331OJ1373-鱼塘钓鱼之3【dp】

前言上篇： 纯贪心做法堆优化贪心题目：OJ1373 正题有N个鱼塘，给出每分钟可以钓到的鱼数和每钓一次下一次钓减少的鱼数和到下一个鱼塘需要几分钟（不能回头）。求限定时间内最多能够钓到的鱼数解题思路用f[i][…

阅读更多...

多线程三种创建方式

多线程三种创建方式

方法一：继承Thread Thread package com.bjsxt.create;/*** author dell* data 2021/3/2* 创建一个线程对象，并启动线程** 注意：启动main方法，自动创建main线程* * thread.join() 阻塞乌龟线程，乌龟执行完…

阅读更多...

20级四班班级管理规章制度

20级四班班级管理规章制度

点击上方蓝色关注我们！

阅读更多...

查看防火墙状态并关闭防火墙

查看防火墙状态并关闭防火墙

查看防火前关闭防火墙

阅读更多...

完全图解RNN、RNN变体、Seq2Seq、Attention机制

完全图解RNN、RNN变体、Seq2Seq、Attention机制

转载自完全图解RNN、RNN变体、Seq2Seq、Attention机制完全图解RNN、RNN变体、Seq2Seq、Attention 机制本文首发于知乎专栏“ai insight”！ 本文主要是利用图片的形式，详细地介绍了经典的RNN、RNN几个重要变体，以及Seq2Seq模型、Attent…

阅读更多...

OJ1306-最长公共子上升序列【dp】

OJ1306-最长公共子上升序列【dp】

前言这是一道比较久之前的题了，之前没做完。不过这次不是因为我改了，而是数据改了（可能之前有问题），然后偶然今天翻的时候就发现自己对了QAQ。题目 OJ1306 就是给出两个序列，求出这两个序列中公共的最…

阅读更多...

多线程三种同步方式（模拟银行取款）

多线程三种同步方式（模拟银行取款）

方法一：同步代码块 Accoun package com.bjsxt.synch1;/*** 银行账户类*/ public class Account {private int balance 600;//余额/*** 取款* param money*/public void withDraw(int money){this.balance this.balance -money;}/*** 查看余额* return*/public i…

阅读更多...

今天就唠叨唠叨吧……

今天就唠叨唠叨吧……

点击上方蓝色关注我们！看书这个爱好是从去年年底开始的。看关于教育教学管理类型的书籍是从今年前半年开始的，有好些书都是王晓春老师写的，例如《做一个专业的班主任》、《问题学生诊疗手册》《今天怎样做教师》，每本书都有不一样…

阅读更多...

利用redis保存验证码并设置过期时间

利用redis保存验证码并设置过期时间

package com.atguigu.jedis;import redis.clients.jedis.Jedis;import java.util.Random;public class PhoneCode {public static void main(String[] args) {//模拟验证码发送verifyCode("13678765435");//模拟验证码校验//getRedisCode("13678765435",&q…

阅读更多...

洛谷P2085ssl1411OJ1370-最小函数值【堆,贪心】

洛谷P2085ssl1411OJ1370-最小函数值【堆,贪心】

前言有一个东西卡了我一会折叠N*或N 正整数集 (由全体正整数组成的集合) N*:{1,2,3,…,n,…} 题目洛谷P2085 OJ1370 给出n个ai,bi,ci。定义一个函数 fi(x)aix2bixci(x∈N∗)fi(x)aix2bixci(x∈N∗)然后求最小的m个数解题思路这道题比较简单，一下就想到了…

阅读更多...

如何轻松愉快的理解条件随机场（CRF）

如何轻松愉快的理解条件随机场（CRF）

转载自如何轻松愉快的理解条件随机场（CRF） 如何轻松愉快的理解条件随机场（CRF）？ 理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的，可能写文章的人…

阅读更多...

ASP.NET Core MVC 控制器创建与依赖注入

ASP.NET Core MVC 控制器创建与依赖注入

在我最后一篇关于 ASP.NET Core 释放IDsiposable对象的文章（中文、英文原文）中，Mark Rendle 指出，MVC 控制器在请求结束时也会释放资源。乍一看，此范围内的资源在请求结束时会释放似乎是显而易见的，但是 MV…

阅读更多...

多线程的线程通信（生产消费）

多线程的线程通信（生产消费）

消费者线程 package com.bjsxt.commu5;/*** 消费者线程*/ public class ConsumeRunnable implements Runnable {//private Product product new Product();private Product product;private Object obj new Object();public ConsumeRunnable() {}public ConsumeRunnable(Pr…

阅读更多...

19级：一天一瞬间

19级：一天一瞬间

点击上方蓝色关注我们！3班的KTV项目周期为两周，目前时间将近一周，除李磊小组进度超出之外，其余四个小组的进度都属正常。上午大致的将每个小组的前台功能过了一遍，刘文瑞小组还剩几个点歌功能未实现，整体的…

阅读更多...

数组与集合相互转换

数组与集合相互转换

数组Array与集合List相互转化有两种方式，一种是自己手动转化，一种是直接使用集合或数组自带的方法转化数组转化集合： 方法一：手动转化 List<String> list new ArrayList<>(); String[] array new String[] {"…

阅读更多...

拥抱.NET Core系列：依赖注入（2）

拥抱.NET Core系列：依赖注入（2）

上一篇“拥抱.NET Core系列：依赖注入（1）大体介绍了服务注册、获取和生命周期，这一篇来做一些补充。由于内容跨度大（.NET Core、ASP.NET Core），所以文章并不是非常的贯穿，大家可以挑着…

阅读更多...

使用Docker 实现微服务并搭建博客，一文全掌握

使用Docker 实现微服务并搭建博客，一文全掌握

转载自使用Docker 实现微服务并搭建博客，一文全掌握 Docker 是一个容器工具，提供虚拟环境。很多人认为，它改变了我们对软件的认识。本文，通过搭建一个博客的例子，来介绍如何使用Docker实现微服务。站在 Docker …

阅读更多...

失望至极……

失望至极……

点击上方蓝色关注我们！

阅读更多...

【2018.3.10】模拟赛之一-ssl2574Closest【深搜】

【2018.3.10】模拟赛之一-ssl2574Closest【深搜】

目录地址前言感谢黎某儿（划掉）教我这道题☆⌒(*＾-゜)v。正题给出两个n位数A,B。我们需要找到两个最近的靠近A的n位数（第一个比A大或与A相等，第二个严格比A小），使得它们的十进制表示是B中…

阅读更多...

什么是mysql的主从复制？

什么是mysql的主从复制？

MySQL 主从复制是指数据可以从一个MySQL数据库服务器主节点复制到一个或多个从节点。MySQL 默认采用异步复制方式，这样从节点不用一直访问主服务器来更新自己的数据，数据的更新可以在远程连接上进行，从节点可以复制主数据库中的所有数据库…

阅读更多...

最新文章