Attentive Sequence to Sequence Networks

转载自  Attentive Sequence to Sequence Networks

Attentive Sequence to Sequence Networks

1、Encoder-Decoder 框架

首先我们模型的整体框图如下:

Encoder-Decoder 框架可以这么直观地去理解:可以把它看作适合处理由一个句子(或篇章)生成另外一个句子(或篇章)的通用处理模型。

对于句子对<X,Y>,我们的目标是给定输入句子 X,期待通过Encoder-Decoder 框架来生成目标句子 Y。

X 和 Y 可以是同一种语眼,也可以是两种不同的语言。

而 X 和 Y 分别由各⾃的单词序列构成:

Encoder 为对输入句子X 进行编码,将输入句子通过非线性变换转化为中间语义表示 C:

 

2、机器翻译例子

在本次讲解内容中,采用机器翻译作为讲解例子。

我们的目标是将法语翻译成中文,如下图所示:

首先可以看一个翻译例子对应的 Encoder-Decoder network:

其中编码和解码的模型,可以是 MLP、RNN、CNN 或者其它模型, 不限定模型的种类,也体现了 Encoder-Decoder 的灵活性。 

继续来细看模型图:

在上图中,我们能看出源语言通过模型 encoder 为一个句子表示 c,然后再解码的过程中 c 和 yi 生成下一时刻的 y(i+1)单词。 

如下图所示:

 

3、Attention 机制

3.1 引出 Attention 机制

注意力模型(Attention Model)的作用在于重新分配“注意力”。 

人类在接收信息时,总是会有选择性的注意某些特定内容,比如 过马路时总是会注意来往的车辆而不是天空,上课时总是会注意老师 说的话而不是教室外面的噪音等等。

注意力集中对于人类有着重要的意义,使得人类能够把有限的精力放到重要的事情上去;如果注意力不集中,那么无论是学习还是生活,效率都会大大降低。

对于深度学习模型,同样存在“注意力”不集中的问题。

以自然语言处理中的 Encoder-Decoder 结构为例,在逐词解码的过程中,每一项都使用了相同的语义特征 C 来帮助解码。

换言之,Encoder 整个输入句子中的所有词语对于 Decoder 解码 出的每一个词语都有相同的贡献。

显然,这种方法是不合理的:输一句子中的不同字符对于输出中不同位置的字符的影响应该是不相同的。

以机器翻译的任务举例,法语中“le chat est noir EOS”会被翻译成英语“the cat is black EOS”,对于 翻译出“is”这个词语,其信息应该是由单词“est”提供的,而与“le chat” ⽆关。

然而在 Encoder-Decoder 结构解码过程中,整个句子的特征 C 会一直作用于每个词语的解码过程,也就是说,“le chat”对于解码出词语 “is”也起到了和单词“est”相同的作用。

为了解决上述的不合理情况,注意力机制被引入 Seq2Seq 模型中。 顾名思义,“注意力”机制使得在解码过程中,关注的重点从整个输入句子转移到某些特定的、可能对当前解码词语更加重要的输入词语上 去。

转移关注的重点是通过加权值的方法来完成的。

Attention 模型有着相应权重调整机制,简单来说,就是对在组成 特征向量时对每一项进行动态赋权。 

有了相应的权重,得到的新的特征 C 就具备了表示不同输入词语重要性的能力;因为引入了 Attention 这样⼀种新的信息,在较长句子上的实际效果要明显优于未加入 Attention 机制的模型。

下图显示了翻译成目标语言的时候,源语言的每个词对目标语言的每个词的权重分布,其中颜色越深代表相应的权重越大。

那么我们如何在原来的结构中加入 attention 机制,根据上面分析,也就是将原来不变的 c 改为能够动态改变的ci" ,其中 i 代表的是此时已经解码到了第 i 个单词了,结构图如下:

3.2 训练方式以及如何求解 ci

如何求解? 总共有三种方式。

1、dot 方式: 直接做点积 

2、general 方式:两个向量之间加入一个参数矩阵,可以训练得到。 

3、concat 方式:两个向量做拼接 如下图所示:

训练方式有如下俩种: 

1、Teacher Forcing Use standard sequence as input for decoding 

2、Scheduled Sampling Use (sampled) automatically predicted output as input for decoding 形式化表示如下图所示:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/324725.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

20级四班班级管理规章制度

点击上方蓝色关注我们&#xff01;

完全图解RNN、RNN变体、Seq2Seq、Attention机制

转载自 完全图解RNN、RNN变体、Seq2Seq、Attention机制 完全图解RNN、RNN变体、Seq2Seq、Attention 机制 本文首发于知乎专栏“ai insight”&#xff01; 本文主要是利用图片的形式&#xff0c;详细地介绍了经典的RNN、RNN几个重要变体&#xff0c;以及Seq2Seq模型、Attent…

今天就唠叨唠叨吧……

点击上方蓝色关注我们&#xff01;看书这个爱好是从去年年底开始的。看关于教育教学管理类型的书籍是从今年前半年开始的&#xff0c;有好些书都是王晓春老师写的&#xff0c;例如《做一个专业的班主任》、《问题学生诊疗手册》《今天怎样做教师》&#xff0c;每本书都有不一样…

如何轻松愉快的理解条件随机场(CRF)

转载自 如何轻松愉快的理解条件随机场&#xff08;CRF&#xff09; 如何轻松愉快的理解条件随机场&#xff08;CRF&#xff09;&#xff1f; 理解条件随机场最好的办法就是用一个现实的例子来说明它。 但是目前中文的条件随机场文章鲜有这样干的&#xff0c;可能写文章的人…

ASP.NET Core MVC 控制器创建与依赖注入

在我最后一篇关于 ASP.NET Core 释放IDsiposable对象的文章&#xff08;中文、英文原文&#xff09;中&#xff0c;Mark Rendle 指出&#xff0c;MVC 控制器在请求结束时也会释放资源。乍一看&#xff0c;此范围内的资源在请求结束时会释放似乎是显而易见的&#xff0c;但是 MV…

19级:一天一瞬间

点击上方蓝色关注我们&#xff01;3班的KTV项目周期为两周&#xff0c;目前时间将近一周&#xff0c;除李磊小组进度超出之外&#xff0c;其余四个小组的进度都属正常。上午大致的将每个小组的前台功能过了一遍&#xff0c;刘文瑞小组还剩几个点歌功能未实现&#xff0c;整体的…

拥抱.NET Core系列:依赖注入(2)

上一篇“拥抱.NET Core系列&#xff1a;依赖注入&#xff08;1&#xff09;大体介绍了服务注册、获取和生命周期&#xff0c;这一篇来做一些补充。由于内容跨度大&#xff08;.NET Core、ASP.NET Core&#xff09;&#xff0c;所以文章并不是非常的贯穿&#xff0c;大家可以挑着…

使用Docker 实现微服务并搭建博客,一文全掌握

转载自 使用Docker 实现微服务并搭建博客&#xff0c;一文全掌握 Docker 是一个容器工具&#xff0c;提供虚拟环境。很多人认为&#xff0c;它改变了我们对软件的认识。 本文&#xff0c;通过搭建一个博客的例子&#xff0c;来介绍如何使用Docker实现微服务。 站在 Docker …

失望至极……

点击上方蓝色关注我们&#xff01;

asp.net core新特性(1):TagHelper

进步&#xff0c;才是人应该有的现象。—— 雨果 今天开始&#xff0c;我就来说说asp.net core的新特性&#xff0c;今天就说说TagHelper标签助手。虽然学习.net&#xff0c;最有帮助的就是microsoft的官方说明文档了&#xff0c;里面把一些使用说明都写的非常清楚&#xff0c;…

Java中的事务——全局事务与本地事务

转载自 Java中的事务——全局事务与本地事务 在上一篇文章中说到过&#xff0c;Java事务的类型有三种&#xff1a;JDBC事务、JTA(Java Transaction API)事务、容器事务。 这是从事务的实现角度区分的&#xff0c;本文从另外一个角度来再次区分一下Java中的事务。站在事务管…

SSM整合简单登录案例

[1] 在数据库中创建用户信息表 [2] 搭建SSM开发环境 使用idea创建登录功能的web项目 在web-inf目录下创建lib文件夹&#xff0c;并导入SSM的jar包. 在src下创建MVC的包结构 在src下创建并配置SSM的xml文件 ① applicationcontext.xml <?xml version"1.0"…

19级、20级:班级日常分享,一天一瞬间

点击上方蓝色关注我们&#xff01;由于近期班级里面总是有或大或小的问题&#xff0c;所以就和丁老师商量的制定了长达29条的班规&#xff0c;昨天利用下午上课的时间在班内逐条讲解。因为班规是以安全、学习、道德以及身心健康为中心出发的&#xff0c;所以条条都合理&#xf…

同步VS异步

同步异步 &#xff0c; 举个例子来说&#xff0c;一家餐厅吧来了5个客人&#xff0c;同步的意思就是说&#xff0c;来第一个点菜&#xff0c;点了个鱼&#xff0c;好&#xff0c; 厨师去捉鱼杀鱼&#xff0c;过了半小时鱼好了给第一位客人&#xff0c;开始下位一位客人&#xf…

面向 Visual Studio 开发者的 Git 内部源代码

在我撰写的 Git DevOps 文章 (msdn.com/magazine/mt767697) 中&#xff0c;我介绍了 Git 版本控制系统 (VCS) 与可能已经很熟悉的集中式 VCS 的区别。然后&#xff0c;我演示了如何在 Visual Studio 中使用 Git 工具完成一些 Git 任务。在本文中&#xff0c;我将汇总 Git 在新发…

Intellij IDEA神器居然还有这些小技巧

转载自 Intellij IDEA神器居然还有这些小技巧 Intellij IDEA真是越用越觉得它强大&#xff0c;它总是在我们写代码的时候&#xff0c;不时给我们来个小惊喜。出于对Intellij IDEA的喜爱&#xff0c;我决定写一个与其相关的专栏或者系列&#xff0c;把一些好用的Intellij IDE…

SpringMVC中使用作用域对象完成数据的流转

文章目录SpringMVC中使用作用域对象完成数据的流转[1] 作用域对象复习[2] SpringMVC中使用作用域对象流转数据[3] SpringMVC的Model对象的使用SpringMVC中使用作用域对象完成数据的流转 [1] 作用域对象复习 PageContext对象 作用域范围:当前jsp页面内有效request对象 作用域范…

为什么总是喜欢看我桌面呢?

点击上方蓝色关注我们&#xff01;每天上课&#xff0c;尤其是19级&#xff0c;在刚刚连接上投影仪的那一瞬间&#xff0c;差不多50双眼睛盯着我的桌面看&#xff0c;由于桌面上的字比较小&#xff0c;所以大家眼睛都不带的眨一下的。我的桌面也没啥好看的呀&#xff0c;不就是…

原码,反码,补码

原码就是符号位加上真值的绝对值&#xff0c; 即用第一位表示符号&#xff0c; 其余位表示值。 反码的表示方法是:正数的反码是其本身&#xff1b;负数的反码是在其原码的基础上&#xff0c; 符号位不变&#xff0c;其余各个位取反。 补码的表示方法是:正数的补码就是其本身&am…