LC-BLSTM结构快速解读

参考文献如下:

(1) A Context-Sensitive-Chunk BPTT Approach to Training Deep LSTM/BLSTM Recurrent Neural Networks for Offline Handwriting Recognition

(2) Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach

(3) Improving Latency-Controlled BLSTM Acoustic Models for Online Speech Recogintion

       前言       众所周知,BLSTM是双向的LSTM,它可以同时兼容上下文的信息,从而在一般序列任务上的表现很好。但是BLSTM有一个很致命的弱点,那就是因为有逆向LSTM的存在,它需要有后文的后验,使得它无法在实时的序列任务上也有好的表现。基于实时任务的需求,出现了两种BLSTM的变体——CSC-BLSTMLC-BLSTM


1. CSC-BLSTM结构解析

       CSC-BLSTM结构全名——Context-Sensitive-Chunk Bidirectional Long Short-Term Memory,是BLSTM的第一种改进版本。请看结构图:

1274118-20190326151447419-737207356.png

       CSC-BLSTM首先把序列按照图示的方法分割成多组chunk,除了首尾位置,其他位置处的都是由Nl+Nc+Nr构成,分割的大小事先给定,一般选做30帧+60帧+30帧的模式。

       其核心思想在于,Nl用来初始化Nc的前向细胞层状态,Nr用来初始化Nc的后向细胞层状态。NlNr不参与误差反向传播。如下图:

1274118-20190326151513992-2083787365.png

       很显然,CSC-BLSTM的这种结构改进可以减小实时任务的延迟,用不着整段话都输入完毕才有结果。但是从整体上看,它是以牺牲计算量为代价的。因为与BLSTM相比,它多出了NlNr上的计算。在此基础之上,为了减少这种计算量,又出现了更加简化了的LC-BLSTM。

2. LC-BLSTM结构解析

       LC-BLSTM结构全名——Latency-Controlled Bidirectional Long Short-Term Memory,它改进了CSC-BLSTM。请看结构图:

1274118-20190326151527471-74441857.png

       可以发现,相比于CSC-BLSTM,LC-BLSTM取消了Nl,只保留了Nc+Nr。但是如此在计算上必然有差异。

       原来,LC-BLSTM的计算也并不复杂,同CSC-BLSTM一样,Nr用来初始化Nc的后向细胞层状态。但是,Nc的前向细胞层状态直接由它的前一个Nc的输出状态得到。这样,相比于CSC-BLSTM,LC-BLSTM避免了Nl的计算量。

       But!!!很不幸,通过实验发现,为了保证准确率,LC-BLSTM必须要保证Nr划分的足够大,比如在原论文中,Nc=22的情况下,Nr需要有21,这几乎使得Nr需要有Nc同样的大小。在Nc=Nr=30的情况下,LC-BLSTM的计算量是传统BLSTM的两倍。

3. 改进的LC-BLSTM

       通过上述分析,LC-BLSTM的表现依然不好。阿里的研究人员改进了这个结构。他们总结LC-BLSTM的结构,多出来的计算量就在于Nr,但是Nr的作用无非两点:

  1. 用于初始化当前Nc的后向细胞状态;
  2. 用做下一层网络的输入(因为正常都会使用多层BLSTM)

       于是作者分别采用了两种简化的网络结构代替Nr的BLSTM结构。分别是LC-BLSTM-FABDILC-BLSTM-FABSR

3.1 LC-BLSTM-FABDI

1274118-20190326151551985-1959588152.png

       首先对于时间轴上正向移动的LSTM,去掉了Nr部分的计算。而对于时间轴上反向移动的LSTM,Nr部分的计算主要是为Nc提供cell的初始状态,作者简化了这部分的计算,使用正向全连接来代替LSTM,将f()的输出取平均后作为Nc的初始状态。

3.2 LC-BLSTM-FABSR

1274118-20190326151605577-965828229.png

       首先对于时间轴上正向移动的LSTM,同样去掉了Nr部分的计算。另外作者发现对于BLSTM模型,时间轴上反向传播的LSTM不如时间轴上正向传播的LSTM重要,因此使用简单RNN模型来代替时间轴上反向传播的LSTM。

       但RNN会有梯度爆炸的问题,所以对其进行strict gradient-clipping。同时为了利用未来的信息,加入了target delay

作者在320小时的Switchboard数据集上进行测试,在不影响wer的情况下,这个两种方法的解码速度分别相对提升40%和27%。

转载于:https://www.cnblogs.com/machine-lyc/p/10600300.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/463042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql innodb缓存策略之Buffer Pool

The InnoDB Buffer Pool Innodb 持有一个存储区域叫做buffer pool是为了在内存中缓存数据和索引,知道innodb bufferpool怎么工作,和利用它读取频繁访问的数据,是mysql优化重要的方面。 理想状况下,把bufferpool的大小调整到足够大…

动态规划---背包问题分析

0/1背包 问题描述 有N件物品和一个容量为V的背包,第i件物品的体积为c[i],价值为w[i]。求将哪些物品放进背包可以使物品价值总和最大(有两种情况:不要求填满背包和填满背包)。 每件商品只有一件,且只能选择放…

乱想想关于捕获异常后继续执行的实现。

好像是在csdn上看见的一个问题。 如下 现有A() B() C() 。。。。等很多个方法 但是他担心程序按 try { A(); B();//如这里抛异常 C()将不执行。 C(); //..... } catch (Exception e) …

spring boot 实战

https://windmt.com/2018/04/26/spring-cloud-full-reactive-microservices/ 这篇文章一级棒,实际操作一番,感觉有点理解微服务以及服务发现,服务间调用这几个概念。 但是对于响应式编程以及对于异步非阻塞场景等还是比较头大。 在实际操作中…

MySQL InnoDB的缓冲池之预读失效和缓存池污染

InnoDB的缓存池作用: 缓存表数据和索引数据,把磁盘上的数据加载到缓冲池中,避免每次都进行磁盘IO,起到加速访问的效果. LRU算法(Least recently used): 把入缓存池的页放在LRU的头部,作为最近访问的元素 页在缓冲池中的数据,把它放在队列的前面(情景一)页不在缓冲池中的数据,…

【database】database domain knowledge

Database Principles Database Systems Design Advanced Database Technology 一、Database principles Relational data model – relational algebra SQL – DDL, DML, DCL, ODBC(JDBC) Database design — Entity-Relationship model Relation normal forms XML – DTD, XM…

国内交流电频率和电压的历史渊源

国内交流电频率和电压的历史渊源 发布时间:2009-6-25 14:28 发布者:xiaochunyang 阅读次数:546商用交流电最早的频率是60Hz,电压是110V,其发明者Nikola Tesla是美国人(移民)并且是受…

Hbase Rowkey设计原则

Hbase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这三个维度可以对HBase中的数据进行快速定位。 Hbase中Rowkey可以唯一标识一行记录,在Hbase查询的时候,有以下几种方…

explicit关键字详解

C explicit关键字详解 首先, C中的explicit关键字只能用于修饰只有一个参数的类构造函数, 它的作用是表明该构造函数是显示的, 而非隐式的, 跟它相对应的另一个关键字是implicit, 意思是隐藏的,类构造函数默认情况下即声明为implicit(隐式). 那么显示声明的构造函数和隐式声明…

Palm应用开发之四Palm 应用模型

本系列目录 Palm Web OS 简介 Palm 应用开发之一开发环境搭建 Palm 应用开发之二从Helloworld开始学习Palm开发Palm应用开发之三appinfo.json文件详解开发语言 应用使用的技术和Ajax使用的技术完全相似,palm webos 系统上建立应用没有专门的语言为其服务&#xff0c…

T-SQL 中ON和WHERE的区别

SQL中ON和WHERE的区别 数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。在使用left jion时,on和where条件的区别如下:1、 on条件是在生成临时表时使用的条件,它不管…

luogu3830 [SHOI2012]随机树

传送门:洛谷 题目大意:对于一个只有一个节点的二叉树,一次操作随机将这棵树的叶节点的下方增加两个节点。$n-1$次操作后变为$n$个叶节点的二叉树。求:(1)叶节点平均深度的期望值(2)树…

Mysql binlog应用场景与原理深度剖析

本文深入介绍Mysql Binlog的应用场景,以及如何与MQ、elasticsearch、redis等组件的保持数据最终一致。最后通过案例深入分析binlog中几乎所有event是如何产生的,作用是什么。 1 基于binlog的主从复制 Mysql 5.0以后,支持通过binary log(二进…

粤语学习--语法

时态篇开篇导言:英语的时态是一种动词形式,不同的时态表示动作行为的不同时间与发生方式。粤语同样也有时态,这种时态是通过动词与对应的前后缀以及时间词共同表示。 (一)普通时态说明:普通时态一般指经常发…

[BZOJ4349]最小树形图

显然先选每个点都取一遍然后再取满次数最优,用最小树形图决定第一次取的顺序。 朱刘算法的流程是(总复杂度O(nm)): 1.对除根外所有点,找到所有指向它的边中权值最小的那一条,记其权值为ind[]。 2.找到所有不…

数据库中间件详解

本文是转载的文章,原文链接:https://mp.weixin.qq.com/s?__bizMzA5MDA5Njk0NQ&mid2456618601&idx1&snc10839f1797e7be1ea41f005b57432df&chksm87897237b0fefb215dd74c28cf5b524984b8f50d2ef13293e37919774f1c51e36642e489ee38&scen…

关于XtraGrid的CustomUnboundColumnData事件的触发条件

要想让非数据绑定的列触发CustomUnboundColumnData事件以便自行处理该列的显示数据,必须至少做到以下几点:1.将该列的UnboundType属性设置为bound(默认值)以外的数据类型2.为该列设置一个窗体内全局唯一的FieldName,注意这个FieldName甚至不能…

读书笔记《集体智慧编程》Chapter 5 : Optimization

本章概要 本章介绍了优化问题的基本概念,以及常见的优化算法(随机搜索,爬山,模拟退火,遗传算法)。读完本章后,感觉茅塞顿开,之前一直认为遗传算法高深莫测,原来这些算法都…

第五章· MySQL数据类型

一.数据类型介绍二.列属性介绍一.数据类型介绍 1.四种主要类别1)数值类型2)字符类型3)时间类型4)二进制类型 2.数据类型的 ABC 要素1)Appropriate(适当)2)Brief&#xf…

MySQL buffer pool里的三种链表和三种page

mysql buffer pool里的三种链表和三种page buffer pool是通过三种list来管理的 1) free list 2) lru list 3) flush list buffer pool中的最小单位是page,在innodb中定义三种page 1) free page :此page未被使用,此种类型page位于free链表中 2) clean pag…