该放弃正在堕落的“RNN和LSTM”了

摘要: 随着技术的发展,作者觉得是时候放弃LSTM和RNN了!到底为什么呢?来看看吧~


递归神经网络(RNN),长期短期记忆(LSTM)及其所有变体:

现在是放弃它们的时候了!

2014年,LSTMRNN重新复活。我们都阅读过Colah的博客KarpathyRNN赞赏。但那个时候我们都很年轻,没有经验。随着这几年的技术的发展,我们才慢慢发现序列变换(seq2seq)才是真正求解序列学习的真正模型,它在语音识别领域创造了惊人的结果,例如:苹果SiriCortana谷歌语音助手Alexa。还有就是我们的机器翻译,它可以将文档翻译成不同的语言。

然后在接下来的15年、16年,ResNetAttention模型出现了。人们可以更好地认识到了LSTM其实就是一种巧妙的搭桥技术。注意,MLP网络可以通过平均受上下文向量影响的网络来取代,这个下文再谈。

通过两年的发展,今天我们可以肯定地说:放弃你的RNN和LSTM!”

有证据表明,谷歌FacebookSalesforce等企业正在越来越多地使用基于注意力模型的网络。所有的这些公司已经取代了RNN和基于注意力模型的变体,而这只是一个开始,因为RNN相较于注意力模型需要更多的资源来训练。

为什么?

RNNLSTM及其变体主要是随着时间的推移使用顺序处理,请参阅下图中的水平箭头:


这个箭头意味着,数据必须在到达当前处理单元之前顺序穿过所有单元,这意味着它可以很容易出现梯度消失的问题。

为此,人们推出了LSTM模块,它可以被看作是多个开关门的组合,ResNet就延续了它的设计,它可以绕过某些单元从而记住更长的时间步骤。因此,LSTM可以消除一些梯度消失的问题。


但并不是完全解决,正如你从上图所看到的那样。尽管如此,我们仍然有一条从过去的单元到现在的单元的顺序路径,实际上,现在这些路径甚至变得更加复杂,因为路径上还连接了加如记忆的分支和遗忘记忆的分支。毫无疑问,LSTMGRU及变体能够学习大量长期的信息!但他们只是可以记住100s的序列,而不是1000s10000s甚至更多。


并且RNN的另一个问题是需要消耗大量的计算资源。在云中运行这些模型也需要大量资源,并且由于语音到文本的需求正在迅速增长,云能提供的计算能力慢慢的满足不了它了。


我们应该怎么办?


如果要避免顺序处理,那么我们可以找到向前预测或更好的向后回顾的计算单元,因为我们处理的数据大部分都是实时因果数据。但在翻译句子或分析录制的视频时并非如此,例如,我们拥有所有数据并且可以为其带来更多时间。这样的向前回溯/后向回顾单元就是神经注意力模块,我们此前在此解释。


为了结合多个神经注意力模块,我们可以使用来自下图所示的“ 层级神经注意力编码器



观察过去信息的更好方式是使用注意力模块将过去编码向量汇总到上下文向量 C_t。请注意上面有一个层级注意力模块,它和层级神经网络非常相似。这也类似于下面的备注3中的时间卷积网络(TCN

在层级神经注意力编码器中,多层级关注可以查看最近过去的一小部分,比如说100个向量,而上面的层可以查看这100个关注模块,有效地整合100 x 100个向量的信息。这将层级神经注意力编码器的能力扩展到10,000个以前的向量。但更重要的是查看表示向量传播到网络输出所需的路径长度:在分层网络中,它与logN成正比,其中N是层次结构层数。这与RNN需要做的T步骤形成对比,其中T是要记住的序列的最大长度,并且T >> N

简单的说就是回顾更多的历史信息并预测未来!

这种架构跟神经图灵机很相似,但可以让神经网络通过注意力决定从内存中读出什么。这意味着一个实际的神经网络将决定哪些过去的向量对未来决策的重要性。

但是存储到内存呢?上述体系结构将所有先前的表示存储在内存中,这可能是相当低效的。我们可以做的是添加另一个单元来防止相关数据被存储。例如,不存储与以前存储的向量太相似的向量。最好的办法就是让应用程序指导哪些载体应该保存或不保存,这是当前研究的重点。

我们看到很多公司仍然使用RNN / LSTM来完成自然语言处理和语音识别等任务模型,但很多人不知道这些网络如此低效且无法扩展。

总结:

关于训练RNN / LSTMRNNLSTM很难训练,因为它们需要内存、带宽、这些因素限制计算的效率,这对于硬件设计师来说是最糟糕的噩梦,并且最终限制了神经网络解决方案的适用性。简而言之,每个LSTM单元需要的4个线性层(MLP层)在每个序列时间步上运行。线性层需要计算大量的内存带宽,事实上,他们并不能经常使用很多计算单元,因为系统没有足够的内存带宽来提供计算单元。添加更多计算单元很容易,但很难增加更多的内存带宽。因此,RNN / LSTM和变体与硬件加速不太匹配,我之前曾讨论过这个问题在这里这里

注:

1层级神经注意力WaveNet的想法类似。但是我们不使用卷积神经网络,而是使用层级神经注意力模型。

2:层级神经注意力模型也可以是双向的。

3:这是一篇比较CNNRNN论文。时间卷积网络(TCN在不同范围的任务和数据集上优于经典的经常性网络,如LSTM,同时展示更大的有效内存。

原文链接

干货好文,请关注扫描以下二维码:


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

textarea支持a标签_微慕小程序开源版A标签优化说明

微慕WordPress小程序所有版本里,对于文章详情里文字内容的解析,都是通过开源组件:wxParse;不过这个组件已经停止维护,微慕小程序在这个组件上做了一些优化,让文章里文字在小程序显示更加完美。但&#xff0…

七本书籍带你打下机器学习和数据科学的数学基础

摘要: 本文主要介绍七本关于机器学习和数据科学数学基础的经典教材,是一份不可多得的书单整理。大多数人学习数据科学的重心放在编程上面,然而,要真正精通数据科学的话是不能够忽视数据科学背后的数据基础。本篇文章,将…

奇葩面试官让我回去等通知!看我怎么虐他!

戳蓝字“CSDN云计算”关注我们哦!作者 | 农翻身刘鑫来源 | 码农翻身后记:已经发了两篇漫画了,一个是《我才是世界上最好的语言》,还有一个是《HTTP之大明邮差》,前两篇主要讲技术,这一篇是娱乐性质&#xf…

阿里:千亿交易背后的0故障发布

摘要: 阿里巴巴千亿交易背后,如何尽量避免发布故障?在面对实际运维过程中遇到的问题该如何解决?近日,在刚刚结束的 GOPS深圳站大会上,阿里巴巴运维技术专家少荃,给我们带来了解决方案和思路。前…

华为麒麟990芯片发布;谷歌宣布开源创新隐私保护技术;阿里20亿美元全资收购网易考拉;中国联通将设立100亿5G创新基金……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 东风新款电动车菱智M5 EV上市…

C++继承和组合——带你读懂接口和mixin,实现多功能自由组合

摘要: 本文详细介绍了C继承的三种方式和相关重要概念,整理了众多继承与组合中的注意问题。在C继承存在不安全的默认实现,非虚函数的覆盖,多重继承的函数名冲突、菱形继承等众多问题下,如何实现多个功能的自由组合&…

如何在阿里云•对象存储OSS托管用户域名的https证书

摘要: OSS服务支持将用户域名绑定到OSS域名,并为此用户域名提供HTTPS证书托管服务。以满足用户使用自己的域名也能支持HTTPS安全加密的访问方式传输数据。面向人群您已经拥有了自己的域名。您已将或准备将自己的域名绑定到OSS域名上,并且使用…

win10系统VMware Workstation与Device/Credential Guard不兼容怎么办

解决方法: 打开本电脑-》管理-》服务和应用程序-》服务下找到如下图的HV 主机服务,双击选择禁用。 或者 转到“ 控制面板” >“ 卸载程序” >“ 打开或关闭Windows功能”以关闭Hyper-V。 步骤二:通过命令关闭Hyper-V(控制…

数据大爆炸边缘期 让存储告别旧时代

戳蓝字“CSDN云计算”关注我们哦!好莱坞一部高智商大数据电影《永无止境》,讲述一位落魄的作家库珀,服用了一种可以迅速提升智力的神奇蓝色药物。他将这种高智商用于炒股,能在短时间掌握无数公司资料和背景,也就是将世…

AliOS Things图形界面开发指南

简介物联网设备开发过程中,嵌入式GUI(用户图形界面)的开发是一个重要的组成部分。许多智能设备如智能家电、智能手表、智能仪表上都会涉及到GUI开发。AliOS Things集成开源图形库littlevGL,可以在linux上进行图形界面开发。开发完…

微服务的好处与弊端_《微服务架构设计模式》-学习总结07

本篇主要总结第七章:在微服务架构中实现查询在微服务架构中查询数据的挑战何时以及如何使用API组合模式实现查询 何时以及如何使用CQRS模式实现查询 微服务架构中,查询通常需要检索分散在多个服务所拥有的数据库中的数据,跨服务数据查询的两种…

ECS主动运维2.0,体验升级,事半功倍

摘要: 阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。基于主动运维2.0,您使用ECS云服务器的体验更加流畅,而且利用系统事件,不再依赖于工单联系客…

mysql bench如何下载_MySQLWorkbench下载与使用教程详解

一、MySQL Workbench的下载Workbench是MySql图形化的管理工具,可以在Workbench里输入MySql的语句,这可能更适合大多数人的视觉,有些操作更能更简单化首先我们下载workbench然后选择download选择no thanks,just download下载后点击…

为什么说边缘计算的发展比5G更重要?

戳蓝字“CSDN云计算”关注我们哦!由TechSugar编辑部翻译自medium文︱Pavel Konecny本篇文章转自公众号TechSugar(ID:techsugar)边缘计算相对于5G都有哪些优势?犹记2016年,我在汉诺威参加德国汉诺威消费电子、信息及通信…

ICDE:POLARDB定义云原生数据库

摘要: 4月17日(巴黎时间)阿里云POLARDB走出国门,亮相ICDE2018,并同步举办阿里云自有的POLARDB技术专场。在会上,阿里云进行了学术成果展示,从而推动Cloud Native DataBase成为行业标准。4月17日…

PLSQL连接ORACLE

文章目录① 安装oracle服务端②安装plsql③配置监听④配置2个⑤重启plsql① 安装oracle服务端 ②安装plsql ③配置监听 ④配置2个 【打开客户端】-【取消】-【工具】-【首选项】-【连接】 配置截图2个配置 【Tools】-【Preferences】-【Connection】 根据自己的oracle安装路…

新功能:阿里云负载均衡SLB支持HTTP访问强制跳转HTTPS

摘要: 很高兴的告诉大家,阿里云负载均衡SLB已经在澳大利亚(悉尼)、日本(东京)、阿联酋(迪拜)、美国 (弗吉尼亚)、美国(硅谷)、马来西亚…

算法一看就懂之「 堆栈 」

戳蓝字“CSDN云计算”关注我们哦!今天咱们再来继续看看「 堆栈 」吧,我写技术文章很少 show code,所以经常有人吐槽。好吧,这个算法系列的文章我打算每一篇的结尾处都找一道算法题写出代码示例,这总可以了吧。一、「 堆…

Centos/Red Hat7.9 源码和在线yum 安装 vsftpd

文章目录一、版本简述1. 环境介绍2. 常用命令二、源码下载2.1. 官网链接2.2. 下载方式2.3. 检查2.4. 源码安装2.5. 异常处理2.6. 检查是否安装成功一、版本简述 1. 环境介绍 软件系统版本Red Hat Enterprise Linux Server7.9 (Maipo)CentOS Linux release 7.9(Core)jdk1.8.0_…

阿里云黄海宇:窄带高清2.0——让直播更惊艳的魔术

摘要: 2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛、电视云论坛、短视频论坛、视频云论坛、新技术论坛、运营商论坛、国际云论坛等7大部分组成。在视频云论坛上,阿里云视频云高级算法专家黄海宇作了题…