NLP深度学习:近期趋势概述(二)

递归神经网络(RNN

RNN是专门用于处理顺序信息的神经网络的方法。RNN将计算应用于以先前计算结果为条件的输入序列。这些序列通常由固定大小的标记向量表示,他们被顺序送至循环单元。下图说明了一个简单的RNN框架。

RNN的主要优势在于能够记忆先前的计算结果并在当前计算中使用该信息。这使得RNN模型适合于在任意长度的输入中都具有上下文依赖性,这样可以为输入创建适当的组合。RNN已被用于研究各种NLP任务,例如机器翻译、图像字幕和语言建模等。

与CNN模型相比,RNN模型在特定的自然语言任务中可以同样有效甚至更好。因为它们模拟了数据不同的方面,这才会使它们有效,具体的效果取决于任务所需的语义。

RNN期望的输入通常是单热(one-hot)编码或词嵌入,但在某些情况下,它们与由CNN模型构造的抽象表征耦合。简单的RNN容易遭受消失的梯度问题,这使得网络难以学习和调整较早层中的参数。其他变体正在出现已解决这个问题,例如长短期记忆(LSTM)网络,残留网络(ResNets)和门控循环网络(GRU)后来被引入以克服这一限制。

 

RNN变体

LSTM由三个门(输入,遗忘和输出门)组成,并通过三者的组合计算隐藏状态。GRU类似于LSTM,但只包含两个门,效率更高,因为它们不那么复杂。一项研究表明,很难说RNN哪些门控更有效,通常只是根据可用的计算能力来挑选它们。研究及实验表明各种基于LSTM的模型用于序列到序列映射(通过编码器-解码器框架),其适用于机器翻译,文本摘要,人工对话建模,问题回答,基于图像的语言生成以及其他任务。

总的来说,RNN可以用于许多NLP系统,例如:

  • 字级分类(NER);
  • 语言建模;
  • 句子级别分类(例如,情感极性);
  • 语义匹配(例如,将消息与对话系统中的候选响应相匹配);
  • 自然语言生成(例如,机器翻译,视觉QA和图像字幕);

 

注意力机制

本质上,注意力机制是一种技术,其受益于允许上述基于RNN框架的解码器使用最后隐藏状态以及基于输入隐藏状态序列计算的信息(即上下文矢量)的需要。这对于需要在输入和输出文本之间进行某些对齐的任务特别有用。

注意力机制已成功用于机器翻译,文本摘要,图像字幕,对话生成和基于内容(aspect-based)的情感分析。并且已经有人提出了各种不同形式和类型的注意力机制,它们仍然是NLP研究人员研究各种应用的重要领域。

 

递归神经网络(Recursive Neural Network

与RNN类似,递归神经网络是对连续数据建模非常适用。这是因为语言可以被视为递归结构,其中单词和短语构成层次结构中其他更高级别的短语。在这种结构中,非终端节点由其所有子节点的表示来表示。下图说明了下面的一个简单的递归神经网络。

在基本递归神经网络形式中,组合函数(即网络)以自下而上的方法组合成分来计算更高级别短语的表示(参见上图)。在变体MV-RNN中,单词由矩阵和向量表示,这意味着由网络学习的参数表示每个成分的矩阵。另一种变型,即递归神经张量网络(RNTN),使得输入矢量之间的更多交互能够避免大的参数产生,如MV-RNN的情况。递归神经网络更能显示出灵活性,并且它们可以与LSTM单元耦合以处理诸如梯度消失之类的问题。

递归神经网络用于各种应用,例如:

  • 解析;
  • 利用短语级表示来进行情绪分析;
  • 语义关系分类(例如,主题消息);
  • 句子相关性;

 

强化学习

强化学习是通过机器学习的方法,训练代理执行离散动作,然后奖励。正在通过强化学习来研究几种自然语言生成(NLG)任务,例如文本摘要。

强化学习在NLP上的应用受到一些问题的阻力。当使用基于RNN的发生器时,标准答案会被模型生成的答案所取代,这会迅速提升错误率。此外,对于这样的模型,词级训练的目标不同于测试度量的目标,例如用于机器翻译和对话系统的n-gram重叠测量,BLEU。由于这种差异,当前的NLG类型系统往往会产生不连贯,重复和枯燥的信息。

为了解决上述问题,业内采用称为REINFORCE的强化算法来解决NLP任务,例如图像字幕和机器翻译。这个强化学习框架由一个代理(基于RNN的生成模型)组成,它与外部环境相互作用(在每个时间步骤看到的输入词和上下文向量)。代理根据策略(参数)选择一个动作,该策略会在每个时间步骤预测序列的下一个单词。然后代理会更新其内部状态(RNN的隐藏单元)。这一直持续到达最终计算奖励序列的结尾。奖励功能因任务而异,例如,在句子生成任务中,奖励可以是信息流。

尽管强化学习方法显示出了希望,但它们需要适当地处理动作和状态空间,这可能限制模型的表达能力和学习能力。记住,独立的基于RNN的模型力求表现力和表达语言的自然能力。

对抗训练也被用来训练语言生成器,其目的是欺骗训练有素的鉴别器,以区分生成的序列和真实的序列。如果一个对话系统,通过policy gradient(策略网络),可以在强化学习范例下构建任务,其中鉴别器就像人类图灵测试员一样,鉴别器基本上是受过训练以区分人类和机器生成的对话。

 

督学

无监督的句子表征学习涉及以无监督的方式将句子映射到固定大小的向量。分布式表征从语言中捕获语义和句法属性,并使用辅助任务进行训练。

研究员与用于学习词嵌入的算法类似,提出了跳过思维模型,其中任务是基于中心句子预测下一个相邻句子。使用seq2seq框架训练该模型,其中解码器生成目标序列,并且编码器被视为通用特征提取器-甚至在该过程中学习了字嵌入。该模型基本上学习输入句子的分布式表征,类似于在先前语言建模技术中如何为每个单词学习词嵌入。

 

深度生成模型

诸如变分自动控制器(VAE)和生成对抗网络(GAN)之类的深度生成模型也可以应用于NLP中,通过从潜在代码空间生成逼真句子的过程来发现自然语言中的丰富结构。

众所周知,由于无约束的潜在空间,标准的自动编码器无法生成逼真的句子。VAE在隐藏的潜在空间上施加先验分布,使模型能够生成适当的样本。VAE由编码器和发生器网络组成,编码器和发生器网络将输入编码到潜在空间中,然后从潜在空间生成样本。训练目标是在生成模型下最大化观测数据的对数似然的变分下界。下图说明了用于句子生成的基于RNN的VAE。

生成模型对于许多NLP任务是有用的,并且它们本质上是灵活的。例如,与标准自动编码器相比,基于RNN的VAE生成模型被提出用于产生更多样化且格式良好的句子。其他模型允许将结构化变量(例如,时态和情感)结合到潜在代码中以生成合理的句子。

由两个竞争网络组成的GAN(生成器和鉴别器)也被用于生成逼真的文本。例如,将LSTM用作生成器,CNN用作区分真实数据和生成样本的鉴别器。在这种情况下,CNN表示二进制句子分类器。该模型能够在对抗训练后生成逼真的文本。

除了鉴别器的梯度不能通过离散变量适当地反向传播的问题之外,深层生成模型同时也是难以评估的。近年来已经提出了许多解决方案,但这些解决方案尚未标准化。

 

内存增强网络(Memory-Augmented Network

在输出结果生成阶段由注意力机制访问的隐藏向量表示模型的“内部存储器”。神经网络还可以与某种形式的内存耦合,以解决视觉QA,语言建模,POS标记和情感分析等任务。例如,为了解决QA任务,将支持事实或常识知识作为存储器的形式提供给模型。动态存储器网络是对先前基于存储器的模型的改进,其采用神经网络模型用于输入表征、注意力机制和应答机制。

 

结论

到目前为止,我们现在已经知道了基于神经网络的模型(如CNN和RNN)的容量和有效性。我们也意识到将强化学习、无监督方法和深度生成模型正在被应用于复杂的NLP任务(如可视化QA和机器翻译)。注意力机制和记忆增强网络在扩展基于神经的NLP模型的能力方面是强大的。结合这些强大的技术,我们相信会找到令人信服的方法来处理语言的复杂性。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用IntelliJ IDEA 2019.3.2 x64 远程连接oracle数据库

登录验证第2种方式: 点击【Database】-【Data Source】-【Oracle】 输入连接信息,点击【Test Connection】-【OK】 Hostname: 192.168.1.101 Port: 1521 Sid: helowin Username: system Password: oracle 注释:第一次应该会下载客户端依赖&…

起底中国 IT 发展 20 年!

戳蓝字“CSDN云计算”关注我们哦!作者 | 马超责编 | 阿秃刚开始撰写此文时恰逢我结婚10周年纪念日,暮然回首,我突然发现第一款浏览器Worldwideweb出现在1990年,Java与Python都诞生于1994年,甚至被沿用至今的Visual st…

TableStore发布多元索引功能,打造统一的在线数据平台

什么是NoSQL “NoSQL”一词最早出现在1998年,距今刚好二十年。站在今天回头看的话,很少有人能想到在关系型数据库成熟发展了三十年,已经在数据存储领域占据了不可动摇的的地位后,NoSQL数据库尽然还可以快速地异军突起&#xff0c…

阿里是如何“宠”员工的?除了福利,还有这满屏黑科技

分散在世界各地的六万阿里员工是如何快速协同工作的? 在2018年杭州云栖大会现场,一块近4米宽的企业信息化大屏上,展示了全球阿里员工1天的云上办公与连接情况。 目前阿里巴巴的办公网络与音视频会议已经覆盖全球33个国家和地区,其…

里用gam使用_第一次使用Roam一头雾水?

有感于自己使用Chrome插件,自己看了官方文档也是一头雾水的状态,想到自己使用的Roam Research,用了好几个月也是不断摸索的,记录下使用Roam Research方法供新手们参考。工具的使用是简单的,但是看着详尽的工具文档和使…

使用PLSQL 远程连接oracle数据库

文章目录一、软件下载准备1. 下载PLSQL客户端2. 下载instantclient 客户端3. 将解压instantclient复制到PLSQL目录下面二、配置oracle监听2.1. 首先进入oracle内部2.2. 找到这个文件的目录2.3. 将tnsnames.ora文件从容器内部复制到宿主机上2.4. 再从linux服务器上将文件下载到w…

面试官:知道你的接口QPS是多少么?

戳蓝字“CSDN云计算”关注我们哦!作者 | 孤独烟责编 | 阿秃引言大家好,我是渣渣烟。我又来水文章了。这篇文章我个人感觉含金量不是太大,大概5分钟左右就能看完!其实大家都知道,我不爱写这种操作型的文章,…

Module 让 Terraform 使用更简单

众所周知,Terraform 是一个开源的自动化的资源编排工具,支持多家云服务提供商。阿里云作为第三大云服务提供商,terraform-alicloud-provider 已经支持了超过 90 多个 Resource 和 Data Source,覆盖20多个服务和产品,吸…

android java 实体类 object变量 保存_Java中的实体类--Serializable接口、transient 关键字...

在java中,实体类是一个非常重要的概念,我们可以在实体类中封装对象、设置其属性和方法等。关于实体类,也经常涉及到适配器模式、装饰者模式等设计模式。那么在实际代码开发中,关于实体类的注意事项有哪些呢?1. Seriali…

杭州云栖大会阿里云放大招,8K远程医疗会诊引关注

大家每天都会照镜子,镜子里的一切都清清楚楚,足可乱真,可是你想过有一天看视频直播就像照镜子么? 这不,在云栖大会的C馆里,8K超高清直播体验馆前异常火爆,在这里,很多参会者都围着有…

「2019 嵌入式智能国际大会」 399 元超值学生票来啦,帮你豪省 2600 元!

2019 嵌入式智能国际大会即将来袭!购票官网:https://dwz.cn/z1jHouwE物联网是继计算机、互联网和移动通信之后的又一次信息产业的革命性发展,在互联网和移动互联网高速发展的时代,几乎所有行业都有数据联网的需求。无论是国外的科…

【杭州云栖】飞天技术汇大视频专场:全民视频时代下的创新技术之路

2018杭州•云栖大会在9月19日如期召开,在四天时间内将举行2场主论坛、170多场前沿峰会。在9月19日上午的飞天技术汇-大视频专场中,多位阿里云技术专家、合作伙伴、客户为现场观众分享了各自领域的多媒体研发成果,进行多款重磅产品的发布&…

Centos7 使用Docker 安装Oracle精简版本

文章目录一、Docker1. 在线安装Docker2. 启动docker3. 使用docker拉取Oracle镜像4. 看拉取的oracle镜像5. 创建守护式oracle容器并启动容器6. 查看正在运行的容器二、oracle容器配置篇2.1. 进入oracle容器的控制台2.2. 切换root用户配置环境变量2.3. 设置系统及用户密码三、登录…

sip协议详解_SIP协议详解-INVITE消息发送过程

SIP协议是VoIP中最重要的信令控制协议。SIP中第一件事情就是主叫发送INVITE给被叫,被叫响铃。本文从多角度详细描述INVITE消息发送的全过程。一、阅读RFC权威描述关于INVITE消息发送,先查看RFC 3261中权威描述:INVITE client transaction: ht…

【杭州云栖】飞天技术汇CDN与边缘计算专场:让内容离消费者更进一步

【杭州云栖】飞天技术汇CDN与边缘计算专场:让内容离消费者更进一步 在5G移动通信、IoT万物智联时代即将到来的大背景下,越来越多的应用和数据来自边缘位置,呈现低延时、高带宽、大连接、本地化的业务特征,那么如何协同阿里云全球…

迈克尔·戴尔再次到访2019戴尔科技峰会,为“戴尔中国4.0+战略”加个码……

10月25日,以“拓界成真”为主题的2019戴尔科技峰会在北京国家会议中心隆重举行。戴尔科技集团董事长兼首席执行官迈克尔戴尔出席峰会,发表主题演讲,见证集团与多个地方政府、高校、企业签署战略合作协议,并与教育部领导一起&#…

【杭州云栖】边缘计算ENS:拓展云的边界

在9月19日下午的杭州云栖大会飞天技术汇-CDN与边缘计算专场中,阿里云边缘计算团队的高级技术专家王广芳,从边缘计算的定义、场景的需求和挑战、ENS产品的价值及能力,以及典型的应用场景和案例等几个方面,详细解读了阿里云对于边缘…

Centos7 解决Docker拉取镜像慢的问题

配置加速Docker镜像源 vi /etc/docker/daemon.json在配置文件中加入 {"registry-mirrors": ["https://xxx.mirror.aliyuncs.com"] }[rootkm docker]# systemctl daemon-reload [rootkm docker]# systemctl restart dockerhttps://cr.console.aliyun.com…

你的食物变质没?用AI算法来检测一下吧

最近一条幼儿园采用过期食物的新闻引起了社会的强烈关注,对于食品安全而言,国家一直是严格要求的,尤其是对于婴幼儿食品安全的标准,部分已经超越了国际上的标准。但可能是由于无法严格地执行到每一个地方且检测周期较长&#xff0…

CAS项目部署和基础操作

文章目录一、部署cas1. 复制cas.war到webapps2. 登录页面二、CAS服务端配置2.1. 添加用户2.2. 端口修改2.3. 去除https认证一、部署cas 1. 复制cas.war到webapps 把cas.war放到tomcat的webapps下面启动Tomcat即可 2. 登录页面 二、CAS服务端配置 2.1. 添加用户 找到指定文…