论文浅尝 | 从树结构的长短期记忆网络改进语义表示

论文笔记整理:窦春柳,天津大学硕士,方向:自然语言处理


链接:https://arxiv.org/pdf/1503.00075.pdf


动机

由于长短期记忆网络(LSTM)这种具有复杂单元的循环神经网络具有良好的表示序列信息的能力,其在多种序列模型任务中都取得了非常好的结果。到目前为止一直被使用的LSTM是一个线性结构。然而,自然语言表现一种将单词组合在一起形成短语的句法结构。本文引入了Tree-LSTM,将LSTM推广到树状的网络拓扑结构。在两个任务的baseline上,Tree-LSTMs都要优于现有的系统:预测两个句子的语义相关性和情感分类。

亮点

本文的亮点主要包括:

(1)将LSTM推广到树状的网络拓扑结构,并且它展示出比序列LSTM更好的性能。标准LSTM可以看作是Tree-LSTM的一种特殊情况。

(2)利用实验验证了Tree-LSTM作为句子的表示模型,具有很好的效果。主要在两个任务上去评估Tree-LSTM结构:句子对间的语义相关性的预测以及来自于电影影评的句子情感分类。

概念及模型

本文提出了由基本LSTM扩展出的两种结构:Child-Sum Tree-LSTM和N-ary Tree-LSTM。这两个变种均允许更丰富的网络拓扑结构,其中每个LSTM单元能够联合来自多个子单元的信息。

  • Tree-LSTM单元

正如标准的LSTM单元那样,Tree-LSTM单元(由j标识)都包含输入输出门i_j, o_j,一个记忆单元 c_j,以及隐藏状态 h_j。其与标准LSTM单元的不同之处在于,门向量和记忆单元的更新依赖于许多子单元。另外,该单元并不只包含一个遗忘门,Tree-LSTM单元对每一个子单元均包含一个遗忘门 f_jk。这有助于Tree-LSTM单元有选择地联合来自于每一个子单元的信息。


每一个Tree-LSTM单元都有一个输入向量 x_j。在我们的应用当中,每一个 x_j 是一句话中一个单词的向量表示。每一个节点的输入单词依赖于当前网络的树结构。

 

 

  • Child-Sum Tree-LSTMs

给定一棵树,令 C(j) 为节点j的所有子节点的集合。Child-Sum Tree-LSTM的转移等式如下:

应用:Dependency Tree-LSTMs

由于Child-Sum Tree-LSTM单元根据子单元隐藏状态 h_k 的总和调整其组件,因此适用于具有多分支或其子节点无序的树。例如,它是依存树的一个很好的选择,其中头的依存数目可以是高度可变的我们将应用于依存树的Child-Sum Tree-LSTM称为Dependency Tree-LSTM。

  • N-ary Tree-LSTMs

N -ary Tree-LSTM可用于树结构,其中分支因子最多为N,并且子项是有序的,即它们可以从1到N索引。对于任何节点j,分别将其第k个孩子节点的隐藏状态和记忆细胞表示为 h_jk 和 c_jk。N -ary Tree-LSTM的转移等式如下:

为每个孩子k引入单独的参数矩阵允许N-Tree Tree-LSTM模型在单元上对孩子状态学习比Child Sum Tree-LSTM更细粒度。例如,考虑一个选区树应用程序,其中节点的左孩子节点对应于名词短语,右孩子节点对应动词短语。假设在这种情况下强调表示中的动词短语是有利的。

遗忘门参数化。在等式10中定义了第k个孩子的遗忘门 f_jk,其中包含了“非对角线”参数矩阵 U_kl^(f)。此参数化允许更灵活地控制从孩子到父节点的信息传播。例如,这允许二叉树中的左隐藏状态对右孩子的遗忘门具有兴奋或抑制效果。但是,对于较大的N值,这些附加参数是不切实际的,可以绑定或固定为零。

应用:Constituency Tree-LSTMs

我们可以自然地将Binary Tree-LSTM单元应用于二值化选区树,因为区分了左右子节点。我们将Binary Tree-LSTM的这种应用称为Constituency Tree-LSTM。注意,在选区树-LSTM中,节点j仅在它是叶节点时才接收输入向量。

  • 模型

现在描述两个应用是上面描述的Tree-LSTM架构的特定模型。

1.Tree-LSTM分类

在此背景中,我们希望从树的一些子节点的离散类Y中预测标签。例如,解析树中节点的标签可以对应于该节点所跨越的短语的某些属性。

在每个节点j,我们使用softmax分类器来预测标签,给定在以j为根的子树中的节点处观察到的输入 {x}_j。分类器将节点处的隐藏状态 h_j 作为输入:

代价函数是每个标记节点上正确类标签 y^(k) 的负对数似然:

其中m是训练集中标记节点的数量,上标k表示第k个标记节点,λ是L2正则化超参数。

2.句子对的语义相关性

给定句子对,我们希望预测[1,K]在某个范围内的实值相似度得分,其中是K>1整数。序列{1,2,...,K}是一些序数相似度,其中较高的分数表示较高的相似度。首先使用每个句子的解析树上的Tree-LSTM模型为对每个句子生成句子表示 h_L 和 h_R。给定这些句子表示,使用神经网络预测的相似性得分,该神经网络同时考虑(h_L, h_R) 对之间的距离和角度:


其中 r^T = [1,2,3...K]。使用距离测量 h_x和 h_+ 是出于经验:发现组合优于单独使用任何一种测量。乘法度量 h_x 可以解释为输入表示符号的元素比较。

本文希望给定模型参数 Theta 的预测分布下的预期评级接近评级 。因此,定义了满足 y=r^T p 的系数目标分布:

代价函数是p和 之间正则化的KL-发散:

其中m是训练对的数量,上标k表示第k个句子对。


理论分析

实验

1.Sentiment Classification

数据集采用Stanford Sentiment Treebank(SST),任务主要是二分类和fine-grained(五分类)。结果如下图所示:

结果分析:在fine-grained的task上,作者提出的 Constituency Tree-LSTM 获得了最好的效果,Glove vectors,tuned指使用Glove词向量初始化embedding,在训练过程中不断更新embedding;在二分类上,达到了SOA的结果,但是并没有实现指标上的超越。

Constituency Tree-LSTM比Dependency Tree-LSTM表现好的原因可能在于前者使用了更多的labeled 数据,因为仅从二者树结构对比来说,前者会比后者产生更多的nodes(319K vs 150K).

2.   Semantic Relatedness

数据集采用Sentences Involving Compositional Knowledge (SICK),评价指标包括Pearson系数,Spearman相关系数和MSE。结果如下图所示:

结果分析:作者在这个数据集上分别跟non-LSTM模型、RNN模型、LSTM模型做了对比,均实现了指标上的超越。


总结

本文引入了Tree-LSTM,将LSTM推广到树状的网络拓扑结构。通过在两个任务证明了Tree-LSTM的有效性:语义相关性和情感分类,两者均优于现有系统。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

详解NLP技术中的:预训练模型、图神经网络、模型压缩、知识图谱

NLP近几年非常火,且发展特别快。像BERT、GPT-3、图神经网络、知识图谱等技术应运而生。我们正处在信息爆炸的时代、面对每天铺天盖地的网络资源和论文、很多时候我们面临的问题并不是缺资源,而是找准资源并高效学习。但很多时候你会发现,花费…

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之Fragment创建

原文地址:http://android.xsoftlab.net/training/basics/fragments/index.html 导言 为了在Android中创建动态的多面板用户界面,你需要将UI组件和活动的行为封装到模块中,这些模块可以在activity中互相交换。你可以使用类Fragment创建这些模…

基于深度学习的信息抽取技术

DeepIE: Deep Learning for Information Extraction DeepIE: 基于深度学习的信息抽取技术(预计2020年8月31日前全部更新完毕) TOP 知乎专栏文章:nlp中的实体关系抽取方法总结知乎专栏文章:如何有效提升中文NER性能&…

根因分析初探:一种报警聚类算法在业务系统的落地实施

背景 众所周知,日志是记录应用程序运行状态的一种重要工具,在业务服务中,日志更是十分重要。通常情况下,日志主要是记录关键执行点、程序执行错误时的现场信息等。系统出现故障时,运维人员一般先查看错误日志&#xff…

论文浅尝 | BAG:面向多跳推理问答得双向 Attention 实体图卷积网络

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答来源:NAACL 2019链接:https://www.aclweb.org/anthology/N19-1032/实现多跳推理问答需要模型能够充分理解文本和 query 之间的关系,本…

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之构建灵活的UI

原文地址:http://android.xsoftlab.net/training/basics/fragments/fragment-ui.html 当设计应用程序时需要支持尺寸较大的宽屏设备时,可以基于可用的屏幕空间在不同的布局中配置并重新使用fragment来提升用户体验。 举个例子,手持设备在同…

LeetCode 669. 修剪二叉搜索树

1. 题目 给定一个二叉搜索树,同时给定最小边界L 和最大边界 R。通过修剪二叉搜索树,使得所有节点的值在[L, R]中 (R>L) 。你可能需要改变树的根节点,所以结果应当返回修剪好的二叉搜索树的新的根节点。 来源:力扣&#xff08…

Pytorch翻车记录:单卡改多卡踩坑记!

文 | 哟林小平知乎先说明一下背景,目前正在魔改以下这篇论文的代码:https://github.com/QipengGuo/GraphWriter-DGLgithub.com由于每次完成实验需要5个小时(baseline),自己的模型需要更久(2倍)&…

使用docker部署flask项目

前言 本次部署是把2个项目、mysql、redis、uwsgi封装在一个容器中,ngnix封装在一个容器中 实际应用中最好是: 项目和uwsgi封装在一个容器中mysql单独封装,可能还要读写分离,主从同步等redis单独封装,可能还要读写分离&…

论文浅尝 | DRUM:一种端到端的可微的知识图谱上的规则学习方法

论文笔记整理:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释。现有的多数链接预测方法都不能处理新的实体,并且多为黑盒方法,使得其预测结果无法解释。本文提出了一种新的端到端的可微…

WSDM Cup 2019自然语言推理任务获奖解题思路

WSDM(Web Search and Data Mining,读音为Wisdom)是业界公认的高质量学术会议,注重前沿技术在工业界的落地应用,与SIGIR一起被称为信息检索领域的Top2。 刚刚在墨尔本结束的第12届WSDM大会传来一个好消息,由…

LeetCode 637. 二叉树的层平均值(层次遍历queue)

1. 题目 给定一个非空二叉树, 返回一个由每层节点平均值组成的数组. 输入:3/ \9 20/ \15 7 输出: [3, 14.5, 11] 解释: 第0层的平均值是 3, 第1层是 14.5, 第2层是 11. 因此返回 [3, 14.5, 11].2. 解题 queue按层遍历,每次进入循环记录队列长度n class So…

Android官方开发文档Training系列课程中文版:使用Fragment构建动态UI之与其它Fragment通信

原文地址:http://android.xsoftlab.net/training/basics/fragments/communicating.html 为了可以重复使用Fragment UI组件,你应该将fragment构建为一个完整的独立的模块化组件,并且它可以定义自己的布局和行为习惯。你只要定义了一次这类可复…

AI框架你只会调包,这种想法很危险!

深度学习神经网络正步入成熟,而深度学习框架目前众多,大都可以在图像识别、手写识别、视频识别、语音识别、目标识别和自然语言处理等诸多领域大显身手。深度学习框架平台占据人工智能产业生态的核心地位,具有统领产业进步节奏、带动终端场景…

Docker镜像大小

都说容器大法好,可是假设没有Docker镜像,Docker该是多无趣啊。 是否还记得第一个接触Docker的时候,你从Docker Hub下拉的那个镜像呢?在那个处女镜像的基础上。你执行了容器生涯的处女容器。镜像的基石作用已经非常明显。在Docker…

论文浅尝 | 机器阅读理解中常识知识的显式利用

论文笔记整理:吴林娟,天津大学硕士,自然语言处理方向。链接:https://arxiv.org/pdf/1809.03449.pdf动机机器阅读理解(MRC)和人类进行阅读理解之间还存在差距,作者认为主要体现在对于数据的需求和噪声鲁棒性上&#xff…

深度学习在美团配送ETA预估中的探索与实践

1.背景 ETA(Estimated Time of Arrival,“预计送达时间”),即用户下单后,配送人员在多长时间内将外卖送达到用户手中。送达时间预测的结果,将会以”预计送达时间”的形式,展现在用户的客户端页面…

在AndroidStudio中配置Gradle进行 “动态编译期间,根据远程服务器地址 ,生成多类安装包”

原文地址:http://www.cnblogs.com/vir56k/p/4763810.html 需求: 在产品开发中,经常需要发布各个版本,每个版本的服务器地址有不同的服务器地址。比如 开发 服务器使用 192.168.1.232服务器,测试 服务器使用 192.168.1.…

中科院博士整理的机器学习算法知识手册,完整 PDF 开放下载!

分享一份中科院博士总结的机器学习算法知识手册,文章已打包成压缩文件,感兴趣的同学可下载交流。文件包含了:机器学习基础,监督学习方法、非监督学习方法,Python数据科学和深度学习等相关知识,若初学者在自…

NLP算法落地相关的应用场景以及业界最新动态

1 百度NLP十年技术积累,最新发布5款产品,公布两大计划