论文浅尝 | 一种可解释的语义匹配复值网络

笔记整理:耿玉霞,浙江大学直博生。研究方向:知识图谱,零样本学习,自然语言处理等。


640?wx_fmt=png 论文链接:https://arxiv.org/pdf/1904.05298.pdf

 

本文是发表在 NAACL 2019 上的最佳可解释性论文。受量子力学中数学模型的启发,在语义希尔伯特空间建模语言的基本单位:语义、词、句子,其中基于 complex-valueend-to-end 网络,以 semantic matching 的方式在QA数据集上取得了SOTA,并具备一定的可解释性。

 

1Backgroundof Quantum

(1)Quantum Probability

微观粒子存在不同的运动状态,并且伴随着一定的概率,这些状态由一定的基态组成。以 640?wx_fmt=png640?wx_fmt=png组成的二元基态为例,粒子状态的计算为这些基态的线性组合:

640?wx_fmt=png

其中,α_0, α_1  complex value

 

(2)Measurement

      不同的粒子,组成一个小的微观系统,由于粒子状态伴有一定的概率,微观系统本身也带有不确定性。

       微观系统的不确定性由一元迹的半正定矩阵(也称densitymatrix)进行计算:

640?wx_fmt=png

其中,640?wx_fmt=png为第 i 个粒子,640?wx_fmt=png为量子力学中对粒子状态的向量表示,640?wx_fmt=png为其转置,m表示此微观系统中粒子的数量。

在微观系统的状态空间,可观察到一些high-level的属性特征x,根据Gleason理论计算,这些属性的概率表示为:

640?wx_fmt=png

            其中,由于一元迹半正定矩阵的特性,640?wx_fmt=png

2Semantic Hilbert Space

(1) Linguistic Units

与微观系统类似,在语义系统中存在一些语义的基本单位:语义、词、句子。语义系统由一些基本的语义组成,这些语义通过一定的概率组合成词,由不同词组成的句子构成了一个小的语义系统。

其中:

  • 语义:一系列正交向量组成的基态:640?wx_fmt=png

  • 词:由语义组成而成新的状态:640?wx_fmt=png

其中权重为complex value,这里表示为极坐标向量,且640?wx_fmt=png640?wx_fmt=png

  • 句子:由不同的词的状态构成一个微观系统。

640?wx_fmt=png

(2) Semantic Measurement

语义微观系统的 Hilbert space,同样可观察到一些high-level的特征x,给定句子的density matrix,计算其特征分布:

640?wx_fmt=png

其中,特征的抽取由rank-oneprojector构成的measurement matrix进行计算,其作用相当于CNN中的卷积核或RNN中的cell

640?wx_fmt=png

3Complex-valued Network for Semantic Matching

2 中基于量子力学的数学模型,对语言系统进行了建模,其中词和句子均为 complex- value的表示,为度量语义建模的有效性,本文在QA语义匹配的场景中设计了一个基于 complex value 的端到端网络。

(1) word representation 的物理含义:

使用complex value组合词的表示,embedding向量的长度和方向均具备一定的物理含义,其中归一化的向量(方向)表示为词的状态,长度为词在句子中的重要性体现:

640?wx_fmt=png

(2) sentence modeling

      考虑到句子过长时不能保持长距离的依赖,在句子建模的过程中,利用滑动窗口抽取局部状态。给定一个大小为3的滑动窗口,窗口中的所有词表示为一个子句,构成一个子系统,产生一个density matrix,因此文本中的句子由densitymatrix序列组成。同时,基于词向量的长度,对窗口中不同词的相对重要性进行计算:

640?wx_fmt=png

      不同于一个density matrix中对所有词向量求平均,局部窗口区域的densitymatrix表示为:

640?wx_fmt=png

        如下图所示,以词为中心计算窗口范围内的 density matrix,对局部子语义系统的不确定性进行计算。

640?wx_fmt=png

 

(3) match question and answer

        QA场景中,给定一个问题,需要找到最匹配的答案,本文利用句子的density matrix对问题和答案分别进行建模,并计算它们的距离:

        首先,对长度均为L的问题答案对组成的句子对分别表示为:

640?wx_fmt=png  640?wx_fmt=png   

       定义抽取特征的semantic measurement vectorK个,初始化为正交one-hot向量),用于抽取 density matrix high-level特征:

640?wx_fmt=png

        利用semantic measurement vector和句子的 density matrix 序列,计算k-by-L的特征矩阵:

640?wx_fmt=png

            整体框架如下图:

640?wx_fmt=png

(4)、利用density matrix并提取特征计算语义距离的优势:

a. 保留了 density matrix 中所提取特征的概率分布;

b. 相比计算矩阵的迹,density matrix 利用measurement vector的计算方式更易于计算;

640?wx_fmt=png

c. measurement vector 640?wx_fmt=png 为可训练的向量,相比于CNN的卷积核/RNNcell计算更方便,且易于理解;

d. datadriven的方式(complex-valued vectors)使得端到端的网络训练更方便。

 

4Experiment

1QA semantic matching

 本文在两个QA数据集上进行了实验,数据集特性如下图:

640?wx_fmt=png

本文提出的方法在两个数据集上相比于quantum-inspiredQA模型(QLM,NNQLM-i, NNQLM-ii),表现更好,并且在WikiQA上击败了所有的方法。

640?wx_fmt=png

           

640?wx_fmt=png


    同时,本文也针对实验的细节做了 ablation study

       FastText-MaxPool adopt max pooling over word-embedding

       CNM-Real replaces word embeddings and measurements with their real counterparts

       CNM-Global-Mixture adopts a global mixture of the whole sentence

       CNM-trace-inner-product replaces the train- able measurements with trace inner product like NNQLM

640?wx_fmt=png

2)可解释性

         基于 complex value 的向量表示,为模型提供了可解释性,本文从以下三个方面进行了可解释性的分析:

a.    Transparency

对模型中每一部分的元素的物理含义进行了解读。

640?wx_fmt=png

需要注意的是,进行特征抽取的 measurement vector 在模型中是可训练的,并且是一个具体的正交向量(表达一个基态),相比于CNN中的卷积核或RNNcell更易于理解。

b.    Post-hoc interpretability

本文对模型进行语义匹配时,对问题和答案中相对重要的词进行了可视化,如下图所示,由图可知,在语义匹配的过程中,本文提出的模型确实选择出了一些相对重要的词,以此可匹配到问题答案对,从而对模型的匹配结果进行了解释。

640?wx_fmt=png

 

5Conclusion

本文利用量子力学中的数学模型对语义空间中的语义单元进行了建模,并生成了与一般常用的实数值向量不同的复数值向量(complex-valued vector),使用复数表示的向量不仅在计算上更为方便,并且在空间中可表达一定的语义物理意义。

利用量子力学建模语义空间的思想,不仅在本文中被使用,早在一些论文中也被提出,不同于其他论文中的模型,本文选择在语义希尔伯特空间中对语言进行建模,并且在计算densitymatrix矩阵方面方法更高效。除此之外,基于量子力学的思想,也可利用其他空间的思想对语义进行建模,并设计神经网络应用到更多自然语言处理的场景中。

       本文提出的模型,在考虑语义单元物理意义的情况下,具备一定的可解释性。

 


OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479822.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

指针都没搞懂,还能算得上 C++ 老司机?

在工业界,有这样一个规律:“ 但凡能用其他语言的都不会用C,只能用C的必然用C。”但是,C的学习和项目开发都比较困难。一个有经验的老手也经常搞出野指针,内存泄露等bug,包括我自己在学C的时候也非常痛苦。所…

DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用+距离运算

在NLP领域,语义相似度的计算一直是个难题:搜索场景下query和Doc的语义相似度、feeds场景下Doc和Doc的语义相似度、机器翻译场景下A句子和B句子的语义相似度等等。本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用&#xff…

如何才能真正的提高自己,真正成为一名出色的架构师?

“ 有读者朋友给我留言,如何才能真正的提高自己,成为一名架构师,有学习各种语言的小伙伴。 这里我结合我的学习方法论,再结合我自己的经验,分享部分心得,希望对你有所帮助。 欢迎小伙伴留言给到你现在遇…

论文浅尝 | 从知识图谱流中学习时序规则

论文笔记整理:汪寒,浙江大学硕士,研究方向为知识图谱、自然语言处理。链接:http://ceur-ws.org/Vol-2350/paper15.pdf动机知识图谱是现在十分流行的数据管理方式,在最近几年应用广泛。但目前的基于KG的规则挖掘主要都是…

如何选择数据结构和算法(转)

文章目录1. 时间、空间复杂度 ! 性能2. 抛开数据规模谈数据结构和算法都是“耍流氓”3. 结合数据特征和访问方式来选择数据结构4. 区别对待IO密集、内存密集和计算密集5. 善用语言提供的类,避免重复造轮子6. 千万不要漫无目的地过度优化熟知每种数据结构和算法的功能…

Linux服务器安装cuda,cudnn,显卡驱动和pytorch超详细流程

原文链接:https://blog.csdn.net/kingfoulin/article/details/98872965 基本的环境 首先了解自己服务器的操作系统内核版本等信息: 查看自己操作系统的版本信息:cat /etc/issue或者是 cat /etc/lsb-release等命令 查看服务器显卡信息&…

自训练:超越预训练,展现强大互补特性的上分新范式!

文 | 香侬科技编 | 兔子酱背景预训练(Pre-training)模型自BERT问世以来就一发不可收拾,目前已经在自然语言理解和生成两个方面取得了突破性成就。但是,作为它的一个“兄弟”,自训练(Self-training&#xff…

论文浅尝 | 通过文本到文本神经问题生成的机器理解

论文笔记整理:程茜雅,东南大学硕士,研究方向:自然语言处理,知识图谱。Citation: Yuan X, WangT, Gulcehre C, et al. Machine comprehension by text-to-text neural question generation[J]. arXiv preprint arXiv:17…

安装paddlepaddle-GPU 报libcudnn.so和libcublas.so找不到的解决方案

第一步,查找两个的文件位置 第二步: 由于cudcun实在cuda10.0的基础上安装的,解压cudcnn的tar包之后会出现一个cuda-10.0文件夹,而不是cuda. 第三步: 在一步出现的位置找到了和libcublas.so.10对其进行了重命名就好了…

LeetCode 221. 最大正方形(DP)

文章目录1. 题目信息2. 解题1. 题目信息 在一个由 0 和 1 组成的二维矩阵内,找到只包含 1 的最大正方形,并返回其面积。 示例: 来源:力扣(LeetCode) 链接:https://leetcode-cn.com/problems/maximal-squ…

anaconda配置虚拟环境

一般是在服务器上,创建一个自己的虚拟环境,自己来用,不影响别人的环境,也不用被别人安装环境影响。 打开终端 1.查看当前存在哪些虚拟环境 conda env list 或 conda info -e 2.创建名字为 lly_env 的虚拟环境(名字自己取一个&am…

论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

作者:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释。本文是我们与苏黎世大学以及阿里巴巴合作的工作,发表于WWW2019,这篇工作将知识图谱推理的两种典型方法,即表示学习和规…

21个深度学习调参的实用技巧

文 | AI_study源 | AI算法与图像处理导读在学习人工智能的时候,不管是机器学习还是深度学习都需要经历一个调参的过程,参数的好坏直接影响着模型效果的好坏。本文总结了在深度学习中21个实用的调参的技巧,快来学习吧!这篇文章在国…

从Java程序员进阶为架构师,全套16张图概括最全技能!建议收藏!

如何从程序员进阶到架构师?今天完整的把我积累的经验和技能分享给大家! 作者:陈睿|优知学院创始人 数据结构算法程序 数据是一切能输入到计算机的信息总和,结构是指数据之间的关系,数据结构就是将数据及其之间的关系有…

Python 爬虫系列教程一爬取批量百度图片

原文地址:https://blog.csdn.net/qq_40774175/article/details/81273198 很久之前就学习了Python的爬虫了,也用来做过一些项目(主要是一些课程项目),但时间比较紧,一直没有空把它写下来,这个暑假…

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

论文笔记整理:王狄烽,南京大学硕士,研究方向为关系抽取、知识库补全。链接:https://arxiv.org/pdf/1903.01306.pdf发表会议:NAACL2019动机现有的利用远程监督进行实体关系抽取的方法大多关注于如何对训练数据进行降噪&…

人脑是怎么防止梯度消失和梯度爆炸的?

文 | 极市平台源 | 知乎问答导读梯度消失和梯度爆炸一直是深度学习的难点,而人脑有接近900亿个神经元,可以说是一个非常规模庞大的网络。那么人脑是如何防止梯度消失和梯度爆炸的?观点一作者丨冒蓝火的加特林感觉这个问题跟我的科研方向有一点…

史上最全java架构师技能图谱(下)

“java架构史上最全技能图谱分为上下两篇,这是java架构史上最全图谱下篇,包含: 大数据以及性能、设计模式、UML、中间件、分布式集群、负载均衡、通讯协议、架构设计等技术图谱等章节。 如果需要上篇内容:数结构算法、java进阶、…

Git基本指令

一、创建本地仓库进行版本控制 在工作区 local_repository 新建readme.txt文件: git init :初始化一个空的本地仓库,并在本地仓库生成了.git 文件git add readme.txt :将文件放到暂存区,表示这个文件受git管理git co…

LeetCode 21. 合并两个有序链表(单链表)

文章目录1. 题目信息2. 解题1. 题目信息 将两个有序链表合并为一个新的有序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例:输入:1->2->4, 1->3->4 输出:1->1->2->3->4->4来源&#xff1a…