这篇论文提出了一个文本-知识图谱的格式转换器...

文 | 花小花Posy

Hello, 大家好,我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢?因为该工作提出了一个知识的格式转换器,用于转换 无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说,给模型一打句子,它能够将其转换为一个图。图中的节点是句子中的关键信息,边表示不同节点的关系。反过来,给模型一个图,它能将其格式化为流畅的自然语言。

举个例子,就是实现下面句子和图之间的格式转换:

The real-world information is often naturally organized as graphs (e.g., world wide web, social networks) where knowledge is represented not only by the data content of each node, but also by the manner these nodes connect to each other.

重点是因为本文还想以 无监督 的方式实现Text和KG之间的转换

好家伙啊,不过看起来还挺难的????。既需要做命名实体识别,又需要做关系识别、关系抽取,还是无监督的。不过如果真的有模型能够实现的话,知识图谱的构建不就是小菜一碟了嘛。让我们一起来看看今天这篇文章是否能够满足我们的期待呢?

论文题目:
DualTKB: A Dual Learning Bridge between Text and Knowledge Base

论文链接:
https://arxiv.org/pdf/2010.14660.pdf

The truth is in the details。刚刚给大家描述了一下理想场景。不过现实和理想还是有些不同的,接下来要开始暴露真相了!为了使研究有可能进行,本文简化了研究问题,不是直接完成一打句子和一个图之间的转换,而是将问题分解为一个句子和一条路径之间的转换。注:路径在本文的定义是一个三元组,比如上图中的(graph, made of, edges)。

知识格式转换的核心

格式化的核心是:

  1. 格式化:将不同源格式的知识转换为同一种标准格式。

  2. 格式生成:将格式化后的知识增加目标格式信息,并生成目标格式知识。

为实现上述两个目标,本文提出的DualTKB模型,其框架是1个Encoder+2个Decoders。Encoder将文本和路径编码到相同的空间,以实现格式化过程。因为假设文本和路径表达同一条知识,所以编码到相同的空间能更好地训练Encoder。DecoderA和DecoderB分别负责文本(A)和路径(B)的生成,即负责不同格式知识的生成。直观的图表达如下:

眼尖的同学可能已经发现,当Encoder的输入和DecoderA的是输出都是文本时(或Encoder的输入和DecoderB的输出都是路径时),模型就是一个auto-encoder。相应的重构损失:

如果已知文本和路径的对齐,那么训练便简单许多。但当该信息未知的时候,有什么应对策略呢?这就是本文所关心的问题。

因此,本文的真正的研究问题是:

如何以无监督的方式实现一个句子文本和一条路径之间的转换?即,在没有文本和路径对齐的标签信息的情况下,如何实现转换?

剧透答案:Translation + Back Translation (BT)

熟悉机翻的朋友们看了答案可能会觉得,不过如此而已????。但能够旧瓶装新酒,将老方法应用到新问题上,换角度看问题还是很有意思的。现在假设将文本看做中文,路径看作英语,那么文本和路径之间的转换,不就类似于中文和英语之间的翻译嘛。比如我们想将中文翻译成英语,但是没有对齐语料,咋办呢?一个方法是可以先将中文翻译为英文,再将翻译后的英语重新翻译回中文,通过对比原始中文和回译的中文,来间接指导模型训练。本文文本和路径之间的翻译采用了类似的方法。文中模型的整体框架图如下:

整个模型包括Translation和Back Translation两轮。在BT轮的损失函数:

在完全没有监督的情况下,模型使用 进行训练。眼尖的同学可能再次发现,整体框架图中间部分还有一个,那是啥?

其实本文还隐藏了一个研究问题:

如果能够给模型提供一部分弱监督,能不能提升模型性能?即当有一部分文本和路径的对齐(模糊对齐)语料时,会给模型带来多大的提升?

为了实现这一目标,文中使用模糊匹配构建了一个文本-路径的对齐语料,用其监督文本和路径的相互转换。所以,当有一部分监督时,损失函数变为:

其中的定义如下:

读到这里,大家可能发现这篇文章涉及的任务比较丰富,包括:(1)文本到文本的生成 (2)路径到路径的生成 (3)文本到路径的生成 (4)路径到文本的生成 (5)文本到路径到文本 (6)路径到文本到路径。换句话说,DualTKB支持不同格式知识的输入和输出。看看下面的图就明白啦~

在实际操作过程中,文本到文本和路径到路径的生成任务中,Encoder的输入都被MASK掉一部分。文本到文本的生成大家很熟悉了,这里有意思的是路径到路径的任务。现在任务变成,MASK路径的一部分(头实体/尾实体)作为模型输入,模型输出是一条完整的路径(头实体,关系,尾实体)。举个例子:

输入/mask路径:[SEP] yeast [SEP] is a [SEP]
输出:(yeast, is a, ingredient in bread)

哎呦,这不是知识图谱补全里面的链接预测嘛~ 其实本文的一大卖点就在于统一了知识图谱补全和文本生成任务的学习,使得学习到的模型既可以做文本生成,又可以做知识图谱补全,还可以实现文本和路径之间的转换。

模型部分到这里就差不多啦,下面我们一起看看实验部分吧。

实验设置

数据

本文的实验选取了常识领域的文本数据OMCS,和常识知识图谱ConceptNet(CN600K)。因为CN600K中的部分三元组是从OMCS中抽取得来,所以部分文本和路径所表达的知识是相同的。对于弱监督数据,文中使用Fuzzy Matching的方式对齐文本和路径。需要注意的是,因为对齐的数据是基于路径和文本之间的相似度进行选择的,所以对齐的数据是有噪声的。

模型框架

文中选择了GRU,BERT,Transformer三种分别作为Encoder和Decoder。剔除掉无效组合(比如BERT只能作为Encoder)以及性能不好的组合,最后选择了3种模型,即GRU-GRU, BERT-GRU, Trans-Trans。

评价指标

文中同时涉及文本生成任务和知识图谱补全任务,因此在评价指标方面作者也兼顾了两方面。生成任务采用的指标有BLEU2,BLEU3,RougeL,F1 BERT-score。知识图谱补全的指标有常见的MRR和HITS@N。常用指标的对比对象都是预测或生成的单个路径和原始的单个路径对比,文中为了将一打句子生成的图(路径拼成的图)与原始图作为整体对比,提出使用一个新的指标:GED(图编辑距离)来计算从新图到原始图所需要的距离,距离越小说明两个图越相似。因为同时设计生成和知识图谱补全,用不同的指标来选择最后的测试模型得出的结论也会不同,因此作者提供了两种选择:基于于Best MRR选择模型和基于Best BLEU2选择模型。

接下来我们一起看看模型的实验结果如何吧。

实验结果

1. 文本和路径格式互转的性能如何?

文本到文本(AA)任务在各项指标上都表现良好,同时也看出不同模型的性能的差距也是很大的。但文本到路径到文本(ABA)任务的表现则相对差许多,说明间接路径(BA)到文本的跨模态的知识迁移能力仍然需要提升。

那如果是路径直接到文本(BA)呢?

对比ABA和BA的结果,可以看出ABA的整体效果是要优于BA,说明直接将路径转换为文本的效果其实还有待提升的。

2. 知识图谱补全任务的表现如何?

  • 上表中报告了两种模型选择的方式,蓝框的模型是基于Best MRR选择的,红框模型是基于Best BLEU2选择的,明显蓝框中的模型效果更好。

  • 此处有趣的是,GRU-GRU是从头开始训练的,BERT-GRU中BERT是finetune的,但前者的效果却更好。看来BERT的预训练并没有给知识图谱补全任务带来明显增益。不过使用生成指标选择模型时,BERT-GRU却表现更好。

  • 此处无法得出结论哪个模型是最好的,不同的框架选择、不同的选择指标、不同的监督比例() 导致的结论都不相同。但可以得出结论的是DualTKB训练的模型的整体性能是相对稳定的,并且可以找到若干模型的性能比之前模型更好。

3. 加多少弱监督的数据合适?

文中多处强调说加一点点点weak supervison就可以使得模型性能提升很多。那么一点点是多少呢?图中对比了监督比例从0增加到1 (x轴)的过程中 MRR和BLEU2(y轴)的变化。

  • 从0增加到0.2的过程中,三个模型的MRR都获得了明显的提升。

  • 当比例从0.2继续增加时,不同模型的变化趋势却不相同。

  • 更有趣的是,当比例增加到1时,模型性能却低于比例等于0.5时 (这可能也是为啥作者一直强调加一点点数据就够了,意思就是不要加多了,加多了不行O(∩_∩)O~)。针对这一现象,文中的解释是,因为弱监督数据中路径和文本的对齐不是exact match,所以加多了监督反倒将噪声引入了。噪声可以理解为,不是所有对齐的句子和路径都表达的相同的知识,所以监督数据过多时其实是引入了更多的错误信息。

4. 生成的数据长啥样?

上图是作者将一打句子和其生成的路径组成得到的图,从上图可以看出,实验采用的文本数据结构是相对简单的,句子比较短,并且有比较明显的模板现象,但是文本和段落之间的迁移仍然效果有待提升。试想如果在真实的长句或者段落文本中训练只会更加困难。

小结

本文将从文本中构建知识图谱和从知识图谱生成文本看成对偶问题,提出了DualTKB模型,旨在学习文本和路径之间知识的迁移。换句话说,提出了一个文本和KG格式转换器。本文工作涉及了一系列的任务,包括自然语言生成,三元组抽取,知识图谱补全,跨模态的知识迁。本文提出的框架理论上是有通用性的,虽然理想和现实还是有一些差距,但本文的工作算是往前迈出了一步。期待下一步更深入工作~

萌屋作者:花小花Posy

目前在墨尔本大学NLP组读Ph.D.,主要感兴趣方向包括常识问答,知识图谱,低资源知识迁移。期待有生之年可见证机器真正理解常识的时刻! 知乎ID:花小花Posy

作品推荐:

1.我拿乐谱训了个语言模型!

2.一句话超短摘要,速览752篇EMNLP论文

3.Facebook提出生成式实体链接、文档检索,大幅刷新SOTA!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478734.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文小综 | Using External Knowledge on VQA

本文转载自公众号:浙大KG。本文作者:陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,…

如何修改TextView链接点击实现(包含链接生成与点击原理分析)

*这篇文章的主要目的是想要大家学习如何了解实现,修改实现,以达到举一反三,自行解决问题的目的。 某天遇到这么一个需求:在TextView中的文本链接要支持跳转,嗯,这个好办,TextView本身是支持的&…

LeetCode 752. 打开转盘锁(图的BFS最短路径)

1. 题目 你有一个带有四个圆形拨轮的转盘锁。每个拨轮都有10个数字: ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 。每个拨轮可以自由旋转:例如把 ‘9’ 变为 ‘0’,‘0’ 变为 ‘9’ 。每次旋转都只能旋转一个拨…

使用TensorFlow训练WDL模型性能问题定位与调优

简介 TensorFlow是Google研发的第二代人工智能学习系统,能够处理多种深度学习算法模型,以功能强大和高可扩展性而著称。TensorFlow完全开源,所以很多公司都在使用,但是美团点评在使用分布式TensorFlow训练WDL模型时,发…

会议交流 - CNCC 技术论坛 | NLP中知识和数据怎么选?当然是全都要!——第四届中文信息技术发展战略研讨会...

本文转载自公众号:中国计算机学会 。本论坛将于CNCC2020期间,10月23日下午16:00-18:00,在北京新世纪日航饭店3层南京厅举行。本论坛将邀请多位来自国内著名高校和人工智能企业的知名自然语言处理专家介绍他们在知识图谱、知识获取、预训练模型…

从我开发过的Tensorflow、飞桨、无量框架看深度学习这几年

文 | Peter潘欣知乎和深度学习框架打交道已有多年时间。从Google的TensorFlow, 到百度的PaddlePaddle,再到现在腾讯的无量。很庆幸在AI技术爆发的这些年横跨中美几家公司,站在一个比较好的视角看着世界发生巨大的变化。在这些经历中,视角在不…

探索Glide对Gif图片资源的获取、解析过程

先预祝大家汤圆节快乐!很久没写博客了。今天我们来探索一下Glide是如何支持Gif图片加载的。 本篇博客的目的 了解代码分析的基本思路与方法了解Glide是如何对Gif图片进行支持的 探索背景 为什么会有这么一个想法呢,一来一直对Glide是知其名而不知其所…

美团“猜你喜欢”深度学习排序模型实践

引言 推荐作为解决信息过载和挖掘用户潜在需求的技术手段,在美团点评这样业务丰富的生活服务电子商务平台,发挥着重要的作用。在美团App里,首页的“猜你喜欢”、运营区、酒店旅游推荐等重要的业务场景,都是推荐的用武之地。 目前&…

如何关闭docker容器里的进程

如何关闭docker容器里的进程 1、使用docker exec 容器名 ps -ef命令查看进程信息 示例: 创建名为"redis"的容器,并在容器内部和宿主机中查看容器中的进程信息: 2、然后进入该容器中,执行如下命令即可停掉进程&…

论文浅尝 | 一日看尽长安花--NLP可解释研究梳理

本文是对TACL2019《Analysis Methods in Neural Language Processing: A Survey》的翻译和整理。本文转载自知乎,文章链接:https://zhuanlan.zhihu.com/p/265815975导读NLP领域发展迅猛,其模型分析方法也正逐渐火热。为什么要研究NLP的可解释…

人在斯坦福,刚上CS224n

文 | Jazon大家好,我是Jazon,现在是Stanford计算机硕士项目的一只学生,非常荣幸加入小夕的大家庭!请各路大神多多指教呀。2021年1月12日,又一季Stanford CS224n——自然语言处理开课了,我和很多MSCS同学一起…

美团外卖骑手背后的AI技术

背景 随着数字化时代的到来,外卖市场近年来发展非常迅猛。对外卖物流系统而言,配送效率和用户体验至关重要。而实际配送过程是由配送员(骑手)最终完成的,因此,想要真正提升配送效率,不但要在智能…

LeetCode 494. 目标和(DFS+DP)

文章目录1. 题目2. 解题2.1 递归2.2 DP1. 题目 给定一个非负整数数组,a1, a2, …, an, 和一个目标数,S。现在你有两个符号 和 -。对于数组中的任意一个整数,你都可以从 或 -中选择一个符号添加在前面。 返回可以使最终数组和为目标数 S 的…

使用Kotlin开发Android应用初体验

使用Kotlin开发Android应用初体验 昨晚,最近一届的谷歌IO大会正式将Kotlin确定为了官方开发语言,作为一名Android开发鸟,怎么能不及时尝尝鲜呢? Kotlin的简要介绍 在开发之前,很多同学一定有很多疑问,Kotlin到底有…

论文浅尝 - ICML2020 | 基于子图推理的归纳式关系预测

论文笔记整理:陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习。论文来源:ICML 2020Introduction当前在知识图谱上(KnowledgeGraph,KG)进行关系预测的很多方法都依靠在对知识图谱中的…

CVPR 二十年,影响力最大的 10 篇论文!

文 | 二玖极市平台此前,极市盘点了图像分割在过去二十年中影响力最大的10篇论文,得到了许多开发者的支持。今天,我们将对计算机视觉领域三大顶会之一CVPR在近二十年来中产生的优秀论文进行一个全面的盘点与总结。CVPR是计算机视觉领域三大顶会…

DataMan-美团旅行数据质量监管平台实践

背景 数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾说过,看起来不起眼的数据…

LeetCode 133. 克隆图(图的BFS/DFS)

1. 题目 给定无向连通图中一个节点的引用&#xff0c;返回该图的深拷贝&#xff08;克隆&#xff09;。图中的每个节点都包含它的值 val&#xff08;Int&#xff09; 和其邻居的列表&#xff08;list[Node]&#xff09;。 class Node { public:int val;vector<Node*> n…

七天搞定java接口自动化测试实战,一文搞定...

前言 无论是自动化测试还是自动化部署&#xff0c;撸码肯定少不了&#xff0c;所以下面的基于java语言的接口自动化测试&#xff0c;要想在业务上实现接口自动化&#xff0c;前提是要有一定的java基础。 如果没有java基础&#xff0c;也没关系。这里小编也为大家提供了一套jav…

Android自动化测试探索

前言 通常来说&#xff0c;我们开发完成产品之后&#xff0c;都是由测试组或者是我们自己点一点&#xff0c;基本上没有问题了就开始上线。但是&#xff0c;随着时间的堆叠&#xff0c;一款产品的功能也越来越多。这时&#xff0c;我们为了保证产品的质量&#xff0c;就需要在…