论文浅尝 | 基于平行新闻的Bootstrapping关系抽取

笔记整理:吴锐,东南大学大四本科生,研究方向为自然语言处理。



640?wx_fmt=png


CitationMichael Glass, K. B. . (2012). Bootstrapping relation extraction using parallel news articles. Retrieved from https://pdfs.semanticscholar.org/bfa5/1cf7fa3e0b10893908d909cd8932d76bb7ae.pdf 

 

动机

近年来,针对关系抽取的 bootstrapping 方法得到了广泛的关注,一个简单的 bootstrapping 可以用下图表示。这些方法都基于同一个假设,那就是如果句中的两个词在某种情况下具有特定的关系,则包含这两个词的句子很可能会表达出这种关系。本文在考虑该假设在平行语料库中更可能成立的情况下,探索了在平行与非平行语料库下,分别使用 Bootstrapping 进行关系抽取的实验效果。在实验中发现,基于平行语料库的实验效果普遍更好。

640?wx_fmt=png

1

方法

本文所采取的方法大致如下:

1、构建平行语料库

该文章主要针对NFLIC领域建立了大型的平行语料库,由于前者领域中关系在各类运动中均较为普遍,文中直接将其当做运动领域。文中使用了谷歌新闻来对描述同一事件的新闻进行定位以及分组。每一组只描述一个新闻故事,通常指一个事件,例如一场游戏或者一次恐怖袭击。文中表示,通过在谷歌新闻上搜索领域相关的关键词,可以得到一系列类似于下图的结果。通过单击链接“all 285 news articles”,可以收集到一组均在描述同一个事件的文档。由于组内文档的相关性以及新闻的质量都会随着检索排序的上升而下降,所以文中只取前三分之一,或者最多100篇文章。

640?wx_fmt=png

2


最终运动语料库总共包含3861组,合计145000个文档,大约每一组有37.5个文档。IC语料库与之类似,共3114组,合计130000个文档,平均每一组约41.5个文档。

2、具体实验

为了判定平行语料库对于bootstrapping关系抽取的潜在价值,该实验度量了两个具有一定关系的种子实体分别在平行与非平行语料库中的关系的持久性。下图列出了文中所进行实验的5种关系。Gloss是为关系的解释,xy是两个有关系的实体,Search Pattern则用来定位语料库相关的文本。

640?wx_fmt=png

3

通过使用这些Search Pattern,作者首先收集到了一些可能表达这些关系的句子,然后手动从这些句子中找到部分确实表达目标关系的句子,并在其中定位出有关联的实体,最后将定位出来的这些实体对作为种子数据,即图1算法的初始集合R

该文章主要针对实验及评估算法1中的LABELOCCURRENCES函数,其中针对平行语料库的具体的实验过程如下图所示。对于每一个种子实例对,它都会在单个组中挑选十个句子来评估LABELOCCURRENCES的精确率,这些句子称之为叫做组内”(inside cluster)语句。函数SENTENCESRELATING(si, c)能够找到文档簇c中与种子实例si相关的所有句子。

640?wx_fmt=png

4

针对非平行语料库,我们同样选择了另外十个分布在不同组中的句子,来测试LABELOCCURRENCES的精确率,叫做组外”(outside cluster)语句。具体的实验过程如下图

640?wx_fmt=png

5

3、结果评估

为了评估LABELOCCURRENCES函数分别在有文档组和没有文档组下的精确率,文中使用了亚马逊Mechanical Turk服务上的工作者。其他研究表明[Snow 等人, 2008]对于自然语言处理领域的一些简单工作,包括文本蕴涵,Mechanical Turk的非专家可以提供与专家建立的黄金标准同等质量的标注。

            下图表现了工作人员的工作方式。工作人员被要求将句子标记为正确或者不正确(且如果不正确,需选择一个原因)。作者提供了示例来说明三种不同类型的错误摘要。

640?wx_fmt=png

6


实验结论

640?wx_fmt=png

7

上图表明,至少对部分关系来说,使用平行语料库是很重要的。总的来说,组内的精确率为0.7,组外的精确率为0.39,说明平行语料库可能会为LABELOCCURRENCES函数带来50%的错误率的下降。

作者预计平行语料库对gameDateteamInGameinjuringHumanAgent关系的影响很小,而对其他关系影响很大。他的推理是这样的,当这些关系的典型实例出现在同一句话中时,它们很少会有除目标关系之外的关联。虽然无法对一些关系进行有效的测试,但作者通过该实验证实了对于gameDateisLedBy关系的假设。

从组内到组外,hasCitizenship关系的精确率发生了急剧的下降,这可以解释为一个国家的公民往往与这个国家有着各种各样的联系。对于teamScore关系,我们可以看到,在一个组(通常是一场游戏)内,如果一个队伍和一个比分有这种关系,那么在所有其他的语义相关的相同实体之间,非常有可能保持这种关系。然而在组外,这种可能性要低于50%。通常情况下,这个得分其实是其他队伍的得分。

总而言之,在很多情况下,种子实体对之间只含一种关系的假设是不成立的,但是在描述单个故事的文档组内是可靠的。关系抽取的Bootstrapping方法可以通过使用能从中受益的关系的平行语料库来让结果得到一定的提升。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

动态规划应用--最长递增子序列 LeetCode 300

文章目录1. 问题描述2. 解题思路2.1 动态规划2.2 二分查找1. 问题描述 有一个数字序列包含n个不同的数字,如何求出这个序列中的最长递增子序列长度?比如2,9,3,6,5,1,7这样一组数字序…

论文浅尝 | 5 篇顶会论文带你了解知识图谱最新研究进展

本文转载自公众号:PaperWeekly。精选 5 篇来自 ICLR 2019、WSDM 2019、EMNLP 2018、CIKM 2018和IJCAI 2018 的知识图谱相关工作,带你快速了解知识图谱领域最新研究进展。WSDM 2019■ 论文解读 | 张文,浙江大学在读博士,研究方向为…

LeetCode 53. 最大子序和(动态规划)

文章目录1. 题目描述2. 解题2.1 暴力求解2.2 动态规划1. 题目描述 题目链接:https://leetcode-cn.com/problems/maximum-subarray/ 《剑指Offer》同题:面试题42. 连续子数组的最大和 给定一个整数数组 nums ,找到一个具有最大和的连续子数组…

java程序员的发展之路和职业规划

在互联网做技术的朋友,往往没有足够的重视,职业规划其实一点都不虚,而是一件非常实在的事情,如果你不是每次碰墙再反思职业规划,而是提前3年左右作出下一步的规划,你早已经走出了一条属于自己的路。 以下是…

图Graph--拓扑排序(Topological Sorting)

文章目录1. 拓扑排序2. 算法实现2.1 Kahn算法2.2 DFS算法2.3 时间复杂度3. 应用4. 类似题目练习一个项目往往会包含很多代码源文件。编译器在编译整个项目时,需按照依赖关系,依次编译每个源文件。比如,A.cpp依赖B.cpp,那在编译时&…

SIGIR20最佳论文:通往公平、公正的Learning to Rank!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 机智的叉烧编 | 兔子酱大家好,我是叉烧。感谢卖萌屋再次给我机会在这里分享~SIGIR2020 的 best paper 终于出炉,这次获奖论文是 Controlling Fairness and Bias in Dynamic Learn…

论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生。论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_EntityAlignment.pdf发表会议:AAAI 2019摘要近来,针对跨知识图谱&…

一篇文章了解架构师能力模型

每一个技术人都有着一个架构师的梦,希望自己有朝一日能登上技术之巅,以下结合我自己13年的从业经验,分别从架构师进阶之路、架构师能力模型(这里是亮点)、架构师技能树、架构师业务技能树谈起,完整的剖析一…

首篇严肃的“BERT学”研究,40+论文对比,解读 BERT 工作原理

BERT解读(论文 TensorFlow源码):https://blog.csdn.net/Magical_Bubble/article/details/89514057?depth_1- 解读ALBERT: https://blog.csdn.net/weixin_37947156/article/details/101529943 一文揭开ALBERT的神秘面纱&#…

图Graph--最短路径算法(Shortest Path Algorithm)

文章目录1. 算法解析BFS,DFS 这两种算法主要是针对无权图的搜索算法。针对有权图,图中的每条边都有权重,如何计算两点之间的最短路径(经过的边的权重和最小)呢?像Google地图、百度地图、高德地图这样的地图软件&#x…

BAT架构师进阶:大型网站架构书籍推荐

“ 书籍推荐分为如下: 大型网站架构系列 分布式系统系列 BAT技术系列 架构设计系列 一:大型网站架构系列 第一本:《大型网站技术架构:核心原理与案例分析》 这本书主要从大型网站架构的特点,架构目标&#xff08…

FLAT:中文NER屠榜之作

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Tensorflow实现LSTM详解

关于什么是 LSTM 我就不详细阐述了,吴恩达老师视频课里面讲的很好,我大概记录了课上的内容在吴恩达《序列模型》笔记一,网上也有很多写的好的解释,比如:LSTM入门、理解LSTM网络 然而,理解挺简单&#xff0…

论文浅尝 | 一个模型解决所有问题:实体和事件的神经联合模型

笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。论文链接:https://arxiv.org/pdf/1812.00195.pdf发表会议:AAAI 2019摘要 近来,针对事件抽取的工作大都集中在预测事件的triggers和arguments r…

AutoPep8-----Pycharm自动排版工具

查找pycharm中的external tool的步骤: https://jingyan.baidu.com/article/84b4f565bd39a060f6da3211.html 今天从 PyCharm 入手,写一些可以明显改善开发效率的使用技巧,一旦学会,受用一生。以下代码演示是在 Mac 环境下&#xf…

阿里P8架构师谈:java架构师面试技能24全点

1,JAVA基础扎实,理解io、多线程、集合等基础框架,对JVM原理有一定的了解,熟悉常见类库,常见java api不仅会用更能知其所以然; 2,对Spring,MyBatis/Hibernate,Struts2,SpringMVC等开源框架熟悉并且了解到它的基本原理和…

百度自然语言处理部招人啦!正式、实习都要!研究、落地都有!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术2010年,百度自然语言处理部正式成立。十年来,百度NLP聚集了一大批兼具扎实技术实力和实践经验的AI人才,获得数十项国内外权威奖项,申请专利上千件,发…

我与导师的聊天记录

虽然导师远在马来西亚,但是每次都是很耐心的回答我的问题,真的是非常感激啦! 我就想记录下来,自己提出的问题,老师给我的解答,算是我研究生生涯的很大一部分生活了吧! 噢~ 还有就是,…

论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。来源:CIKM’2018链接:http://delivery.acm.org/10.1145/3280000/3271704/p247-guan.pdf?ip121.249.15.96&id3271704&accACTIVE%20SERVICE…

PyTorch常用代码段合集

文 | Jack Stark知乎编 | 极市平台来源 | https://zhuanlan.zhihu.com/p/104019160导读本文是PyTorch常用代码段合集,涵盖基本配置、张量处理、模型定义与操作、数据处理、模型训练与测试等5个方面,还给出了多个值得注意的Tips,内容非常全面。…