论文浅尝 | Global Relation Embedding for Relation Extraction

论文浅尝 | Global Relation Embedding for Relation Extraction

news/2025/4/26 23:14:14/文章来源:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/88096942

640?wx_fmt=png

链接：https://arxiv.org/abs/1704.05958

Introduction

在关系抽取任务中，通常采用远程监督的方式自动生成数据集。由于实体对间可能存在多关系，生成的数据集往往存在大量噪音。本文对文本中的关系表述（textual relation）和知识库中的关系（kb relation）进行了共现统计，利用全局统计的信息训练 embedding，使模型能更加鲁棒地应对训练噪音的问题。

Idea

本文的核心思想是：全局的统计信息比局部的统计信息更加鲁棒。在传统的关系抽取训练中，句子与句子之间是独立的，基于单句的局部特征训练模型，受到错误标签的影响比较大。本文提出了一种全局统计的思路，对每个句子，提取它文本中的关系表述（textual relation），并统计该 textual relation 在训练集中共现的 kb relation 的分布，这个分布可以用来作为 textual relation 的embedding 表示。

640?wx_fmt=png

比如，对于上述两个textual relation，分别统计训练集中包含该textual relation的句子对应的label，可以得到texual relation在kbrelation上的分布如下：

640?wx_fmt=png

可以看出，表述为born的句子可以被映射到place_of_birth上，虽然训练集中存在错误标签（place_of_death）的问题，但在全局统计的角度看，错误标签占比比较小。因此，全局共现信息可以有效地突出正确标签。

本文的思路可以类比 GloVE 对 word2vec 的改进。

Methods

1、统计

首先，在语料集上，本文用short dependency path来提取每个关系的texual relation，得到文本的relational fact 640?wx_fmt=png ，以及对应的texualrelation set：。

其次，对于每个texual relation，得到共现的实体对：

640?wx_fmt=png

每个实体对出现的次数记为 640?wx_fmt=png 。

在知识库上，relational fact 即为三元组 640?wx_fmt=png 。对于每个三元组，统计出共现的实体对，记做S(rj)。根据关系标签的映射，我们可以得到textual relation和kb relation的共现信息：

640?wx_fmt=png

2、Global relation embedding（GloRE）

本文用GRU处理texual relation的路径，并将输出结果映射到上一节统计出的共现分布上：

640?wx_fmt=png

这里用『-』来代表依赖路径中的方向。目标函数如下：

640?wx_fmt=png

640?wx_fmt=png

最终得到 textual relation 的embedding。

3、关系抽取增强

本文用GloRE计算关系score，加到原有关系抽取模型的score中。

在实体对的 set level 上，关系抽取模型的score记作E(z|C)。

用GloRE对单句进行预测得到score，再做set内的聚合，和关系抽取的set level对齐：

640?wx_fmt=png

640?wx_fmt=png

最终关系抽取的score表示为两个score加权的和：

640?wx_fmt=png

640?wx_fmt=png

Experiments

本文首先在多种关系抽取模型上进行了GloRE的加成测试，效果均有一定提升：

640?wx_fmt=png

其次，作者用PCNN+ATT+GloRE和一些经典关系抽取数据集进行最终对比：

640?wx_fmt=png

最后，本文用同样的PCNN+ATT作为BASE模型，用不同模型作为叠加，证明了GloRE的加成效果最好。

640?wx_fmt=png

作者还进行了 case study，来分析GloRE的具体效果：

640?wx_fmt=png

笔记整理：王冠颖，浙江大学硕士，研究方向关系抽取、知识图谱

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文，进入 OpenKG 博客。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/480077.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

tensorflow--模型的保存和提取

tensorflow--模型的保存和提取

参考： TensorFlow：保存和提取模型最全Tensorflow模型保存和提取的方法——附实例模型的保存会覆盖，后一次保存的模型会覆盖上一次保存的模型。最多保存近5次结果。应当保存效果最优时候的模型，而不是训练最后一次的模型。所以…

阅读更多...

推荐模型是怎样由窄变宽、越变越深的？

推荐模型是怎样由窄变宽、越变越深的？

星标/置顶小屋，带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 邢智皓编 | 兔子酱当前，深度学习推荐模型已经成功应用于推荐、广告、搜索等领域，但在了解它之前，简单回顾传统推荐模型仍是有必要的，原因如下：…

阅读更多...

动态规划应用--找零钱

动态规划应用--找零钱

文章目录1. 问题描述2. 问题分析2.1 回溯法求解2.2 DP状态转移方程法2.3 DP状态转移表法1. 问题描述找零问题，在贪心算法讲过。但是贪心不一定能得出最优解。假设有几种不同币值的硬币v1，v2，.……vn（单位是元）。如果…

阅读更多...

玩转算法之面试第九章-动态规划

玩转算法之面试第九章-动态规划

动态规划： 9-12 斐波那契数列对重复计算，进行优化，进行记忆化搜索假设基本的问题已经被解决，依次内推。动态规划：将原问题拆解成若干个子问题，同时保存子问题的答案，使得每个子问题只求…

阅读更多...

领域应用 | 从本体论开始说起——运营商关系图谱的构建及应用

领域应用 | 从本体论开始说起——运营商关系图谱的构建及应用

本文转载自公众号：中国联通大数据。联通大数据技术专家闫龙将从“本体论”说起，为大家介绍联通大数据关系图谱的构建与应用。一．本体论万维网之父Tim Berners-Lee教授在1998年将语义网络（Semantic web）带入人类的视线。…

阅读更多...

史上最强多线程面试44题和答案：线程锁+线程池+线程同步等

史上最强多线程面试44题和答案：线程锁+线程池+线程同步等

最全BAT必考题答案系列最全MySQL面试60题和答案史上最全Spring面试71题与答案史上最全Redis面试49题（含答案）:哨兵复制事务集群持久化等分布式缓存RedisMemcached经典面试题和答案最全Java锁详解：独享锁/共享锁公平锁/非公平锁乐观锁…

阅读更多...

推荐系统经典论文学习

推荐系统经典论文学习

传统：大量特征工程 FM：使用隐向量内积来建模组合特征，利用MF解决了数据稀疏的情况下的特征组合问题深入理解FFM原理与实践 FFM：在FM的基础上引入了field的概念，在不同的field上使用不同的隐向量深入理解FFM原理与实…

阅读更多...

部门直推！百度大搜索招聘NLP、搜索方向算法工程师！

部门直推！百度大搜索招聘NLP、搜索方向算法工程师！

星标/置顶小屋，带你解锁最萌最前沿的NLP、搜索与推荐技术工作职责负责百度搜索排序相关性（Relevance）策略。职位要求-了解主流机器学习算法。 -优秀的分析问题和解决问题的能力，对解决具有挑战性问题充满激情。 -C/C语言编程&…

阅读更多...

POJ 1276 ATM凑钱（动态规划）（未解答）

POJ 1276 ATM凑钱（动态规划）（未解答）

文章目录1. 题目1.1 题目链接1.2 题目大意1.3 解题思路2. 代码2.1 Accepted代码1. 题目 1.1 题目链接 http://poj.org/problem?id1276 1.2 题目大意需要凑的钱最多100000，面额最多10种，每种张数最多1000，面额最大不超过1000 1.3 解题思…

阅读更多...

论文浅尝 | 为基于知识库的问答构建形式查询生成

论文浅尝 | 为基于知识库的问答构建形式查询生成

论文笔记整理：刘晓臻，东南大学计算机科学与工程学院本科生。Citation: H.Zafar, G. Napolitano, and J. Lehmann. Formal query generation for questionanswering overknowledge bases. ESWC, 2018.https://link.springer.com/content/pdf/10.1007%2F97…

阅读更多...

Java多线程系列(十一)：ReentrantReadWriteLock的实现原理与锁获取详解

Java多线程系列(十一)：ReentrantReadWriteLock的实现原理与锁获取详解

我们继续Java多线程与并发系列之旅，之前我们分享了Synchronized 和 ReentrantLock 都是独占锁，即在同一时刻只有一个线程获取到锁。然而在有些业务场景中，我们大多在读取数据，很少写入数据，这种情况下，如…

阅读更多...

freewheel现场宣讲笔试回忆篇

freewheel现场宣讲笔试回忆篇

1 选择题：数组和链表的区别 2 那个排序是稳定的： 3 什么是系统调用 4 什么是虚拟内存？为什么要用虚拟内存？ 5 事务的ACID分别代表那个特性？ 6 什么是NAT,是为了解决什么问题提出来的？ 7请简单说一下http的物…

阅读更多...

tensorflow--embedding_lookup 和 embedding_lookup_sparse

tensorflow--embedding_lookup 和 embedding_lookup_sparse

tf.nn.embedding_lookup ( tensor, id ) 作用：选取一个张量里面索引对应的元素应用场景：单值离散特征的 embedding，相当于 one-hot 编码用户\水果苹果香蕉草莓芒果西瓜木瓜火龙果user11000000user20001000user30000001 import tensorflow…

阅读更多...

这篇顶会paper，讲述了疫情期间憋疯的你和我

这篇顶会paper，讲述了疫情期间憋疯的你和我

星标/置顶小屋，带你解锁最萌最前沿的NLP、搜索与推荐技术编 | 小轶2020年净忙着见证历史了。年初疫情爆发后，大家的生活模式也因为疫情发生了巨变。经历了史上最长假期，躺尸太久，到后来满脑子只想开学/复工。今年KDD会议上有一篇很…

阅读更多...

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

论文浅尝 | Knowledge Vault: 全网规模的知识概率融合方法

论文笔记整理：吴桐桐，东南大学博士生，研究方向为自然语言处理。链接：https://www.cs.ubc.ca/~murphyk/Papers/kv-kdd14.pdf基于机器学习，Knowledge Vault不仅能够从多个来源（文本，表格数据&…

阅读更多...

java程序员的必用的9款开发工具

java程序员的必用的9款开发工具

今天推荐java程序员开发利器，包含如如下： 开发环境： Eclipse IntelliJ IDEA IntelliJ在业界被公认为最好的java开发工具之一，尤其在智能代码助手、代码自动提示、重构、J2EE支持、各类版本工具（git、svn等&#xff…

阅读更多...

动态规划应用--搜索引擎拼写纠错

动态规划应用--搜索引擎拼写纠错

文章目录1. 字符串相似度1.1 莱文斯坦距离1.2 最长公共子串长度2. 计算编辑距离2.1 莱文斯坦距离2.2 最长公共子串长度3. 搜索引擎拼写纠错4. 练习题在 Trie树那节讲过，利用Trie可以进行关键词提示，节省输入时间。在搜索框中你不小心打错了字&#xff0c…

阅读更多...

玩转算法之面试第十章-贪心算法

玩转算法之面试第十章-贪心算法

leetcode 455 分配饼干尝试将最大的饼干给最贪心的朋友如果满足，则1 如果不满足，则将最大的饼干给次贪心的朋友，一次类推试图让最多的小朋友开心在这里插入代码片 #include<iostream> #include<vector>using namespace …

阅读更多...

TypeError: unhashable type: 'numpy.ndarray'

TypeError: unhashable type: 'numpy.ndarray'

类型错误：不能够进行 hash 的类型：ndarray 错误出现代码：从 dic t中按键取值我一直以为是 dict 的问题，打印输出发现是键的问题，即取值时候用的键是 ndarray 类型举例： key[[1],[2],[3]] _dict{1:11,…

阅读更多...

论文浅尝 | 基于知识库的自然语言理解 04#

论文浅尝 | 基于知识库的自然语言理解 04#

本文转载自公众号：知识工场。罗康琦，上海交通大学计算机系2019届博士，研究方向为自然语义理解和知识图谱。2012年获得华中科技大学软件工程学士学位，现就职于京东数据科学实验室（Data Science Lab）。他曾在…

阅读更多...

最新文章