论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

news/2025/4/27 3:09:12/文章来源:https://blog.csdn.net/TgqDT3gGaMdkHasLZv/article/details/85889349

640?wx_fmt=png

来源: IJCAI 2018

链接: https://www.ijcai.org/proceedings/2018/0611.pdf

本文关注基于知识图谱嵌入(后文全部简称为知识嵌入)的实体对齐工作，针对知识嵌入训练数据有限这一情况，作者提出一种 bootstrapping 策略，迭代标注出可能的实体对齐，生成新数据加入知识嵌入模型的训练中。但是，当模型生产了错误的实体对齐时，这种错误将会随着迭代次数的增加而累积的越来越多。为了控制错误累积，作者设计了一种对齐样本编辑方法，对每次迭代生成的对齐数据加以约束。

动机

目前面向知识库的实体对齐研究中，基于知识嵌入的方法取得了比传统策略更好的实验效果。但是对于知识嵌入的实体对齐，仍然存在着一些挑战。

其一：虽然近年单知识库知识嵌入研究成果颇丰，但面向知识对齐的嵌入工作仍有很多待研究的空间。

其二：基于知识嵌入的实体对齐往往依赖已有对齐作为训练数据，虽然有研究表示仅需少量对齐样本即可完成模型训练[Chen et al. 2017]，但有限的训练数据依然会影响知识嵌入的质量以及实体对齐准确性。

方法

1.对齐引导的知识嵌入

作者将实体对齐视为分类问题，目标就是从基于知识嵌入的实体表示中(包括有标注对齐实体，及无标注实体)，找到最有可能的实体对齐(最大对齐似然)。

对于知识嵌入，在translation-based的基础上，针对对齐问题，作者对目标函数做出如下改进：

由基本知识嵌入目标函数

640?wx_fmt=png

引入正负例样本集T⁺与T^-，将目标函数改写为：

640?wx_fmt=png

其中[ f(x) ]₊表示max(f(x), 0)，gamma_1, gamma_2 >0是两个超参，mu_1 是个平衡参数，这里使用的负例通过随机替换正例中的部分得到。

2.Bootstrpping实体对齐方法

本方法的目的是最大化对齐似然，并符合1对1的对齐约束，在这种设定下，对于一组实体对齐(x, y)，y被视为是x的标签(我个人是这样理解的)。故该问题建模为以下形式：

640?wx_fmt=png

其中 640?wx_fmt=png 表示第t次迭代得到的实体嵌入，Y’ 表示对于x存在的候选对齐样本集合。

640?wx_fmt=png 是一个标记函数，当(x, y)构成一组对齐的时候其函数值为1，否则为0。当得到新的对齐实体时，将其作为增量添加到训练集中用于下一次迭代。

考虑到新生成的对齐样本可能引起矛盾，这里作者使用的策略是对比出现矛盾的对齐实体，取对齐似然更高的样本保留，计算形式为：

640?wx_fmt=png

结果>0时保留(x, y) ，反之选择(x, y’ )。

3.利用全局信息

这里的全局信息指全部实体样本存在对齐(有标注)的概率分布情况，作者将其定义为以下表示：

640?wx_fmt=png

以此为基础，作者构建了一个负对数似然函数，用于强化原始样本中对齐实体对知识嵌入的优化。

添加全局信息函数后，整体目标函数扩充为以下形式：

640?wx_fmt=png

实验

作者列出了自己的实验配置，并开源代码供读者研究使用

640?wx_fmt=png

开源地址：https://github.com/nju-websoft/BootEA

数据方面使用DBP15K，DWY100K两个数据集

640?wx_fmt=png

最后，综合实验结果看来，这确实是目前最好的对齐模型。

论文笔记整理：谭亦鸣，东南大学博士生，研究兴趣：知识问答，自然语言处理，机器翻译。

OpenKG.CN

中文开放知识图谱（简称OpenKG.CN）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文，进入 OpenKG 博客。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/480206.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

大规模领域词汇库项目DomainWordsDict：涵盖68个领域、共计916万的词汇库资源开放

大规模领域词汇库项目DomainWordsDict：涵盖68个领域、共计916万的词汇库资源开放

项目概述 DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵盖68个领域、共计916万词的专业词典知识库，可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应…

阅读更多...

递归」与「动态规划

递归」与「动态规划

原文地址：https://juejin.im/post/5c2308abf265da615304ce41#heading-8 在学习「数据结构和算法」的过程中，因为人习惯了平铺直叙的思维方式，所以「递归」与「动态规划」这种带循环概念（绕来绕去）的往往是相对比较难以…

阅读更多...

当知识图谱遇上推荐系统之DKN模型（论文笔记一）

当知识图谱遇上推荐系统之DKN模型（论文笔记一）

Deep Knowledge-Aware Network for News Recommendation 类别：依次学习首先使用知识图谱特征学习得到实体向量和关系向量，然后将这些低维向量引入推荐系统，学习得到用户向量和物品向量。 [论文下载链接]https://arxiv.org/abs/1801.08284…

阅读更多...

POJ 1936 字符匹配（水题）

POJ 1936 字符匹配（水题）

题目链接： http://poj.org/problem?id1936 题目大意： 给定字符a，b，问b中去掉一些字符后能不能得到a 解题思路： 暴力从前往后扫描一遍即可。 AC代码： /*** description: poj1936水题* author: michael…

阅读更多...

领域应用 | 从数据到智慧，知识图谱如何推动金融更智能？

领域应用 | 从数据到智慧，知识图谱如何推动金融更智能？

本文转载在公众号：恒生技术之眼。在《人工智能知识图谱：如何规整海量金融大数据？》一文中，笔者曾提到，面向人工智能的大数据治理，势必能有效支撑智能金融从感知智能向认知智能变革。这是因为目前在资本市场…

阅读更多...

2021届秋招算法岗真的要灰飞烟灭了吗？

2021届秋招算法岗真的要灰飞烟灭了吗？

星标/置顶小屋，带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 不拖更的夕小瑶2014年末入坑AI，一路见证了AI行业的快速起飞、爆炸、焦虑和冷却。小夕前几天在知乎上看到一个问题《如何看待2021年秋招算法岗灰飞烟灭》被顶上了热榜。有点感叹，怎…

阅读更多...

万字长文：近年来学界、业界视角下的“事理图谱”发展总结与思考

万字长文：近年来学界、业界视角下的“事理图谱”发展总结与思考

一、引言大部分技术都会经历从提出，到验证，再到修正，再到落地的这样一个过程。事理图谱这个概念从国内学者自2017年提出到现在，已经经历了近4年的时间，那么在这四年的时间里，事理图谱目前处于一个什么…

阅读更多...

Redis系列教程(二)：详解Redis的存储类型、集群架构、以及应用场景

Redis系列教程(二)：详解Redis的存储类型、集群架构、以及应用场景

高并发架构系列高并发架构系列：数据库主从同步的3种一致性方案实现，及优劣比较高并发架构系列：Spring Cloud的核心成员、以及架构实现详细介绍高并发架构系列：服务注册与发现的实现原理、及实现优劣势比较高并发架构系列&a…

阅读更多...

选择排序、插入排序、冒泡排序、希尔排序算法的总结 - 复杂度、实现和稳定性

选择排序、插入排序、冒泡排序、希尔排序算法的总结 - 复杂度、实现和稳定性

原文地址：https://www.jianshu.com/p/916b15eae350 常见排序算法的总结 - 复杂度、实现和稳定性 2018.08.29 16:20* 最基础的算法问题，温故知新。排序算法的几个主要指标是，时间复杂度（最好，最差和平均）&am…

阅读更多...

当知识图谱遇上推荐系统之PippleNet模型（论文笔记二）

当知识图谱遇上推荐系统之PippleNet模型（论文笔记二）

RippleNet | Propagating User Preferences on the Knowledge 类别：联合学习将知识图谱特征学习和推荐算法的目标函数结合，使用端到端（end-to-end）的方法进行联合学习。 [论文下载链接]https://arxiv.org/abs/1803.03467 1、…

阅读更多...

POJ 3690 找星座（2D匹配）（未解答）

POJ 3690 找星座（2D匹配）（未解答）

文章目录1. 题目信息1.1 题目链接1.2 题目大意1.3 解题思路2. 代码2.1 Time Limit Exceeded 代码2.2 Time Limit Exceeded 代码2.3 Time Limit Exceeded 代码1. 题目信息 1.1 题目链接 http://poj.org/problem?id3690 1.2 题目大意给定大的矩阵（天空的样子&am…

阅读更多...

综述 | 事件抽取及推理 (上)

综述 | 事件抽取及推理 (上)

本文转载自公众号：知识工场。事件概要事件是一种重要的知识，近年来，越来越多的工作关注于从开放域或领域文本中抽取结构化事件知识。同时，除了本身就很困难的…

阅读更多...

下载 | 李宏毅：1 天搞懂深度学习，我总结了 300 页 PPT

下载 | 李宏毅：1 天搞懂深度学习，我总结了 300 页 PPT

《1 天搞懂深度学习》，300 多页的 ppt，台湾李宏毅教授写的，非常棒。不夸张地说，是我看过最系统，也最通俗易懂的，关于深度学习的文章。这份 300 页的 PPT，被搬运到了 SlideShare 上，下…

阅读更多...

史上最全Redis面试49题(含答案):哨兵+复制+事务+集群+持久化等

史上最全Redis面试49题(含答案):哨兵+复制+事务+集群+持久化等

最全面试题答案系列史上最强多线程面试44题和答案：线程锁线程池线程同步等最全MySQL面试60题和答案史上最全memcached面试26题和答案史上最全Spring面试71题与答案今天主要分享redis最全答案系列 Redis主要有哪些功能？ 1.哨兵（Sen…

阅读更多...

SinglepassTextCluster项目：基于single-pass算法思想的自动文本聚类组件

SinglepassTextCluster项目：基于single-pass算法思想的自动文本聚类组件

项目的背景 SinglepassTextCluster, an TextCluster tool based on Singlepass cluster algorithm that use tfidf vector and doc2vec，which can be used for individual real-time corpus cluster task。基于single-pass算法思想的自动文本聚类小组件&#xff0c…

阅读更多...

DTW动态时间规整算法

DTW动态时间规整算法

原文地址：https://blog.csdn.net/qcyfred/article/details/53824507 https://zhuanlan.zhihu.com/p/43247215 动态时间规整（DTW）算法简介相忘天涯，深藏于心19 人赞同了该文章DTW最初用于识别语音的相似性。我们用数字表示音调高低…

阅读更多...

POJ 3461 字符串匹配（KMP / 哈希（有推导））

POJ 3461 字符串匹配（KMP / 哈希（有推导））

文章目录1. 题目1.1 题目链接1.2 题目大意2. Accepted代码2.1 KMP解法2.2 哈希法（有推导过程）1. 题目 1.1 题目链接 http://poj.org/problem?id3461 类似题目：LeetCode 30. 串联所有单词的子串（字符串哈希） 1.2 题…

阅读更多...

莫比乌斯：百度凤巢下一代广告召回系统

莫比乌斯：百度凤巢下一代广告召回系统

星标/置顶小屋，带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 江城编 | 夕小瑶今天聊聊百度在最顶级的数据挖掘会议KDD2019的计算广告track上提出的query-ad匹配模型——莫比乌斯（MOBIUS）。这也是百度凤巢下一代广告召回系统的内部代号&#…

阅读更多...

当知识图谱遇上推荐系统之MKR模型（论文笔记三）

当知识图谱遇上推荐系统之MKR模型（论文笔记三）

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation 类别：交替学习将知识图谱特征学习和推荐算法视为两个分离但又相关的任务，使用多任务学习的框架进行交替学习。 1、背景 MKR是一个通用的、端对端的深度推荐框架&#xf…

阅读更多...

关于话题演化关系网络生成的路线思考：从话题聚类到话题网络展示

关于话题演化关系网络生成的路线思考：从话题聚类到话题网络展示

话题演化关系网络生成，是实现事件演化追踪的一个重要方法。通过对文本话题进行聚类、内容处理、话题演化关联、话题演化网络的展示，能够在一定程度上为用户揭示出一个事件发展的情况。本文就笔者对该方向的实现路线思考进行总结，分享给大家。…

阅读更多...

最新文章