论文浅尝 | 面向开放域的无监督实体对齐

笔记整理 | 谭亦鸣,东南大学博士生


来源:DASFAA’21

链接:https://arxiv.org/pdf/2101.10535.pdf

概述与动机

知识图谱对齐的目的是建立两个不同知识图谱之间实体的对应关系,如图1,本文作者发现现有的实体对齐方法依赖于标注数据,且无法很好的识别出“不存在对齐”的实体。为了解决这个问题,本文提供了一个面向开放域的无监督对齐框架UEA(非监督实体对齐)。具体做法是,模型首先从图谱的边缘信息挖掘出可用特征,然后建立一个“无匹配实体”预测模块,用于过滤图谱中“不存在对齐”的实体。过滤得到的初步结果被用做“伪标注数据”,作用于一种渐进式学习框架,生成图谱的结构表示,这些结构与边缘信息的结合能够提供更加全面的对齐视图。最后渐进式学习框架基于上一迭代的对齐结果生成新的伪标注数据,并不断增强对齐模型的性能。在不依赖标注数据的情况下,本文模型在DBP15K等常规对齐数据集上取得了较好的结果。

图2描述了UEA模型的主要流程,首先模型从待对齐的两个知识图谱的边缘信息中抽取有用的特征,这里的边缘信息主要指实体命名,通过语义级别以及字符串级别的特征信息,作者构建了图谱中实体之间的距离矩阵:

其中,α是一个平衡权重的超参,Mn表示KG上实体命名的语义距离矩阵,Ml则表示字符串级别的距离矩阵。

通过这一步所获取的距离矩阵被用于建立“无匹配实体”模块,用于生成对齐结果,该对齐结果被视作伪对齐用于知识图谱结构embedding中,从而形成一个迭代过程。

非对齐实体模块

现有的对齐模型只考虑了如何建立对齐,而忽略了有些实体之间是不可能存在对齐关系的情况,例如类型不同的实体。因此这里作者采用了一个新的策略,如算法1所描述的TBNNS(带阈值双向最近邻搜索),对于一个给定的source实体u,及target实体v,如果u和v相互是最近邻,那么他们之间的相似性则低于一个给定的阈值θ,(u,v)就为一堆对齐实体组,M(u,v)是度量两者是否符合阈值的距离矩阵。

渐进学习框架

非匹配实体模块得到的伪标注被用于学习统一的KG embedding,在这里作者使用GCN用来捕捉实体的邻居信息。算法2给出了渐进学习模块对应的算法:

首先使用初始伪对齐学习KG结构embedding,并得到结构距离矩阵Ms,Ms与非匹配模块中定义的Mt矩阵共同构成精确的对齐距离信号矩阵M。利用M可用生成更多的精准匹配,而后迭代强化自身。

与其他对齐模型一样,本文的实验性能在DBP15K的三组语言对上给出,数据的相关统计信息如表1

表2的对比结果来看,该非监督方法在性能上以及接近或超过了许多已有的有监督学习的模型。

接着作者在消融实验中重点验证了是否调整阈值,是否在迭代过程中从实体集除去实体的对齐结果等等,结果如表3所展示。

 


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478143.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊聊推荐系统

这两天,有种把某宝卸载的冲动,它的“猜你喜欢”推荐简直是我肚子里的蛔虫,每次看都忍不住剁手,钱包就这么日渐消瘦……但从技术的角度想想,不得不说阿里的推荐系统的确做得不错。其实,除了电商平台&#xf…

LeetCode 695. 岛屿的最大面积(图的BFS/DFS)

文章目录1. 题目2. 解题2.1 BFS广度优先搜索2.2 DFS深度优先搜索1. 题目 给定一个包含了一些 0 和 1的非空二维数组 grid , 一个 岛屿 是由四个方向 (水平或垂直) 的 1 (代表土地) 构成的组合。你可以假设二维矩阵的四个边缘都被水包围着。 找到给定的二维数组中最大的岛屿面…

Neo4j:入门基础(一)之安装与使用

原文链接:https://blog.csdn.net/sinat_36226553/article/details/108541370 # 图数据库 链接:什么是原生(Native)图数据库 一般认为具有“无索引邻接”特性的图数据库才称为原生图数据库 链接:常用的图数据库 图存储可以分为属性图、三元组…

论文浅尝 | 问题多样性对于问答的帮助

笔记整理 | 毕胜 东南大学在读博士,研究方向:自然语言处理 知识图谱问题生成通过生成一些合成的问题作为训练语料有效提高了问答系统的效果,本文的研究点是:在QG中,生成问题的文本多样性是否对下游的QA有帮助&#xf…

RDS平台介绍

本文整理自美团点评技术沙龙第10期:数据库技术架构与实践。 美团点评技术沙龙由美团点评技术团队主办,每期沙龙邀请美团点评及其它互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。 本次沙龙主要围绕数据库相关的主题&#…

你已经是一个成熟的地图了,该学会帮我...

文 | 小戏当我们打开百度地图,选定到达目的地,导航软件里的小姐姐马上就用不紧不慢的语调告诉我们“准备出发,全程12公里,预计需要30分钟……”但一看手表上显示的不风驰电掣铁定迟到的时间,肯定不允许我们和导航软件里…

LeetCode 427. 建立四叉树(递归)

1. 题目 我们想要使用一棵四叉树来储存一个 N x N 的布尔值网络。网络中每一格的值只会是真或假。树的根结点代表整个网络。对于每个结点, 它将被分等成四个孩子结点直到这个区域内的值都是相同的. 每个结点还有另外两个布尔变量: isLeaf 和 val。isLeaf 当这个节点是一个叶子…

基于 KIF 的 iOS UI 自动化测试和持续集成

客户端 UI 自动化测试是大多数测试团队的研究重点,本文介绍猫眼测试团队在猫眼 iOS 客户端实践的基于 KIF 的 UI 自动化测试和持续集成过程。 一、测试框架的选择 iOS UI 自动化测试框架有不少,其中 UI Automation 是 Apple 早期提供的 UI 自动化测试解决…

论文浅尝 | 利用冻结语言模型的多模态少样本学习

笔记整理 | 李磊,浙江大学硕士,研究方向为自然语言处理链接:https://arxiv.org/abs/2106.13884动机大规模的自回归语言模型(如GPT)在预训练阶段学习到了大量的知识,具有很好的学习新任务的能力&#xff0c…

ACL’21 | 对话系统也要进军多模态了!

文 | 胡煌,梁祖杰编 | 小轶对于一个对话Bot来讲,拥有对视觉信息的感知和联想能力是非常重要的。比如,我们人类在对话中谈到大海的时候,就会自然地联想到蓝天、白云和飞翔的海鸟。然而,当前的对话模型,如 Me…

x86系统与arm64系统不兼容的linux服务器问题

一键离线安装命令: pip install --no-index --find-links/home/digital_package -r requirements.txt --ignore-installed 1 cython 2 gensim:

LeetCode 541. 反转字符串 II

1. 题目 给定一个字符串和一个整数 k,你需要对从字符串开头算起的每个 2k 个字符的前k个字符进行反转。如果剩余少于 k 个字符,则将剩余的所有全部反转。如果有小于 2k 但大于或等于 k 个字符,则反转前 k 个字符,并将剩余的字符保…

HDFS NameNode内存全景

一、概述 从整个HDFS系统架构上看,NameNode是其中最重要、最复杂也是最容易出现问题的地方,而且一旦NameNode出现故障,整个Hadoop集群就将处于不可服务的状态,同时随着数据规模和集群规模地持续增长,很多小量级时被隐藏…

OpenKG开源系列|首个多模态开放知识图谱OpenRichpedia (东南大学)

OpenKG地址:http://openkg.cn/dataset/richpeidaGitHub地址:https://github.com/OpenKG-ORG/OpenRichpediaGitee地址:https://gitee.com/openkg/richpedia官网地址:http://richpedia.cn(提供Dump)开放许可协…

电商业务中的五大机器学习问题!

机器学习正在从曾经的“科幻”,走向大众生活,比如:高铁站的人脸识别系统、小区门口的无人化测量体温,还有这些年很火的自动驾驶,再到电商的精准推荐系统...等等,背后都是机器学习。今天就以电商业务场景为例…

LeetCode 404. 左叶子之和(递归)

1. 题目 计算给定二叉树的所有左叶子之和。 示例:3/ \9 20/ \15 7在这个二叉树中,有两个左叶子,分别是 9 和 15,所以返回 24来源:力扣(LeetCode) 链接:https://leetcode-cn.co…

论文浅尝 | 将结构预测作为增广自然语言间的翻译任务

笔记整理 | 叶宏彬,浙江大学计算机博士生论文地址:https://openreview.net/pdf?idUS-TP-xnXI摘要:我们提出了一个新的框架,即增强自然语言之间的翻译(Translation-between-Augmented Natural Languages,TA…

ReactiveCocoa中潜在的内存泄漏及解决方案

ReactiveCocoa是GitHub开源的一个函数响应式编程框架,目前在美团App中大量使用。用过它的人都知道很好用,也确实为我们的生活带来了很多便利,特别是跟MVVM模式结合使用,更是如鱼得水。不过刚开始使用的时候,可能容易疏…

EXCEL如何快速拆分合并单元格数据

EXCEL如何快速拆分合并单元格数据

学完文本知识,我就直接看懂图片了!

文 | Yimin_饭煲2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世,震惊整个NLP/AI圈。大家在惊叹于GPT-3 1750B参数的壕无人性同时,想必对GPT-3中的Prompt方法印象深刻。简单来说,(GPT-3中的)Prompt就是为输入的…