论文浅尝 | CAKE:一个用于多视图知识图谱补全的可扩展性常识感知框架

cf18e6195ce10d5f1c8288c6e6c8cd0c.png

笔记整理:陈子强,天津大学硕士

链接:https://aclanthology.org/2022.acl-long.36.pdf

动机

以往的知识图谱补全仅仅依靠事实级别数据来预测实体之间缺失的关系,这样忽略了有价值的常识性知识。以往的知识图谱嵌入面临无效的负采样和事实层面链接预测不准确的问题。 

贡献

亮点主要包括:

•我们提出了一个具有自动常识生成机制的可扩展的KGC框架,以从事实三元组和实体概念中提取有价值的常识。•作者设计了一个常识感知的负采样策略用于生成有效和高质量的三元组。同时,提出了一个多视图链接预测机制来提高KGC的准确性。•在四个基准数据集上进行的广泛实验说明了整个框架和每个模块的有效性和可扩展性。

模型

如下图所示,CAKE框架由三个部分组成:自动常识生成模块(ACG)、常识感知负采样(CANS)模块和多视图链接预测模块(MVLP)。首先,通过ACG模块从事实三元组中抽取常识。然后,CANS模块利用生成的常识生成高质量的负三元组。之后,将正样本和负样本送入KGE模型中学习实体和关系的嵌入。最后MVLP模块进行链接预测和答案实体预测。

85ca5fd0496dc121af6d39efac67a5f2.png

•AGC

只要存在一些与KG中实体相关的概念,AGC都可以从KG中自动生成常识。具体来说这是一个实体到概念的转换器,用概念来替换每个事实三元组中的实体。同时,常识中的关系包含了实例中的关系。事实三元组(David, Nationality, U.S.A.)可以转化为概念级三元组(Person, Nationality, Country)

•CANS

满足常识的负三元组比正三元组更具有挑战性,可以产生更有效的训练信号。作者利用TransH中定义的1-1、1-N、N-1和N-N来进行负采样。1意味着当给定关系和另一个实体时,实体是唯一的,相反,N表示在这种情况下可能有多个实体(非唯一实体)。作者提出了两种负采样策略。(1)唯一性采样。例如N-1关系中的尾实体,此时替换尾实体来进行负采样。如果替换的尾实体和原先的正确实体属于一个概念类型。那么这样负采样三元组可以被视为高质量的三元组。(2)非唯一性采样。例如N-1关系中的头实体,如果此时替换的头实体,由于头部实体的非唯一性,与正确实体属于同一概念的实体更有可能成为假阴性。因此,在训练中,这些负面的三联体的假阴性权重应该尽可能的低。

如下图所示:首先,负采样时头实体和尾实体需要根据常识来确定概念类型。然后,通过注意力概念到实体转换,将概念进行细化到实体来生成高质量的负采样三元组。

90a18f26ef05fe0ab7c6bad367ae2d77.png

其中,头实体和尾实体的采样遵循以下分布:

43206fbb5cf71657e09a6c031898714d.png

•KGE

通过CANS得到的负样本,训练KGE来学习实体和关系的表示。使用的损失函数如下:

c9da9879e12e49d342e94e83c739c0b2.png

其中γ表示间距,σ表示激活函数。通过这个损失函数,拉大正三元组和负三元组之间的距离。

•MVLP

常识可以为链接的预测提供一个明确的范围,MVLP进行链接预测是一个由粗到细的过程。首先在常识视角下挑选出候选实体。在第二阶段,将候选的实体用KGE计算得分进行排序,从而选出排名较高的实体。

实验

在四个数据集上进行了实验,分别是:FB15K,FB15K237,NELL995和DBpedia-242。选择三个先进的KGE模型作为baseline分别是:TransE、RotatE和HAKE。所有模型的负采样大小被设定为16。学习率从0.0001到0.01中选择。Margin在{9, 12, 18, 24, 30}中进行调整。采样温度在{0.5, 1.0}中调整。实体和关系嵌入是随机初始化的。所有的实验都在Pytorch和GeForce GTX 2080Ti GPU上进行。评估指标采用的是MR、MRR和Hits@N

实验结果如下图所示,可以看到,CANS和MVLP模块都有效地提高了每个数据集上的基本模型的性能。此外,整个CAKE框架进一步促进了比每个单独模块更多的性能提升,并持续和显著地超过了所有的基线。与三个基线模型的性能平均值相比,我们的CAKE模型在FB15K、FB15K237、DBpedia242和NELL-995上的MRR提高了7.2%、11.5%、16.2%和16.7%。这些结果证明了将常识与原始KGE模型相结合的优越性和有效性。

5c9fae50506cbab37021e6e530a947e9.png

总结

文章提出了一个新颖的、可扩展的常识感知的知识嵌入框架,它可以从带有实体概念的KGs中自动生成常识,用于KGC任务。利用生成的常识来产生有效的、高质量的负面三要素。另一方面,设计了一个从粗到细的多视图链接预测技术,从常识的角度过滤候选实体,从事实的角度输出预测结果。在四个数据集上的实验表明,与最先进的基线相比,作者提出的框架和每个模块的有效性和可扩展性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

af8c18ca988e26f66ad56e25b1d88a7b.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Cloud构建微服务架构:分布式服务跟踪(收集原理)【Dalston版】

在本节内容之前,我们已经对如何引入Sleuth跟踪信息和搭建Zipkin服务端分析跟踪延迟的过程做了详细的介绍,相信大家对于Sleuth和Zipkin已经有了一定的感性认识。接下来,我们介绍一下关于Zipkin收集跟踪信息的过程细节,以帮助我们更…

LeetCode 263. 丑数 264. 丑数 II(DP)

文章目录1. LeetCode 263. 丑数解题2. LeetCode 264. 丑数 IIDP解题1. LeetCode 263. 丑数 编写一个程序判断给定的数是否为丑数。 丑数就是只包含质因数 2, 3, 5 的正整数。 示例 1: 输入: 6 输出: true 解释: 6 2 3示例 2: 输入: 8 输出: true 解释: 8 2 2 2示例 3: …

对比学习效果差?谷歌提出弱语义负样本,有效学习高级特征!

文 | jxyxiangyu编 | 小轶对比学习是 2021 年几大研究热点之一了。如果说预训练模型解决了机器学习对大规模标注数据的需求问题,那么,对比学习可以说是将无监督/自监督学习推广到更一般的应用场景,为苦于标注数据不多的炼丹师们又带来了福音。…

Spring Cloud构建微服务架构:分布式服务跟踪(整合zipkin)【Dalston版】

通过上一篇《分布式服务跟踪(整合logstash)》,我们虽然已经能够利用ELK平台提供的收集、存储、搜索等强大功能,对跟踪信息的管理和使用已经变得非常便利。但是,在ELK平台中的数据分析维度缺少对请求链路中各阶段时间延…

图谱实战 | 阿里新零售多模态知识图谱AliMe MKG的建设与应用

转载公众号 | DataFunSummit分享嘉宾:陈河宏 阿里巴巴 算法工程师编辑整理:李开琦 SHEIN出品平台:DataFunTalk导读:随着知识图谱技术的发展,其在电商、医疗、金融等领域得到了越来越广泛的应用。在过去的几年间&#x…

LeetCode 第 16 场双周赛(402/822,前48.9%)

文章目录1. 比赛结果2. 题目LeetCode 1299. 将每个元素替换为右侧最大元素 easyLeetCode 1300. 转变数组后最接近目标值的数组和 mediumLeetCode 1302. 层数最深叶子节点的和 mediumLeetCode 1301. 最大得分的路径数目 hard1. 比赛结果 做出了2道题,第二道题耽搁时…

CS 期刊哪家强?CCF 发布最新期刊分级目录!

文 | python分级目录中国计算机学会(CCF,就是评ABC类会议的那个机构),在2022年2月19日刚刚发布了《计算领域高质量科技期刊分级目录》。该目录包含T1、T2、T3三类期刊,分别为T1类期刊16本,T2类期刊23本&…

Spring Cloud构建微服务架构:分布式服务跟踪(整合logstash)【Dalston版】

通过之前的入门示例,我们已经为trace-1和trace-2引入了Spring Cloud Sleuth的基础模块spring-cloud-starter-sleuth,实现了为各微服务的日志信息中添加跟踪信息的功能。但是,由于日志文件都离散的存储在各个服务实例的文件系统之上&#xff0…

会议交流 | 第十六届全国知识图谱与语义计算大会(8月24-27日)

点击阅读原文,进入 CCKS2022 官方网站。OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

1000层的Transformer,诞生了!

卖萌屋今日学术精选大家好,我是卖萌酱。今天下午卖萌屋作者群里一位MILA实验室的大佬在临睡前(蒙特利尔时间凌晨0点半)甩出来一篇论文:大佬表示太困了,肝不动了,于是卖萌酱左手抄起一罐咖啡,右手…

LeetCode 1305. 两棵二叉搜索树中的所有元素(二叉树迭代器)

1. 题目 给你 root1 和 root2 这两棵二叉搜索树。 请你返回一个列表,其中包含 两棵树 中的所有整数并按 升序 排序。. 提示: 每棵树最多有 5000 个节点。 每个节点的值在 [-105, 105] 之间。 2. 二叉树迭代器 按照中序迭代,比较两个迭代…

Spring Cloud构建微服务架构:分布式服务跟踪(跟踪原理)【Dalston版】

通过上一篇《分布式服务跟踪(入门)》的例子,我们已经通过Spring Cloud Sleuth往微服务应用中添加了实现分布式跟踪具备的基本要素。下面通过本文来详细说说实现分布式服务跟踪的一些要点。 分布式系统中的服务跟踪在理论上并不复杂&#xff0…

竞赛报名 | “未来杯”第二届知识图谱锦标赛火热报名中,最高奖金32000元!...

转载公众号 | AI Timer继2021年“未来杯”系列赛事之AI学术联赛暨首届人工智能知识图谱锦标赛成功举办后,中软国际教育科技集团旗下SteerTech科技创新开源生态平台联手AI TIME,再一次迎来人工智能知识图谱应用在众多领域落地的探索旅程。一、组织机构【…

我在鹅厂,拿到满星绩效!

文 | 山竹小鹅背绩效?就算SP以上也背绩效?互联网寒冬?内卷太严重?卷不动?资本家吃相太难看?……听了太多消极言论,有些是陈述事实,也有很多是贩卖焦虑。吐槽能变得更好吗&#xff1f…

2019年学习总结

总结回顾自己学习的过程,看看自己的学习成果,激励自己在2020继续努力。 2019.3 - 2019.9 学习了王争的《数据结构和算法之美》,github 代码地址 统计了 2018.2 至 2019.12 的cpp代码量:41,721‬行 find . -name "*.cpp&qu…

Spring Cloud构建微服务架构:消息驱动的微服务(消费分区)【Dalston版】

通过上一篇《消息驱动的微服务(消费组)》的学习,我们已经能够在多实例环境下,保证同一消息只被一个消费者实例进行接收和处理。但是,对于一些特殊场景,除了要保证单一实例消费之外,还希望那些具…

图谱实战 | 知识图谱在供应链和运营绩效提升领域的应用

转载公众号 | DataFunSummit分享嘉宾:高欢 (前)博世中国编辑整理:卢鹏澳 桂林电子科技大学出品平台:DataFunTalk导读:公司内部尝试运用AI技术落地了几款基于知识图谱的产品,本文将从实践和应用角…

薪资不逊NLP算法岗,边缘AI火了!

众所周知,深度神经网络模型被广泛应用在图像分类、物体检测,目标跟踪等计算机视觉任务中,并取得了巨大成功。随着不同场景的需求变得更加多样,越来越多的IoT设备和场景需要与数据采集点以最接近的低时延来进行决策和操作&#xff…

LeetCode 735. 行星碰撞(栈)

1. 题目 给定一个整数数组 asteroids,表示在同一行的行星。 对于数组中的每一个元素,其绝对值表示行星的大小,正负表示行星的移动方向(正表示向右移动,负表示向左移动)。每一颗行星以相同的速度移动。 找…

Spring Cloud构建微服务架构:消息驱动的微服务(消费组)【Dalston版】

通过之前的《消息驱动的微服务(入门)》一文,相信很多朋友已经对Spring Cloud Stream有了一个初步的认识。但是,对于《消息驱动的微服务(核心概念)》一文中提到的一些核心概念可能还有些迷糊,下面…