论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入

4dbc209af2aa49ea8ad853d57191390e.png

论文笔记整理:朱珈徵,天津大学硕士

链接:https://www.ijcai.org/proceedings/2021/0395.pdf

动机

从遗传数据到社会网络,在越来越多的场景下与知识图谱边缘相关的数值已经被用来表示不确定性、边的重要性,甚至是带外知识。然而,传统的知识图嵌入模型并没有设计来捕获这些信息,这损害了预测能力。在这项工作中,作者们的任务是预测缺失环节的概率估计与数字增强三元知识图。作者提出了FocusE,一个知识图嵌入的附加层,以增强边相关数字文字的链接预测,它将数字边缘属性注入传统知识图嵌入体系的评分层。对公开可用的丰富数字的知识图的实验表明,作者的方法优于传统的数字不可知的基线以及最近的UKGE模型。

亮点

FocusE的亮点主要包括:

1.FocusE适用于采用标准负样本生成协议的任何现有KGE模型,并使用边数值字面值来调节真三元组的分数与其相应的负损坏之间的差值;2.通过修改损失函数,以更稀疏的困难示例为目标,利用数值文字将传统KGE模型聚焦于具有更高数值的三元组,实验表明,使用FocusE训练的模型优于数字不可知 的基线,特别是在区分具有高数值属性的三元组和与低值相关的三元组时;

概念及模型

基于FocusE增强的知识图嵌入模型体系结构。附加组件充当传统计分层和损失之间的中间层。知识图嵌入模型(KGE)是用于预测实体之间缺失链接的神经结构;知识图的嵌入是通过在训练知识图上训练神经结构来学习的:输入层将训练三元组提供给检索实体和关系的嵌入查找层。在本文中,作者预测了看不见的数值增强三元组t = (s, p, o, w)的概率估计。该任务被形式化为传统链路预测的相同的学习排序问题。

基于FocusE增强的知识图嵌入模型体系结构如下:

7b8dd0a14f3d441333435a3643f088bd.png

•FocusE

FocusE是一个知识图嵌入架构的附加层,旨在用数字丰富的三元组进行链路预测。FocusE会考虑与每个链接相关联的数字文字。不管它们的语义如何,作者都是在数值强化或减弱链接存在的可能性的假设下操作的。例如,给定数值w在[0 - 1]范围内,作者假设高值识别出具有更高概率为真的三元组,低值挑选出弱或不太可能的关系,而w = 0三元组被认为是负样本。

FocusE包含一个插件层,该插件层位于传统KGE方法的计分层和损失层之间,设计用于训练期间,如上图。与传统体系结构不同,在将评分层提供给损失函数之前,作者根据与三元组相关的数值调整其输出,以获得重点评分。作者利用与三元组相关联的数值,以便在训练期间,模型将重点放在具有更高数值的三元组上。模型从训练具有高数值的三元组中学习,同时使用边缘数值来最大化分配给真实三元组的分数和分配给其损坏的分数之间的差值。这会增加模型的损失,并帮助它关注具有更高值的三元组。

设t = (s, p, o)是正的三元组。作者定义t的变体为 t_{-}=(s,p,o')或t^{-}=(s',p,o)。其中, s', o' 分别是主体或客体的变体。

设f(t)为KGE模型的打分函数:

ca225d19326690d12272ef21c4b5f0cd.png

作者使用软加非线性σ来确保f(t)返回的分数大于或等于零,而不引入过多的失真:

a3036719da628e2741f515fab0e26e52.png

为了考虑与三元组相关的数值的影响,作者定义了一个调制因子是α∈R,它负责在图形结构的影响和与每个三元组相关的数值的影响之间取得平衡:

a299791bde09d4741a358d5672e01cfa.png

在β∈[0,1]是结构性的影响,一个调制图拓扑影响的超参数,并且w∈R是与正三元组t相关联的数值。β用于重新衡量三元组价值w。如果β= 0使用原始数值w。当β = 1时,忽略数值w,模型等效于传统KGE结构。注意,正三元组和负三元组被分配了不同的α方程。这样做是为了在三元组数值较高时降低三元组值与它们各自的错误值之间的差值。

最后,FocusE层h(t)定义为:

d37fdd58427fa366a10a645fd4256894.png

把上述所有这些放在一起,FocusE层h(t)然后在损失函数L中使用。这是一个修改过的,更稳定的数字版本的负对数似然标准化softmax分数:

9dd2b10072d55aea3fcfe767c3676123.png

理论分析

实验

作者评估了FocusE在链接预测任务中的预测能力。实验表明,FocusE在区分低值三元组和高值三元组方面优于传统的KGE模型及其最接近的直接竞争对手UKGE。作者采用了3个公开数据集进行实验,分别是:CN15K、NL27K、PPI5K。

22c23d1858ff449cfdd4324a60b68b65.png

作者预测每个三元组t = (s, p,o) ∈T是否是一个正的事实,其中t是一个不相交的保留测试集,只包括正的三元组。作者把这个问题看作是一个学习排序的任务:对于每一个t = (s, p,o) ∈T,作者通过一次破坏其中一方(即主体或客体)来生成合成的负t。作者预测每一个t和它的所有负t的得分。然后作者将唯一的正t与所有负N进行排序。作者报告了通过从生成的变体列表中过滤掉虚假的基本事实正数来学习排名度量,如平均秩(MR)、平均倒数秩(MRR)和n(其中n = 1,10)的命中率。

结果表明,FocusE带来了更好或非常相似的MRR,相较于传统的数字不可知的基线:FocusE增加了所有模型的MRR,它比最好的基线高出14个基点。实验表明,FocusE在CN15K上的MRR比UKGE高15个基点,在NL27K上的MRR比UKGE高19个基点,在PPI15K上的MRR比UKGE高30个基点。FocusE实现了更好的预测能力,而不需要额外的带外规则

9928761286ad3500979675c0ce801846.png

下图显示了如果λ增加,性能就会提高。在大多数情况下,当λ > 400 epoch时,模型性能达到饱和

dda01921039311993d24d2f8026d7c77.png

总结

作者证明,通过插入一个额外的层,可以使传统的KGE体系结构意识到与三元组相关的数值。这将导致模型更好地区分高值和低值三元组,而不考虑数字属性的语义,而且不需要额外的带外规则(与UKGE不同)。未来的工作将研究预测与看不见的三元组相关的数值的能力。作者还将扩展他们的方法,以支持与同一个三元组关联的多个数字属性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

8c50bf632cc19bc53d8897b92c6c6d38.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477921.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 459. 重复的子字符串(数学)

1. 题目 给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成。给定的字符串只含有小写英文字母,并且长度不超过10000。 示例 1: 输入: "abab" 输出: True 解释: 可由子字符串 "ab" 重复两次构成。示例 2: 输入: &quo…

被放养导致申博论文难产,该不该硬gang导师?

最近一位粉丝给我发长文求助,说他因为申博论文的事情快崩溃了,让我给点建议。我把经过贴在这里跟大家探讨一下:985专硕一枚,CV方向,最近想申请国外博士,快被论文逼疯了。提交了初稿,隔了一个月&…

会议交流 | 第十五届全国知识图谱与语义计算大会(CCKS 2021)12月25日线上召开...

勘误:张伟老师为华东师范大学紫江青年学者OpenKGOpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。点击阅读原文,进入 CCKS 2021 网站。

美团性能分析框架和性能监控平台

以下是我在 Velocity China 2014 做的题为“美团性能分析框架和性能监控平台”演讲的主要内容,现在以图文的形式分享给大家。 今天讲什么? 性能的重要性不言而喻,需要申明的是,我们今天不讲业界最佳性能实践,这些实践已…

LeetCode 581. 最短无序连续子数组(排序单调栈)

文章目录1. 题目2. 解题2.1 排序2.2 4次遍历2.3 单调栈1. 题目 给定一个整数数组,你需要寻找一个连续的子数组,如果对这个子数组进行升序排序,那么整个数组都会变为升序排序。 你找到的子数组应是最短的,请输出它的长度。 示例…

史上最大多模态图文数据集发布!

文 | 付瑶编 | 小轶最近多模态研究圈中出现了一个扬言 “史上最大规模”的多模态图文数据集:LAION-400。该数据集在今年8月完全公开,共计公开了 4亿图文对,可以依据不同的用途提供不同大小版本的子数据集。据小编调查,在 LAION-40…

图谱实战 | 知识图谱构建的一站式平台gBuilder

OpenKG地址:http://openkg.cn/tool/gbuilder网站地址:http://gbuilder.gstore.cn知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现象出现的原因,推理出隐藏在数据之间深层的、隐含的关系,使得知识图谱技术从…

LeetCode 861. 翻转矩阵后的得分(贪心)

1. 题目 有一个二维矩阵 A 其中每个元素的值为 0 或 1 。 移动是指选择任一行或列,并转换该行或列中的每一个值:将所有 0 都更改为 1,将所有 1 都更改为 0。 在做出任意次数的移动后,将该矩阵的每一行都按照二进制数来解释&…

一文跟进Prompt进展!综述+15篇最新论文逐一梳理

文 | ZenMoore编 | 小轶自从 Dr.Pengfei Liu 的那篇 prompt 综述发表开始,prompt 逐渐红得发紫。近期清华、谷歌等单位你方唱罢我登场,涌现了好多好多 prompt 相关的论文。无论是工业界还是学术界,想必大家都在疯狂 follow。不少伙伴肯定从老…

论文浅尝 | PairRE: 通过成对的关系向量实现知识图谱嵌入

笔记整理:黎洲波,浙江大学硕士,研究方向为自然语言处理、知识图谱。研究背景知识图谱因其在问答、语义解析和命名实体消歧等任务取得了良好的效果而受到广泛关注,而大部分知识图谱都存在不全和缺失实体链接的问题,所以…

Java内存访问重排序的研究

什么是重排序 请先看这样一段代码1: public class PossibleReordering { static int x 0, y 0; static int a 0, b 0;public static void main(String[] args) throws InterruptedException {Thread one new Thread(new Runnable() {public void run() {a 1;x…

LeetCode 1261. 在受污染的二叉树中查找元素(树哈希)

1. 题目 给出一个满足下述规则的二叉树: root.val 0如果 treeNode.val x 且 treeNode.left ! null,那么 treeNode.left.val 2 * x 1如果 treeNode.val x 且 treeNode.right ! null,那么 treeNode.right.val 2 * x 2 现在这个二叉树受…

东南大学王萌 | “神经+符号”学习与多模态知识发现

转载公众号 | DataFunTalk分享嘉宾 |王萌博士 东南大学 助理教授编辑整理 |盛泳潘 重庆大学 助理研究员导读:近年来,多模态一词在知识图谱、计算机视觉、机器学习等领域逐渐引起越来越多的关注。从认知科学角度看,…

Child-Tuning:简单有效的微调涨点方法

文 | 罗福莉源 | 罗福莉自BERT火了以后,基本上现在所有NLP领域都all in Pre-training & Fine-tuning了吧?但当“大”规模预训练模型遇上“小”规模标注数据时,往往直接Fine-tuning会存在过拟合现象,进一步会影响Fine-tune完后…

LeetCode 890. 查找和替换模式(哈希表)

1. 题目 你有一个单词列表 words 和一个模式 pattern,你想知道 words 中的哪些单词与模式匹配。 如果存在字母的排列 p ,使得将模式中的每个字母 x 替换为 p(x) 之后,我们就得到了所需的单词,那么单词与模式是匹配的。 &#x…

Solr空间搜索原理分析与实践

前言 在美团CRM系统中,搜索商家的效率与公司的销售额息息相关,为了让BD们更便捷又直观地去搜索商家,美团CRM技术团队基于Solr提供了空间搜索功能,其中移动端周边商家搜索和PC端的地图模式搜索功能为BD们的日常工作带来了很大的便利…

专心做搜索也能登顶CLUE分类榜?在快手做搜索是一种怎样的体验

文 | 快手搜索短视频和直播,越来越成为重要的内容供给形式,而内容供给侧的改变,也在潜移默化地推动着用户搜索习惯的变化。据报道,截止今年4月,超过50%的用户都在使用快手搜索功能,每天搜索达到2.5亿次&…

开源开放 | 一个融合多元关系和事件表示的金融领域本体模型FTHO(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/ftho开放许可协议:GPL 3.0贡献者:武汉科技大学(高峰、郑丽丽、顾进广)摘要在此开放资源中,面对金融领域多元关系表示的困境和时序事件表示需求,我们以OWL语…

LeetCode 114. 二叉树展开为链表(递归)

1. 题目 给定一个二叉树,原地将它展开为链表(右侧路径)。 例如,给定二叉树1/ \2 5/ \ \ 3 4 6 将其展开为:1\2\3\4\5\6来源:力扣(LeetCode) 链接:https://leet…

论文浅尝 - CIKM2021 | DT-GCN: 一种双曲空间中的数据类型感知的知识图谱表示学习模型...

论文作者:申雨鑫,天津大学硕士发表会议:CIKM 2021链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482421动机知识图谱表示学习旨在将实体和关系编码到一个连续的低维向量空间中。大多数现有方法主要在欧氏空间中学习结构三元组…