论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题

论文笔记整理:汪寒,浙江大学硕士。


链接:https://www.aclweb.org/anthology/P19-1024.pdf


动机

KG的分布遵循长尾分布,大部分关系只有很少的三元组,且大体趋势是关系出现的频率和与之相关的不常见实体的比例呈反比关系。而之前的知识图谱补全工作都围绕在那些出现频率较高的实体和关系,忽略了剩下的那些infrequent relation和uncommon entities,所以作者就将针对 infrequent relations 和uncommon entities的KGC构造成一个few-shot learning的问题,并提出了一个meta-learning框架。


亮点

本文的亮点主要包括:

(1)提出了entity trait的概念,即实体的表示应该是relation-specific的,也就是不同的关系与实体的表述的不同部分相关,利用文本信息作为补充信息。

(2)提出了一个Triplet Generator,在meta-testing的训练阶段用一个VAE网络生成一些三元组进行数据增强。


概念及模型

  • Overview of Learning Method

将每种关系的KGC看作是一个task,把所有task分为训练集Rtrain,验证集Rval,以及测试集Rtest。在meta-training的阶段每次都随机抽取B个task训练模型,得到模型参数W。在meta-testing的阶段对每个task都随机抽r个三元组继续训练模型,得到模型参数W,再在剩下的三元组上测试模型性能。

  • Description Encoder

从description生成三元组的embedding O=(oh,or, ot)

1.    relation embedding生成

用一个CNN网络将relation的description映射成一个向量or

 

2.    entity trait计算

entitytrait表示与某个关系相连所有的实体的共有特征,这个部分由两个memory matrix完成,其中Mrh形状为[m,u],表示relation memory,Mh形状也为[m,u],表示entity memory,这两个记忆矩阵可以记录实体和关系的全局信息。

 

3.    relation-specific entity embedding生成

先将entity的description通过一个CNN网络生成hidden states,再用上一步生成的entity trait作为key计算隐状态权重,最后生成entity embedding。

 

  • Triplet Generator

用一个复杂版的VAE来生成一些三元组补充训练数据。

  • Meta-Learner

用Reptile算法优化。


理论分析

实验

1.     数据集

作者通过Wikidata和DBPedia人工构造了两个数据集,只选择那些对应三元组出现次数多于5次少于1000次的关系。

 

2.     One-shot和Four-shot KGC 实验结果

其中Ours-TCVAE是指去掉Triplet Generator。

3.     TripletGenerator study

表示用Triplet Generator生成不同个数三元组时模型在One-shot场景的表现。


总结

本文在few-shot问题上引入了文本信息作为补充信息,并提出了entity trait的概念,也就是实体的embedding应该是relation-specific。同时为了解决在meta-testing的训练阶段训练不足的问题,还提出了一个基于VAE的Triplet Generator来人工生成三元组补充训练数据。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479350.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker -v -it -p 详细说明

docker核心概念(镜像、容器、仓库)及基本操作:https://www.cnblogs.com/whych/p/9446032.html 详解Docker挂载本地目录及实现文件共享: https://blog.csdn.net/magerguo/article/details/72514813 外部访问docker容器(docker ru…

LeetCode 944. 删列造序

1. 题目 题目链接 每个单词的位组成的列非降,最少删除几列。 示例 1:输入:["cba", "daf", "ghi"] 输出:1 解释: 当选择 D {1},删除后 A 的列为:["c&quo…

Android官方开发文档Training系列课程中文版:添加ActionBar之自定义ActionBar样式

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/styling.html ActionBar的样式 ActionBar提供了为用户提供了常见的习惯性的用户界面以及按钮功能。但是这并不意味着必须要和其它APP看起来一模一样。如果需要设计更符合产品品牌样式风格的话,…

美团 iOS 工程 zsource 命令背后的那些事儿

zsource 命令是什么? 美团 App 在 2015 年就已经基于 CocoaPods 完成了组件化的工作。在组件化的改造过程中,为了能够加速整体工程的构建速度,我们对需要集成进美团 App 的组件进行了二进制化,同时提供一个叫做 cocoapods-binary …

互联网大厂CTR预估前沿进展

文 | Ruhjkg编 | 小鹿鹿lulu源 | 知乎前言CTR(click through rate)预估模型是广告推荐领域的核心问题。早期主要是使用LR(线性回归)人工特征工程的机器学习方法,但是存在人工组合特征工程成本较高,不同任务…

以史为鉴 | 为什么要将「知识图谱」追溯到1956年?

本文转载自公众号:AI科技评论。作者 | Claudio Gutierrez 编译 | MrBear编辑 | Tokai以史为鉴,可以知兴替。纵观近期包括 AAAI、NeurIPS、IJCAI 在内的AI顶级会议,对图结构模型的研究是一个绕不开的话题,大量学者涌入这个赛道&…

urllib.request.urlopen(req).read().decode解析http报文报“‘utf-8‘ codec can‘t decode”错处理

urllib.request.urlopen(req).read().decode解析http报文报“‘utf-8’ codec can’t decode”错处理:https://www.cnblogs.com/LaoYuanStudyPython/p/12949646.html

Android官方开发文档Training系列课程中文版:添加ActionBar之ActionBar浮层效果

原文地址 : http://android.xsoftlab.net/training/basics/actionbar/overlaying.html 浮层效果的ActionBar 默认情况下,ActionBar总是会出现在Activity窗口的顶部,这样会稍微的减少Activity布局的剩余空间。如果需要在用户使用的时候隐藏和显示Action…

美团大规模微服务通信框架及治理体系OCTO核心组件开源

微服务通信框架及治理平台OCTO作为美团基础架构设施的重要组成部分,目前已广泛应用于公司技术线,稳定承载上万应用、日均支撑千亿级的调用。业务基于OCTO提供的标准化技术方案,能够轻松实现服务注册/发现、负载均衡、容错处理、降级熔断、灰度…

领域应用 | 知识结构化在阿里小蜜中的应用

本文转载自公众号:DataFunTalk。分享嘉宾:李凤麟 阿里巴巴 算法专家文章整理:付一韬内容来源:2019知识图谱前沿技术论坛出品社区:DataFun导读:阿里小蜜是阿里巴巴服务领域的重要人工智能产品,是…

内卷的世界,我们是否可以换一种思维生活?

文 | Flood Sung源 | 知乎前言今年最热门的词汇之一当属内卷了。似乎很多行业都由于份额有限而陷入内卷当中。最火的或许是清华学生的这张图,“骑车写代码”:图片来自网络虽然后来知道是这位同学怕关了屏幕程序就断了,但这不禁让人思考&#…

【Python】解决urllib返回http error 503问题

【Python】解决urllib返回http error 503问题:https://www.cnblogs.com/tiandsp/p/13783038.html

LeetCode 513. 找树左下角的值(按层遍历 queue)

1. 题目 给定一个二叉树,在树的最后一行找到最左边的值。 2. 解题 利用队列按层次遍历顺序,根右左,要求最左边的一个,所以根右左,最后一个队列元素就是答案 class Solution { public:int findBottomLeftValue(TreeN…

Android官方开发文档Training系列课程中文版:支持不同的设备之支持不同的语言

原文地址 : http://android.xsoftlab.net/training/basics/supporting-devices/index.html 支持不同的设备 在世界上,Android设备以很多种形状和尺寸呈现。正因为有这么多种设备,你的应用有机会被巨多的用户所使用。为了在Android上尽可能的成功&…

Hadoop YARN:调度性能优化实践

背景 YARN作为Hadoop的资源管理系统,负责Hadoop集群上计算资源的管理和作业调度。 美团的YARN以社区2.7.1版本为基础构建分支。目前在YARN上支撑离线业务、实时业务以及机器学习业务。 离线业务主要运行的是Hive on MapReduce, Spark SQL为主的数据仓库作…

python list保存至csv文件

python list保存至csv文件:https://blog.csdn.net/qq_43372138/article/details/84110624?utm_mediumdistribute.pc_aggpage_search_result.none-task-blog-2alltop_click~default-1-84110624.nonecase&utm_termpython%E5%B0%86list%E5%86%99%E5%85%A5csv&…

LeetCode 39. 组合总和(排列组合 回溯)

1. 题目 给定一个无重复元素的数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的数字可以无限制重复被选取。 说明: 所有数字(包括 target)都是正整数。 解集不能包…

深度学习平台的未来:谁会赢得下半场?

今天这篇文章无意引战,只想从历史发展的角度来谈谈深度学习大背景下的开发工具变迁,以及对未来发展趋势的想象。TensorFlow:无力回天的深度学习里程碑不知道有多少小伙伴是2017年以前入坑深度学习的,那时候人工智能概念火热&#…

论文浅尝 | 基于属性嵌入的知识图谱实体对齐

论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理。来源:AAAI2019论文链接: https://doi.org/10.1609/aaai.v33i01.3301297概述知识图谱之间的实体对齐的任务目标是去找到那些在两个不同的知识图谱上表…

Android官方开发文档Training系列课程中文版:支持不同的设备之支持不同的屏幕

原文地址 : http://android.xsoftlab.net/training/basics/supporting-devices/screens.html#create-bitmaps Android设备屏幕分为两个通用的属性:尺寸和密度。你应该期待应用将会被安装在屏幕的密度和尺寸都在范围内的设备上。正因为这样,你应该包含一…