论文浅尝 | 对于知识图谱嵌入表示的几何形状理解

640?wx_fmt=png

论文链接:http://anthology.aclweb.org/attachments/P/P18/P18-1012.Presentation.pdf

发表会议:ACL 2018


摘要

知识图谱的嵌入表示在近几年已经成为一个非常活跃的研究领域,众多相关方法相继被提出,这些嵌入方法是将知识图谱中的实体和关系表示成同一向量空间中的向量。虽然知识图谱的嵌入表示在各种任务中被广泛应用,但是对嵌入表示的几何理解尚未被探索,本文旨在填补这项空白。本文深入分析知识图谱嵌入表示的几何形状,并分析其与任务性能和其他超参数之间的关联。通过在真实数据集上进行广泛的实验,本文发现了一些值得注意的现象,例如不同类别的嵌入方法学习到的嵌入表示在几何形状上存在明显差异。


度量标准

1.     ATM

ATMalignment to mean)是指向量集合 V 中的一个向量 v 与平均向量的余弦相似度。

640?wx_fmt=png

2.     Conicity

Conicity是指向量集合 V 中所有向量 ATM 的平均值。

640?wx_fmt=png

3.     VS

VSvector spread)是指向量集合V中所有向量ATM的方差。

640?wx_fmt=png

1给出了一个实例来帮助理解这几个指标,图中是一个三维坐标系(展示的点是随机生成的),左图表示的是高锥度(conicity)和低向量分散度(VS)的情形,而右图表示的是低锥度和高向量分散度的情形。

640?wx_fmt=png

4.     AVL

AVLaverage vector length)是指向量集合V中所有向量的平均长度( L_2范数)。

640?wx_fmt=png

实验分析

本文的主要考虑6个知识图谱的嵌入表示模型,并把6个方法分为两类。一类是加法(additive)模型,有TransE[2]TransR[3]STransE[4];另一类是乘法(multiplicative)模型,有DistMult[5]HolE[6]ComplEx[7]。同时,本文采用了两个常见数据集FB15KWN18。本文主要从以下4个发现展开实验分析。

1.     模型类型对几何形状的影响

不同模型在实体向量的几何形状上存在明显差异。乘法模型的ATM值均为正值且向量分散度较低。加法模型此形成鲜明对比,加法模型的ATM值正负皆有且分布较为均衡,同时向量分散度较高。这说明乘法模型得到的嵌入向量不是均匀的分散在向量空间中,而加法模型得到的嵌入向量则是均匀的分散在向量空间中。

640?wx_fmt=png

2.     反例数量对几何形状的影响

乘法模型的锥度(conicity)随着反例数量的增加而增大,而加法模型的锥度对反例数量不敏感。在平均向量长度(AVL)方面,乘法模型中的DistMultComplEx随着反例数量的增加而减小,HolE则几乎没有变化,这是因为HolE把实体向量限制在了单位球内。所有加法模型的AVL也对反例数量不敏感,而它们也有和HolE类似的限制。

640?wx_fmt=png


3.     向量维数对几何形状的影响

随着向量维数的增加,乘法模型的锥度呈现出下降的趋势,而平均向量长度则呈现出上升趋势。加法模型的锥度和平均向量长度则对向量维数不敏感。

640?wx_fmt=png

4.     几何形状与性能的联系

本实验以链接预测任务为例,采用与TransE相同的实验设定。当反例数量相同时,锥度小的乘法模型的性能更优;当反例数量增加时,乘法模型表现更好。加法模型的性能与锥度并无太大关系。在平均向量长度方面,对于除HolE之外的乘法模型而言,当反例数量一定时,平均向量长度越大性能越好;而对于加法模型和HolE而言,平均向量长度与性能的关系并不显著,这个现象是由于这些方法使用单位向量长度来限制嵌入向量所导致的。

640?wx_fmt=png


参考

[1] Chandrahas, Aditya Sharma, Partha Talukdar: Towards Understanding the Geometry of Knowledge Graph Embeddings. ACL 2018: 122-131.

[2] Antoine Bordes, Nicolas Usunier, Alberto Garciaduran, Jason Weston, Oksana Yakhnenko: Translating Embeddings for Modeling Multi-relational Data. NIPS 2013: 2787-2795.

[3] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, Xuan Zhu: Learning entity and relation embeddings for knowledge graph completion. AAAI 2015: 2181-2187.

[4] Dat Quoc Nguyen, Kairit Sirts, Lizhen Qu, Mark Johnson: STransE: anovel embedding model of entities and relationships in knowledge bases.NAACL-HLT 2016: 460-466.

[5] Bishan Yang, Wentau Yih, Xiaodong He, Jianfeng Gao, Li Deng: Embedding Entities and Relations for Learning and Inference in Knowledge Bases. ICLR2015.

[6] Maximilian Nickel, Lorenzo Rosasco, Tomaso Poggio: Holographic embeddings of knowledge graphs. AAAI 2016: 1955-1961.

[7] Theo Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, Guillaume Bouchard: Complex embeddings for simple link prediction. ICML 2016: 2071-2080.




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480266.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构--堆 Heap

文章目录1. 概念2. 操作和存储2.1 插入一个元素2.2 删除堆顶元素3. 堆排序(不稳定排序)3.1 建堆3.2 排序3.3 思考:为什么快速排序要比堆排序性能好?两者都是O(nlogn)4. 堆应用4.1 优先级队列4.2 用堆求 Top K(前K大数据…

金融时报:人工智能在银行中的应用—对全球30家大型银行的调查

原文地址:https://cloud.tencent.com/developer/article/1144829 (微信公众号 点滴科技资讯)尽管银行业对新技术感到兴奋,但仍采取比较谨慎的方式。德意志银行首席执行官约翰•克莱恩(John Cryan)曾经提出将…

百度Java三面:现场面试39题目实拍含答案!

百度一面(现场) 自我介绍 Java中的多态 为什么要同时重写hashcode和equals Hashmap的原理 Hashmap如何变线程安全,每种方式的优缺点 垃圾回收机制 Jvm的参数你知道的说一下 设计模式了解的说一下啊 手撕一个单例模式 算法题目 手撕算…

CCKS2020事理图谱应用工作:刘焕勇等.面向开放文本的逻辑推理知识抽取与事件影响推理探索

一、背景介绍 第十四届全国知识图谱与语义计算大会(CCKS 2020) 11 月 12 日至 15 日在江西南昌举行,CCKS(China Conference on Knowledge Graph and Semantic Computing)是由中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议…

ACL20 Best Paper揭晓!NLP模型评价体系或将迎来重大转折

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 北大小才女小轶昨晚ACL2020的Main Conference落下帷幕,今年的最佳论文颁给了这篇《Beyond Accuracy: Behavioral Testing of NLP Models with CHECKLIST》。在ACL录用的778篇论文中&#xff…

论文浅尝 | 基于多模态关联数据嵌入的知识库补全

链接&#xff1a;https://arxiv.org/pdf/1809.01341.pdf动机&#xff08;摘要&#xff09;当前的知识库补全的方法主要是将实体和关系嵌入到一个低维的向量空间&#xff0c;但是却只利用了知识库中的三元组结构 (<s,r,o>) 数据&#xff0c;而忽略了知识库中大量存在的文本…

智能投顾原理与主流产品分析

原作者 王希&#xff0c;CFA&#xff0c;中国光大银行。核心观点&#xff1a;1、智能投顾的模式是通过技术实现财富管理的流程自动化&#xff0c;为客户定制FOF产品来投资并赚取管理费。目前尚未看出大数据分析、人工智能等技术在其中发挥出关键作用。2、智能投顾在美国的快速…

POJ 1442 Black Box(大小堆,求第K小的元素)

文章目录1. 题目链接2. 题目解读3. 代码3.1 Runtime Error 代码1. 题目链接 http://poj.org/problem?id1442 2. 题目解读 可以利用大小堆&#xff0c;大堆长度从1开始&#xff0c;每次1 大堆元素都比小堆的小&#xff0c;那么大堆顶的元素就是第k小的元素 3. 代码 3.1 Run…

阿里java架构师面试128题含答案:分布式架构+Dubbo+多线程+Redis

一、Java基础和高级 1.String类为什么是final的。 2.HashMap的源码&#xff0c;实现原理&#xff0c;底层结构。 3.反射中&#xff0c;Class.forName和classloader的区别 4.session和cookie的区别和联系&#xff0c;session的生命周期&#xff0c;多个服务部署时session管理…

LightGBM——提升机器算法(图解+理论+安装方法+python代码)

原文地址&#xff1a;https://blog.csdn.net/huacha__/article/details/81057150 前言 LightGBM是个快速的&#xff0c;分布式的&#xff0c;高性能的基于决策树算法的梯度提升框架。可用于排序&#xff0c;分类&#xff0c;回归以及很多其他的机器学习任务中。 在竞赛题中&am…

这个NLP工具,玩得根本停不下来

今天推荐一个有趣的自然语言处理公众号AINLP&#xff0c;关注后玩得根本停不下来&#xff01;AINLP的维护者是我爱自然语言处理&#xff08;52nlp&#xff09;博主&#xff0c;他之前在腾讯从事NLP相关的研发工作&#xff0c;目前在一家创业公司带技术团队。AINLP公众号的定位是…

论文浅尝 | 基于Universal Schema与Memory Network的知识+文本问答

来源&#xff1a;ACL 2017链接&#xff1a;http://aclweb.org/anthology/P17-2057本文提出将 Universal schema 用于自然语言问答中&#xff0c;通过引入记忆网络&#xff0c;将知识库与文本中大量的事实信息结合起来&#xff0c;构建出一个由问答对&#xff08;question-answe…

数据结构--图 Graph

文章目录1. 概念2. 存储方法2.1 邻接矩阵 Adjacency Matrix2.2 邻接表 Adjacency List3. 图的遍历3.1 广度优先搜索BFS&#xff08;Breadth First Search&#xff09;3.2 BFS代码&#xff08;基于邻接表&#xff09;3.3 深度优先搜索DFS&#xff08;Depth First Search&#xf…

2019最新拼多多Java面试题:幻影读+分段锁+死锁+Spring Cloud+秒杀

拼多多Java一面 简短自我介绍 事务的ACID&#xff0c;其中把事务的隔离性详细解释一遍 脏读、幻影读、不可重复读 红黑树、二叉树的算法 平常用到哪些集合类&#xff1f;ArrayList和LinkedList区别&#xff1f;HashMap内部数据结构&#xff1f;ConcurrentHashMap分段锁&…

视频问答兴起,多跳问答热度衰退,92篇论文看智能问答的发展趋势

星标/置顶小屋&#xff0c;带你解锁最萌最前沿的NLP、搜索与推荐技术文 | 舒意恒&#xff08;南京大学硕士生&#xff0c;知识图谱方向&#xff09;编 | 北大小才女小轶2019年的时候&#xff0c;舒意恒Y.Shu整理了一份《2019年&#xff0c;智能问答有哪些研究方向&#xff1f;…

论文浅尝 | 知识图谱相关实体搜索

本文转载自公众号&#xff1a;南大Websoft。相关搜索&#xff08;Relevance Search&#xff09;是信息检索中的一个经典问题&#xff0c;相关搜索是指给定一个查询实体&#xff0c;返回与其相关度最高的实体&#xff08;一个类似的问题Similarity Search&#xff0c;一般来说指…

最新美团Java面试题目(共3面)

一面 线程池用过哪些&#xff0c;线程池有哪些参数&#xff0c;然后问我几个常用线程池的用法和实际场景问题。 集合框架的知识&#xff0c;hashmap&#xff0c;ArrayList&#xff0c;LinkedList源码相关知识&#xff0c;基本整个介绍了一遍&#xff0c;与hastable&#xff0c…

PersonGraphDataSet近十万的开放人物关系图谱项目

PersonGraphDataSet PersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。 人物图谱数据集&#xff0c;近十万的人物关系图谱事实数据库&am…

图Graph--寻找二度好友(BFS应用)

社交网络可以用图来表示&#xff08;查阅图的概念&#xff09;。 寻找二度好友&#xff0c;这个问题就非常适合用图的广度优先搜索BFS算法来解决&#xff0c;因为广度优先搜索是层层往外推进的。 首先&#xff0c;遍历与起始顶点最近的一层顶点&#xff0c;也就是用户的一度好…

技术动态 | TechKG:一个面向中文学术领域的大型知识图谱

作者&#xff1a;东北大学-知识图谱研究组 任飞亮TechKG 是一个面向中文、面向学术、多领域的大型知识图谱知识库&#xff0c;知识库由“东北大学-知识图谱研究组”开发完成。和已有知识图谱如 Freebase 或 YAGO 相比&#xff0c;TechKG 具有如下主要特点&#xff1a;1、是一个…