论文浅尝 | 一种嵌入效率极高的 node embedding 方式

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。



640?wx_fmt=png

会议:WSDM 2019

链接:https://dl.acm.org/citation.cfm?id=3290961

Motivation

基于spring-electrical的模型在网络可视化中取得了非常成功的应用,一个优秀的网络可视化算法意味着越相似的节点在空间中欧式距离越相近。本文将spring-electrical模型应用在了链接预测问题上,前提是假设节点之间的欧氏距离和节点之间存在link的概率成正相关。性能评估上,模型与baseline的对比显示了其性能的优越,尤其是在node embedding维度很低的时候。


Problem Statement

      知识图谱由于种种原因,其中很多节点之间存在缺失的边。链接预测算法指的是,给定网络节点和网络结构等信息,去预测尚未存在边的节点之间存在链接的概率。实验中,给定网络G=<V,E>,我们随机掩盖一定比例的边(如10%),并采样一部分负例作为测试集,然后将剩下90%的边和所有节点作为训练集。

评估指标采用AUC值:

640?wx_fmt=png

Baseline

介绍三种常用的baseline

1. Local similarity indices

分析节点周围的局部结构,作为节点之间存在链接的概率(以下式子中δ表示节点的相邻一跳节点)。

  • Common neighbours:以两节点公共邻居的个数来衡量存在链接的概率

    640?wx_fmt=png


  • Adamic-Adar indexcommon neighbours的一种加权的改进

    640?wx_fmt=png


  • Preferential Attachment index:以节点现有的度来衡量节点之间存在链接的概率(非常naïveassumption

    640?wx_fmt=png


2. Matrix factorization

矩阵分解的方式将网络的邻接矩阵作为输入,分解成两个低秩的矩阵。低秩矩阵的行或列可以作为节点的latent feature,将两节点的latent feature做点积,即可得到两节点之间存在链接的概率。

  • Truncate SVD

    640?wx_fmt=png


  • Non-negative matrix factorizationNMF

    640?wx_fmt=png


3. Neural embedding

一些工作尝试用神经网络来学习graph embedding,比如经典的DeepWalknode2vec算法,都是受word2vec的启发。基本思想是将图中的节点当做单词,在图中随机游走得到一系列节点当作一个句子,然后利用word2vec的目标函数来做训练。训练完成后,将节点的embedding做点积,即得到节点之间存在链接的概率。


Model

Spring-electrical中的spring指的是弹簧,electrical指的是电荷,其基本思想是将一张图当做一个机械系统,将图中的节点比作电荷,将边比作弹簧。所有的电荷均为同性电荷,相互之间存在斥力;弹簧力表现为引力。基于这样的假设,当这个力学系统达到平衡之后,不存在边相连的节点将会由于斥力,在空间距离上分布较远。

对库伦定律进行修改,引入超参p,电荷之间的斥力公式为:

640?wx_fmt=png


对虎克定律进行修改,弹簧的引力公式为:

640?wx_fmt=png

640?wx_fmt=png

通过利用力是能量的负梯度这个性质,可以将一个力学系统转换成能量系统,力的平衡对应系统能量的最小值。所以,目标函数为求解系统能量的极小值,即:

640?wx_fmt=png


     上式的求解存在两个问题:1)计算复杂度过大;2)容易收敛到局部极小值。本文采用了一种叫做ScalableForce Directed PlacementSFDP)的优化方法进行求解,较好的解决了这两个问题。

Case Study

      在实际的数据集上进行评估之前,本文先在由球体的三角剖分得到的图上进行了casestudy。链接预测的结果如下图所示,可以看到SFDP方法取得了很好的效果,同时注意到SFDP方法在向量维度极小的情况(d=2,3)下,依旧取得非常好的效果。

640?wx_fmt=png

除此之外,实验将d=3的向量进行了可视化(如下图),比较了不同模型可视化的差异。可以看到,SFDP方法很好的保留了球体的原始形状,SVD向量分布在3条坐标轴上,node2vec则是一个锥形。造成这种差异的原因是,SFDP采用了欧式距离作为损失函数,而SVDnode2vec则是基于点积。基于欧式距离的损失函数会使不相似的节点在空间上尽可能远,而点积则会使不相似节点尽可能垂直。

640?wx_fmt=png

Experiment

实验在以下几个公开数据集上做了评估:PowerGrid: 美国的电力供应网络;Euroroad: 欧洲道路交通网络;Airport: 美国航空机场网络;Facebook:      Facebook社交网络;Reactome: 蛋白质的相互作用网络;Ca-HepTh:arXiv上的作者合作关系网络。

实验结果如下图所示,SFDP在多数数据集上的表现都达到最优,同时在向量维度d=2,3时就可以得到非常好的实验效果。

640?wx_fmt=png

下表是得到最佳结果时embedding维度的比较,SFDP方法在d=2,3维度时的结果就可以媲美其他模型100维甚至500维的效果,embedding效率极高。

640?wx_fmt=png

下表给出了SFDP模型与localsimilarity indices方法的效果比较:

640?wx_fmt=png

另外实验还在二分网络和有向图数据集上进行评估,并对SFDP做了相应的修改。


Conclusion

            本文将网络可视化中的spring-electrical模型应用在了链接预测问题上,在数据集评估上取得了十分优越的结果,尤其是在低维空间展现了非常好的效果。Embedding维度效率的提升可以解决向量嵌入在现实应用中的一些问题,如向量维度过高时最近邻搜索的计算复杂度过高。后续工作可以聚焦在如何为latent feature model选择更优的距离度量以及向量维度效率更深入的分析。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479934.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重要的,是那些训练中被多次遗忘的样本

文 | kid丶源 | 知乎编 | 兔子酱今天跟大家分享一篇很有意思的文章&#xff0c;是一篇探讨深度学习模型记忆&遗忘机制的文章&#xff0c;是一篇角度很新颖的题材&#xff0c;同时又有一定启发作用。这篇文章发表在深度学习顶会ICLR19&#xff0c;标题是《An empirical stud…

直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景

直通BAT之JVM系列 直通BAT必考题系列&#xff1a;JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列&#xff1a;深入详解JVM内存模型与JVM参数详细配置 今天继续JVM的垃圾回收器详解&#xff0c;如果说垃圾收集算法是JVM内存回收的方法论&#xff0c;那么垃圾收集…

模拟嫁接技术

模拟嫁接技术&#xff1a;定义嫁接算子及策略剪接算子及策略GPOGA算法总结定义 收益和代价 对一棵生成树 T1&#xff0c;若将某结点的一条分枝移至另一结点作为其一条分枝后产生的生成树为 T2&#xff0c;考察分枝移动前后生成树的边长和的变化&#xff0c;则定义收益(gain)和…

HuggingFace又出炼丹神器!稀疏矩阵运算进入平民化时代!

文 | rumor酱编 | YY一提到模型加速&#xff0c;大家首先想到的就是蒸馏、&#xff08;结构性&#xff09;剪枝、量化&#xff08;FP16&#xff09;&#xff0c;然而稀疏矩阵&#xff08;sparse matrix&#xff09;运算一直不被大家青睐。原因也很简单&#xff0c;一是手边没有…

章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?

本文转载自公众号&#xff1a;恒生技术之眼。人工智能、大数据等前沿科技的爆发&#xff0c;推动金融科技进入了一个崭新的时代&#xff0c;也成为监管科技发展的重要推动力。在这个Fintech的黄金时代&#xff0c;前沿科技正在如何赋能监管&#xff1f;这方面&#xff0c;恒生公…

LeetCode 23. 合并K个排序链表(优先队列)

文章目录1. 题目信息2. 思路3. 代码1. 题目信息 合并 k 个排序链表&#xff0c;返回合并后的排序链表。请分析和描述算法的复杂度。 示例:输入: [1->4->5,1->3->4,2->6 ] 输出: 1->1->2->3->4->4->5->6来源&#xff1a;力扣&#xff08;…

直通BAT必考题系列:JVM性能调优的6大步骤,及关键调优参数详解

JVM系列 直通BAT必考题系列&#xff1a;7种JVM垃圾收集器特点&#xff0c;优劣势、及使用场景 直通BAT必考题系列&#xff1a;JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列&#xff1a;深入详解JVM内存模型与JVM参数详细配置 JVM内存调优 对JVM内存的系统级…

论文浅尝 | 知识图谱三元组置信度的度量

论文笔记整理&#xff1a;叶橄强&#xff0c;浙江大学计算机学院&#xff0c;知识图谱和知识推理方向。https://arxiv.org/pdf/1809.09414.pdf动机在构建知识图谱的过程中&#xff0c;不可避免地会产生噪声和冲突。基于知识图谱的任务或应用一般默认假定知识图谱中的知识是完全…

跟小伙伴们做了个高效刷论文的小站

好久木有在知乎冒泡了&#xff0c;不知道还能不能出现在大家的timeline上哇QAQ正文开始之前还是先习惯性的碎碎念一下。前段时间换了研究方向&#xff0c;重新pick了问答和检索&#xff0c;为了追上相关问题的最新进展&#xff0c;就顾不上写文的刷了一堆paper&#xff0c;加上…

模拟进化与遗传算法

遗传算法是目前研究得最为广泛的一类模拟进化算法。 假定考虑全局优化问题&#xff08;P&#xff09;。遗传算法基于以下两条基本策略求解问题&#xff1a; 对于给定的目标函数F&#xff0c;它使用&#xff26;的任一适应性函数&#xff08;换言之&#xff0c;一个值域非负、…

消息中间件系列(六):什么是流量削峰?如何解决秒杀业务的削峰场景

流量削峰的由来 主要是还是来自于互联网的业务场景&#xff0c;例如&#xff0c;马上即将开始的春节火车票抢购&#xff0c;大量的用户需要同一时间去抢购&#xff1b;以及大家熟知的阿里双11秒杀&#xff0c; 短时间上亿的用户涌入&#xff0c;瞬间流量巨大&#xff08;高并发…

论文浅尝 | 基于深度序列模型的知识图谱补全

本文转载自公众号&#xff1a;DI数据智能。 Learning to Complete Knowledge Graphs with Deep Sequential Models作者&#xff1a;郭凌冰、张清恒、胡伟、孙泽群、瞿裕忠单位&#xff1a;南京大学供稿&#xff1a;胡伟引用L. Guo, Q. Zhang, W. Hu, Z. Sun, & Y. Qu. …

拨开算力的迷雾:聊聊不同 GPU 计算能力的上限

文 | 卜居知乎编 | 兔子酱通过深入了解自己手头 GPU 的计算能力上限&#xff0c;能够在买新卡时做出更理性判断。本文深入GPU架构&#xff0c;重点介绍了其中的ampere架构。另外&#xff0c;作者还对比了不同GPU之间的峰值计算能力&#xff0c;增加读者对硬件资源的了解。前言2…

LeetCode 20. 有效的括号(栈)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个只包括 ‘(’&#xff0c;’)’&#xff0c;’{’&#xff0c;’}’&#xff0c;’[’&#xff0c;’]’ 的字符串&#xff0c;判断字符串是否有效。 有效字符串需满足&#xff1a; 左括号必须用相同类型的右括号闭合。 左括…

消息中间件系列(八):Kafka、RocketMQ、RabbitMQ等的优劣势比较

在高并发业务场景下&#xff0c;典型的阿里双11秒杀等业务&#xff0c;消息队列中间件在流量削峰、解耦上有不可替代的作用。 之前介绍了MQ消息队列的12点核心原理总结&#xff0c;以及如何从0到1设计一个MQ消息队列&#xff0c;以及RPC远程调用和消息队列MQ的区别 今天我们一…

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为跨语言知识图谱问答。来源&#xff1a;COLING 2018链接&#xff1a;https://www.aclweb.org/anthology/C18-1171问题背景与动机多关系问答&#xff08;multi-relationquestion answering&#…

蚁群优化算法 ACO

群体智能&#xff08;swarm intelligence&#xff09; 定义&#xff1a; 由单个复杂个体完成的任务可由大量简单个体组成的群体合作完成&#xff0c;而后者往往更具有健壮性、灵活性等优势。在没有集中控制&#xff0c;不提供全局模型的前提下&#xff0c;为寻找复杂问题解决…

量化投资交易 vn.py

前言&#xff1a;当初接触到vnpy&#xff0c;一开始当然是按照该项目在GitHub上的指南&#xff0c;开始安装&#xff0c;配置&#xff0c;阅读Wiki&#xff0c;但是作为一个python新手&#xff0c;并不能马上利用vnpy来写策略回测甚至实盘。所以我决定还是从源码看起&#xff0…

掌握神经网络,我应该学习哪些至关重要的知识点?

人工智能作为计算机科学领域的一个分支&#xff0c;在互联网和大数据的时代浪潮中显现出其巨大的潜力和蓬勃的活力&#xff0c;类似电子医生、无人驾驶等新名词纷纷涌现。人工智能凭借着它无与伦比的发展优势&#xff0c;推动了各大产业和技术的革命与创新&#xff0c;使得生产…

LeetCode 32. 最长有效括号(栈DP)

文章目录1. 题目信息2. 栈 解题3. 动态规划 解题1. 题目信息 给定一个只包含 ‘(’ 和 ‘)’ 的字符串&#xff0c;找出最长的包含有效括号的子串的长度。 示例 1:输入: "(()" 输出: 2 解释: 最长有效括号子串为 "()" 示例 2:输入: ")()())" 输…