图嵌入综述 (arxiv 1709.07604) 译文五、六、七

应用

图嵌入有益于各种图分析应用,因为向量表示可以在时间和空间上高效处理。 在本节中,我们将图嵌入的应用分类为节点相关,边相关和图相关。

节点相关应用

节点分类

节点分类是基于从标记节点习得的规则,为图中的每个节点分配类标签。 直观地说,“相似”节点具有相同的标签。 它是图嵌入文献中讨论的最常见的应用之一。 通常,每个节点都嵌入为低维向量。 通过在用于训练的标记节点嵌入集上应用分类器来进行节点分类。 示例分类器包括 SVM([1,33,56,20,73,34,45,41,42,57,75,81,87,60]),逻辑回归([17,27,124,1,21],[28,20,19,45,25,59])和 k-最近邻分类([58,151])。 然后,给定未标记节点的嵌入,训练的分类器可以预测其类标签。 与首先是节点嵌入然后是节点分类的上述顺序处理相比,其他一些工作([62,72,47,48,80])设计了一个统一的框架来联合优化图嵌入和节点分类,它们学习特定于分类的每个节点的表示。

节点聚类

节点聚类旨在将类似节点组合在一起,以使同一组中的节点彼此更相似,而不是其他组中的节点。 作为无监督算法,当节点标签不可用时,它是适用的。 在将节点表示为向量之后,可以将传统的聚类算法应用于节点嵌入。 大多数现有工作[1,2,21,33,23,22,81]采用 k 均值作为聚类算法。 相比之下,[4]和[77]联合优化了一个目标中的聚类和图嵌入,来学习特定于聚类的节点表示。

节点推荐/检索/排名

节点推荐的任务是,基于诸如相似性的某些标准[106,3,47,16,43,45]来推荐给定节点感兴趣的前K个节点。 在现实世界的场景中,有各种类型的节点推荐,例如为研究人员推荐研究兴趣[66],为客户推荐项目[3,71],为社会网络用户推荐图像[35],为社交网络用户推荐朋友[3],以及为查询推荐文件[69]。 它在社区问答中也很受欢迎。 给出一个问题,他们预测用户的相对排名([31,30])或答案([32,29])。 在邻近搜索[44,39]中,它们对给定查询节点(例如,“Bob”)和邻近类别(例如,“同学”)的特定类型(例如,“用户”)的节点进行排名,例如,排名是Bob的同学的用户。 并且有一些工作侧重于跨模态检索[33,36,99,34],例如,基于关键词的图像/视频搜索。

在知识图嵌入中广泛讨论的特定应用是实体排名[53,51,59,52,61]。 回想一下,知识图由一组三元组组成 。 实体排名旨在对正确的缺失实体进行排名,给定三元组中其他两个成分,它们高于虚假实体。 例如,给定rt,在所有候选实体,它返回真的h,或者给定rh返回真的t

边相关应用

接下来,我们介绍边相关应用,其中涉及边或节点对。

链接预测

图嵌入旨在表示具有低维向量的图,但有趣的是它的输出向量也可以帮助推断图结构。 在实践中,图通常是不完整的; 例如,在社交网络中,实际上彼此了解的两个用户之间可能缺少好友链接。 在图嵌入中,期望低维向量保持不同的网络邻近度(例如,DeepWalk [17],LINE [27]),以及不同的结构相似度(例如,GCN [72],struc2vec [145])。 因此,这些向量编码网络结构的丰富信息,并且它们可用于预测不完整图中的缺失链接。 大多数图嵌入驱动的链接预测,都在同构图上[3,16,28,19]尝试。 例如,[28]预测两个用户之间的好友关系。 处理异构图链接预测的图嵌入工作相对较少。 例如,在异构社交图上,ProxEmbed [44]试图根据其在图上的连接路径的嵌入,来预测两个用户之间某些语义类型(例如,同学)的缺失链接。 D2AGE [152]通过嵌入两个用户的连通有向无环图结构,解决了同样的问题。

三元组分类

三元组分类[142,53,15,51,52,14,38,61]是知识图的特定应用。 它的目的是分类,没见过的三元组 是否正确,即 的关系是否是

图相关应用

图分类

图分类将类标签分配给整图。 当图是数据单位时,这很重要。 例如,在[50]中,每个图是化学化合物,有机分子或蛋白质结构。 在大多数情况下,应用整图嵌入来计算图层级相似度[93,55,54,49,95]。 最近,一些工作开始匹配节点嵌入和图相似性[153,50]。 每个图表示为一组节点嵌入向量。 基于两组节点嵌入来比较图。 [93]将图分解为一组子结构,然后将每个子结构嵌入为向量,并通过子结构相似性比较图。

可视化

图可视化在低维空间上生成图的可视化[20,23,55,48,73,58]。 通常,出于可视化目的,所有节点都嵌入为2D向量,然后绘制在2D空间中,不同的颜色表示节点的类别。 它提供了生动的演示,表明属于同一类别的节点的嵌入是否彼此更紧密。

其它应用

以上是一些在现有工作中经常讨论的一般应用。 根据输入图中携带的信息,可能存在更具体的应用。 以下是一些示例场景。

知识图相关:[15]和[14]从大规模纯文本中提取关系事实。 [62]从文本中提取医学实体。 [69]将自然语言文本与知识图中的实体联系起来。 [92]侧重于删除知识图中重复的等效实体。 [84]联合嵌入实体提及,文本和实体类型,从其嘈杂的候选类型集中估计每个提及的真实类型路径。 例如,“特朗普”的候选类型是“人,政治家,商人,艺术家,演员”。 对于提及“特朗普”的句子“共和党总统候选人唐纳德特朗普在洛克希尔的竞选活动中发言。”,只有“人,政治家”是正确的类型。

多媒体网络相关 :[83]嵌入地理标记社交媒体(GTSM)记录“时间,地点,消息 ”,这使得他们能够在给定其他两个成分的情况下,从GTSM三元组中恢复丢失的成分。 它还可以对GTSM记录进行分类,例如,登记记录是否与“食物”或“商店”相关。 [85]使用图嵌入来减少人脸识别的数据维度。 [88]将图像映射到一个语义流形,忠实地掌握用户的偏好,来促进基于内容的图像检索。

信息传播相关:[63]预测给定时间间隔后级联大小的增量。 [64]预测传播用户,并通过嵌入社交互动图来识别领域专家。

社交网络对齐: [26]和[18]都学习节点嵌入,来对齐跨越不同的社交网络的用户,即,预测两个不同社交网络中的两个用户帐户是否由同一用户拥有。

图像相关:一些工作嵌入由图像构建的图,然后使用嵌入进行图像分类([81,82]),图像聚类[101],图像分割[154],模式识别[80]等。

未来发展方向

在本节中,我们总结了图嵌入领域的四个未来方向,包括计算效率,问题设定,技术和应用场景。

计算。 采用几何输入(例如,图)的深层架构遭受低效率问题。 传统的深度学习模型(为欧几里得域设计)通过假设输入数据在1D或2D网格上,利用现代GPU来优化其效率。 但是,图没有这种网格结构,因此为图嵌入设计的深层架构需要寻求替代解决方案来提高模型效率。 [117]建议可以采用为大规模图处理开发的计算范式,来提高图嵌入的深度学习模型的效率。

问题设定。 动态图是图嵌入的一个有前途的设定。 图并不总是静态的,尤其是在现实生活场景中,例如Twitter中的社交图,DBLP中的引文图。 在图结构或节点/边信息方面,图可以是动态的。 一方面,图结构可以随时间演变,即,一些旧节点/边消失时出现新节点/边。 另一方面,节点/边可以通过一些时变信息来描述。 现有图嵌入主要侧重于嵌入静态图,忽略了动态图嵌入的设定。 与静态图嵌入不同,动态图的技术需要是可扩展的,并且最好是递增的,以便有效地处理动态变化。 这使得大多数现有的图嵌入方法受到低效率问题的影响,不再适用。 如何在动态域中设计有效的图嵌入方法仍然是一个悬而未决的问题。

技术。 结构感知对于基于边重建的图嵌入很重要。 当前基于边重建的图嵌入方法主要仅基于边,例如,一般图中的一跳的邻居,知识图中的排名三元组<h, r, t>,和 cQA 图中的 。 单个边仅提供局部邻域信息来计算一阶和二阶接近度。 省略了图的全局结构(例如,路径,树,子图模式)。 直观地说,子结构包含比单个边更丰富的信息。 一些工作尝试探索知识图嵌入中的路径信息([142,40,38,39])。 然而,他们中的大多数使用深度学习模型([142,38,40]),这些模型遭受前面讨论的低效率问题。 如何设计可以利用图结构的表现力的非深度学习方法是一个问题。 [39]提供了一个示例解决方案。 它最小化成对和长程损失,来捕获成对关系和实体之间的远程交互。 注意,除了列表/路径结构之外,还存在各种具有不同结构信息的子结构。 例如,SPE [155]试图引入一个子图增强路径结构,用于在异构图中嵌入两个节点之间的接近度,并且它比语义搜索任务的简单路径嵌入表现出更好的性能。 通常,需要一种有效的结构感知图嵌入优化解决方案以及子结构采样策略。

应用。 图嵌入已应用于许多不同的应用中。 考虑到它们之间的关系,这是学习数据表示的有效方法。 此外,它可以将来自不同源/平台/视图的数据实例转换到一个公共空间,以便它们可以直接比较。 例如,[36,16,34]使用图嵌入进行跨模态检索,例如基于内容的图像检索,基于关键词的图像/视频搜索。 使用图嵌入进行表示学习的优点在于,训练数据实例的图流形被保留在表示中,并且可以进一步有益于后续应用。 因此,图嵌入可以使假设输入数据实例与某些关系相关(即,通过某些链接连接)的任务受益。 探索受益于图嵌入的应用场景非常重要,因为它从不同的角度为传统问题提供了有效的解决方案。

结论

在本综述中,我们对图嵌入中的文献进行了全面的回顾。 我们为图嵌入问题提供了一个正式的定义,并介绍了一些基本概念。 更重要的是,我们提出了两种图嵌入分类法,分别基于问题设定和嵌入技术对现有工作进行分类。 在问题设定分类中,我们介绍了四种嵌入输入和四种嵌入输出,并总结了每种设定所面临的挑战。 对于嵌入技术分类法,我们介绍了每个类别的工作,并根据它们的优缺点进行比较。 之后,我们总结了图嵌入的应用。 最后,在计算效率,问题设定,技术和应用场景方面,我们建议了图嵌入领域的四个有希望的未来研究方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/389645.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

聊聊自动化测试框架

无论是在自动化测试实践&#xff0c;还是日常交流中&#xff0c;经常听到一个词&#xff1a;框架。之前学习自动化测试的过程中&#xff0c;一直对“框架”这个词知其然不知其所以然。 最近看了很多自动化相关的资料&#xff0c;加上自己的一些实践&#xff0c;算是对“框架”有…

移动磁盘文件或目录损坏且无法读取资料如何找回

文件或目录损坏且无法读取说明这个盘的文件系统结构损坏了。在平时如果数据不重要&#xff0c;那么可以直接格式化就能用了。但是有的时候里面的数据很重要&#xff0c;那么就必须先恢复出数据再格式化。具体恢复方法可以看正文了解&#xff08;不格式化的恢复方法&#xff09;…

python 平滑时间序列_时间序列平滑以实现更好的聚类

python 平滑时间序列In time series analysis, the presence of dirty and messy data can alter our reasonings and conclusions. This is true, especially in this domain, because the temporal dependency plays a crucial role when dealing with temporal sequences.在…

帮助学生改善学习方法_学生应该如何花费时间改善自己的幸福

帮助学生改善学习方法There have been numerous studies looking into the relationship between sleep, exercise, leisure, studying and happiness. The results were often quite like how we expected, though there have been debates about the relationship between sl…

Spring Boot 静态资源访问原理解析

一、前言 springboot配置静态资源方式是多种多样&#xff0c;接下来我会介绍其中几种方式&#xff0c;并解析一下其中的原理。 二、使用properties属性进行配置 应该说 spring.mvc.static-path-pattern 和 spring.resources.static-locations这两属性是成对使用的&#xff0c;如…

深挖“窄带高清”的实现原理

过去几年&#xff0c;又拍云一直在点播、直播等视频应用方面潜心钻研&#xff0c;取得了不俗的成果。我们结合点播、直播、短视频等业务中的用户场景&#xff0c;推出了“省带宽、压成本”系列文章&#xff0c;从编码技术、网络架构等角度出发&#xff0c;结合又拍云的产品成果…

Redis 服务安装

下载 客户端可视化工具: RedisDesktopManager redis官网下载: http://redis.io/download windos服务安装 windows服务安装/卸载下载文件并解压使用 管理员身份 运行命令行并且切换到解压目录执行 redis-service --service-install windowsR 打开运行窗口, 输入 services.msc 查…

熊猫数据集_对熊猫数据框使用逻辑比较

熊猫数据集P (tPYTHON) Logical comparisons are used everywhere.逻辑比较随处可见 。 The Pandas library gives you a lot of different ways that you can compare a DataFrame or Series to other Pandas objects, lists, scalar values, and more. The traditional comp…

决策树之前要不要处理缺失值_不要使用这样的决策树

决策树之前要不要处理缺失值As one of the most popular classic machine learning algorithm, the Decision Tree is much more intuitive than the others for its explainability. In one of my previous article, I have introduced the basic idea and mechanism of a Dec…

gl3520 gl3510_带有gl gl本机的跨平台地理空间可视化

gl3520 gl3510Editor’s note: Today’s post is by Ib Green, CTO, and Ilija Puaca, Founding Engineer, both at Unfolded, an “open core” company that builds products and services on the open source deck.gl / vis.gl technology stack, and is also a major contr…

uiautomator +python 安卓UI自动化尝试

使用方法基本说明&#xff1a;https://www.cnblogs.com/mliangchen/p/5114149.html&#xff0c;https://blog.csdn.net/Eugene_3972/article/details/76629066 环境准备&#xff1a;https://www.cnblogs.com/keeptheminutes/p/7083816.html 简单实例 1.自动化安装与卸载 &#…

power bi中的切片器_在Power Bi中显示选定的切片器

power bi中的切片器Just recently, while presenting my session: “Magnificent 7 — Simple tricks to boost your Power BI Development” at the New Stars of Data conference, one of the questions I’ve received was:就在最近&#xff0c;在“新数据之星”会议上介绍我…

5939. 半径为 k 的子数组平均值

5939. 半径为 k 的子数组平均值 给你一个下标从 0 开始的数组 nums &#xff0c;数组中有 n 个整数&#xff0c;另给你一个整数 k 。 半径为 k 的子数组平均值 是指&#xff1a;nums 中一个以下标 i 为 中心 且 半径 为 k 的子数组中所有元素的平均值&#xff0c;即下标在 i …

数据库逻辑删除的sql语句_通过数据库的眼睛查询sql的逻辑流程

数据库逻辑删除的sql语句Structured Query Language (SQL) is famously known as the romance language of data. Even thinking of extracting the single correct answer from terabytes of relational data seems a little overwhelming. So understanding the logical flow…

数据挖掘流程_数据流挖掘

数据挖掘流程1-简介 (1- Introduction) The fact that the pace of technological change is at its peak, Silicon Valley is also introducing new challenges that need to be tackled via new and efficient ways. Continuous research is being carried out to improve th…

北门外的小吃街才是我的大学食堂

学校北门外的那些小吃摊&#xff0c;陪我度过了漫长的大学四年。 细数下来&#xff0c;我最怀念的是…… &#xff08;1&#xff09;烤鸡翅 吸引指数&#xff1a;★★★★★ 必杀技&#xff1a;酥流油 烤鸡翅有蜂蜜味、香辣味、孜然味……最爱店家独创的秘制鸡翅。鸡翅的外皮被…

[LeetCode]最长公共前缀(Longest Common Prefix)

题目描述 编写一个函数来查找字符串数组中的最长公共前缀。如果不存在公共前缀&#xff0c;返回空字符串 ""。 示例 1:输入: ["flower","flow","flight"]输出: "fl"示例 2:输入: ["dog","racecar",&quo…

spark的流失计算模型_使用spark对sparkify的流失预测

spark的流失计算模型Churn prediction, namely predicting clients who might want to turn down the service, is one of the most common business applications of machine learning. It is especially important for those companies providing streaming services. In thi…

区块链开发公司谈区块链与大数据的关系

在过去的两千多年的时间长河中&#xff0c;数字一直指引着我们去探索很多未知的科学世界。到目前为止&#xff0c;随着网络和信息技术的发展&#xff0c;一切与人类活动相关的活动&#xff0c;都直接或者间接的连入了互联网之中&#xff0c;一个全新的数字化的世界展现在我们的…

Jupyter Notebook的15个技巧和窍门,可简化您的编码体验

Jupyter Notebook is a browser bases REPL (read eval print loop) built on IPython and other open-source libraries, it allows us to run interactive python code on the browser.Jupyter Notebook是基于IPL和其他开源库构建的基于REPL(读取评估打印循环)的浏览器&#…