论文浅尝 - KDD2020 | 真实世界超图的结构模式和生成模型

论文笔记整理:毕祯,浙江大学硕士,研究方向:知识图谱、自然语言处理。



链接:https://arxiv.org/abs/2006.07060


动机

图已被用作对人或物体之间的成对关系建模的强大工具。而超图是更广泛概念的一种特殊类型,其中每个超边可以由任意数量的节点组成,而不是仅由两个组成。大量的现实世界数据集都是这种形式的。比如电子邮件的收件人列表,参与讨论主题的用户或在线问题中标记的主题标签等。由于这些情况表示形式复杂且缺少适当的工具,因此在研究中很少会去关注探索这些问题的建模与算法。

本篇论文根据经验研究了多个跨领域的真实世界超图数据集。为了进行深入研究,引入了多级分解方法,该方法通过一组成对图表示每个超图。每个成对图(称为k级分解图)捕获了k个节点的子集对之间的交互。通过经验的总结,在每个分解级别,所研究的超图都遵循五个结构特性或者指标。这些属性用作评估超图的逼真度的标准,并为超图生成问题奠定基础。文章最后提出了一种超图生成器,采取了非常简单的思路,但是能够满足这些评估指标。与此相比的是其他对比模型则很难达到同样的效果。

背景

图1 超图的例子

超图是图的一般化,其中边可以连接任意数量的顶点。相反在普通图中,一条边正好连接两个顶点。在图1中,假设顶点代表文章,每条边代表两个顶点享有同一个作者。如果使用简单的图结构来表示,就会丢失“同一作者发表多篇文章”这样集合的信息。实际生活中存在着大量类似的图结构,而超图是相对合适的表示方法。

多级分解方法

定义:

其中:

图2 超图的多级分解

利用分解图具有几个优点:

(1)子集交互:分解后的图揭示了节点子集之间的子集交互。

(2)成对图表示:分解后的图可以使用成对图的现有度量进行分析。

(3)没有信息丢失:原始的超图可以从分解后的图中恢复。

观测指标

论文证明了下列的结构模式在真实超图的分解图的每个级别中均有效。

(P1)Giant connected component:巨型连接分量

此属性意味着存在一个包含大量节点的连接分量,并且该比例显着大于第二大连接分量(至少大70倍)。网络中的大多数节点都相互连接。此属性用作其他属性的基础。

(P2)Heavy-tailed degree distribution:重尾度分布

      节点的度数定义为其邻居数。此属性意味着度分布是重尾的,即以比指数分布慢的速率衰减。这可以用“rich gets richer”来部分解释:高级节点更有可能形成新的链接。

(P3)Small effective diameter:有效直径小

      分解的图通常不完全连接,论文采用的定义,其中有效直径是最小距离d,使得所有连接对中的大约90%可以通过最长d的路径到达。此属性意味着实际数据集中的有效直径相对较小,并且大多数连接对可以以较小的距离到达。需要注意的是,空模型也具有此特征,并且在这方面比较实际数据集和相应的空模型不会产生一致的结果。

(P4)High clustering coefficient:高聚类系数

      利用聚类系数C,定义为所有节点的局部聚类系数的平均值。每个节点v的局部聚类系数Cv定义为:

此属性意味着实际数据集中的统计量明显大于相应的空模型中的统计量。由于邻居结构产生大量三角形,因此此属性表示网络中存在许多邻居结构。

(P5)Skewed singular values:偏斜奇异值

      此属性意味着奇异值分布通常是重尾分布,并且以与模式P2相同的方式进行验证。

HpyerPA生成器

生成器HyperPA反复向超图引入新节点,并形成新的超边缘。添加节点后,HyperPA会创建k个新的超边缘,其中从预定分布NP中采样了k个。对于此新节点引入的每个新超边缘,其大小s是从预定分布S中采样的。当选择其他节点填充此新超边缘时,它将考虑包含s-1个节点的所有组。在所有此类群体中,每个群体被选中的机会与其程度成正比。每个组的程度定义为包含该组的超边缘的数量。

评测方法

(P1)如果在该级别的分解图生成的超图保留一个巨大的连通分量,给出1分。

(P2)生成的度分布与实际分布之间的相似性由Kolmogorov-Smirnov D统计量度,其中F,F'是累积度分布 相应的实图和生成的分解图。对D统计量小于0.2的生成器给予1分。

(P3)我们希望生成的有效直径d'接近实际值d。由于P3为“有效直径较小”,因此d'不应太大。论文采用验收范围为(2d/3,4d/3)的启发式方法。如果d在接受范围内,则给出1分。

(P4)论文将接受范围试探为(2c/3, min(4c/3, 1)),如果c′在接受范围内,则给出1分。

(P5)与P2相似,真实数据集和生成的数据集的奇异值分布之间的相似性由Kolmogorov-Smirnov D统计量度。对D统计量小于0.2的生成器给予1分。

实验结果及结论

生成器的结果在表中进行了数字比较。HyperPA,NaivePA和子集采样这两个表的总分分别为64、49和57。其中论文提出的模型HyperPA得分最高。如果不考虑子集交互,变量S、NP和n不足以重现pattern,因为即使使用S、NP和n,NaivePA和子集采样也无法做到。

论文工作的贡献是三方面的:

多级分解:首先提出多级分解作为研究超图的有效手段。多级分解有几个好处:(1)它捕获超图内的组交互;(2)其图形表示为利用现有工具提供了便利;(3)它代表了原始超图而没有信息丢失。

实际超图中的模式(pattern):论文介绍在13个现实世界超图中持有的一组常见模式。具体来说在不同的分解级别是巨型连通分量、重尾度分布、小有效直径、高聚类系数和偏斜奇异点的价值分布。

有效仿真的超图生成器:最后引入HyperPA,这是一种超图生成器,它很简单,但是能够在不同分解级别上再现真实世界超图的模式。通过保持超图中节点的子集交互的连通性,HyperPA在重现模式方面表现出比其他基准模型更好的性能。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478869.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 1122. 数组的相对排序

1. 题目 给你两个数组,arr1 和 arr2, arr2 中的元素各不相同 arr2 中的每个元素都出现在 arr1 中 对 arr1 中的元素进行排序,使 arr1 中项的相对顺序和 arr2 中的相对顺序相同。未在 arr2 中出现过的元素需要按照升序放在 arr1 的末尾。 示…

老板让我用少量样本 finetune 模型,我还有救吗?急急急,在线等!

文 | ????????????????编 | 王苏今天介绍的是一篇 NAACL21 新鲜出炉的工作!NAACL 上周四出的结果,这篇工作本周一上传 arxiv,周二被王苏小哥哥发现,周三拜读了一下,今天就来和大家分享啦!&…

如何基于深度学习实现图像的智能审核?

背景 美团每天有百万级的图片产生量,运营人员负责相关图片的内容审核,对涉及法律风险及不符合平台规定的图片进行删除操作。由于图片数量巨大,人工审核耗时耗力且审核能力有限。另外对于不同审核人员来讲,审核标准难以统一且实时变…

论文浅尝 - WSDM2020 | QAnswer KG: 基于RDF数据设计一个可移植问答系统

论文笔记整理:谭亦鸣,东南大学博士。来源:WSDM 2020链接:https://link.springer.com/chapter/10.1007/978-3-030-49461-2_251.介绍知识图谱问答(KGQA)系统的目标是:基于自然语言问题,从RDF数据集中抽取对应…

LeetCode 868. 二进制间距(位运算)

1. 解题 给定一个正整数 N,找到并返回 N 的二进制表示中两个连续的 1 之间的最长距离。 如果没有两个连续的 1,返回 0 。 输入:22 输出:2 解释: 22 的二进制是 0b10110 。 在 22 的二进制表示中,有三个 …

Kotlin代码检查在美团的探索与实践

背景 Kotlin有着诸多的特性,比如空指针安全、方法扩展、支持函数式编程、丰富的语法糖等。这些特性使得Kotlin的代码比Java简洁优雅许多,提高了代码的可读性和可维护性,节省了开发时间,提高了开发效率。这也是我们团队转向Kotlin的…

推荐几个出论文的好方向!

如果你准备发AI方向的论文,或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐,贪心学院《机器学习高阶训练营》,目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解,四个模块…

开源开放 | 疾病科室、心血管系统疾病知识图谱发布,助力电子病历系统建设...

本文转载自公众号:OMAHA联盟。 资源发布OMAHA已建立“七巧板”医学术语集、“汇知”医学知识图谱、HiTA ICD编码服务、白皮书等资源,将于每月发布其中的一项或多项资源,敬请关注!2009年,《中共中央国务院关于深化医药…

Android官方开发文档Training系列课程中文版:布局性能优化之布局层级优化

原文地址:http://android.xsoftlab.net/training/improving-layouts/index.html 引言 布局是直接影响用户体验的关键部分。如果实现的不好,那么布局很有可能会导致内存的紧张。Android的SDK包含的一些工具可以用来检查布局性能上的问题。结合本章的课程…

LeetCode 389. 找不同(位运算)

1. 题目 给定两个字符串 s 和 t,它们只包含小写字母。 字符串 t 由字符串 s 随机重排,然后在随机位置添加一个字母。 请找出在 t 中被添加的字母。 2. 解题 2.1 土办法,哈希map class Solution { public:char findTheDifference(string …

UAS-点评侧用户行为检索系统

背景 随着整个中国互联网下半场的到来,用户红利所剩无几,原来粗放式的发展模式已经行不通,企业的发展越来越趋向于精耕细作。美团的价值观提倡以客户为中心,面对海量的用户行为数据,如何利用好这些数据,并通…

面试官如何判断面试者的机器学习水平?

文 | 陈然知乎本文已获作者授权,禁止二次转载记得这大概是个三年前的问题,每年都会有新的答案让我持续学习。三年多前我作为最早的机器学习工程师之一加入 Tubi,从零开始设计招聘题目和流程,搭建团队,陆陆续续也面试了…

论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理:李爽,天津大学。链接:https://arxiv.org/pdf/2001.03615v1.pdf动机随着“自下而上”注意力的普及,基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征,成为视觉和语言任务的事实标准。…

:批量制作档案表,要从excel表格中将每个人的数据导入到docx档案

https://www.pythonf.cn/read/149081 Python自动将Excel数据填充到word的指定位置,Word,中 具体代码如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- from docxtpl import DocxTemplate from openpyxl import load_workbook import osdef replace(obj):if o…

LeetCode 1078. Bigram 分词

1. 题目 给出第一个词 first 和第二个词 second,考虑在某些文本 text 中可能以 “first second third” 形式出现的情况,其中 second 紧随 first 出现,third 紧随 second 出现。 对于每种这样的情况,将第三个词 “third” 添加到…

深度学习在OCR中的应用

背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类、目…

千呼万唤始出来——GPT-3终于开源!

文 | 小戏编 | 小轶GPT3终于开源!不过,不是官方开的(别打我Eleuther AI推出的名为GPT-Neo的开源项目,于今晨4点于twitter正式宣布:已经开源了复现版GPT-3的模型参数(1.3B和2.7B级别)&#xff0c…

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理:潘锐,天津大学硕士。来源:AAAI 2020链接:https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库(KBs)是一种包含义原标注词汇的知识库,它已成…

美团外卖iOS多端复用的推动、支撑与思考

前言 美团外卖2013年11月开始起步,随后高速发展,不断刷新多项行业记录。截止至2018年5月19日,日订单量峰值已超过2000万,是全球规模最大的外卖平台。业务的快速发展对技术支撑提出了更高的要求。为线上用户提供高稳定的服务体验&a…

论文浅尝 - WWW2020 | 从自然语言交互中提取开放意图

论文笔记整理:娄东方,浙江大学博士后,研究方向为事件抽取。Vedula N, Lipka N, Maneriker P, et al. Open Intent Extraction from Natural Language Interactions[C]//Proceedings of The Web Conference 2020. 2020: 2009-2020.来源&#x…