论文阅读 - VGAER: Graph Neural Network Reconstruction based Community Detection

https://arxiv.org/pdf/2201.04066.pdf

        社群检测是网络科学中一个基础而重要的问题,但基于图神经网络的社群检测算法为数不多,其中无监督算法几乎是空白。

        本文通过将高阶模块化信息与网络特征融合,首次提出了基于变异图自动编码器重构的社群检测 VGAER,并给出了其非概率版本。它们不需要任何先验信息。

        我们根据社群检测任务精心设计了相应的输入特征、解码器和下游任务,这些设计简洁、自然、性能良好(在我们的设计下,NMI 值提高了 59.1% - 56.59%)。

        基于广泛的数据集和先进方法的一系列实验,VGAER 取得了优异的性能,并以更简单的设计显示出强大的竞争力和潜力。最后,我们报告了算法收敛性分析和 t-SNE 可视化结果,这些结果清晰地描述了 VGAER 的稳定性能和强大的网络模块化能力。我们的代码见 https://github.com/qcydm/VGAER。

Introduction

        作为描绘现实世界最重要的物理工具之一,网络数据如今正逐渐向大规模、复杂化和模块化方向发展。例如,社交平台网络(Wang 等人,2015 年)、基因工程中的蛋白质相互作用网络(Pizzuti 和 Rombo,2014 年)、交通网络(Von Ferber 等人,2009 年)等。不仅节点之间存在复杂的相互作用,网络还会因为这种相互作用和节点的贡献而形成不同的群落。从拓扑学角度看,群落可以理解为内部节点连接相对紧密,外部节点连接相对稀疏。识别这种局部结构对于理解复杂系统和发现知识至关重要(Krishnamurthy 和 Wang,2000 年)。

        上述任务就是社区检测。关于社群检测的研究有很多。特别是近年来随着图神经网络的发展,2019年首次提出了基于图神经网络的社区检测方法(Chen、Li和Bruna,2017)(Shchur和G¨unnemann,2019),包括超视图方法:基于非回溯理论(Chen、Li和Bruna,2017)、基于马尔可夫随机场(Jin等,2019)和已知的无监督方法:基于复杂回归重构的方法GUCD(2020)(He等,2021a),以及基于负样本对比学习和自表达性的SE21a。2019)以及已知的无监督方法:基于复杂回归重构的方法 GUCD(2020) (He 等人,2021a)和基于负样本对比学习和自我表达的 SEComm(2021) (Bandyopadhyay 和 Peter,2021)。然而,大数据系统网络社区的先验信息(如标签)有时很稀缺,这也给上述半监督方法和几乎罕见的无监督方法带来了巨大挑战。因此,为这一领域提出更好的无监督方法就显得尤为重要。

        另一方面,经过大量全面的文献调查,我们发现目前所有的图神经网络群落检测(Chen, Li, and Bruna 2017)(Shchur and G¨unnemann 2019)(Jin et al. 2019) (He et al. 2021a),甚至所有聚类方法,如 MGAE (Wang et al. 2017)、ARGA (Pan et al. 2018)、AGC (Zhang et al. 2019)、SDCN (Bo et al. 2020) 和 AGE (Cui et al. 2020) 等。这些方法只注重保留网络结构和节点特征(A + X),以及不同正则化方法或模型设计为网络嵌入带来的聚类增益; 与以往方法根本不同的是,我们首次在基于图神经网络的社群检测中提出了一种基于模块化和网络结构(B + A + X)的无监督联合优化方法 VGAER,该方法具有严格的模块化理论基础,更适合社群检测,网络结构(A)被隐式捕获(通过消息传递阶段),无需显式重构。

        我们还注意到,Yang 在 2016 年利用这一模块化理论提出了一种基于自动编码器的非线性重构方法(记为 DNR)(Yang et al. 2016)。2018 年之后,在这项工作的基础上,又有人提出了多种整合不同网络特征的自动编码器重构方法(Cao et al. 2018)(Bha- tia and Rani 2018)(Cao, Jin, and Dang 2018)。然而,这些方法往往需要额外的操作,而且捕捉网络特征的能力有限,因此当针对未知群落结构的网络时,这种 DNR 方法的 Q 值非常低。我们将在第 4 节中演示这一现象。总之,与这些基于自动编码器的群落检测方法相比,我们的 VGAER 不仅具有更好的性能,而且还扩展到了基于自动编码器的方法尚未覆盖的变分模型中。

        最后,我们横向比较了 VGAER 和先进的基于无监督 GNN 重构的 GUCD(He et al. 2021a)的检测效果,充分显示了 VGAER 即使与最先进、最复杂的方法相比也具有很强的竞争力,以及进一步发展的潜力(如更复杂的架构和设计)。我们的创新贡献和见解如下:

        本文提出了一种基于图变分推理的全新社群检测方法,并给出了更精确的非概率版本。并在广泛的数据集和参数算法上获得了卓越的性能改进。

        - 首次提出了基于模块化和网络结构的联合优化框架。VGAER 性能的提高得益于我们模型的非线性模块化重构和邻域拉普拉斯平滑,这可以部分缓解单一模块化最大化导致的极端退化问题(Good、De Montjoye 和 Clauset,2010 年)和恢复限制(Fortunato 和 Barthelemy,2007 年)。

        - VGAER 不仅能处理群落检测任务,还具有强大的生成能力,这意味着 VGAER 还能在不同前提下根据所学分布灵活生成嵌入。我们期待 VGAER 未来能在社区节点预测、社区嵌入、个人隐私保护等方面发挥作用。我们将在附录中为这些机会描绘更广阔的图景。

Methodology

The model

        考虑一个图 G(V,E),我们可以根据公式 2 得出模块化矩阵 B。如果 G 有节点特征 X,那么

         作为一个深度生成模型,我们首先为 VGAER 设计了一个推理模型:

         其中 q (zi | B, A) 是基于高斯族的节点 i 真实后验分布的变分近似值:

         然后,我们使用两个图神经网络 µ = GCNµ(B, A) 和 log σ = GCNσ (B, A) 作为编码器来确定节点 i 的均值向量 µ 和标准偏差向量 σ:

         其中,W0 和 W1 分别代表第一层和第二层的权重矩阵。W0 由 GCNσ 和 GCNµ 共享。 是对称重规范化邻接矩阵。tanh 是激活函数。我们必须指出使用 tanh 重新设置 ReLU 的必要性,因为模块化矩阵 B 包含大量 0 元素,如果使用 ReLU,梯度将无法有效更新。

        我们还可以堆叠多个编码器,让 VGAER 完全学习平均值和标准偏差向量真实分布,从而提高其准确性。这只需要前一个编码器的输出作为下一个编码器的输入。

        在深度生成阶段,我们特别设计了一个基于交叉熵的点积解码器来重建模态分布。考虑 p(Bij | zi, zj ) 的条件分布,其中 Bij 是重构条目,zi 来自重参数化技巧。我们将 p(Bij | zi, zj ) 离散化为两部分:p(Bij = bij | zi, zj ) 和 p(Bij != bij | zi, zj ) 。同时,利用类似于 VGAE 的重新加权技术(Kipf 和 Welling,2016 年),我们用 σ(bij ) 和 (1-σ(bij )) 对这两部分重新加权:

         其中, 是一个 sigmoid 函数,与下式相同。理解公式 14 后,重新加权项的含义会更加清晰。p(B | Z) 的计算公式如下

 Optimization

        我们首先给出由最大化目标函数导出的变分下界 L(φ, θ) 如下:

         其中,B 是 G 的模块化集,(φ, θ) ∈ {W0, W1, W2} 是参数空间,并取高斯先验P(Z) =  。那么优化任务就是

         变分下界包含两个项。前一项是重建损失,后一项是衡量两个分布相似度的 KL 指数。现在我们考虑之前的具体形式如下

将公式 9 代入对数项,即可得到

         我们也可以从交叉熵的角度来理解上述公式。式 (14) 构造了条目 bij 的真实分布 σ(bij ) 与点乘重建分布 之间的负交叉熵。最大化这个项等同于最小化两个分布之间的差异,即最小化重建损失。

Non-probabilistic version

        我们还给出了一种非概率群落检测模型 GAER,只使用一个 GCN 作为编码器:

 下游任务是

         这个损失函数在实验中表现良好。至于优化,我们建议在快速群落检测任务中使用相应的 F-norm 损失,它使用两个矩阵之间的欧氏距离,δ = {W0, W1} 是参数空间。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/202020.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手写深拷贝

手写深拷贝 前言: 需要先了解 JS 的数据类型 一、浅拷贝、深拷贝区别 浅拷贝会创建一个新的对象,新对象有着与原始对象相同的属性值,如果 属性是基本类型,拷贝的就是基本类型的值属性是引用类型,拷贝的就是内存地址&#xff0…

算法——二分查找

二分算法简介&#xff1a; 二分查找算法只适用于数组有序的情况&#xff1f;&#xff08;只要数组中存在某种规律就可以用&#xff09;模版&#xff1a; 朴素的二分模版查找左边界的二分模版查找右边界的二分模版 朴素二分模版 while(left < right){int mid left (right-l…

Qt之QGraphicsView —— 笔记1:绘制简单图元(附完整源码)

效果 相关类介绍 QGraphicsView类提供了一个小部件,用于显示QGraphicsScene的内容。QGraphicsView在可滚动视口中可视化。QGraphicsView将滚动其视口,以确保该点在视图中居中。 QGraphicsScene类 提供了一个用于管理大量二维图形项的场景。请注意,QGraphicsScene没有自己的视…

【Openstack Train】十六、swift安装

OpenStack Swift是一个分布式对象存储系统&#xff0c;它可以为大规模的数据存储提供高可用性、可扩展性和数据安全性。Swift是OpenStack的一个核心组件&#xff0c;它允许用户将大量的数据存储在云上&#xff0c;并且可以随时访问、检索和管理这些数据。 Swift的设计目标是为了…

Meta开源最大多模态视频数据集—Ego-Exo4D

社交、科技巨头Meta联合15所大学的研究机构&#xff0c;经过两年多的努力发布了首个多模态视频训练数据集和基础套件Ego-Exo4D&#xff0c;用于训练和研究AI大模型。 据悉&#xff0c;该数据集收集了来自13个城市839名参与者的视频,总时长超过1400小时,包含舞蹈、足球、篮球、…

网络通信的流程,浏览器地址?

1.没有交换机的通信 在一个机房内,有两台电脑相互需要通信 假设现在有三台电脑: 随着电脑的增加,线的数量也在增加,因此显得很臃肿&#xff0c;次数交换机诞生&#xff0c;很好的解决了这一方面&#xff0c; 交换机不需要进行多条线的连接: 通过给设备分配,ip地址来实现局域网…

掌握终端,尽在ZOC for Mac – 最强大的终端仿真器!

在数字时代&#xff0c;终端仿真器是专业人士和开发者必备的工具之一。而ZOC for Mac将为您提供无与伦比的终端体验&#xff0c;助力您更轻松地管理远程连接、维护服务器和进行编程任务。 ZOC for Mac的卓越功能&#xff1a; 多协议支持&#xff1a;ZOC支持Telnet、SSH、SSH2、…

个人测试面试问题总结

&#x1f4d1;打牌 &#xff1a; da pai ge的个人主页 &#x1f324;️个人专栏 &#xff1a; da pai ge的博客专栏 ☁️宝剑锋从磨砺出&#xff0c;梅花香自苦寒来 &#x1f4d1;设计软件测试用例的方…

如何选择一款安全可靠的跨网安全数据交换系统?

随着网络和数据安全的重视程度增加&#xff0c;为了有效地保护内部的核心数据资产&#xff0c;普遍会采用内外网隔离的策略。像国内的政府机构、金融、能源电力、航空航天、医院等关乎国计民生的行业和领域均已进行了网络的隔离&#xff0c;将内部划分成不同的网段&#xff0c;…

体育场找座位 - 华为OD统一考试(C卷)

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 100分 题目描述 在一个大型体育场内举办了一场大型活动&#xff0c;由于疫情防控的需要&#xff0c;要求每位观众的必须间隔至少一个空位才允许落座。现在给出一排观众座位分布图&#xff0c;座位中存在已落座的观众&…

速达软件全系产品任意文件上传漏洞

声明 本文仅用于技术交流&#xff0c;请勿用于非法用途 由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者本人负责&#xff0c;文章作者不为此承担任何责任。 1. 速达软件产品简介 速达软件专注中小企业管理软件,产品涵盖进销存软…

智能监控/安防监控视频平台EasyCVR下级更新目录表出现离线情况的两种解决方案

GB28181安防视频监控/视频集中存储/云存储/磁盘阵列EasyCVR平台可拓展性强、视频能力灵活、部署轻快&#xff0c;可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等&#xff0c;以及支持厂家私有协议与SDK接入&#xff0c;包括海康Ehome、海大宇等设备的SDK等。平台既具备…

DataGrip连接虚拟机上Docker部署的Mysql出错解决

1.1 首先判断CentOS的防火墙&#xff0c;如果开启就关闭 //查看防火墙状态 systemctl status firewalld //关闭防火墙systemctl stop firewalld.service//关闭防火墙开机自启systemctl disable firewalld.service而后可以打开DataGrip连接了&#xff0c;如果连接不上执行如下…

vue项目中添加刷新的按钮

刷新功能 点击导航的刷新按钮&#xff0c;刷新下方主体内容&#xff0c;我这边的项目分为左-上-下结构&#xff0c;上边为tabbar组件&#xff0c;下边为main组件&#xff0c;点击刷新整个流程是刷新按钮&#xff0c;去访问它父组件tabbar的兄弟组件main&#xff0c;使main组件…

从零开始学习 JS APL(七):实例解析关于京东案例头部案例和放大镜效果!!

大家好关于JS APl 知识点已经全部总结了&#xff0c;第七部部分全部都是案例部分呢&#xff01;&#xff01;&#xff08;素材的可以去百度网盘去下载&#xff01;&#xff01;&#xff01;&#xff09; 目录 前言 一、个人实战文档 放大镜效果 思路分析&#xff1a; 关于其它…

新手管理者有哪些需要学习的内容?

作为新手管理者&#xff0c;需要学习的内容非常多。以下是一些重要的学习内容&#xff1a; 1. 领导力和管理技能&#xff1a;作为管理者&#xff0c;首先要学习如何有效地领导和管理团队。这包括学习如何激励员工、制定目标和计划、分配任务、解决冲突等。管理者需要具备良好的…

亚马逊云科技re:Invent大会:RAG技术赋能企业AI应用的新纪元

在最新一届re:Invent大会中&#xff0c;亚马逊云科技的数据和人工智能副总裁Swami Sivasubramanian博士提出了一系列AI产品&#xff0c;其中RAG技术成为了企业构建生成式AI应用的重要选择。这种技术的实质是将向量数据库与大语言模型相结合&#xff0c;赋予大模型记忆的能力&am…

LangChain的函数,工具和代理(五):Tools Routing

关于langchain的函数、工具、代理系列的博客我之前已经写了四篇&#xff0c;还没有看过的朋友请先看一下&#xff0c;这样便于对后续博客内容的理解&#xff1a; LangChain的函数&#xff0c;工具和代理(一)&#xff1a;OpenAI的函数调用 LangChain的函数&#xff0c;工具和代…

2023最全的Web自动化测试介绍(建议收藏)

做测试的同学们都了解&#xff0c;做Web自动化&#xff0c;我们主要用Selenium或者是QTP。 有的人可能就会说&#xff0c;我没这个Java基础&#xff0c;没有Selenium基础&#xff0c;能行吗&#xff1f;测试虽然属于计算机行业&#xff0c;但其实并不需要太深入的编程知识&…

C++模板初阶

文章目录 泛型编程函数模板格式模板调用的是同一个函数吗&#xff1f;模板的实现原理T不明确模板实例化的函数和普通函数 类模板类模板写法类模板用法 注意事项 泛型编程 假如我们要写一个两数交换的函数&#xff0c;按我们之前学的知识&#xff0c;我们会这样。 void Swap(i…