NeurIPS 2023 | RGIB:对抗双边图噪声的鲁棒图学习

▐ 摘要

链接预测[1,2]是图学习的一种基础任务,用于判断图中的两个节点是否可能相连,被广泛应用于药物发现、知识图谱补全和在线问答等实际场景。尽管图神经网络(Graph Neural Network,GNN)在该问题的性能上取得了显著进步,但在图结构噪声下的差强人意的鲁棒性仍是当前深度图模型的实际瓶颈。

在鲁棒图学习方面,早期工作探索了通过邻近节点的平滑效果来提高GNN在节点标签噪声下的鲁棒性,其他方法通过随机移除边或主动选择有信息量的节点或边来达到类似的效果。然而,当将这些抗噪声方法应用于带有噪声的链接预测时,只能取得非常有限的增益。其原因在于,不同于标签噪声,这里的图结构噪声是双向的:它会自然地同时扰动输入图的拓扑结构和输出端目标边的标签,即同时存在noisy inputs和noisy labels(如下图1所示),且这种双向噪声在现实世界的图数据中是常见的[3],如点击率预测、商品推荐等场景。

于是,我们提出一个新的挑战:如何处理双边噪声以实现鲁棒的链接预测?

206b48e20aeb12e92475cd2a2e663dfe.png
图1. 双边图噪声下的链接预测问题.

首先,我们进行了一个实证研究,揭示了图结构噪声如何双向干扰输入拓扑结构和目标标签,导致性能严重下降和表征坍缩。为此,我们提出了一个信息论指导原则,即鲁棒图信息瓶颈(Robust Graph Information Bottleneck,RGIB),以提取可靠的监督信号并避免表征坍缩。与基本的信息瓶颈GIB[4,5]不同的是,RGIB进一步解耦并平衡了图拓扑、图标签和图表征之间的相互依赖性,为抵抗双边噪声的鲁棒表征构建了新的学习目标。此外,我们探索了两种实例,RGIB-SSL和RGIB-REP,利用自监督学习和数据重参数化方法的优势,分别进行隐式和显式的去噪学习。

35f2bce18901052731d8af0b2656f223.png
图2. 基本GIB和本文提出的RGIB (其中A是图结构,Y是边标签,H是图表征,I为互信息).

简言之,在本项工作中:

  • 我们发现双边噪声会导致严重的表征坍缩和性能下降,并且这种负面影响对常见数据集和图神经网络来说是普遍存在的。据我们所知,我们是最早研究在双边噪声下链接预测鲁棒性问题的。

  • 我们提出了一个通用学习框架RGIB,设计了新的表征学习目标以提高图神经网络的鲁棒性。我们基于不同的方法论提出了两种实现方式,即RGIB-SSL和RGIB-REP,并提出了适应性的设计和理论的分析。

  • RGIB在不修改GNN架构的情况下,在3种常用GNN和6个常见数据集上达到了最有效果,各种噪声场景下的AUC提升了高达12.9%,模型学到的表征分布显著恢复,并且对双边噪声更加鲁棒。

接下来,将简要地向大家分享我们近期发表在 NeurIPS 2023 上的有关双边噪声下链接预测鲁棒性的研究结果。

本项研究结果是淘天集团阿里妈妈展示外投团队与香港浸会大学韩波老师研究团队自2022年8月开始通过阿里巴巴创新研究计划(AIR),共同参与“针对大规模在线广告的可信赖深度学习” 项目的研究工作。

论文标题: Combating Bilateral Edge Noise for Robust Link Prediction

论文下载: https://openreview.net/pdf?id=ePkLqJh5kw

代码链接: https://github.com/tmlr-group/RGIB

🔍 本期话题:如何从优化的角度来解决数据噪声呢?欢迎评论区留言讨论~

1. 问题定义

为了定量研究双边图结构噪声的影响,我们在一系列GNN基准数据集上合理地模拟不同程度的扰动,详细说明见如下定义3.1。需要注意的是,目前最常采用的数据划分方式是随机地将部分边分为观测部分和预测目标部分,因此在训练集中,噪声边会被划分到输入和标签中。

双边噪声的生成(定义3.1):假设存在一组干净的训练数据,即观察到的图,以及查询边的标签 。通过向原始邻接矩阵添加边噪声,同时保持节点特征不变,生成了噪声邻接矩阵。类似地,通过向标签添加边噪声生成了噪声标签。具体而言,给定噪声比例,噪声边 () 通过将 A 中的零元素以概率翻转为一来生成。满足和。类似地,可生成噪声标签并添加到原始标签中,其中 。

基于此定义,我们进行实验并发现,双边图结构噪声导致GNN的性能显著下降(见图4),而更大的噪声比率通常导致更严重的性能退化。这意味着,经过标准训练的GNN容易受到双边图结构噪声的影响,表现出严重的鲁棒性问题。此外,双边噪声带来的性能下降远远大于单边输入噪声或标签噪声的影响。

e41482f0b6be80397e3e448f62156dc8.png
图3. 双边噪声导致显著的性能下降.

接着,我们检查GNN学习得到的表征。从图5的uniformity分布可以看出,表征在双边噪声的作用下严重坍缩,由原本较为均匀的环状分布逐步退化成了几个单点,且更高的噪声率会导致更严重的坍缩程度,这反映了噪声对于图学习的负面影响,也是最终性能下降的重要原因。

52581645d2046e9e936db1f04d10d18f.png
图4. 双边噪声造成严重的表征坍缩.

2. 解决方案

2.1 GIB的固有缺陷

为了增强图表征的鲁棒性并避免严重的表征坍缩,我们可以利用图信息瓶颈(Graph Information Bottleneck,GIB)[4,5] 的信息约束作为图表征优化的目标,即:

其中,超参数用于限制互信息项,以避免表征过多捕获来自的与任务无关的信息。基本的GIB可以有效地防御输入扰动,然而,它在本质上容易受到标签噪声的影响,因为它完全地保留了标签噪声的监督,所以基本的GIB不能够解决双边噪声问题。

2.2 RGIB优化目标设计

在本工作中,我们尝试对GIB进行分析和改进。注意到,基本的GIB通过直接约束来降低,以处理输入噪声。同样地,标签噪声可以隐藏在中,但是简单地约束来正则化并不理想,因为它与GIB原始方程冲突,并且也无法处理内的噪声。因此,进一步解耦、和之间的依赖关系至关重要。

注意到,噪声可以存在于、和这几个区域。分析上,我们知道:

其中是一个常数,冗余可以被最小化。因此,可以近似拆解为,和,这三个信息项的平衡可以构成双边图结构噪声问题的解决方案。

基于上述分析,我们提出了RGIB(Robust Graph Information Bottleneck),一个新的表征学习目标来平衡、两方面的监督信息,即:

其中对的约束鼓励更有信息量的表征以防止坍缩(),并限制其容量()以避免过拟合。另外两个互信息项和,相互约束后验信息以减轻双边噪声对的负面影响。

需要注意的是,互信息项如通常是难以精确计算的。因此,我们基于不同的方法论,来给出两种实际的RGIB实现,即RGIB-SSL和RGIB-REP。其中,RGIB-SSL通过自监督正则化显式地优化表征,而RGIB-REP通过重参数化隐式地优化表征,详细设计如下。

2.3 RGIB实例化

b0922503721ea7454786d5a02dac2dd0.png
图5. RGIB及其实例RGIB-SSL、RGIB-REP的示意.

RGIB-SSL: 图表征在监督学习范式下已经退化,自然地,我们将其修改为自监督学习的范式,通过uniformity项鼓励表征提高信息量来缓解坍缩,并配合alignment项隐式地捕捉含噪变量之间的可靠关系(见图6b),即:

其中用于平衡一个监督和两个自监督正则化项,当时,RGIB-SSL可退化为基本的GIB。和是两个增强图和的表征。

RGIB-REP: 另一种实现方式是,通过重新参数化拓扑空间和标签空间的信息,保留干净的信息并丢弃噪声部分。为此,我们通过构建隐变量,显式地建模和的可靠性,以学习一个抗噪声的(见图6c),即:

其中,隐变量和是从含噪的和中提取的干净信号。它们的补充部分和 被视为噪声,满足和。当和时,RGIB-REP可退化为基本的GIB。此外,测量了选择样本的监督信号,其中分类器以作为输入而不是原始的,即。

更多技术细节请见正文。

3. 实验结果

我们提供了多维度的实验结果,以验证和理解所提的RGIB方法。

3.1 主要性能对比

如表1所示,RGIB在所有6个数据集上,在不同噪声比例下,都取得了最佳结果,特别是在Cora和Citeseer数据集上,与次佳方法相比,RGIB带来的AUC提升达12.9%。

36e34a26b7ee1359afaa69f41ce28c5e.png
表1. 双边噪声下实验结果展示.

表2中展示了单边噪声的实验结果。无论是针对单边输入噪声还是标签噪声,RGIB仍然超越了所有的基准方法。实验表明,双边图结构噪声可以通过统一的学习框架来建模和解决,而此前的去噪方法只能用于特定的噪声模式。

d7928de72dd0615218dba3ec8d824f02.png
表2. 单边噪声下实验结果展示.

3.2 多方面的消融实验及深入讨论

我们进一步进行了诸多消融实验,深入探讨了所提方法在不同角度下的表现。

c1f75c711c5b28a0204dd772e1074519.png
图6. RGIB能显著改善表征分布,降低坍缩程度.
879d141c134febe040d3622395ddaa68.png
表3. RGIB在不同超参schedule下的表现.
d33106ffb80f8d2867bdfbf2aab6dc0a.png
图7. RGIB的超参数搜索结果热力图.
b903161087c5887f5fa5dc08ea6f482e.png
表4. RGIB在对抗扰动下的实验结果.
b4d133529b9db131b9f9b53d8e49212e.png
表5. RGIB的消融实验.

除此以外,我们提供了更多的可视化及相关实验结果,感兴趣的读者请移步原文与附录部分。

4. 算法落地

本文提出的RGIB-SSL方法,在展示外投业务中进行了算法落地。在该业务中,商家广告被投放于全域互联网媒体流量上。本技术通过在预训练上对用户广告行为特征构图并约束RGIB,增强了对点击行为的预估鲁棒性,从而提升精排阶段点击率预估的准确性,提升投放广告的精准度与质量与在媒体流量出价上的准确度,使得大盘营收获得约5%的提升。该技术全面应用于展示外投的几乎所有媒体流量,覆盖数十家媒体、近百个流量资源位和数亿用户。

5. 总结及展望

本文研究了带有双边图结构噪声的链接预测问题,并发现在这种双边噪声下,GNN学习得到的表征严重坍缩。基于这一观察,我们引入了鲁棒图信息瓶颈原则RGIB,旨在通过解耦和平衡输入、标签和表征之间的互信息来提取可靠信号,以增强表征鲁棒性并避免坍缩。展望未来,可将RGIB拓展至节点预测(Node Classification)、整图预测(Graph Classification)即知识图谱推理(Knowledge Graph Reasoning)等任务上。此外,正交于本文研究的结构噪声(Structural Noise),图节点特征上的噪声(Feature Noise)同样值得关注。

▐ 参考文献

[1] D. Liben-Nowell and J. Kleinberg. The link-prediction problem for social networks. Journal of the American society for information science and technology, 2007.

[2] M. Zhang and Y. Chen. Link prediction based on graph neural networks. In NeurIPS, 2018.

[3] B. Wu, J. Li, C. Hou, G. Fu, Y. Bian, L. Chen, and J. Huang. Recent advances in reliable deep graph learning: Adversarial attack, inherent noise, and distribution shift. arXiv, 2022.

[4] T. Wu, H. Ren, P. Li, and J. Leskovec. Graph information bottleneck. In NeurIPS, 2020.

[5]  J. Yu, T. Xu, Y. Rong, Y. Bian, J. Huang, and R. He. Graph information bottleneck for subgraph recognition. arXiv, 2020

▐ 团队介绍

🏷 阿里妈妈展示外投团队

阿里妈妈展示外投团队是阿里妈妈核心广告技术团队之一,也是阿里妈妈业务增长最快的团队。依托于集团庞大而真实的营销场景,以AI技术驱动实现客户商品营销, 并承担集团App用户增长等业务需求。我们持续探索人工智能,联邦学习,深度学习,强化学习,知识图谱,图学习等前沿技术在外投广告和用增方面的落地应用。在创造业务价值的同时,团队近几年在ICML、NIPS、WWW、CIKM、SIGIR、KDD、NAACL等领域知名会议上发表过多篇论文。真诚欢迎对广告算法、推荐系统、NLP等方向感兴趣的同学加入我们, 一起成长!

✉️ 简历投递邮箱:alimama_tech@service.alibaba.com

// 点击↓阅读原文,了解JD详细详情

🏷 香港浸会大学可信机器学习和推理组

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成,课题组隶属于理学院计算机系。课题组专攻可信表征学习、基于因果推理的可信学习、可信基础模型等相关的算法,理论和系统设计以及在自然科学上的应用,具体研究方向和相关成果详见本组Github (https://github.com/tmlr-group)。课题组由政府科研基金以及工业界科研基金资助,如香港研究资助局杰出青年学者计划,国家自然科学基金面上项目和青年项目,以及国内外企业的科研基金。青年教授和资深研究员手把手带,GPU计算资源充足,长期招收多名博士后研究员、博士生、研究助理和研究实习生。感兴趣的同学请发送个人简历和初步研究计划到邮箱 :bhanml@comp.hkbu.edu.hk。

🔍 本期话题:如何从优化的角度来解决数据噪声呢?欢迎评论区留言讨论~

END

da206d585eb6ada99f6e9f5f5203c0ac.gif

也许你还想看

Memorization Discrepancy:利用模型动态信息发现累积性注毒攻击

CBRL:面向ROI约束竞价问题的课程引导贝叶斯强化学习框架

基于对抗梯度的探索模型及其在点击预估中的应用

一种用于在线广告自动竞价的协作竞争多智能体框架

NAACL22 & SIGIR22 | 面向 CTR 的外投广告动态创意优化实践

基于图的电商语义相关性弱监督学习框架

关注「阿里妈妈技术」,了解更多~

9b5a80dd29d121652bcbaee0b9b32eb7.gif

喜欢要“分享”,好看要“点赞”哦ღ~

↓欢迎留言参与讨论↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/162232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习的概念和类型

1、人工智能、机器学习、深度学习之间的关系 人工智能(AI)是广泛的概念,指赋予计算机智能特性。机器学习(ML)是AI的一个分支,是指通过计算机学习和改进性能。深度学习(DL)是ML的一类…

搭个网页应用,让ChatGPT帮我写SQL

大家好,我是凌览。 开门见山,我搭了一个网页应用名字叫sql-translate。访问链接挂在我的个人博客(https://linglan01.cn/about)导航栏,也可以访问https://www.linglan01.cn/c/sql-translate/直达sql-translate。 它的主要功能有:…

第95步 深度学习图像目标检测:Faster R-CNN建模

基于WIN10的64位系统演示 一、写在前面 本期开始,我们学习深度学习图像目标检测系列。 深度学习图像目标检测是计算机视觉领域的一个重要子领域,它的核心目标是利用深度学习模型来识别并定位图像中的特定目标。这些目标可以是物体、人、动物或其他可识…

Docker Swarm总结(1/3)

目录 1、swarm 理论基础 1.1 简介 1.2 节点架构 1.3 服务架构 1.4 服务部署模式 2、swarm 集群搭建 2.1 需求 ​2.2 克隆主机 2.3 启动5个docker宿主机 2.4 查看 swarm 激活状态 2.5 关闭防火墙 2.6 swarm 初始化 2.7 添加 worker 节点 2.8 添加 manager 节点 3、…

Mybatis-Plus3.0默认主键策略导致自动生成19位长度主键id的坑

码字不易,如果对您有用,求各位看官点赞关注~ 原创/朱季谦 目前的Mybatis-Plus版本是3.0,至于最新版本是否已经没有这个问题,后续再考虑研究。 某天检查一位离职同事写的代码,发现其对应表虽然设置了AUTO_INCREMENT自…

7.1 Windows驱动开发:内核监控进程与线程回调

在前面的文章中LyShark一直在重复的实现对系统底层模块的枚举,今天我们将展开一个新的话题,内核监控,我们以监控进程线程创建为例,在Win10系统中监控进程与线程可以使用微软提供给我们的两个新函数来实现,此类函数的原…

office 365企业版安装教程

1.下载所需工具(防火墙和防毒软件记得关闭) 下载链接:所需文件 2.安装激活office 1.安装 office tool plus 2.已安装过office 先进行office的移除,再进行未安装office的步骤进行 3.未安装过office 1.设置部署 按照以下来进行安…

360:流氓or保家卫国的勇士?

你曾用过360吗,这个在国内名声不好的杀毒软件,却是令国外黑客闻风丧胆的存在。 首先,在电脑病毒刚兴起的年代,杀毒软件是要收费的,当时盛行的瑞星和金山就是采用的付费模式,而就在2006年,奇虎…

C/C++通过位操作实现2个uint32_t合并为uint64_t

#include <iostream> using namespace std;int main() {uint32_t a 10;uint32_t b 600;//先将uint32_t的a转为uint64_t&#xff0c;此时a前面32位都是0&#xff0c;然后左移32位&#xff0c;此时右32位为0&#xff0c;最后加上uint32_t类型的b&#xff0c;填充右32位的…

解决Activiti5.22流程图部署在Windows上正常,但在linux上部署后出现中文变方块的问题

总结/朱季谦 楼主最近在做公司的工作流平台&#xff0c;发现一个很无语的事情&#xff0c;Activiti5.22的流程图在Windows环境上部署&#xff0c;是可以正常查看的&#xff0c;但发布到公司的Linux服务器上后&#xff0c;在上面进行流程图在线部署时&#xff0c;发现中文都变成…

2023亚太杯数学建模C题思路代码 - 我国新能源电动汽车的发展趋势

1 赛题 问题C 我国新能源电动汽车的发展趋势 新能源汽车是指以先进技术原理、新技术、新结构的非常规汽车燃料为动力来源( 非常规汽车燃料指汽油、柴油以外的燃料&#xff09;&#xff0c;将先进技术进行汽车动力控制和驱动相结 合的汽车。新能源汽车主要包括四种类型&#x…

一套开源、强大且美观的WPF UI控件库 - HandyControl

前言 今天给大家推荐一套开源、强大且美观的WPF UI控件库&#xff1a;HandyControl。 WPF介绍 WPF 是一个强大的桌面应用程序框架&#xff0c;用于构建具有丰富用户界面的 Windows 应用。它提供了灵活的布局、数据绑定、样式和模板、动画效果等功能&#xff0c;让开发者可以创…

MySQL用户与权限管理

快捷查看指令 ctrlf 进行搜索会直接定位到需要的知识点和命令讲解&#xff08;如有不正确的地方欢迎各位小伙伴在评论区提意见&#xff0c;博主会及时修改&#xff09; MySQL用户与权限管理 登录 #本地登录 mysql -uroot -p123456#远程登录 #客户端语法&#xff1a;mysql -…

聚观早报 |快手Q3营收;拼多多杀入大模型;Redmi K70E开启预约

【聚观365】11月23日消息 快手Q3营收 拼多多杀入大模型 Redmi K70E开启预约 华为nova 12系列或下周发布 亚马逊启动“AI就绪”新计划 快手Q3营收 财报显示&#xff0c;快手第三季度营收279亿元&#xff0c;同比增长20.8%&#xff1b;期内盈利21.8亿元&#xff0c;去年同期…

猫罐头多久喂一次?好用的猫罐头牌子推荐

猫爱吃猫罐头&#xff0c;包含各种美味&#xff0c;提供营养和口感。但喂猫吃罐头需技巧和耐心&#xff0c;以确保猫健康快乐成长。 作为一个从业宠物营养师7年的人&#xff0c;可以说对于猫咪的食物很有研究和猫罐头品牌选购上&#xff0c;我有自己的见解。 一、猫罐头多久喂…

40、Flink 的Apache Kafka connector(kafka source 和sink 说明及使用示例) 完整版

Flink 系列文章 1、Flink 部署、概念介绍、source、transformation、sink使用示例、四大基石介绍和示例等系列综合文章链接 13、Flink 的table api与sql的基本概念、通用api介绍及入门示例 14、Flink 的table api与sql之数据类型: 内置数据类型以及它们的属性 15、Flink 的ta…

循环神经网络(RNN)实现股票预测

文章目录 一、前言二、前期工作1. 设置GPU&#xff08;如果使用的是CPU可以忽略这步&#xff09;2. 导入数据 四、数据预处理1.归一化2.设置测试集训练集 五、构建模型六、激活模型七、训练模型八、结果可视化1.绘制loss图2.预测3.评估 一、前言 我的环境&#xff1a; 语言环…

【Rust】快速教程——一直在单行显示打印、输入、文件读写

前言 恨不过是七情六欲的一种&#xff0c;再强大的恨也没法独占整颗心&#xff0c;总有其它情感隐藏在心底深处&#xff0c;说不定在什么时候就会掀起滔天巨浪。——《死人经》 图中是Starship扔掉下面的燃料罐&#xff0c;再扔掉头顶的翅膀后&#xff0c;再翻转过来着陆火星的…

[C++ 从入门到精通] 13.派生类、调用顺序、继承方式、函数遮蔽

&#x1f4e2;博客主页&#xff1a;https://loewen.blog.csdn.net&#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01;&#x1f4e2;本文由 丶布布原创&#xff0c;首发于 CSDN&#xff0c;转载注明出处&#x1f649;&#x1f4e2;现…

【Unity细节】Default clip could not be found in attached animations list.(动画机报错)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 秩沅 原创 &#x1f636;‍&#x1f32b;️收录于专栏&#xff1a;unity细节和bug &#x1f636;‍&#x1f32b;️优质专栏 ⭐【…