GNN如何处理表格?

链接: https://ieeexplore.ieee.org/document/10184514

在这篇综述中,我们深入探讨了使用图神经网络(GNNs)进行表格数据学习(TDL)的领域,这是一个深度学习方法在分类和回归任务中相比传统方法表现出越来越优越性能的领域。综述强调了深度神经TDL方法的一个关键差距:数据实例和特征值之间潜在关联的欠表达。GNNs凭借其固有的模拟表格数据不同元素之间复杂关系和交互的能力,已经在各种TDL领域引起了显著的兴趣和应用。我们的综述提供了一项对设计和实现TDL用GNN(GNN4TDL)方法的系统性回顾。它包括对基础方面的详细调查和基于GNN的TDL方法的概述,提供了对其不断发展的领域的洞察。我们提出了一个全面的分类学,重点是构建图结构和在基于GNN的TDL方法中的表示学习。此外,综述还检查了各种训练计划,强调了整合辅助任务以增强实例表示的有效性。我们讨论的一个关键部分专门用于GNN在一系列GNN4TDL情景中的实际应用,展示了它们的多功能性和影响力。最后,我们讨论了限制并提出了未来的研究方向,旨在促进GNN4TDL的进步。这篇综述为研究人员和实践者提供了资源,提供了对GNN在革新TDL中角色的深入理解,并指向了这个有前景领域未来的创新。

近年来,基于深度学习的表格数据学习(TDL)方法,例如分类和回归,表现出了令人充满希望的性能。然而,尽管在从原始表格记录中学习有效特征表示方面有很大能力,深度神经TDL在数据实例和特征值之间的潜在相关性建模上表现薄弱。通过建模高阶实例-特征关系、高阶特征交互和数据实例之间的多关系相关性,已显示可以改进TDL的预测性能。作为自然地建模不同数据实体之间的关系和交互的对策,图神经网络(GNNs)近来已经受到极大关注。通过适当地从输入表格数据构建图结构,GNNs可以学习数据元素之间的潜在相关性,并为预测任务生成有效的特征表示。受到GNNs在自然语言处理和推荐系统上的成功启发,开发用于表格数据学习的图神经网络(GNN4TDL)的趋势也在增加。

目前,已有一些早期研究努力尝试将现有的GNN方法应用于表格数据学习。一些非常近期的研究也开始探索特定于TDL的GNNs。这些研究几乎涵盖了所有TDL主题和应用,掀起了该领域的一波研究热情。随着这些研究进展,也产生了一些基本问题:(a) 基于GNN的TDL与传统TDL之间有何区别?(b) 在不同TDL场景和任务下构建图结构的正确方式是什么?(c) 基于GNN的表格数据表示学习背后的原理是什么?(d) 哪些TDL任务和应用领域可以从GNNs中受益?(e) 当前研究的局限性和未来研究的潜在机会是什么?尽管最近的GNN4TDL研究报告了令人鼓舞的结果,但这些问题尚未系统地调查,甚至被忽视了。迫切需要进行这项GNN4TDL综述,以揭示这些问题的答案,以进一步促进这一研究方向。

我们相信,由于该主题的高需求和低支持,这项GNN4TDL综述将具有很高的价值。(a) 高需求:由于表格数据在许多领域和应用中无处不在,人们逐渐将重点转移到模型数据实例之间的关系及其与特征值的相关性上,我们相信,用于表格数据学习的图神经网络不仅将具有很高的研究影响,而且还将具有实际价值。它应该能够获得学术界和工业界的关注。(b) 低支持:我们的GNN4TDL处于一个小众但至关重要的领域,根据表1中的比较总结,在以前的综述中大多被忽视。与其他集中在跨各种领域和数据类型的广泛GNN应用的工作不同,这篇综述不仅强调了GNN在表格数据预测、表示学习和图结构学习中的潜力,而且还是首次讨论自监着学习、各种训练策略和GNN4TDL中特定的辅助任务。

这篇综述论文对应用GNNs进行表格数据学习进行了深入探索。它首先建立了基本的问题陈述,并介绍了用于表示表格数据的各种图类型。综述围绕详细的基于GNN的学习流程进行构建,包括图形化阶段,将表格元素转换为图节点;图构建,专注于建立这些元素之间的连接;表示学习,强调GNNs如何处理这些结构以学习数据实例特征;以及训练计划,讨论辅助任务和训练策略的整合,以提高预测结果。

除了回顾GNN4TDL技术之外,综述还进一步阐述了GNN在多个领域的应用,如欺诈检测和精准医疗,以及对当前研究局限性和GNN4TDL领域未来方向的批判性讨论。

我们总结了这项综述的贡献如下。• 我们提供了图神经网络用于表格数据学习的当前发展的广阔图景。提供了及时和全面的文献综述,帮助读者快速掌握基本概念并进入这个研究领域。• 我们组织了将GNNs应用于表格数据学习的现有艺术。特别是,我们深入探讨了GNNs如何更好地建模表格数据,并揭示了GNNs带来的表格数据分类和回归性能提升。在实践中,我们强调了构建各种表格数据模型的基本指导原则。• 我们展示了GNN如何在许多表格数据应用领域中得到利用,如欺诈检测、精准医疗、点击率预测和处理缺失数据。我们还为学术界和工业界提供了对当前研究局限性和GNN4TDL未来研究方向的深刻讨论。

我们按照以下方式组织了这篇论文。第2节定义了剩余部分中使用的相关概念。第3节描述了GNN4TDL的框架,并从多个角度提供了分类。第4节根据我们的分类系统地回顾了现有的GNN4TDL方法。第5节调查了GNN4TDL在各个领域的实际应用。第6节讨论了剩余的挑战和可能的未来方向。第7节最后总结了这项综述。

图片

在这一部分中,我们介绍了用于表格数据学习的图神经网络(GNNs)的总体流程,并详细分类了每个关键阶段,描绘了不同方法如何实现这些阶段。伴随这种分类,我们还提供了每个类别中一些代表性框架的描述。这些研究例子展示了流程中各个阶段或类别之间复杂的相互联系,突出了它们在整体GNN4TDL过程中的紧密结合和协作功能。每个分类的详细阐述在第4节中呈现。

流程。基于GNN的表格数据学习的一般流程在图1中提供。流程从图形化阶段开始,即使用表格数据集中的元素定义图的结构。这个阶段涉及决定使用哪些元素作为节点,有三种常见的方法:(1) 将数据实例表示为节点,(2) 将特征作为节点,或 (3) 两者的组合,形成不同类型的图。接下来,图构建阶段旨在在这些元素之间创建连接,将表格数据转换为图结构。这种结构由最初的形式化决定,导致形成同质图(例如,实例图或特征图)或异质图(例如,二部图、多关系图或超图)。接下来,表示学习阶段涉及根据图的性质应用不同类型的GNNs。采用各种同质实例GNNs、同质特征GNNs或异质GNNs来学习数据实例的特征表示。这一阶段至关重要,因为它决定了消息如何在图中传播,模拟特征和实例之间的交互,并影响所学习嵌入的质量。如果使用特征图,则需要额外的信息聚合层,基于学习到的特征嵌入产生最终的实例表示。最后,训练计划阶段接收最终的实例表示。在这个阶段,采用不同的学习任务和训练策略,包括在主任务旁边使用辅助任务。然后通过预测层处理结果,产生最终的预测结果。

这个全面的流程突出了GNNs在处理各种图形化和学习任务方面的多功能性,最终导致有效的表格数据学习和预测。

分类。根据流程,可以建立用于表格数据学习的图神经网络的分类体系。我们在图2中给出了分类。下面,我们相应地描述了分类体系中的分类,其中每个类别中的一些代表性研究被提到并在表2中总结。

  1. 从表格数据中生成图的形式包含三种主要类型:同质图、异质图和超图。基于数据实例作为节点或特征作为节点,在同质图中,我们可以分别形成实例图(例如,[85],[91],[112])和特征图(例如,[83],[152],[173])。另一方面,异质图可以将数据实例与其对应的特征(以及进一步的其他元数据)连接起来。异质图的形成可以是二部图或多部图[27],[63],[142],[157]。可以考虑不同的特征值作为不同的边类型,这些类型描述了数据实例之间的不同关系,从而形成多重/多关系图[51],[60],[89]。如果一个形式允许数据实例和所有可能的特征值出现在一个图中,可以构建异质图来表示复杂的信息相互依赖[22],[37],[93],[118]。至于超图的形成[10],[15],[27],共享相同属性的表格元素被一个边连接。超图中的边可以连接任意数量的表格元素。例如,共享相同特征值的实例可以通过超图中的边连接起来。

  2. 给定某种图形式,节点已经确定后,第二阶段旨在通过在节点之间创建边连接来构建图,以实现该形式。根据边创建的标准,一般有四种类型的方法,包括内在结构、基于规则、基于学习和其他方法,其中前两种类型被广泛采用。创建链接的直观方法是利用表格数据元素之间的固有关系,例如,一个实例包含特征值[142],[157],两个实例共享特定特征的相同值[51],[95],一个数据表通过主外键关系与另一个相关联[22],[37]。为了在数据实例和/或特征之间定义边,基于规则的方法依赖于一些手动指定的启发式规则,例如k近邻[44],[59],[112],全连接结构[56],[83],[119],和阈值[21],[29]。基于学习的方法自动在节点之间生成边。它可以分为三个子类别:基于度量的方法使用核函数基于节点相似度计算边权重[69],[123]。神经方法采用深度神经网络进行自适应图构建[85],[91],[152]。直接方法将邻接矩阵视为可学习的[39],[97]。其他方法属于检索式或知识型。基于检索的方法依赖于发现相关和相似的数据实例来基于信息检索技术构建边[27],或进行神经结构搜索以找到更好的表示学习图拓扑[149]。基于知识的方法需要领域专家提供数据实例之间的相关性知识[28]或描述特征之间关系的知识图[114],以便以细粒度方式构建图。

  3. 一旦得到描述表格数据的图,无论数据实例及其对应特征如何通过图结构描述,下一阶段是学习每个实例的最终表示。根据获得的图的类型,例如同质或异质图,我们可以使用同质GNN模型(例如GCN [77],GraphSAGE [52],GAT [126],和GIN [151])和异质GNN模型(例如RGCN [115],HGAT [134],和HGT [58])来产生每个实例的嵌入。除了简单地应用现有的GNN模型,一些现有的工作已经开发了专门的GNN来更好地捕获实例和特征之间各种复杂的交互(例如[20],[44],[59],[83],[152])。

  4. 基于学习到的实例特征表示设计合适的训练计划是最后一步。训练计划可以从两个方面进行讨论,学习任务和训练策略。虽然主要任务是预测目标标签,但为了增强学习,开发了各种监督变体,因此可以构建不同的辅助任务。例如,利用对比学习来更好地细化图结构学习[85],[91],引入自监着学习和自编码器来产生去噪特征[33],以及施加各种图正则化以稳定图学习并避免过拟合[16],[97]。由于数据本质上是表格形式的,附加学习任务可以保留输入表格数据中的属性,如特征的全局统计[119],领域知识保存[54],和空间信息编码[28]。采用了一系列训练策略来优化GNN4TDL性能。两阶段方法(例如,[91])先学习图结构,然后训练预测模型。对抗技术(例如,[119])增强了特征重构的真实性。其他方法(例如,[14])动态调整特征重构权重以提高任务相关性。双层优化(例如,[142])同时调整GCN参数和图生成。预训练-微调策略(例如,[118])利用自监着学习进行稳健的初始数据理解,然后进行针对性的微调,尽管可能存在阶段不匹配。端到端训练(例如,[51])是最广泛采用的策略,提供了从学习到预测的流线型过程,直接提升了性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/611368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity中BRP下的深度图

文章目录 前言一、在Shader中使用1、在使用深度图前申明2、在片元着色器中 二、在C#脚本中开启摄像机深度图三、最终效果 前言 在之前的文章中,我们实现了URP下的深度图使用。 Unity中URP下使用屏幕坐标采样深度图 在这篇文章中,我们来看一下BRP下深度…

2024-01-03 无重叠区间

435. 无重叠区间 思路:和最少数量引爆气球的箭的思路基本都是一致了!贪心就是比较左边的值是否大于下一个右边的值 class Solution:def eraseOverlapIntervals(self, points: List[List[int]]) -> int:points.sort(keylambda x: (x[0], x[1]))# 比较…

2023-12-30 买卖股票的最佳时机 II和跳跃游戏以及跳跃游戏 II

122. 买卖股票的最佳时机 II 思路:关键点是每一次利用峰值来计算【画图好理解一点,就是计算陡坡的值】!每一次累加和的最大! 或者可以这样理解,把利润划分为每天的,如假如第 0 天买入,第 3 天卖出&#xf…

ELF文件格式解析二

使用objdump命令查看elf文件 objdump -x 查看elf文件所有头部的信息 所有的elf文件。 程序头部(Program Header)中,都以 PT_PHDR和PT_INTERP先开始。这两个段必须在所有可加载段项目的前面。 从上图中的INTERP段中,可以看到改段…

《GreenPlum系列》GreenPlum详细入门教程02-GreenPlum安装

文章目录 第二章 GreenPlum安装1.Docker创建centos容器1.1 拉取centos7镜像1.2 创建容器1.3 进入容器1.4 容器和服务器免密操作1.4.1 生成密钥1.4.2 拷贝密钥 1.5 安装ssh服务和网络必须应用1.6 容器设置root密码1.6.1 安装passwd应用1.6.2 容器本机root设置密码 1.7 容器本机免…

uniapp获取手机当前信息及应用版本

appVersion 是app端查询的数据信息 appWgtVersion 是浏览器端查询的数据信息 onLoad() {const systemInfo uni.getSystemInfoSync();console.log(systemInfo);// #ifdef H5const uniAppVersion systemInfo.appVersion;// #endif// #ifndef H5const uniAppVersion systemIn…

C++学习笔记——对象的指针

目录 一、对象的指针 二、减少对象的复制开销 三、应用案例 游戏引擎 图像处理库 数据库管理系统 航空航天软件 金融交易系统 四、代码的案例应用 一、对象的指针 是一种常用的技术,用于处理对象的动态分配和管理。使用对象的指针可以实现以下几个方面的功…

无法访问Bing网站 - 解决方案

问题 Bing官方网址:https://www.bing.com/ 电脑无法访问Bing网站,但手机等移动设备可以访问Bing网站,此时可尝试以下方案。 以下方案适用于各种系统,如Win/Linux系统。 解决方案 方案1 修改Bing网址为:https://www4…

JAVA毕业设计632—基于Java+ssm的宠物店商城系统(源代码+数据库)

毕设所有选题: https://blog.csdn.net/2303_76227485/article/details/131104075 基于Javassm的宠物店商城系统(源代码数据库)632 一、系统介绍 本项目分为用户、营养师、管理员三种角色 1、用户: 登录、注册、宠物信息、宠物粮食、宠物用品、宠物疫…

二叉树基础oj练习(单值二叉树、相同的树、二叉树的前序遍历)

讲了这么多数据结构相关的知识(可以看我的数据结构文章专栏): 抓紧刷题巩固一下了 目录 1.单值二叉树 题目描述 思路1 代码1 思路2 代码2 2.相同的树 题目描述 思路 代码 3.二叉树的前序遍历 代码 思路 1.单值二叉树 965. 单值二叉树 - 力扣(LeetCod…

pycharm社区版配置flask开发环境

新建配置文件,类型选择Shell Script 设置Execute中flask.exe的路径 设置options :--appflask_app.py run --port5000 --debug 设置working 路径 设置环境变量FLASK_APPflask_app.py;FLASK_ENVdevelopment 注意:FLASK_APPflask_app.py和上…

YOLOv8 损失函数改进 | 引入 Shape-IoU 考虑边框形状与尺度的度量

🗝️改进YOLOv8注意力系列一:结合ACmix、Biformer、BAM注意力机制 论文讲解加入代码本文提供了改进 YOLOv8注意力系列包含不同的注意力机制以及多种加入方式,在本文中具有完整的代码和包含多种更有效加入YOLOv8中的yaml结构,读者可以获取到注意力加入的代码和使用经验,总…

Android Studio 最新版本首次下载和安装以及汉化教程【+第二次安装使用教程】

🌟博主领域:嵌入式领域&人工智能&软件开发 前言:本教程详解首次安装和下载最新版本的Android Studio ,以及汉化教程。另外详解当第二次下载使用时解决遇到的问题。 目录 1.Android Studio 下载 2.Android Studio 首次…

【云计算】云计算概述

1. 云计算概述 1.1 云计算的定义 美国国家标准与技术研究院(NIST)定义 云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件…

Xmind - win10安装破解Xmind2023

Xmind - win10安装破解Xmind2023 1、下载 Xmind下载 提取码:we6i 2、安装 Step 1:双击运行 exe文件 Step 2:忽略最新版本 最近更新选择继续升级至Pro选择取消Step 4:直接选择同意授权

Java线程池最全详解

1. 引言 在当今高度并发的软件开发环境中,有效地管理线程是确保程序性能和稳定性的关键因素之一。Java线程池作为一种强大的并发工具,不仅能够提高任务执行的效率,还能有效地控制系统资源的使用。 本文将深入探讨Java线程池的原理、参数配置…

【python基础】一文搞懂:Python 中轻量型数据库 SQLite3 的用法

一文搞懂:Python 中轻量型数据库 SQLite3 的用法 文章目录 一文搞懂:Python 中轻量型数据库 SQLite3 的用法1 引言2 SQLite3 简介3 基本步骤4 示例代码4.1 连接数据库4.2 创建表4.3 插入数据4.4 查询数据4.5 更新/删除数据4.6 关闭数据库连接 5 实例演示…

NPN PNP磁性开关区别

自记: 网上有些前后内容是相反的,估计自己就没明白,此为分析后得出结论,看完后可懂 1、NPN(源型):当导通时输出低电平 当导通时,信号输出线out和0v线连接,相当于输出低电…

OCP NVME SSD规范解读-6.标准日志要求-1

4.8 Log Page Requirements章节在NVMe规范中主要涵盖了设备应支持的日志页面(Log Pages)的要求。日志页面是存储控制器用于报告内部状态、性能统计和其他关键信息的结构化数据区域,它们对系统管理和故障诊断至关重要。 本文,我们…

行走在深度学习的幻觉中:问题缘由与解决方案

如何解决大模型的「幻觉」问题? 我们在使用深度学习大模型如LLM(Large Language Models)时,可能会遇到一种被称为“幻觉”的现象。没错,它并不是人脑中的错觉,而是模型对特定模式的过度依赖,这…