AI论文速读 |(Mamba×时空图预测!) STG-Mamba:通过选择性状态空间模型进行时空图学习

(来了来了,虽迟但到,序列建模的新宠儿mamba终于杀入了时空预测!)
论文标题:STG-Mamba: Spatial-Temporal Graph Learning via Selective State Space Model

作者:Lincan Li, Hanchen Wang(王翰宸), Wenjie Zhang(张文杰), Adelle Coster

机构:新南威尔士大学(UNSW)

论文链接:https://arxiv.org/abs/2403.12418

Cool Paper:https://papers.cool/arxiv/2403.12418

TL; DR:本文提出的STG-Mamba是一种新型的时空图学习方法,它通过选择状态空间模型卡尔曼滤波图神经网络,有效提高了STG数据学习的准确性和计算效率。

关键词:时空图预测,选择性状态空间模型(SSSM),卡尔曼滤波

标题和作者
🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

时空图(STG)数据具有动态、异构和非平稳的特点,导致时空图学习面临持续的挑战。 在过去的几年里,人们提出了各种基于 GNN 的方法,仅仅专注于模仿 STG 网络的节点个体之间的关系,而忽略了对 STG 系统随时间推移存在的内在特征进行建模的重要性。 相比之下,现代选择性状态空间模型(SSSM)提出了一种将 STG 网络视为一个系统的新方法,并仔细探索 STG 系统跨时间维度的动态状态演化。 在这项工作中,引入时空图 Mamba (STG-Mamba),作为通过将 STG 网络视为一个系统,并采用图选择性状态空间块 (Graph Selective State Space Block, GS3B) 来首次探索SSSM进行 STG 学习的强大能力,以求精确展示 STG 网络的动态演化。 STG-Mamba 被制定为一种编码器-解码器架构,以 GS3B 为基本模块,用于高效的序列数据建模。 此外,为了增强 GNN 在 SSSM 设置下对 STG 数据进行建模的能力,提出了用于自适应图结构升级的卡尔曼滤波图神经网络(Kalman Filtering Graph Neural Networks, KFGN)。 KFGN 平滑地适应选择性状态空间演化的背景,同时保持线性复杂度。 对三个基准 STG 预测数据集进行了广泛的实证研究,证明了 STG-Mamba 的性能优越性和计算效率。 它不仅在STG预测性能方面超越了现有的最先进的方法,而且还有效缓解了大规模图网络在减少FLOP的计算成本和测试推理时间方面的计算瓶颈。

Q: 这篇论文试图解决什么问题?

A: 这篇论文试图解决的问题是如何有效地进行时空图(Spatial-Temporal Graph, STG)数据的学习。STG数据具有动态、异构和非平稳的特性,这导致了时空图学习持续面临的挑战。以往的基于图神经网络(GNN)的方法主要关注于模仿STG网络中节点个体之间的关系,而忽略了对STG系统随时间变化的内在特征进行建模的重要性。

为了解决这一问题,论文提出了一种新的方法,即时空图曼巴(STG-Mamba),它是首个利用选择性状态空间模型(Selective State Space Models, SSSMs)对STG学习进行探索的工作。STG-Mamba将STG网络视为一个系统,并细致地探索STG系统在时间维度上的动态状态演变。具体来说,STG-Mamba通过引入图选择性状态空间块(Graph Selective State Space Block, GS3B)来精确描述STG网络的动态演变,并且提出了卡尔曼滤波图神经网络(Kalman Filtering Graph Neural Networks, KFGN)来适应图结构的升级。这些方法使得STG-Mamba在保持线性复杂度的同时,能够有效地建模STG数据,并且在三个基准STG预测数据集上的广泛实证研究中展示了其性能优越性和计算效率。

Q: 有哪些相关研究?

A: 这篇论文中提到的相关研究主要集中在时空图(STG)数据的学习领域,包括但不限于以下几个方面的工作:

  1. 基于图神经网络(GNN)的方法
    • STGCN (Yu et al., 2018):利用图神经网络捕捉交通网络中的复杂时空依赖关系。
    • STSGCN (Song et al., 2020):通过同步机制有效处理复杂的局部时空相关性和数据异质性。
    • STG-NCDE (Choi et al., 2022):利用神经控制微分方程(NCDEs)的概念进行时空处理。
    • DDGCRN (Weng et al., 2023):通过分离正常和异常信号并采用新颖的图卷积循环网络方法动态捕捉时空特征。
  2. 基于注意力机制(Transformer)的方法
    • ASTGCN (Guo et al., 2019):结合空间注意力和时间注意力机制与图神经网络的创新方法。
    • ASTGNN (Guo et al., 2021):引入独特的趋势感知自注意力和动态图卷积来处理时间动态性、空间相关性。
    • PDFormer (Jiang et al., 2023):引入了一种定制的Transformer模型,擅长捕捉动态空间依赖性和交通条件传播的时间延迟。
    • STAEformer [CIKM23] (Liu et al., 2023):通过引入时空自适应嵌入组件来增强传统Transformer。
    • MultiSPANS [WSDM24] (Zou et al., 2024):利用多滤波卷积模块、Transformers和结构熵优化来有效建模STG预测中的复杂多范围依赖性。
  3. 选择性状态空间模型(SSSM)
    • Mamba (Gu and Dao, 2023):作为首个深度学习基于SSSM的方法,用于序列任务的数据中心上下文学习。

这些相关研究为STG-Mamba模型的提出提供了理论和技术基础,同时也构成了论文中进行性能比较的基准方法。STG-Mamba通过结合SSSM和GNN的优势,旨在提高STG数据学习的准确性和计算效率。

Q: 论文如何解决这个问题?

STG-Mamba

A: 论文通过提出一种名为STG-Mamba的新模型来解决时空图(STG)数据学习的问题。STG-Mamba模型的核心贡献和解决方案可以概括为以下几点:

  1. 将STG网络视为系统:STG-Mamba采用选择性状态空间模型(SSSM)来处理STG网络,将网络视为一个动态系统,并通过模型其在时间维度上的状态演变。
  2. 引入图选择性状态空间块(GS3B):GS3B是STG-Mamba的基本模块,它通过输入依赖的边构建和动态节点特征选择,来捕捉STG网络中复杂的异构依赖关系,并准确建模STG系统的动态演变。
  3. 提出卡尔曼滤波图神经网络(KFGN):KFGN用于自适应的时空图结构生成和升级,它平滑地适应了基于SSSM的上下文,并确保了图结构与STG系统当前状态的同步更新。
  4. 编码器-解码器架构:STG-Mamba采用编码器-解码器架构,以GS3B作为基本模块,实现高效的序列数据建模。
  5. 计算效率:STG-Mamba通过精心设计的算法,实现了线性时间复杂度O(n),显著降低了与基于Transformer的方法相比的计算开销,包括浮点运算次数(FLOPs)和测试推理时间。
  6. 实证研究:在三个基准STG预测数据集上进行了广泛的实证研究,结果表明STG-Mamba在STG预测性能和计算效率方面均超过了现有的最先进方法。

通过上述方法,STG-Mamba能够有效地处理STG数据的动态、异构和非平稳特性,同时保持了高效的计算性能,为STG学习任务提供了一种新的有前景的解决方案。

GS3算法伪代码

Q: 论文做了哪些实验?

实验数据集

实验结果(12步预测12步)

测试推理时间比较

A: 论文进行了以下几类实验来评估和验证STG-Mamba模型的性能:

  1. 数据集选择:选择了三个真实世界的STG数据集进行实验评估,包括:
    • PeMS04:加利福尼亚道路网络速度记录。
    • HZMetro:杭州城市地铁系统进出记录。
    • KnowAir:中国大陆主要城市的气象站记录。
  2. 基线方法:为了进行公平比较,论文选择了多种基于图神经网络(STGNN)和基于Transformer的方法作为基线,包括STGCN、STSGCN、STG-NCDE、DDGCRN、ASTGCN、ASTGNN、PDFormer、STAEformer和MultiSPANS等。
  3. 实现设置:论文详细描述了模型训练前的数据预处理、模型训练的超参数设置、损失函数和评估指标等。
  4. 结果评估与比较:在三个STG预测任务上,论文比较了STG-Mamba与其他基线方法的性能,使用均方根误差(RMSE)、平均绝对误差(MAE)和平均绝对百分比误差(MAPE)作为性能指标,并将结果汇总在表格中。
  5. 计算效率评估:为了评估计算效率,论文选择了浮点运算次数(FLOPs)和推理时间作为评估指标,并将STG-Mamba与其他基于Transformer的方法进行了比较。
  6. 消融实验:为了探究STG-Mamba中各个模型组件的有效性,论文设计了几种模型变体,并在相同的数据集上评估了它们的预测性能。

通过这些实验,论文全面地展示了STG-Mamba在不同STG预测任务上的性能表现,以及其在计算效率方面相对于其他方法的优势。实验结果证明了STG-Mamba在处理具有动态、异构和非平稳特性的STG数据方面的有效性和高效性。

计算效率比较

不同 STG 节点数设置下,STG-Mamba 和 STAEformer 在 PeMS04/KnowAir 数据集上的 FLOPs 比较

消融实验

Q: 总结一下论文的主要内容

A: 这篇论文的主要内容可以总结如下:

  1. 问题定义:论文针对时空图(STG)数据的动态、异构和非平稳特性,提出了一种新的学习框架,旨在解决STG数据分析中的挑战。
  2. 方法介绍:提出了STG-Mamba模型,这是首个基于选择性状态空间模型(SSSM)的STG学习方法。STG-Mamba采用编码器-解码器架构,并通过图选择性状态空间块(GS3B)和卡尔曼滤波图神经网络(KFGN)来建模STG数据。
  3. 技术创新
    • GS3B:用于STG网络与SSSM的集成,进行输入依赖的边构建和动态节点特征选择。
    • KFGN:用于自适应的时空图结构生成和升级,保持与SSSM上下文的平滑适应性。
  4. 计算效率:STG-Mamba实现了线性时间复杂度,降低了与基于Transformer的方法相比的计算开销,包括FLOPs和测试推理时间。
  5. 实验验证
    • 数据集:使用了三个真实世界的STG数据集进行实验,包括PeMS04、HZMetro和KnowAir。
    • 基线方法:与多种现有的STGNN和Transformer基线方法进行了比较。
    • 结果:STG-Mamba在预测性能和计算效率方面均超过了现有方法。
  6. 消融实验:通过模型变体验证了STG-Mamba中各个组件的有效性,包括KFGN和GS3B。
  7. 结论:STG-Mamba为STG学习领域提供了一种新的有前景的方法,它在保持竞争力的模型性能的同时,显著降低了计算成本。

这篇论文通过引入新的模型架构和算法,为STG数据的有效学习和预测提供了解决方案,并通过实验验证了其优越性。

-Mamba为STG学习领域提供了一种新的有前景的方法,它在保持竞争力的模型性能的同时,显著降低了计算成本。

这篇论文通过引入新的模型架构和算法,为STG数据的有效学习和预测提供了解决方案,并通过实验验证了其优越性。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

相关链接

AI论文速读 | 【Mamba×时空预测】STG-Mamba:通过选择性状态空间模型进行时空图学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/774557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

​网络安全概论——网络加密与密钥管理​

一、网络加密的方式及实现 1、常见的加密算法 常见的密钥加密算法类型大体可以分为三类:对称加密、非对称加密、单向加密。 对称加密算法采用单密钥加密,在通信过程中,数据发送方将原始数据分割成固定大小的块,经过密钥和加密算法逐个加密…

LLM应用:Prompt flow vs LangChain

背景 Prompt flow和LangChain都是LLM时代,为高效地构建LLM应用而生。 Prompt flow是Microsoft开源的,其诞生时,LangChain已经很有名气了。 所以作为后生的Prompt flow会为我们带来哪些新的东西呢? ​​​​​​​ Prompt flo…

Solana 低至 0.4 Sol 创建OpenBook市场ID教程

Raydium上线代币之前,需要OpenBook ID,但是Raydium官方提供的链接创建需要花费 3-4 SOL。这成本使得我们对发行代币望而却步。 本篇文章介绍OpenBook的概念和教大家如何更低成本 (最低0.4 SOL) 创建 OpenBook Market ID。 目录 1、Raydium加池子创建为什…

实名羡慕!这些人已经用上了Sora

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了人工智能中文站https://ai.weoknow.com 每天给大家更新可用的国内可用chatGPT资源 发布在https://it.weoknow.com 更多资源欢迎关注 Sora 第三方口碑出炉,或许带给艺术家们最大的好处是:…

C++入门 (1) >>命名空间与缺省参数

1. c与c语言的区别 c兼容c语言90&#xff05;以上的语法与规则&#xff0c;c语言相当于用锤子和凿子制作工艺品&#xff0c;c相当于用电钻&#xff0c;电动雕刻刀制作工艺品。 2. c的框架 #include<iostream> //stdio.h的升级版 using namespace std; //展开命…

【笔记】Python学习记录

Python学习记录 Hello World变量简单数据类型字符串大小写转换插入变量Tab和Enter删除前后空格删除前后缀 Hello World 老调调了&#xff0c;如何在终端输出信息呢&#xff1f; print("Hello World")Hello World变量 变量命名遵从代码变量命名通则&#xff0c;几乎…

3.27作业

1、完成下面类 #include <iostream> #include <cstring> using namespace std;class myString { private:char *str; //记录c风格的字符串int size; //记录字符串的实际长度 public://无参构造myString():size(10){str new char[size]; …

计算机网络安全 —— 非对称加密算法 RSA 和数字签名

一、非对称加密算法基本概念 ​ 在对称密钥系统中&#xff0c;两个参与者要共享同一个秘密密钥。但怎样才能做到这一点呢&#xff1f;一种是事先约定&#xff0c;另一种是用信使来传送。在高度自动化的大型计算机网络中&#xff0c;用信使来传送密钥显然是不合适的。如果事先约…

【动态规划】【卡特兰数】Leetcode 96. 不同的二叉搜索树

【动态规划】【卡特兰数】Leetcode 96. 不同的二叉搜索树 动态规划卡特兰数 ---------------&#x1f388;&#x1f388;96. 不同的二叉搜索树 题目链接&#x1f388;&#x1f388;------------------- 动态规划 &#x1f612;: 我的代码实现> 动规五部曲 ✒️确定dp数组…

Palindromes(回文、镜像字符串)

描述 A regular palindrome is a string of numbers or letters that is the same forward as backward. For example, the string "ABCDEDCBA" is a palindrome because it is the same when the string is read from left to right as when the string is read fr…

linux命令在线查询工具

您提供的链接是一个名为“Linux 命令在线查询工具 - 轻松查找命令信息”的在线工具页面。这个工具旨在帮助用户快速查找和了解Linux命令的详细信息&#xff0c;从而提高工作效率。 工具概述 Linux命令在线查询工具是一个便捷的资源&#xff0c;它允许用户通过简单的搜索功能来…

SpringMvc之映射器HandlerMapping

简介 在springmvc的处理流程中&#xff0c;第一步就是查询请求对应的映射器&#xff0c;然后组装成处理器链处理请求&#xff0c;本文意在梳理该过程 重要实现 HandlerMapping是一个接口&#xff0c;该接口用于通过HttpServletRequest寻找对应的处理器&#xff0c;接口介绍如下…

攻防世界逆向刷题

阅读须知&#xff1a; 探索者安全团队技术文章仅供参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作,由于传播、利用本公众号所提供的技术和信息而造成的任何直接或者间接的后果及损失&#xff0c;均由使用者 本人负责&#xff0c;作者不为此承担任何责任,如…

使用`scipy.stats.wasserstein_distance`来计算两个一维分布之间的Earth Mover‘s Distance (EMD)距离

在Python中&#xff0c;计算Earth Mover’s Distance (EMD)通常使用scipy库中的scipy.stats.wasserstein_distance函数&#xff0c;该函数计算的是Wasserstein距离&#xff0c;它与EMD非常相似&#xff0c;都是用来衡量两个分布之间的距离。 以下是一个简单的Python程序例子&a…

超好用的快捷回复软件

随着直播经济和短视频平台的兴起&#xff0c;品牌营销阵地不再局限于传统的电商巨头——淘宝、天猫、京东和拼多多&#xff0c;越来越多的品牌正积极布局快手、抖音等新晋电商平台&#xff0c;同步打造社群矩阵以拓宽产品推广渠道。这种多维度的市场渗透策略有力地提升了品牌的…

C语言看完我这篇编译与链接就够啦!!!

1. 前言 Hello&#xff01;大家好我是小陈&#xff0c;今天来给大家介绍最详细的C语言编译与链接。 2. 编译和链接 我们通常用的编译器&#xff0c;比如Visual Sudio,这样的IDE(集成开发环境&#xff09;一般将编译和链接的过程一步完成&#xff0c;通常将这这种编译和链接合…

算法(6)KMP+trie

KMP&#xff1a; 最浅显易懂的 KMP 算法讲解_哔哩哔哩_bilibili 该视频使用python书写代码&#xff0c;不会python的小伙伴也可以看看了解kmp的大致思路。 问题描述&#xff1a; kmp&#xff1a;字符串匹配算法&#xff0c;用来找一个长字符串中出现了几次小字符串&#xf…

【机器学习300问】54、如何找到有效的组合特征?

一、为什么需要去寻找有效的组合特征&#xff1f; 因为并不是所有的特征组合都会意义&#xff0c;都能带来价值。 例如在房价预测场景中&#xff0c;卧室数量和浴室数量的比值有意义&#xff0c;但房屋面积与建造年份相组合作为新的组合特征&#xff0c;可能就没有实际含义&…

【ORB-SLAM3】在 Ubuntu20.04 上编译 ORM-SLAM3 并使用 D435i、EuRoC 和 TUM-VI 运行测试

【ORB-SLAM3】在 Ubuntu20.04 上编译 ORM-SLAM3 并使用 D435i、EuRoC 和 TUM-VI 运行测试 1 Prerequisites1.1 C11 or C0x Compiler1.2 Pangolin1.3 OpenCV1.4 Eigen3 2 安装 Intel RealSense™ SDK 2.02.1 测试设备2.2 编译源码安装 (Recommend)2.3 预编译包安装 3 编译 ORB-S…

PTA L2-037 包装机

一种自动包装机的结构如图 1 所示。首先机器中有 N 条轨道&#xff0c;放置了一些物品。轨道下面有一个筐。当某条轨道的按钮被按下时&#xff0c;活塞向左推动&#xff0c;将轨道尽头的一件物品推落筐中。当 0 号按钮被按下时&#xff0c;机械手将抓取筐顶部的一件物品&#x…