AI论文速读 | 2024[ICML]FlashST:简单通用的流量预测提示微调框架

题目: FlashST: A Simple and Universal Prompt-Tuning Framework for Traffic Prediction

作者:Zhonghang Li, Lianghao Xia(夏良昊), Yong Xu(徐勇), Chao Huang

机构:华南理工大学,琶洲实验室,香港大学

arXiv网址https://arxiv.org/abs/2405.17898

Cool Paperhttps://papers.cool/arxiv/2405.17898

代码https://github.com/HKUDS/FlashST

关键词:时空预测,提示微调,分布偏移,预训练模型

TL; DR: 本文介绍了FlashST,这是一个简单通用的提示调整框架,旨在通过将预训练模型适配到不同的下游数据集,以提高时空预测模型的泛化能力,解决交通预测中的分布偏移问题。

11Pages: 2 Pages methodology 4 Pages experiments 2 Pages citation No appendix


🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

摘要

交通预测的目的是准确预测和分析交通模式的动态,同时考虑空间和时间。然而,分布偏移的存在对这一领域提出了重大挑战,因为现有模型在面对与训练分布有显著差异的测试数据时难以很好地泛化。为了解决这个问题,本文介绍了一个简单而通用的时空提示微调框架——FlashST,它使预训练模型适应各种下游数据集的具体特征,提高各种交通预测场景的泛化能力。具体来说,FlashST 框架采用轻量级时空提示网络进行上下文学习,捕获时空不变知识并促进对各种场景的有效适应。此外,我们结合了分布映射机制来对齐预训练和下游数据的数据分布,促进时空预测中的有效知识转移。实证评估证明了FlashST 在使用各种城市数据集的不同时空预测任务中的有效性。

Q: 这篇论文试图解决什么问题?

FlashST的动机

左图:时空数据集的分布偏移

右图:端到端模型在测试集B上过拟合

A: 这篇论文试图解决的问题是交通预测领域中存在的分布偏移问题(distribution shift),即现有的模型在面对与训练数据分布显著不同的测试数据时,难以有效泛化,导致预测性能不佳。为了解决这一问题,论文提出了一个简单且通用的时空提示调整框架(FlashST),通过适配预训练模型到不同的下游数据集的特定特征,从而提高在多样化交通预测场景中的泛化能力。

Q: 有哪些相关研究?

A: 这篇论文提到了多个与时空学习(Spatio-Temporal Learning)相关的研究领域,包括:

  1. 深度时空学习:旨在建模和理解现实世界城市数据中的复杂时空动态。提出了包括循环神经网络(RNNs)、Transformers、注意力机制和多层感知器(MLPs)等方法来捕捉长期模式和短期波动。
  2. 图神经网络(GNNs):用于同时捕捉空间依赖性和时间演变,通过图结构来表示空间实体之间的关系,并促进信息传播。
  3. 预训练与时空数据:通过自监督学习从时空数据中获取全面表示,包括对比学习以及掩码自编码器。
  4. 提示微调(Prompt-Tuning):一种在推理期间优化提示或指令的技术,以微调模型,从而获得更准确和特定于上下文的预测。

论文中还提到了具体的一些工作,例如:

  • TGCN、STGCN、GWN、STSGCN、MTGNN、STFGNN、DMSTGCN 等基于 GNN 的时空预测模型。
  • ASTGCN、STWA、PDFormer 等基于注意力机制的模型。
  • STGODE 等基于微分方程的时空预测方法。

这些研究为 FlashST 框架的发展提供了理论和技术基础。

Q: 论文如何解决这个问题?

FlashST

A: 论文通过提出一个名为 FlashST 的简单且通用的时空提示微调框架来解决交通预测中的分布偏移问题。FlashST 框架主要包含以下几个关键组件和策略:

  1. 时空上下文学习(Spatio-Temporal In-Context Learning)
    • 使用一个轻量级的时空提示网络来实现上下文学习,捕获时空不变知识,并有效适应不同场景。
    • 时空上下文蒸馏机制:从未见数据中捕获时间感知和空间感知的上下文信号,使模型能够从数据的特定上下文中学习。
    • 时空依赖性建模方案:整合时间和地点之间的复杂关系,使网络能够理解不同时空元素之间的相互依赖性和交互。
  2. 统一的分布映射机制(Unified Distribution Mapping Mechanism)
    • 通过标准化提示嵌入,确保跨不同下游数据集的一致分布,从而实现数据分布的对齐。
    • 使用基于 infoNCE 的损失函数来正则化提示网络,使得正样本对的表示更接近,负样本对的表示更远离,从而实现更统一的嵌入分布。
  3. 预训练与下游任务的统一(Unifying Pre-training and Downstream Tasks)
    • 在预训练阶段,使用专门的预训练数据集来训练和优化所有参数。
    • 在提示微调阶段,仅更新提示网络的参数,通过在未见过的数据集上进行有限的训练周期来实现快速适应。
  4. 实验验证
    • 在四种不同类型的时空数据任务上进行了广泛的实验,结果表明 FlashST 在不同时空数据集的下游预测任务中显著提高了泛化能力。

通过这些策略,FlashST 能够有效地将预训练阶段获得的知识迁移到下游的时空预测任务中,同时通过上下文学习和分布映射机制来适应新的数据分布,从而解决了分布偏移问题,提高了模型的泛化能力。

Q: 论文做了哪些实验?

数据集

整体实验结果

模型无关性能比较

FlashST与SOTA模型集成和有无微调进行对比

A: 论文中进行了一系列的实验来评估 FlashST 框架的有效性,包括以下几个方面:

  1. 整体性能评估(RQ1):研究 FlashST 是否能有效地将预训练模型泛化到新的时空预测数据和任务。实验结果表明 FlashST 在多个不同的城市数据预测场景中优于端到端的时空模型。
  2. 模型效率评估(RQ2):比较 FlashST、端到端训练和全参数微调方法的效率。实验结果显示 FlashST 显著提高了计算效率,减少了训练时间。
  3. 关键组件影响评估(RQ3):通过消融实验来分析 FlashST 中每个关键模块的贡献,包括时空上下文蒸馏、时空依赖性建模和统一分布映射机制。
  4. 超参数影响评估(RQ4):研究不同超参数设置,特别是温度系数和损失权重系数,对模型性能的影响。
  5. 案例研究(RQ5):通过可视化展示了使用和不使用 FlashST 分布映射机制的提示嵌入的分布情况,证明了 FlashST 能够有效地将提示嵌入转换为近似均匀分布。
  6. 不同数据集的评估:使用了包括 PEMS07(M)、CA-D5、ChengDu-DIDI 和 NYC Citi Bike 在内的多个不同的时空数据集来评估模型性能。
  7. 与基线模型的比较:与多个先进的时空预测模型进行了比较,包括基于 RNN、注意力机制、GNN 和微分方程的时空预测方法。
  8. 模型泛化能力的评估:通过在不同的下游任务数据集上进行微调,评估了模型的泛化能力。

这些实验结果表明,FlashST 框架在不同的时空预测任务中具有显著的性能提升,并且具有较高的模型效率和泛化能力。

效率(efficiency)

消融实验

超参和提示嵌入分布

Q: 总结一下论文的主要内容

A: 这篇论文介绍了一个名为 FlashST 的简单且通用的时空提示微调框架,旨在解决交通预测领域中由于分布偏移导致的模型泛化难题。FlashST 通过以下几个关键组件和策略来提高模型在多样化交通预测场景中的泛化能力:

  1. 时空上下文学习:FlashST 使用一个轻量级的时空提示网络来实现上下文学习,该网络包括时空上下文蒸馏机制和时空依赖性建模方案。这使得模型能够从未见数据中捕获时间感知和空间感知的上下文信号,并有效适应不同场景。
  2. 统一的分布映射机制:为了桥接预训练数据和下游任务数据之间的分布差异,FlashST 采用了一个分布映射机制,通过标准化提示嵌入和使用基于 infoNCE 的损失函数来正则化提示网络,实现数据分布的对齐。
  3. 预训练与下游任务的统一:FlashST 将模型预训练过程与下游预测任务相结合,通过在预训练阶段训练和优化所有参数,然后在提示微调阶段仅更新提示网络的参数,实现对新数据的快速适应。
  4. 实验验证:论文通过在四种不同类型的时空数据任务上进行广泛的实验,证明了 FlashST 在不同时空数据集的下游预测任务中显著提高了泛化能力,并且在模型效率和性能上优于端到端训练和全参数微调方法。
  5. 消融研究和超参数分析:论文还进行了消融研究来评估 FlashST 中每个关键模块的贡献,并分析了超参数设置对模型性能的影响。
  6. 案例研究:通过可视化展示了使用 FlashST 分布映射机制前后的提示嵌入分布,证明了该策略能够有效地将提示嵌入转换为近似均匀分布。
  7. 未来工作:论文提出了未来可能的研究方向,包括将大型语言模型集成到 FlashST 中,以及探索改进的分布映射机制等。

ST 分布映射机制前后的提示嵌入分布,证明了该策略能够有效地将提示嵌入转换为近似均匀分布。
7. 未来工作:论文提出了未来可能的研究方向,包括将大型语言模型集成到 FlashST 中,以及探索改进的分布映射机制等。

总的来说,FlashST 为交通预测领域提供了一个有效的模型泛化和适应新数据集的解决方案,通过上下文学习和分布映射机制,提高了模型的预测性能和泛化能力。

🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘!🚀
欢迎大家关注时空探索之旅时空探索之旅QRCode

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/24668.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【SpringBoot】SpringBoot整合RabbitMQ消息中间件,实现延迟队列和死信队列

📝个人主页:哈__ 期待您的关注 目录 一、🔥死信队列 RabbitMQ的工作模式 死信队列的工作模式 二、🍉RabbitMQ相关的安装 三、🍎SpringBoot引入RabbitMQ 1.引入依赖 2.创建队列和交换器 2.1 变量声明 2.2 创建…

在群晖上通过Docker部署DB-GPT

最近一直有网友在后台私信,发的内容高度统一,只有后面 8 位数字不一样,都是 #22232 xxxxxxxx,有谁知道是什么意思吗?在我印象中,这是第二次这么大规模的发类似的字符串了 什么是 DB-GPT ? DB-G…

Linux lvm卷扩容之SSM

介绍 SSM(System Storage Manager)是系统存储管理器,它是一种统一的命令行界面,用于管理各种存储设备。通过SSM,用户可以方便地管理、配置和监控存储系统。检查关于可用硬驱和LVM卷的信息。显示关于现有磁盘存储设备、…

O2OA(翱途)开发应用平台(v9)开发实战(3)-如何做信息发布

内容管理就是用来发布信息的,比如说发布单位的内部信息:像公司新闻、通知公告、规章制度等等。 接下来我们来介绍一下如何创建,比如我要创建一个栏目,专门用来发布公司的规章制度 需求 规章制度 首先从菜单打开“内容管理设置…

平衡二叉树AVL

平衡二叉树是一种特殊的二叉查找树,其中每个节点的左右子树的高度差不超过1。这种树的平衡性质使其在多种操作下保持较高的效率。 平衡二叉树的定义与性质 严格定义:在平衡二叉树中,任一节点的两个子树的高度最大差别为一,这使得…

Linux卸载RocketMQ教程【带图文命令巨详细】

巨详细Linux卸载RocketMQ教程 #查询rocketmq进程 ps -ef | grep rocketmq #杀掉相关进程 kill -9 进程id #查找安装目录 find / -name runbroker.sh #删除rocketMQ目录 rm -rf 安装目录框起来的就是进程id,全部杀掉 这里就是我的安装目录,我的删除命令…

SwiftUI五视图动画和转场

代码下载 使用SwiftUI可以把视图状态的改变转成动画过程,SwiftUI会处理所有复杂的动画细节。在这篇中,会给跟踪用户徒步的图表视图添加动画,使用animation(_:)修改器给一个视图添加动画效果非常容易。 下载起步项目并跟着本篇教程一步步实践…

AI 写高考作文丨10 款大模型 “交卷”,实力水平如何?

前言 在科技日新月异的今天,人工智能(AI)已不再是遥不可及的未来科技,而是逐渐融入我们日常生活的实用工具。从智能语音助手到自动驾驶汽车,从智能家居系统到精准医疗诊断,AI技术正以其强大的计算能力和数…

Rust基础学习-Rust宏

Rust中的宏是生成另一段代码的一段代码。可以根据输入生成代码,简化重复模式,使得代码更加简洁。比如我们一直在用的println!,vec!,panic!都是宏。 创建宏 可以使用macro_rules!创建一个宏: macro_rules! macro_name {(...) > {...} }这…

c#与汇川plc通信 使用官网API库

前言 上位机开发中有时会要求与PLC进行通信,汇川官网也有好用的API库方便大家使用。记录一下开发过程。 1.下载资料 汇川官网地址:汇川技术 - 推进工业文明 共创美好生活 打开后选择:服务与支持-》资料下载-》 资料下载 这里可以直接搜索&am…

C++学习插曲:“name“的初始化操作由“case“标签跳过

问题 "name"的初始化操作由"case"标签跳过 问题代码 case 3: // 3、删除联系人string name;cout << "请输入删除联系人姓名&#xff1a;" << endl;cin >> name;if (isExistPerson(&abs, name) -1){cout << "…

【刷题篇】分治-归并排序

文章目录 1、排序数组2、交易逆序对的总数3、计算右侧小于当前元素的个数4、翻转对 1、排序数组 给你一个整数数组 nums&#xff0c;请你将该数组升序排列。 class Solution { public:vector<int> tmp;void mergeSort(vector<int>& nums,int left,int right){…

cocos creator3.7版本拖拽事件处理

前言&#xff1a;网上能找到的资料都太落后了&#xff0c;导致哥们用AI去写&#xff0c;全是瞎B写&#xff0c;版本都不对。贴点实际有用的。别老捣鼓你那破convertToNodeSpaceAR或者convertToNodeSpace了。 核心代码 touch.getDeltaX() touch.getDeltaY() 在cocoscreator3…

python-自幂数判断

[题目描述]&#xff1a; 自幂数是指&#xff0c;一个N 位数&#xff0c;满足各位数字N 次方之和是本身。例如&#xff0c;153153 是 33 位数&#xff0c;其每位数的 33 次方之和&#xff0c;135333153135333153&#xff0c;因此 153153 是自幂数&#xff1b;16341634 是 44 位数…

简单快速设置Windows和Ubuntu双系统双引导

一、参考资料 Windows和Ubuntu双系统安装教程 二、设置引导 1. 安装EasyBCD 下载并安装 EasyBCD 2. 设置Windows引导 3. 设置Ubuntu引导 4. 启动系统 遇到这种情况&#xff0c;直接Enter回车。 三、修复引导 如果引导区损坏&#xff0c;导致无法进入系统&#xff0c;可以…

FuTalk设计周刊-Vol.041

&#x1f525;AI漫谈 热点捕手 1、国产GPTs来了&#xff0c;基于智谱第4代大模型 全自研第四代基座大模型GLM-4&#xff0c;且所有更新迭代的能力全量上线。GLM-4性能相比GLM-3提升60%&#xff0c;逼近GPT-4&#xff08;11月6日最新版本效果&#xff09;。而同时推出的GLM-4-…

【漏洞复现】多客圈子论坛系统 httpGet 任意文件读取漏洞

0x01 产品简介 多客圈子论坛系统是一种面向特定人群或特定话题的社交网络&#xff0c;它提供了用户之间交流、分享、讨论的平台。在这个系统中&#xff0c;用户可以创建、加入不同的圈子&#xff0c;圈子可以是基于兴趣、地域、职业等不同主题的。用户可以在圈子中发帖、评论、…

算法分析与设计期末考试复习(更新ing)

重点内容&#xff1a; 绪论&#xff1a; 简单的递推方程求解 1.19(1)(2) 、 教材例题 多个函数按照阶的大小排序 1.18 分治法&#xff1a; 分治法解决芯片测试问题 计算a^n的复杂度为logn的算法&#xff08;快速幂&#xff09; 分治法解决平面最近点对问…

让 AI 写高考作文丨10 款大模型 “交卷”,实力水平如何?

文章部分素材来源 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 前言 在科技日新月异的今天&#xff0c;人工智能&#xff08;AI&#xff09;已不再是遥不可及的未来科技&#xff0c;而是逐渐融入我们日常生活的实用工具。从智能语音助手到自动驾驶汽车&#xff0c…

炫技来了!使用SDR设备成功抓到蓝牙air packet, 并且wireshark实时解析, 没错就是蓝牙空口抓包器

本文章主要介绍是用ZYNQ7020AD9361Gnu radio是搭建一个蓝牙抓包器的文章。 由于之前一直做蓝牙Host&#xff0c;对controller觉得是一个比较虚无缥缈的东西&#xff0c;得不到的总是在骚动&#xff0c;所以最近用我用吃灰了2年的SDR(Software Defined Radio&#xff09;设备研…