时序论文19|ICML24 : 一篇很好的时序模型轻量化文章,用1k参数进行长时预测

图片

论文标题:SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters

论文链接:https://arxiv.org/pdf/2402.01533

代码链接:https://github.com/lss-1138/SparseTSF

前言

最近读论文发现时间序列研究中,模型的轻量化是目前一个比较热门的方向。

这篇论文提出了SparseTSF,一种极其轻量的长时间序列预测(LTSF)模型,旨在解决在有限计算资源下建模复杂时间依赖关系的挑战。SparseTSF的核心是跨周期稀疏预测技术,该技术通过将时间序列数据的周期性和趋势解耦,简化了预测任务。具体来说,该技术通过对原始序列进行降采样,专注于跨周期趋势预测,从而有效提取周期性特征,同时最大限度地减少模型的复杂性和参数数量。基于这种技术,SparseTSF模型使用不到1000个参数就能实现与最先进模型相媲美甚至更优的性能。此外,SparseTSF表现出卓越的泛化能力,使其非常适合于计算资源有限、小样本或低质量数据的场景。

研究背景

01 参数量与均方误差

尽管较长的预测视野带来了便利,但也引入了更大的不确定性。因为这要求模型能够从更长的历史窗口中提取更广泛的时间依赖性。因此,为了捕捉这些长期时间依赖性,建模变得更加复杂。例如,基于Transformer的模型通常拥有数百万甚至数千万个参数,这限制了它们的实际可用性,尤其是在计算资源有限的情况下。

事实上,准确的长期时间序列预测的基础在于数据固有的周期性和趋势。周期性模式可以转化为子序列间的动态,而趋势模式则被重新解释为子序列内的特征。这种分解为设计轻量级LTSF模型提供了新的视角。

图片

如图所示,左下角橘黄色的小三角就是本文模型对应的参数量和均方误差,从图中可以看出,本文模型在均方误差与sota模型基本一致的情况下,做到了参数量少2个以上数量级。

02 通道独立

LTSF领域很多SOTA工作都基于频道独立(CI)方法,通过建模单变量序列中的长期依赖关系(包括周期性和趋势)来实现有效预测。具体来说,CI方法为每个单变量序列找到一个共享函数。然后为每个通道提供一个更具针对性和简化的预测模型,减少了对通道间关系的复杂考虑。像DLinear、如PatchTST、TiDE都是在单个通道上采用更复杂的结构来提取时间依赖性,旨在实现卓越的预测性能。本文同样采用这种CI策略,并专注于创建一个更轻量级但有效的方法捕捉单通道时间序列中的长期依赖关系。

本文工作

这里需要说明本文的一个潜在假设:待预测的数据通常先验地表现出恒定的周期性。例如,电力消耗和交通流量通常具有固定的日周期。如图所示,本文提出了跨周期稀疏预测SparseTSF模型,以增强对长期序列依赖关系的提取,同时,使用单个线性层来建模LTSF任务,减少模型的参数规模。

图片

01 跨周期稀疏预测

假设时间序列具有已知的周期性,第一步是将原始序列下采样成 w个子序列。然后,将具有共享参数的模型应用于这些子序列进行预测。预测完成后,将子序列上采样回完整预测序列。

直观上,这个预测过程看起来像是一个具有稀疏间隔 w的滑动预测,由一个在固定周期 w内共享参数的全连接层执行。可以将其视为一个模型在周期之间进行稀疏滑动预测。

从技术上讲,下采样过程等同于将序列重塑为一个n×w的矩阵,然后将其转置为w×n矩阵。稀疏滑动预测等同于在矩阵的最后一个维度上应用一个大小为n×m的线性层,从而得到一个w×m的矩阵。上采样步骤则等同于将w×m矩阵转置并重塑回长度为H 的完整预测序列。

然而,这种方法目前仍然面临两个问题:(i)信息损失,因为每个周期内只有一个数据点用于预测,而其余数据点被忽略;(ii)异常值影响的放大,因为在下采样的子序列中存在的极端值可能直接影响预测结果。

为了解决这些问题,本文作者在执行稀疏预测之前,对原始序列进行滑动聚合,如图2所示。每个聚合数据点包含其周围周期内其他点的信息,从而解决问题(i)。此外,由于聚合值本质上是周围点的加权平均值,它减轻了异常值的影响,从而解决问题(ii)。技术上,这种滑动聚合可以使用零填充和核大小为2×⌊w/2⌋+1的一维卷积来实现。

02 实例归一化和损失函数

本文采用Instance Normalization策略,在序列进入模型之前先减去其均值,在模型输出后再加回来。

损失函数采用经典的均方误差(MSE)作为SparseTSF的损失函数。通过计算预测值与真实值之间的平方误差,来衡量模型的预测性能。

图片

另外,本文的另一大工作是对SparseTSF模型进行了理论分析,重点关注其参数效率和稀疏技术的有效性。

实验和结论

图片

本文不足之处:

SparseTSF在参数规模极小的情况下实现了与当前最先进模型相竞争甚至超越的性能,使其成为计算资源受限环境中的强有力候选者,成为了长时间序列预测领域向轻量级模型迈进的又一个里程碑。

SparseTSF模型在处理超长周期、多重周期以及周期不明显的情况,可能会遇到困难,因为稀疏技术只能下采样和分解一个主要周期。未来可以考虑解决从超长周期和多周期数据中提取特征,力求在模型性能和参数规模之间实现最佳平衡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(动画版)排序算法 -希尔排序

文章目录 1. 希尔排序(Shellsort)1.1 简介1.2 希尔排序的步骤1.3 希尔排序的C实现1.4 时间复杂度1.5 空间复杂度1.6 希尔排序动画 1. 希尔排序(Shellsort) 1.1 简介 希尔排序(Shells Sort),又…

Python学习从0到1 day26 第三阶段 Spark ④ 数据输出

半山腰太挤了,你该去山顶看看 —— 24.11.10 一、输出为python对象 1.collect算子 功能: 将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象 语法: rdd.collect() 返回值是一个list列表 示例: from …

DNS解析库

DNS解析库 dnsDNS的解析库以及域名的详解解析库dns解析的端口dns域名的长度限制流程优先级在现实环境中实现内网的dns解析 练习(Ubuntu内网实现DNS解析)主服务器备服务器 dns 域名系统,域名和ip地址互相映射的一个分布式的数据库&#xff0c…

kafka 生产经验——数据积压(消费者如何提高吞吐量)

bit --> byte --> kb -->mb -->gb --> tb --> pb --> eb -> zb -->yb

【记录】公司管理平台部署:容器化部署

前置条件 技能要求 了解Docker基本使用和常用命令。会写Dockerfile文件。会写docker-compose文件环境要求 云服务器,已安装好安装Docker本机 IntelliJ IDEA 2022.1.3配置 配置服务器SSH连接 进入 Settings -> Tools -> SSH Configurations 点击加号创建SSH连接配置 填…

从零开始 blender插件开发

blender 插件开发 文章目录 blender 插件开发环境配置1. 偏好设置中开启相关功能2. 命令行打开运行脚本 API学习专有名词1. bpy.data 从当前打开的blend file中,加载数据。2. bpy.context 可用于获取活动对象、场景、工具设置以及许多其他属性。3. bpy.ops 用户通常…

el-table 行列文字悬浮超出屏幕宽度不换行的问题

修改前的效果 修改后的效果 ui框架 element-plus 在网上找了很多例子都没找到合适的 然后这个东西鼠标挪走就不显示 控制台也不好调试 看了一下El-table的源码 他这个悬浮文字用的el-prpper 包着的 所以直接改 .el-table .el-propper 设置为max-width:1000px 就可以了 吐槽一…

Tcp中的流量控制,拥塞控制,超时重传时间的选择,都附带相应例子说明

端口号的了解 通常进行通信时,发送方使用任意端口,指定接收方为指定端口,因为接收方在接收到后的需要根据发送方指定的接收方端口号,来选择使用哪一个服务进程进行处理。 端口号还可以分类为两个大类: TCP和UDP报文的…

Nextflow最佳实践:如何在云上高效处理大规模数据集

1. Nextflow 软件架构介绍 Nextflow 是一个用于简化数据驱动计算流程的工具,可以在各种计算环境中轻松部署。它采用了分布式计算和容器技术,实现了高度模块化、可重复性和可扩展性。NextFlow 的软件架构主要包括以下几个部分: 用户界面&…

一文看懂ERP、SCM、SRM、WMS、TMS、进销存管理系统

经常有人来私信问我ERP、SCM、SRM、WMS、TMS、进销存管理系统等等,它们听起来都很专业,但到底各自是什么?承担着怎样的角色呢?它们具体都有哪些功能?相互之间又存在怎样的关联,对企业而言又意味着什么呢&am…

深度学习——优化算法、激活函数、归一化、正则化

文章目录 🌺深度学习面试八股汇总🌺优化算法方法梯度下降 (Gradient Descent, GD)动量法 (Momentum)AdaGrad (Adaptive Gradient Algorithm)RMSProp (Root Mean Square Propagation)Adam (Adaptive Moment Estimation)AdamW 优化算法总结 经验和实践建议…

YOLOv11实战宠物狗分类

本文采用YOLOv11作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv11以其高效的特征提取能力,在多个图像分类任务中展现出卓越性能。本研究针对5种宠物狗数据集进行训练和优化,该数据集包含丰富的宠物狗图像样本…

星期-时间范围选择器 滑动选择时间 最小粒度 vue3

星期-时间范围选择器 功能介绍属性说明事件说明实现代码使用范例 根据业务需要,实现了一个可选择时间范围的周视图。用户可以通过鼠标拖动来选择时间段,并且可以通过快速选择组件来快速选择特定的时间范围。 如图: 功能介绍 时间范围选择&…

云岚到家 秒杀抢购

目录 秒杀抢购业务特点 常用技术方案 抢券 抢券界面 进行抢券 我的优惠券列表 活动查询 系统设计 活动查询分析 活动查询界面显示了哪些数据? 面向高并发如何提高活动查询性能? 如何保证缓存一致性? 数据流 Redis数据结构设计 如…

JavaWeb常见注解

1.Controller 在 JavaWeb 开发中,Controller是 Spring 框架中的一个注解,主要用于定义控制器类(Controller),是 Spring MVC 模式的核心组件之一。它表示该类是一个 Spring MVC 控制器,用来处理 HTTP 请求并…

光伏储能微电网协调控制器

安科瑞 Acrel-Tu1990 1. 产品介绍 ACCU-100微电网协调控制器是一款专为微电网、分布式发电和储能系统设计的智能协调控制设备。该装置能够兼容包括光伏系统、风力发电、储能系统以及充电桩等多种设备的接入。它通过全天候的数据采集与分析,实时监控光伏、风能、储…

【C++课程学习】:继承:默认成员函数

🎁个人主页:我们的五年 🔍系列专栏:C课程学习 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 构造函数 🍩默认构造函数(这里指的是编译器生成的构造函数)&#…

泷羽sec学习打卡-Linux基础2

声明 学习视频来自B站UP主 泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 关于Linux的那些事儿-Base2 一、Linux-Base2linux有哪些目录呢?不同目录下有哪些具体的文件呢…

TCP拥塞控制

TCP拥塞控制(Congestion Control) 什么是拥塞控制? 拥塞控制(Congestion Control)主要针对整个网络中的数据传输速率进行调节,防止过多的数据注入网络中,这样可以使网络中的路由器或链路不致于过载,以避免…

Unity教程(十八)战斗系统 攻击逻辑

Unity开发2D类银河恶魔城游戏学习笔记 Unity教程(零)Unity和VS的使用相关内容 Unity教程(一)开始学习状态机 Unity教程(二)角色移动的实现 Unity教程(三)角色跳跃的实现 Unity教程&…