时序论文19|ICML24 : 一篇很好的时序模型轻量化文章,用1k参数进行长时预测

图片

论文标题:SparseTSF: Modeling Long-term Time Series Forecasting with 1k Parameters

论文链接:https://arxiv.org/pdf/2402.01533

代码链接:https://github.com/lss-1138/SparseTSF

前言

最近读论文发现时间序列研究中,模型的轻量化是目前一个比较热门的方向。

这篇论文提出了SparseTSF,一种极其轻量的长时间序列预测(LTSF)模型,旨在解决在有限计算资源下建模复杂时间依赖关系的挑战。SparseTSF的核心是跨周期稀疏预测技术,该技术通过将时间序列数据的周期性和趋势解耦,简化了预测任务。具体来说,该技术通过对原始序列进行降采样,专注于跨周期趋势预测,从而有效提取周期性特征,同时最大限度地减少模型的复杂性和参数数量。基于这种技术,SparseTSF模型使用不到1000个参数就能实现与最先进模型相媲美甚至更优的性能。此外,SparseTSF表现出卓越的泛化能力,使其非常适合于计算资源有限、小样本或低质量数据的场景。

研究背景

01 参数量与均方误差

尽管较长的预测视野带来了便利,但也引入了更大的不确定性。因为这要求模型能够从更长的历史窗口中提取更广泛的时间依赖性。因此,为了捕捉这些长期时间依赖性,建模变得更加复杂。例如,基于Transformer的模型通常拥有数百万甚至数千万个参数,这限制了它们的实际可用性,尤其是在计算资源有限的情况下。

事实上,准确的长期时间序列预测的基础在于数据固有的周期性和趋势。周期性模式可以转化为子序列间的动态,而趋势模式则被重新解释为子序列内的特征。这种分解为设计轻量级LTSF模型提供了新的视角。

图片

如图所示,左下角橘黄色的小三角就是本文模型对应的参数量和均方误差,从图中可以看出,本文模型在均方误差与sota模型基本一致的情况下,做到了参数量少2个以上数量级。

02 通道独立

LTSF领域很多SOTA工作都基于频道独立(CI)方法,通过建模单变量序列中的长期依赖关系(包括周期性和趋势)来实现有效预测。具体来说,CI方法为每个单变量序列找到一个共享函数。然后为每个通道提供一个更具针对性和简化的预测模型,减少了对通道间关系的复杂考虑。像DLinear、如PatchTST、TiDE都是在单个通道上采用更复杂的结构来提取时间依赖性,旨在实现卓越的预测性能。本文同样采用这种CI策略,并专注于创建一个更轻量级但有效的方法捕捉单通道时间序列中的长期依赖关系。

本文工作

这里需要说明本文的一个潜在假设:待预测的数据通常先验地表现出恒定的周期性。例如,电力消耗和交通流量通常具有固定的日周期。如图所示,本文提出了跨周期稀疏预测SparseTSF模型,以增强对长期序列依赖关系的提取,同时,使用单个线性层来建模LTSF任务,减少模型的参数规模。

图片

01 跨周期稀疏预测

假设时间序列具有已知的周期性,第一步是将原始序列下采样成 w个子序列。然后,将具有共享参数的模型应用于这些子序列进行预测。预测完成后,将子序列上采样回完整预测序列。

直观上,这个预测过程看起来像是一个具有稀疏间隔 w的滑动预测,由一个在固定周期 w内共享参数的全连接层执行。可以将其视为一个模型在周期之间进行稀疏滑动预测。

从技术上讲,下采样过程等同于将序列重塑为一个n×w的矩阵,然后将其转置为w×n矩阵。稀疏滑动预测等同于在矩阵的最后一个维度上应用一个大小为n×m的线性层,从而得到一个w×m的矩阵。上采样步骤则等同于将w×m矩阵转置并重塑回长度为H 的完整预测序列。

然而,这种方法目前仍然面临两个问题:(i)信息损失,因为每个周期内只有一个数据点用于预测,而其余数据点被忽略;(ii)异常值影响的放大,因为在下采样的子序列中存在的极端值可能直接影响预测结果。

为了解决这些问题,本文作者在执行稀疏预测之前,对原始序列进行滑动聚合,如图2所示。每个聚合数据点包含其周围周期内其他点的信息,从而解决问题(i)。此外,由于聚合值本质上是周围点的加权平均值,它减轻了异常值的影响,从而解决问题(ii)。技术上,这种滑动聚合可以使用零填充和核大小为2×⌊w/2⌋+1的一维卷积来实现。

02 实例归一化和损失函数

本文采用Instance Normalization策略,在序列进入模型之前先减去其均值,在模型输出后再加回来。

损失函数采用经典的均方误差(MSE)作为SparseTSF的损失函数。通过计算预测值与真实值之间的平方误差,来衡量模型的预测性能。

图片

另外,本文的另一大工作是对SparseTSF模型进行了理论分析,重点关注其参数效率和稀疏技术的有效性。

实验和结论

图片

本文不足之处:

SparseTSF在参数规模极小的情况下实现了与当前最先进模型相竞争甚至超越的性能,使其成为计算资源受限环境中的强有力候选者,成为了长时间序列预测领域向轻量级模型迈进的又一个里程碑。

SparseTSF模型在处理超长周期、多重周期以及周期不明显的情况,可能会遇到困难,因为稀疏技术只能下采样和分解一个主要周期。未来可以考虑解决从超长周期和多周期数据中提取特征,力求在模型性能和参数规模之间实现最佳平衡。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(动画版)排序算法 -希尔排序

文章目录 1. 希尔排序(Shellsort)1.1 简介1.2 希尔排序的步骤1.3 希尔排序的C实现1.4 时间复杂度1.5 空间复杂度1.6 希尔排序动画 1. 希尔排序(Shellsort) 1.1 简介 希尔排序(Shells Sort),又…

Python学习从0到1 day26 第三阶段 Spark ④ 数据输出

半山腰太挤了,你该去山顶看看 —— 24.11.10 一、输出为python对象 1.collect算子 功能: 将RDD各个分区内的数据,统一收集到Driver中,形成一个List对象 语法: rdd.collect() 返回值是一个list列表 示例: from …

DNS解析库

DNS解析库 dnsDNS的解析库以及域名的详解解析库dns解析的端口dns域名的长度限制流程优先级在现实环境中实现内网的dns解析 练习(Ubuntu内网实现DNS解析)主服务器备服务器 dns 域名系统,域名和ip地址互相映射的一个分布式的数据库&#xff0c…

kafka 生产经验——数据积压(消费者如何提高吞吐量)

bit --> byte --> kb -->mb -->gb --> tb --> pb --> eb -> zb -->yb

Database Advantages (数据库系统的优点)

数据库管理系统(DBMS)提供了一种结构化的方式来存储、管理和访问数据,与传统的文件处理系统相比,数据库提供了许多显著的优点。以下是数据库系统的主要优势: 1. Data Integrity (数据完整性) 概念:数据完整…

【记录】公司管理平台部署:容器化部署

前置条件 技能要求 了解Docker基本使用和常用命令。会写Dockerfile文件。会写docker-compose文件环境要求 云服务器,已安装好安装Docker本机 IntelliJ IDEA 2022.1.3配置 配置服务器SSH连接 进入 Settings -> Tools -> SSH Configurations 点击加号创建SSH连接配置 填…

从零开始 blender插件开发

blender 插件开发 文章目录 blender 插件开发环境配置1. 偏好设置中开启相关功能2. 命令行打开运行脚本 API学习专有名词1. bpy.data 从当前打开的blend file中,加载数据。2. bpy.context 可用于获取活动对象、场景、工具设置以及许多其他属性。3. bpy.ops 用户通常…

JavaScript 观察者设计模式

观察者模式:观察者模式(Observer mode)指的是函数自动观察数据对象,一旦对象有变化,函数就会自动执行。而js中最常见的观察者模式就是事件触发机制。 ES5/ES6实现观察者模式(自定义事件) - 简书 先搭架子 要有一个对象&#xff…

el-table 行列文字悬浮超出屏幕宽度不换行的问题

修改前的效果 修改后的效果 ui框架 element-plus 在网上找了很多例子都没找到合适的 然后这个东西鼠标挪走就不显示 控制台也不好调试 看了一下El-table的源码 他这个悬浮文字用的el-prpper 包着的 所以直接改 .el-table .el-propper 设置为max-width:1000px 就可以了 吐槽一…

IO技术详解

IO监控项在监控中一直是很重要的存在,服务有IO,磁盘有IO,操作系统也有IO,IO到底是什么呢 IO IO,即“输入/输出”(Input/Output),是指计算机系统或设备之间交换数据的过程。这个概念…

Tcp中的流量控制,拥塞控制,超时重传时间的选择,都附带相应例子说明

端口号的了解 通常进行通信时,发送方使用任意端口,指定接收方为指定端口,因为接收方在接收到后的需要根据发送方指定的接收方端口号,来选择使用哪一个服务进程进行处理。 端口号还可以分类为两个大类: TCP和UDP报文的…

Nextflow最佳实践:如何在云上高效处理大规模数据集

1. Nextflow 软件架构介绍 Nextflow 是一个用于简化数据驱动计算流程的工具,可以在各种计算环境中轻松部署。它采用了分布式计算和容器技术,实现了高度模块化、可重复性和可扩展性。NextFlow 的软件架构主要包括以下几个部分: 用户界面&…

LeetCode【0032】最长有效括号

本文目录 1 中文题目2 求解方法:动态规划2.1 方法思路2.2 Python代码2.3 复杂度分析 3 题目总结 1 中文题目 给定一个只包含 ‘(’ 和 ‘)’ 的字符串,找出最长有效(格式正确且连续)括号 子串 的长度。 示例: 输入&…

一文看懂ERP、SCM、SRM、WMS、TMS、进销存管理系统

经常有人来私信问我ERP、SCM、SRM、WMS、TMS、进销存管理系统等等,它们听起来都很专业,但到底各自是什么?承担着怎样的角色呢?它们具体都有哪些功能?相互之间又存在怎样的关联,对企业而言又意味着什么呢&am…

c++写一个死锁并且自己解锁

刷算法题: 第一遍:1.看5分钟,没思路看题解 2.通过题解改进自己的解法,并且要写每行的注释以及自己的思路。 3.思考自己做到了题解的哪一步,下次怎么才能做对(总结方法) 4.整理到自己的自媒体平台。 5.再刷重复的类…

机器学习系列----KNN分类

目录 前言 一.KNN算法的基本原理 二.KNN分类的实现 三.总结 前言 在机器学习领域,K近邻算法(K-Nearest Neighbors, KNN)是一种非常直观且常用的分类算法。它是一种基于实例的学习方法,也被称为懒学习(Lazy Learnin…

深度学习——优化算法、激活函数、归一化、正则化

文章目录 🌺深度学习面试八股汇总🌺优化算法方法梯度下降 (Gradient Descent, GD)动量法 (Momentum)AdaGrad (Adaptive Gradient Algorithm)RMSProp (Root Mean Square Propagation)Adam (Adaptive Moment Estimation)AdamW 优化算法总结 经验和实践建议…

vue登陆验证

导航守卫:直白的说,导航守卫就是路由跳转过程中的一些钩子函数,这些函数能让你在跳转过程中操作一些其他 的事的时机,这就是导航守卫。 比如最常见的登录权限验证,当用户满足条件时,才让其进入导航&…

YOLOv11实战宠物狗分类

本文采用YOLOv11作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv11以其高效的特征提取能力,在多个图像分类任务中展现出卓越性能。本研究针对5种宠物狗数据集进行训练和优化,该数据集包含丰富的宠物狗图像样本…

星期-时间范围选择器 滑动选择时间 最小粒度 vue3

星期-时间范围选择器 功能介绍属性说明事件说明实现代码使用范例 根据业务需要,实现了一个可选择时间范围的周视图。用户可以通过鼠标拖动来选择时间段,并且可以通过快速选择组件来快速选择特定的时间范围。 如图: 功能介绍 时间范围选择&…