基于机器学习时序库pmdarima实现时序预测

目录

  • 一、Pmdarima实现单变量序列预测
    • 1.1 核心功能与特性
    • 1.2 技术优势对比
    • 1.3 python案例
      • 1.3.1 时间序列交叉验证
        • 1.3.1.1 滚动交叉验证
        • 1.3.1.2 滑窗交叉验证

时间序列相关参考文章
时间序列预测算法—ARIMA
基于VARMAX模型的多变量时序数据预测
基于机器学习时序库pmdarima实现时序预测
时间序列预测算法—Prophet
时间序列预测算法—LSTM
长时间序列预测算法—Informer
时间序列分类任务—tsfresh
有季节效应的非平稳序列分析
python时间序列处理
时间序列异常值检测方法
时间序列异常值处理方法

一、Pmdarima实现单变量序列预测

  pmdarima 是 Python 生态中专注于时间序列预测的高阶工具库,基于 ARIMA/SARIMA 模型框架,能够处理平稳性、季节性、周期性等问题,可以执行差分、交叉验证等运算,通过自动化建模流程降低时序分析门槛。其核心设计理念为 “自动化” 与 “兼容性”,旨在为开发者提供简洁、工业级的时序预测解决方案。
官方文档
源码仓库

1.1 核心功能与特性

  1. 自动化建模引擎
    参数自动搜索:通过 auto_arima() 函数一键完成模型参数(p, d, q 及季节性参数 P, D, Q, m)的智能搜索,无需手动调参。内置 ADF检验(Augmented Dickey-Fuller Test)自动确定差分阶数 d,解决非平稳序列问题。
    季节性处理:支持季节性差分与傅里叶项分解,自动检测季节性周期 m(如月、季度、年周期)。
  2. 工程化接口设计
    sklearn 兼容性:遵循 scikit-learn API 规范(fit()、predict()、score()),无缝接入机器学习流水线。支持 Pipeline 集成与 GridSearchCV 超参数优化。
    扩展功能:模型持久化(pickle 序列化)、置信区间计算、残差诊断(白噪声检验)。
  3. 性能优化
    并行计算:通过 n_jobs 参数启用多核并行加速模型搜索。
    大样本支持:分块(Chunking)处理超长时序数据,避免内存溢出。

1.2 技术优势对比

特性pmdarima传统 ARIMA 实现(如 statsmodels)
参数自动化✅ 全自动搜索 (p,d,q,P,D,Q,m)❌ 需手动指定所有参数
季节性支持✅ 内置季节差分与傅里叶分解⚠️ 需手动配置季节差分项
API 易用性✅ 类 sklearn 接口(fit/predict)⚠️ 需调用专用函数(如 ARIMA()
非平稳性处理✅ 自动执行ADF检验确定差分阶数d❌ 需手动运行平稳性检验
计算效率✅ 并行搜索 (n_jobs)、分块处理❌ 单线程计算为主
生产集成✅ 兼容sklearn流水线与超参数优化⚠️ 需额外封装才能接入ML系统
模型诊断✅ 内置残差检验与置信区间计算⚠️ 需调用其他工具辅助验证

1.3 python案例

  load_wineind 是pmdarima 库中经典的季节性时间序列数据集,时间范围为1980 年 1 月至 1994 年 8 月(共 176 个月度观测点),反映澳大利亚葡萄酒产业的月度销量。

import pmdarima as pm
from pmdarima import model_selection
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
import warnings
warnings.filterwarnings("ignore")data = pm.datasets.load_wineind()
fig = plt.figure(figsize=(16,5))
plt.plot(range(data.shape[0]),data)
plt.grid()

在这里插入图片描述

#使用pm分割数据,遵循时序规则,不会打乱时间顺序
train, test = model_selection.train_test_split(data, train_size=152)
#自动化建模,只支持SARIMAX混合模型,不支持VARMAX系列模型
arima = pm.auto_arima(train, trace=True, #训练数据,是否打印训练过程error_action='ignore', #设置为'ignore'将会忽略错误并继续,其他选项包括'warn'、'raise'、'trace'等。  suppress_warnings=True, #无视警告和错误maxiter=5, #允许的最大迭代次数seasonal=True,#是否考虑季节性因素。设置为True表示模型将包含季节性成分。m=12 #季节性的周期数)

在这里插入图片描述

#预测 - n_periods向未来预测,无法对训练的时间进行预测
preds = arima.predict(n_periods=test.shape[0])
preds #按照测试集的日期进行预测

在这里插入图片描述

fig = plt.figure(figsize=(16,5))
plt.plot(range(test.shape[0]),test)
plt.plot(range(test.shape[0]),preds)
plt.grid()

在这里插入图片描述

#评估指标 - 可共用sklearn的评估指标,也可调用特定的时序指标AIC
np.sqrt(mean_squared_error(test, preds))  #rmse  输出:2550.8824550311906
arima.aic() 							  #aic 输出:2946.1506587987415
arima.summary()

在这里插入图片描述
  傻瓜式搜索合适的参数,从效率角度来说远远超过statsmodel,遗憾的是,从上述代码不难看出,pmdarima的代码思路是更靠近机器学习而不是统计学的,因此pmd.auto_arima跑出的结果往往无法满足统计学上的各类检验要求,因此泛化能力无法被保证。同时我们也很容易发现,由于数据集分割的缘故,autoarima选择出的最佳模型可能无法被复现,例如我们使用autoarima选择出的最佳模型建立模型:

model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12), max_iter=500)
model.fit(train)
np.sqrt(mean_squared_error(test, model.predict(n_periods = test.shape[0]))) #RMSE:2983.19明显高于auto_arima:2550.88的结果
model.aic() #AIC:2936.459却低于auto_arima:2946.15的结果,所以AIC并不能作为唯一标准的评估指标fig = plt.figure(figsize=(16,5))
plt.plot(range(test.shape[0]),test)
plt.plot(range(test.shape[0]),model.predict(n_periods = test.shape[0]))
plt.grid()

在这里插入图片描述

1.3.1 时间序列交叉验证

  在时序模型的选择过程中,可以借助交叉验证来帮助我们选择更好的模型。时间序列的交叉验证非常特殊,因为时间序列数据必须遵守“过去预测未来”、“训练中时间顺序不能打乱”等基本原则,因此传统机器学习中的k折交叉验证肯定无法使用。在时间序列的世界中,有以下两种常见的交叉验证方式:滚动交叉验证滑窗交叉验证

1.3.1.1 滚动交叉验证

  滚动交叉验证是一种针对时间序列数据的验证方法,其核心思想是在模型训练过程中不断扩展训练集,同时使验证集逐步向未来推进。这种方式不仅确保了模型始终遵循“用过去预测未来”的原则,还能保证训练数据与预测目标之间的时间间隔足够接近,从而提高预测的现实性和有效性。
  相比传统的“多步预测”方法,滚动交叉验证避免了“误差累积”问题。由于训练过程中始终使用真实标签进行拟合,模型不会受到前期预测误差的传递影响,因此能够更稳定地评估未来数据的预测能力。对于时间序列任务,滚动交叉验证能够更真实地模拟未来预测场景,从而提高模型的泛化性能。
在这里插入图片描述
  在pmdarima中,使用类RollingForecastCVcross_validate来实现交叉验证。

model_selection.RollingForecastCV(h=1, step=1, initial=None)

h:验证集中的样本数量,可以输入[1, n_samples]的整数。

step:训练集中每次增加的样本数量,必须为大于等于1的正整数。

initial:第一次交叉验证时的训练集样本量,如果不填写则按1/3处理。

cv = model_selection.RollingForecastCV(h=1, step=1, initial = 10)
cv_generator = cv.split(data)
next(cv_generator) #根据Initial初始训练集有10个样本,验证集遵循参数h的设置,只包含一个样本

在这里插入图片描述

next(cv_generator) #根据step的设置,训练集每次增加1个样本,验证集继续包含一个样本

在这里插入图片描述

cv = model_selection.RollingForecastCV(h=5, step=10, initial = 10)
cv_generator = cv.split(data)
next(cv_generator) #验证集包含10个样本

在这里插入图片描述

next(cv_generator) 

在这里插入图片描述
  在pmdarima中实现滚动交叉验证时,验证集实际上是可以重复的,可以在有限的数据上进行多轮验证集重合的交叉验证。

model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12),max_iter=500)
cv = model_selection.RollingForecastCV(h=24, step=12, initial=36) 
predictions = model_selection.cross_validate(model, data,cv=cv, scoring = "mean_squared_error", verbose = 2, #控制日志输出的详细程度 0:无输出1:仅显示重要信息 2:详			       细日志,显示每次滚动交叉验证的进度和结果error_score = "raise") #控制当交叉验证过程中发生错误时的行为:"raise":遇到错误时直接报错np.nan:如果遇到错误,则该次评估返回 NaN,不会影响整个交叉验证流程
predictions

在这里插入图片描述

np.sqrt(predictions["test_score"]) #rmse

在这里插入图片描述
  交叉验证的测试集中得到的RMSE大部分都大于我们之前自动化建模时得到的RMSE,并且训练数据越少时,测试集上的RMSE会越大,这可能说明在前几折交叉验证时,训练集的数据量太少,我们可以考虑增大initial当中的设置来避免这个问题。

1.3.1.2 滑窗交叉验证

  与滚动交叉验证类似,滑窗交叉验证中的验证集既可以是单一样本,也可以包含多个时间步数据。相较于滚动交叉验证,滑窗交叉验证的核心优势在于训练集大小保持恒定, 每次训练时仅使用理论上对当前验证集最有效的信息。这避免了训练集无限增长所带来的计算开销,同时确保模型始终基于最新的历史数据进行训练,提高对近期趋势的适应性。然而,这一特性也带来了潜在问题:由于训练集较小,模型需要进行 更多次训练,导致计算量大幅增加,使得交叉验证过程异常缓慢。特别是在高频时间序列或大规模数据集上,滑窗交叉验证的计算成本可能成为实际应用中的限制因素。
在这里插入图片描述
  在pmdarima当中,使用SlidingWindowForecastCV来完成滑窗交叉验证:

model_selection.SlidingWindowForecastCV(h=1, step=1, window_size=None)
h:验证集中的样本数量,可以输入[1, n_samples]的整数。

step:每次向未来滑窗的样本数量,必须为大于等于1的正整数。

window_size:滑窗的尺寸大小,如果填写None则按照样本量整除5得到的数来决定。

cv = model_selection.SlidingWindowForecastCV(h=1, step=1, window_size = 10)
cv_generator = cv.split(data)
next(cv_generator)

在这里插入图片描述

next(cv_generator) 

在这里插入图片描述

cv = model_selection.SlidingWindowForecastCV(h=5, step=10, window_size = 10)
cv_generator = cv.split(data)
next(cv_generator)

在这里插入图片描述

next(cv_generator)

在这里插入图片描述

model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12),max_iter=500)
cv = model_selection.SlidingWindowForecastCV(h=24, step=12, window_size=36) #简单粗暴
predictions = model_selection.cross_validate(model,data, cv=cv, scoring = "mean_squared_error", verbose = 2, error_score = "raise")
predictions

在这里插入图片描述

np.sqrt(predictions["test_score"])

在这里插入图片描述
  从结果来看,使用更少的训练集进行训练后,模型输出的RMSE大幅上升了,并且也没有变得更稳定,这说明当前模型下更大的训练集会更有利于模型的训练。

cv = model_selection.SlidingWindowForecastCV(h=24, step=1, window_size=132)
predictions = model_selection.cross_validate(model, data,cv=cv, scoring = "mean_squared_error", verbose = 2, error_score = "raise")
np.sqrt(predictions["test_score"])                                            

在这里插入图片描述
  此时RMSE的均值大幅下降了,但是模型还是不稳定,这说明当前时间序列各时间段上的差异较大,当前模型的拟合结果一般。虽然通过增加训练集的数据量可以让模型表现提升,但极其不稳定的结果展示当前模型的泛化能力是缺失的。当然,和使用AIC时一样,我们只能选择表现更好的时序模型(只能择优),而无法选择完美的时序模型。当我们将auto_arima选出的最佳参数放弃、而选择带有其他参数的模型,说不定得到的结果会更加不稳定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/69371.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Naive UI去掉n-select下拉框边框,去掉n-input输入框边框

1、第一种通过js去掉 <template><div><div style"margin-top:10px;width: 100%;"><dade-descriptions><tr><dade-descriptions-item label"代理名称"><dade-input placeholder"代理名称"></dade-…

Qwen2-VL-2B-Instruct 模型 RK3576 板端部署过程

需要先在电脑上运行 RKLLM-Toolkit 工具&#xff0c;将训练好的模型转换为 RKLLM 格式的模型&#xff0c;然后使用 RKLLM C API 在开发板上进行推理。 在安装前先查看板端的内存容量&#xff0c;和自己模型占用大小比较一下&#xff0c;别安装编译好了不能用。 这里我就是先尝试…

【C语言标准库函数】双曲函数:sinh(), cosh(), tanh()

目录 一、头文件 二、函数简介 2.1. 双曲正弦函数 sinh(double x) 2.2. 双曲余弦函数 cosh(double x) 2.3. 双曲正切函数 tanh(double x) 三、函数实现&#xff08;概念性&#xff09; 四、注意事项 4.1. 参数类型 4.2. 计算精度 4.3. 函数返回值 4.4. 环境差异 4.…

(五)QT——QDialog 对话框

目录 前言 QDialog 主要功能 QDialog 使用方法 基本QDialog 应用程序级别的模态对话框 标准对话框 示例代码 功能展示 总结 1. 基本功能 2. 创建方式 3. 常用方法 前言 QDialog 是 Qt 框架中的对话框类&#xff0c;用于创建模态&#xff08;modal&#xff09;或非…

python 语音识别方案对比

目录 一、语音识别 二、代码实践 2.1 使用vosk三方库 2.2 使用SpeechRecognition 2.3 使用Whisper 一、语音识别 今天识别了别人做的这个app,觉得虽然是个日记app 但是用来学英语也挺好的,能进行语音识别,然后矫正语法,自己说的时候 ,实在不知道怎么说可以先乱说,然…

TensorFlow域对抗训练DANN神经网络分析MNIST与Blobs数据集梯度反转层提升目标域适应能力可视化...

全文链接&#xff1a;https://tecdat.cn/?p39656 本文围绕基于TensorFlow实现的神经网络对抗训练域适应方法展开研究。详细介绍了梯度反转层的原理与实现&#xff0c;通过MNIST和Blobs等数据集进行实验&#xff0c;对比了不同训练方式&#xff08;仅源域训练、域对抗训练等&am…

OSPF基础(2):数据包详解

OSPF数据包(可抓包) OSPF报文直接封装在IP报文中&#xff0c;协议号89 头部数据包内容&#xff1a; 版本(Version):对于OSPFv2&#xff0c;该字段值恒为2(使用在IPV4中)&#xff1b;对于OSPFv3&#xff0c;该字段值恒为3(使用在IPV6中)。类型(Message Type):该OSPF报文的类型。…

在CT107D单片机综合训练平台上,8个数码管分别单独依次显示0~9的值,然后所有数码管一起同时显示0~F的值,如此往复。

题目&#xff1a;在CT107D单片机综合训练平台上&#xff0c;8个数码管分别单独依次显示0~9的值&#xff0c;然后所有数码管一起同时显示0~F的值&#xff0c;如此往复。 延时函数分析LED首先实现8个数码管单独依次显示0~9的数字所有数码管一起同时显示0~F的值&#xff0c;如此往…

使用VCS对Verilog/System Verilog进行单步调试的步骤

Verilog单步调试&#xff1a; System Verilog进行单步调试的步骤如下&#xff1a; 1. 编译设计 使用-debug_all或-debug_pp选项编译设计&#xff0c;生成调试信息。 我的4个文件&#xff1a; 1.led.v module led(input clk,input rst_n,output reg led );reg [7:0] cnt;alwa…

数据结构及排序算法

数据结构 线性结构 ◆线性结构:每个元素最多只有一个出度和一个入度,表现为一条线状。线性表按存储方式分为顺序表和链表。 存储结构: ◆顺序存储:用一组地址连续的存储单元依次存储线性表中的数据元素,使得逻辑上相邻的元素物理上也相邻。 ◆链式存储:存储各数据元素的结点…

python实现多路视频,多窗口播放功能

系列Python开发 文章目录 系列Python开发前言一、python实现多路视频播放功能二、代码实现1. http申请视频流地址并cv2播放功能 三、打包代码实现生成可执行文件 总结 前言 一、python实现多路视频播放功能 服务端开发后通常需要做功能测试、性能测试&#xff0c;通常postman、…

【R语言】数据操作

一、查看和编辑数据 1、查看数据 直接打印到控制台 x <- data.frame(a1:20, b21:30) x View()函数 此函数可以将数据以电子表格的形式进行展示。 用reshape2包中的tips进行举例&#xff1a; library("reshape2") View(tips) head()函数 查看前几行数据&…

51单片机之使用Keil uVision5创建工程以及使用stc-isp进行程序烧录步骤

一、Keil uVision5创建工程步骤 1.点击项目&#xff0c;新建 2.新建目录 3.选择目标机器&#xff0c;直接搜索at89c52选择&#xff0c;然后点击OK 4.是否添加起吊文件&#xff0c;一般选择否 5.再新建的项目工程中添加文件 6.选择C文件 7.在C文件中右键&#xff0c;添加…

STM32 软件SPI读写W25Q64

接线图 功能函数 //写SS函数 void My_W_SS(uint8_t BitValue) {GPIO_WriteBit(GPIOA, GPIO_Pin_4, (BitAction)BitValue); }//写SCK函数 void My_W_SCK(uint8_t BitValue) {GPIO_WriteBit(GPIOA, GPIO_Pin_5, (BitAction)BitValue); }//写MOSI函数 void My_W_MOSI(uint8_t Bit…

apachePoi中XSSFClientAnchor图片坐标简述;填充多张图片

概述 业务中经常会遇到在单元格内填充图片的需求&#xff0c;而且要求指定图片在单元格内的位置。 一般都是用的apache的poi&#xff0c;设置图片坐标。 HSSFClientAnchor(int dx1, int dy1, int dx2, int dy2, short col1, int row1, short col2, int row2)dx1 dy1 起始单元…

Centos挂载镜像制作本地yum源,并补装图形界面

内网环境centos7.9安装图形页面内网环境制作本地yum源 上传镜像到服务器目录 创建目录并挂载镜像 #创建目录 cd /mnt/ mkdir iso#挂载 mount -o loop ./CentOS-7-x86_64-DVD-2009.iso ./iso #前面镜像所在目录&#xff0c;后面所挂载得目录#检查 [rootlocalhost mnt]# df -h…

ssti学习笔记(服务器端模板注入)

目录 一&#xff0c;ssti是什么 二&#xff0c;原理 所谓模板引擎&#xff08;三列&#xff0c;可滑动查看&#xff09; 三&#xff0c;漏洞复现 1&#xff0c;如何判断其所属的模板引擎&#xff1f; 2&#xff0c;判断清楚后开始注入 &#xff08;1&#xff09;Jinja2&a…

【前端】Python 闭包与JavaScript闭包的实现差异

目录 Python 闭包JavaScript 闭包 推荐超级课程&#xff1a; Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战 Python 闭包 如何定义&#xff1a; 在一个函数内部定义另一个函数&#xff0c;内部函数引用外部函数的变量。 def outer_function(text):…

【JVM详解二】常量池

一、常量池概述 JVM的常量池主要有以下几种&#xff1a; class文件常量池运行时常量池字符串常量池基本类型包装类常量池 它们相互之间关系大致如下图所示&#xff1a; 每个 class 的字节码文件中都有一个常量池&#xff0c;里面是编译后即知的该 class 会用到的字面量与符号引…

人工智能入门 数学基础 线性代数 笔记

必备的数学知识是理解人工智能不可或缺的要素&#xff0c;今天的种种人工智能技术归根到底都建立在数学模型之上&#xff0c;而这些数学模型又都离不开线性代数&#xff08;linear algebra&#xff09;的理论框架。 线性代数的核心意义&#xff1a;世间万事万物都可以被抽象成某…