基于WIN10的64位系统演示
一、写在前面
各位大佬,不知大家是否把结果一复现出来了呢?
我们继续往下看,首先复习一下:
《PLoS One》杂志的2023年一篇题目为《A comparative study of three models to analyze the impact of air pollutants on the number of pulmonary tuberculosis cases in Urumqi, Xinjiang》文章的公开数据做案例。
这文章做的是用:空气污染物对新疆乌鲁木齐肺结核病例数影响的比较研究。
在结果一中,我们把时间序列进行了分解,使其变成了时间序列的总体趋势、季节性和随机成分,最主要的就是总体趋势和季节性成分咯。看过我之前的ARIMA系列的大佬应该记得,这两个性质关系到ARIMA模型的选择和调参。
二、学习和复现:结果二ARIMA模型的调参和诊断
咱们一段一段来:
(1)第一段:
下面是原文:
上翻译:
如图2所示,乌鲁木齐的PTB病例系列显然是非平稳的。经过一阶差分后,得到了ACF图和PACF图(见图3)。ACF图显示,滞后2个顺序后,ACF值落入双标准偏差区间。总之,一阶差分后的PTB病例系列具有短期相关性,并且通过ADF测试证明是平稳的(ADF = -9.14,P < 0.05)。
然后再一句一句来:
①“如图2所示,乌鲁木齐的PTB病例系列显然是非平稳的。”:之前说过,总体趋势上升或者下降,那就是数据不平稳。特别是做这个时间序列拆分,看的更加明显。
②“经过一阶差分后,得到了ACF图和PACF图(见图3)。:这里就是雷打不动的ACF和PACF图,由于数据不平稳,所以无脑做一次一般的一阶拆分。看这个图的模样,应该是用Eview做的(具体教程传送门),我们这里就用SPSS平替呗(具体教程传送门)。
参数设置如下:
SPSS出的图是ACF和PACF是分开的,而原文中用Eview做的是合并的:
③“ACF图显示,滞后2个顺序后,ACF值落入双标准偏差区间。总之,一阶差分后的PTB病例系列具有短期相关性,”:这个应该好理解,实际上吧,这个图对于调参,作用不是太大,但是得有。
④“并且通过ADF测试证明是平稳的(ADF = -9.14,P < 0.05)。”:平行性检验对于ARIMA很重要,因此,ADF检验也是必做的。要命的是,SPSS做不了,Eviews可以,所以文章这个结果全部在Eviews做了(教程传送门)。
这里补上Eviews做的ACF和PACF图:
做ADF检验结果:
不同软件版本算出的值有点差异属于正常,不要纠结。
(2)第二段:
再看原文:
上翻译:
通过对肺结核病例数量的数据特征和稳定化过程的初步分析,确定了ARIMA(p, 1, q)(P, 0, Q)12模型。接下来,为了在更大范围内选择最优模型,进行了自相关函数(ACF)和偏自相关函数(PACF)的分析,结果显示p、q、Q=0、1或2,P=0或1(见图3),因此总共有3×3×3×2=54种不同的选择。对54个模型的系数进行了T检验,对残差进行了Box检验。最终,10个模型通过了测试,它们的拟合优度评估结果根据AIC、BIC和MAPE标准在表2中给出。
解读:
①“通过对肺结核病例数量的数据特征和稳定化过程的初步分析,确定了ARIMA(p, 1, q)(P, 0, Q)12模型。”:做了一次一般拆分,d=1。但是吧,可以看到明显的季节趋势,其实D也可以直接等于1。其实也没问题,因为d=1的时候,数据已经平稳,如果在做D=1的季节性拆分,会损失数据。
②“接下来,为了在更大范围内选择最优模型,进行了自相关函数(ACF)和偏自相关函数(PACF)的分析,结果显示p、q、Q=0、1或2,P=0或1(见图3),因此总共有3×3×3×2=54种不同的选择。”:说实话,我也看不懂为何这么取值,我的经验就是无脑去0、1、2、3。来咨询一下GPT:
大家参考一下吧,能自圆其说就行,反正我做就是无脑尝试0、1、2甚至是3。
③“对54个模型的系数进行了T检验,对残差进行了Box检验。最终,10个模型通过了测试,它们的拟合优度评估结果根据AIC、BIC和MAPE标准在表2中给出。”:这个没啥好说的了,劳动密集型,一个一个去建模尝试:要求参数都要通过统计学检验,然后比较AIC和BIC值,挑出2个数值最小的,就是最优模型。具体可以看我之前的教程。
(3)第三段:
原文:
简单翻译一下:
根据最小信息标准,ARIMA(1,1,2)×(0,0,1)12是10个候选模型中具有最小贝叶斯信息准则(BIC=643.75)和最小平均绝对百分比误差(MAPE=15.98%)的最佳模型(见表2)。ARIMA(1,1,2)×(0,0,1)12模型的参数估计结果和白噪声检验结果分别在表3和表4中展示,所有的P值在统计上都是显著的(P<0.05)。
解读:
选出最优模型,把它的参数检验结果,白噪声检验结果列出来,又多了几个看起来高大上的结果。
三、个人感悟
也没啥好说的,因为ARIMA建模的步骤很标准化了。至于参数取值范围的问题,不同研究都会不同的,能够自圆其说即可,不必太纠结,毕竟最后都需要做模型假设检验和选择。此外,在强调一遍,不同软件或者统一软件不同版本号,算出来的模型参数和结果会有差异。因此,文章中要写清楚软件及其版本号。
四、数据
链接:https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0277314