一、研究背景与意义
空气污染导致的环境恶化已经成为世界各国许多国家和地区发展受限的重要原因。空气污染物是由气态物质、挥发性物质、半挥发性物质和颗粒物质的混合物造成的,其中典型 的空气污染物就是人们生活中经常使用到的高频词汇雾霾。本文主要对其中的污染物的排放量进行预测和研究。。。。。
本文利用气象中心和公开数据平台所提供的数据进行预处理(给定的全球暖化数据集),首先对应数据进行相应的可视化,随后进行检验和模型的选择判断,最终选择出最优的模型进行预测和分析。最终通过实验,验证了本文研究的数据处理方法、分析预测模型的有效性,能够较好地实现短时临近污染物排放的时序预测。
二、 文献综述
传统时间序列分析预测方法和机器学习体现了人工智能的核心技术,也是使计算机更加智能化的重要技术之一。随着机器学习算法取得更加突破性的进展,人工智能领域发展的速度也逐渐加快。机 器学习具有的高计算效率,高预测准确率,高灵活性等特点,让它在不同行业都得到 了广泛的使用,当然也包括气象领域[20]。机器学习的诞生改变了传统的气象监测方法, 使得气象监测效率提高,准确率增强,提高了天气预报的质量,给人们的生活带来改善。。。。
王建书借助于自回归积分滑动平均(Autoregressive Integrated Moving Average Model,ARIMA)模型对苏州市空气质量指数进行预测,为空气污染的健康防护预警提供参考。。。。
三、数据集介绍
本文所运用到的数据来源于气象中心和公开数据平台所提供的数据(给定的全球暖化数据集),其中包括一氧化碳、非甲烷挥发性有机物、硫氧化物等,数据具体情况如下:
数据和代码
数据代码报告
表1 俄罗斯1990-2016年的污染物排放量数据(硫氧化物)
SgnYear | CountryCode |
| CountryCode3 | AirPollutant | TotalStaSource | |
1990 | 643 | 俄罗斯 | RUS | 硫氧化物 | 9427 | |
1991 | 643 | 俄罗斯 | RUS | 硫氧化物 | 9165 | |
... | ... | ... | ... | ... | ||
2016 | 643 | 俄罗斯 | RUS | 硫氧化物 | 4011 |
表2俄罗斯1990-2016年的污染物排放量数据(氮氧化物)
SgnYear | CountryCode |
| CountryCode3 | AirPollutant | TotalStaSource | |
1990 | 643 | 俄罗斯 | RUS | 氮氧化物 | 3029 | |
1991 | 643 | 俄罗斯 | RUS | 氮氧化物 | 3030 | |
... | ... | ... | ... | ... | ||
2016 | 643 | 俄罗斯 | RUS | 氮氧化物 | 1830 |
表3 俄罗斯1990-2016年的污染物排放量数据(一氧化碳)
SgnYear | CountryCode |
| CountryCode3 | AirPollutant | TotalStaSource | |
1990 | 643 | 俄罗斯 | RUS | 一氧化碳 | 8126 | |
1991 | 643 | 俄罗斯 | RUS | 一氧化碳 | 7588 | |
... | ... | ... | ... | ... | ||
2016 | 643 | 俄罗斯 | RUS | 一氧化碳 | 4907 |
表4 俄罗斯1990-2016年的污染物排放量数据(非甲烷挥发性有机物)
SgnYear | CountryCode |
| CountryCode3 | AirPollutant | TotalStaSource | |
1990 | 643 | 俄罗斯 | RUS | 非甲烷挥发性有机物 | 1864 | |
1991 | 643 | 俄罗斯 | RUS | 非甲烷挥发性有机物 | 1742 | |
... | ... | ... | ... | ... | ||
2016 | 643 | 俄罗斯 | RUS | 非甲烷挥发性有机物 | 1305 |
四、理论部分
自回归移动平均模型(Autoregressive moving average model)是研究时间序列的重要方法,由自回归模型(简称AR模型)与移动平均模型(简称MA模型)为基础进行“混合”而构成。
将所预测的指标随时间推移而形成的数据序列就可以看作是一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延展性。。。。
五、实证分析
由于本文数据是直接从数据库取而得,且数据的整体完整性较好,从而不需要对数据做特别的处理,直接在r程序软件上读取即可。
首先展示污染物为了硫氧化物的数据
library(tseries)
library(forecast)
library(readxl)
library(stats)
#####数据读取
Tem_dataset<- read.xlsx("Ru.xlsx", sheet = 1)
Tem_dataset
###随后对整体数据进行描述性添加分析
summary(Tem_dataset)
从上面图1可以看出,使用summary函数对数据进行了描述性统计,其中对每个特征的最大最小值,均值以及分位数都进行了描述分析。下图3画出了俄罗斯1990-2016年不同污染物的排放情况,具体情况如下图:
###画出1990年-2016年俄罗斯不同污染物排放时间序列图
Tem_dataset$TotalStaSource
ATEM<-ts(Tem_dataset$TotalStaSource,start=c(1990),frequency=1)
ATEMplot(ATEM,type="o",pch=20,main="1990年-2016年俄罗斯不同污染物(硫氧化物)排放时间序列图",xlab = "年份/Year",ylab="排放量",col = "violet")
模型构建
纯随机性分析,即白噪声检验,看其是否为白噪声:
#绘制自相关图和偏自相关图
acf(ATEM,lag=12)
pacf(ATEM,lag=12)
从上面结果可以看出,无论是6阶、12阶还是18阶,进行纯随机性检验,检验结果显示统计量的p值显著小于0.05的显著性水平,可判断序列为平稳非白噪声序列。
可以继续建模。
接下来进行ADF检验查看,并且函数进行自动定阶
###自动定阶
auto.arima(ATEM)###模型拟合
ATEM.fit<-auto.arima(ATEM)
ATEM.fit
接下来进行模型对比,如下图:
接下来进行序列的残差检验:
从上面结果可以看到,在0.05的显著性水平下p值为0.2232,不拒绝原假设,则可以说明滞后1期的残差均是白噪音。
最后进行预测,预测10期,即未来10年的污染物排放情况,具体情况如下:
#模型预测
per_ATEM<-forecast(ATEM.fit,h=10)
per_ATEM
plot(per_ATEM)
六、结论
本文采用了ARIMA(0,2,1)模型,利用1990-2016年历史的俄罗斯空气污染物排放量数据进行了10年的的数据预测,从预测结果来看,所得空气污染物排放指标数据与往年同期相比,符合相关规律。。。。
- 王建书,王瑛,赵敏娴,周晓龙,陆颂文,杨海兵,刘强.ARIMA模型在苏州市空气质量指数预测中的应用[J].公共卫生与预防医学,2019,30(02):18-20.
- 夏晓圣,陈菁菁,王佳佳,等.基于随机森林模型的中国PM2.5浓度影响因素分析[J].环境 科学,2020,41(05):2057-2065.
创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)