Python数据分析案例36——基于神经网络的AQI多步预测(空气质量预测)

案例背景

不知道大家发现了没,现在的神经网络做时间序列的预测都是单步预测,即(需要使用X的t-n期到X的t-1期的数据去预测X的t期的数据),这种预测只能预测一个点,我需要预测X的t+1期的数据就没办法了,有的同学说可以把预测的结果X的t+1拿进来作为新的x去预测。。。我只能说这种情况是有误差的,而且误差会累加,这样效果很差。(看很多ARIMA的预测效果一条直线就知道了)

很多时候需要进行多步预测,即(需要使用X的t-n期到X的t-1期的数据去预测X的t期到t+n期的数据,预测出来的就不止一个点。这种方法,ARIMA这种传统统计学的方法是做不到的了,神经网络可以做到,因为神经网络可以接受一条序列作为y,这样去训练就可以得到多步预测模型了。

本次案例使用某城市的AQI数据,去预测未来一年365天的数据。来看看我怎么完成的。


数据介绍

没啥好介绍的,一般下载城市的数据都是这样的,我们只需要AQI这一列就行。

任务介绍:基于空气质量检测数据,采用人工神经网络对AQI进行回归预测。

  • (1)利用Python实现回归预测并得出2024年的预测结果。
  • (2)展示随迭代次数增加,不同激活函数下的损失函数的变化情况。

当然,需要本次演示案例的数据和所有代码文件的同学可以参考: AQI预测 


代码实现

导入包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']  #解决中文显示乱码问题
plt.rcParams['axes.unicode_minus']=Falsefrom keras.models import Sequential
from keras.layers import LSTM, Dense,Flatten
from keras.callbacks import EarlyStopping
from sklearn.preprocessing import MinMaxScaler

读取数据,设置日期索引:

data=pd.read_excel('AQI数据.xlsx')#.set_index('日期')
data['日期']=pd.to_datetime(data['日期'])
data=data.set_index('日期')
data

数据跨度从2019-2023年,日度数据。

简单画个图看看

data.aqi.plot(figsize=(10,3))

很符合AQI的摸样,波动很大,参差不齐,还有一定的周期性。


数据准备

时间序列做神经网络预测,一般都需要进行三维化,即把数据变为(n,t,p)的形状,n是样本量,t是时间步长,p是特征数量。一般 的表格数据都是(n,p)的结构,时间序列要多一个时间t的维度。

数据构建X和y之前要归一化,神经网络很需要,不然模型会不收敛。

# 数据预处理
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_aqi = scaler.fit_transform(data['aqi'].values.reshape(-1, 1))# 创建LSTM需要的序列数据
def create_dataset(dataset, start_index, end_index, history_size, target_size):data = [] ; labels = []start_index = start_index + history_sizeif end_index is None:end_index = len(dataset) - target_sizefor i in range(start_index, end_index):indices = range(i-history_size, i)data.append(np.reshape(dataset[indices], (history_size, 1)))labels.append(dataset[i:i+target_size])return np.array(data), np.array(labels)# 用过去的700天数据来预测接下来的365天
past_history = 700
future_target = 365X_train, y_train = create_dataset(scaled_aqi, 0, None, past_history, future_target)
y_train=y_train.reshape(y_train.shape[0],y_train.shape[1])
X_train.shape, y_train.shape

我定义了一个转化时间序列构建X和y的函数,然后采用时间窗口为700,也就是t=700的时间步长,然后去预测未来365天的数据,也就是一年。

为什么是700,,,没有为什么,因为要预测365个点,我需要时间步长大一点,那就大概2倍的数据吧,我就选择了凑个整数700,当然699,701,710,720,730,都是可以的,可以去试试。

是不是时间步长越长越好?不一定,首先看你样本量,我数据只有1500多个点,我选择了700时间步长,其实就损失了700个样本了,可以看到我样本量只有486个,有点少。其次,时间步长过长会造成运行时间过长,你也不想体验等一次运行结果要等上一天的感觉吧。。。

当然大家可以更具自己的需要预测的时间长度,还有样本量来调整自己的时间步长t。


预测2024年数据(默认tanh激活函数)

这里构建的是最简单的神经网络MLP模型,一个小案例,就没使用LSTM,GRU,transform这种序列模型了。大家感兴趣可以自己改一下试试。

# 创建MLP模型
model = Sequential()
model.add(Flatten())
model.add(Dense(512))
model.add(Dense(128))
model.add(Dense(future_target))
model.compile(optimizer='adam', loss='mse')# 训练模型
early_stop = EarlyStopping(monitor='loss', patience=10)
history=model.fit(X_train, y_train, epochs=50, batch_size=32, callbacks=[early_stop], verbose=1)

训练了50轮,loss没怎么变了。

画图看看:

plt.figure(figsize=(7,3))
plt.plot(history.history['loss'], label=f'loss')
plt.legend()
plt.show()

基本收敛了,然后我们预测,预测的数据要逆归一化回来,然后加上预测的日期的索引。

# 进行预测
prediction = model.predict(X_train[-1].reshape(1, past_history, 1))
# 逆缩放预测结果
predicted_aqi = scaler.inverse_transform(prediction).flatten()
predicted_aqi.shape# 创建预测日期的范围
last_date = data.index[-1]
predicted_dates = pd.date_range(start=last_date, periods=future_target+1, closed='right')# 创建包含预测结果的DataFrame
predicted_df = pd.DataFrame({'日期': predicted_dates,'预测aqi': predicted_aqi})

画个图看看:

# 绘制预测和实际的AQI值
plt.figure(figsize=(12, 3),dpi=128)
plt.plot(data.index, data['aqi'], label='Actual AQI')
plt.plot(predicted_dates, predicted_aqi, label='Predicted AQI', linestyle='dashed')
plt.title('AQI Prediction')
plt.xlabel('Date')
plt.ylabel('AQI')
plt.legend()
plt.show()

后面橙色的虚线就是我预测的数据了。看这效果还不错的样子,波动性学到了,季节性也学到了。

由于目前还没有真实的2024年的AQI数据,也不知道效果好不好。。。也不知道别的LSTM之类的模型效果好不好。。所以没法计算误差去评价。


储存预测结果 

## 储存
predicted_df.to_excel('AQI预测结果.xlsx')

保存了,可以本地excel查看了。 


 不同损失函数

下面是一个其他任务的彩蛋吧,看看不同的激活函数对模型的训练过程是否有影响。

有兴趣的同学可以看看。

展示随迭代次数增加,不同激活函数下的损失函数的变化情况。

- (用了五种激活函数)['relu', 'tanh', 'sigmoid','elu','softplus']

定义和训练:

# Function to create and train LSTM model with different activation functions
def train_lstm_model(X_train, y_train, activation='relu', epochs=100, batch_size=32):model = Sequential()model.add(Flatten())model.add(Dense(512))model.add(Dense(128))model.add(Dense(future_target))model.compile(optimizer='adam', loss='mse')# Early stopping to prevent overfittingearly_stop = EarlyStopping(monitor='loss', patience=10, verbose=1)# Train the modelhistory = model.fit(X_train, y_train, epochs=epochs, batch_size=batch_size, verbose=0, callbacks=[early_stop])return model, history# Activations to try
activations = ['relu', 'tanh', 'sigmoid','elu','softplus']
# Dictionary to store models and histories
models = {}
histories = {}# Training models with different activation functions
for activation in activations:model, history = train_lstm_model(X_train, y_train, activation=activation)models[activation] = modelhistories[activation] = history.history['loss']

画图查看:

## 五种激活函数
plt.figure(figsize=(9, 3),dpi=128)
for activation in activations:plt.plot(histories[activation], label=f'Activation = {activation}')
plt.title('Training Loss with Different Activation Functions')
plt.ylabel('Loss')
plt.xlabel('Epoch')
plt.legend()
plt.show()

五种激活函数差不多,区别不大。


创作不易,看官觉得写得还不错的话点个关注和赞吧,本人会持续更新python数据分析领域的代码文章~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/633468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++设计模式(李建忠)笔记4(完结)

C设计模式(李建忠) 本文是学习笔记,如有侵权,请联系删除。 参考链接 Youtube: C设计模式 Gtihub源码与PPT:https://github.com/ZachL1/Bilibili-plus 豆瓣: 设计模式–可复用面向对象软件的基础 总结23种设计模式…

5-数组-矩阵置零

这是数组的第5篇算法,力扣链接。 给定一个 m x n 的矩阵,如果一个元素为 0 ,则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1: 输入:matrix [[1,1,1],[1,0,1],[1,1,1]] 输出:[[1,0,1],[0…

VMware 安装 CentOS7

目录 镜像下载VMware创建创建新的虚拟机直接自定义了选择镜像所在位置更改虚拟机的名称和存储位置(尽量不要使用默认位置)设置虚拟机的配置(根据自己的情况而定)设置虚拟机的内存(根据自己情况而定)设置网络…

浅谈2023-2024年中国人工智能计算力发展

2023年是人工智能发展的重要转折年,企业正加速从业务数字化迈向业务智能化。大模型和生成式人工智能的发展将引发计算范式之变、产业动量之变,以及算力服务格局之变。从感知智能到生成式智能,人工智能算力需求快速增长。大模型和生成式人工智…

投资有道:分析、交易与等待的艺术

投资过程可以分为分析、交易和等待三个阶段。在这三个阶段中,分析和交易是相互联系的,而等待则是连接这两端的关键。分析的核心在于具备商业理解力和概率思维,而交易的核心则在于掌握赔率和逆向思维。在这三个阶段中,等待是最难把…

机器视觉系统在汽车车轮毂检测上的应用

将机器视觉用于轮毂检测,可以利用图像分析的方法来测量轮毂特征尺寸、判断轮毂形状,并获取其位置坐标等信息,从而能够辨识流水生产线上的各种款式和型号的汽车轮毂。 市面上对汽车车轮毂具体检测要求如下 : 1.为了分辨流水线上…

ARM day5、day6 硬件编程

一、硬件 fs4412 sd卡 串口线 电源 二、根据原理图点灯 1、确定需求: 点灯(亮 or 灭) 2、查看原理图 2.1 外设原理图 devboard 查找LED2->CHG_COK(核心板) 2.2 核心板原理图 coreboard 查找CHG_COK->XEINT23/KP_ROW7/ALV_DBG…

golang面试题大全

go基础类 1、与其他语言相比,使用 Go 有什么好处? 与其他作为学术实验开始的语言不同, Go 代码的设计是务实的。每个功能和语法决策都旨在让程序员的生活更轻松。Golang 针对并发进行了优化,并且在规模上运行良好。由于单一的标…

蓝桥杯(C++ 矩形总面积 错误票据 分糖果1 三国游戏 分糖果2)

目录 一、矩形总面积 思路: 代码: 二、错误票据 思路: 代码: 三、分糖果1 思路: 代码: 四、三国游戏 思路: 代码: 五、分糖果2 思路: 代码:…

uniapp 微信小程序自带实时线上日志

找个位置建上js文件 var log wx.getRealtimeLogManager ? wx.getRealtimeLogManager() : nullmodule.exports {info() {if (!log) returnlog.info.apply(log, arguments)},warn() {if (!log) returnlog.warn.apply(log, arguments)}, error() {if (!log) returnlog.error.a…

2018年认证杯SPSSPRO杯数学建模C题(第二阶段)机械零件加工过程中的位置识别全过程文档及程序

2018年认证杯SPSSPRO杯数学建模 基于轮廓提取与图像配准的零件定位问题研究 C题 机械零件加工过程中的位置识别 原题再现: 在工业制造自动生产线中,在装夹、包装等工序中需要根据图像处理利用计算机自动智能识别零件位置,并由机械手将零件…

访问者模式介绍

目录 一、访问者模式介绍 1.1 访问者模式定义 1.2 访问者模式原理 1.2.1 访问者模式类图 1.2.2 模式角色说明 二、访问者模式的应用 2.1 需求说明 2.2 需求实现 2.2.1 V1版本 2.2.1.1 抽象产品类 2.2.1.2 糖果类 2.2.1.3 酒水类 2.2.1.4 水果类 2.2.1.5 访问者接口…

随笔03 笔记整理

图源:文心一言 关于我的考研与信息安全类博文整理~🥝🥝 第1版:整理考研类博文~🧩🧩 第2版:提前列出博文链接,以便小伙伴查阅~🧩🧩 第3版:整理We…

上海亚商投顾:沪指探底回升 大金融板块午后走强

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 指昨日探底回升,深成指、创业板指午后跌超1%,尾盘集体拉升翻红,北证50指数涨…

一万六千字大章:Chrome 浏览器插件 V3 版本 Manifest.json 文件全字段解析

Chrome 浏览器插件 V3 版本 Manifest.json 文件全字段解析 Manifest.json 文件格式 每个扩展程序的根目录中都必须有一个 manifest.json 文件,其中列出了有关该扩展程序的结构和行为的重要信息。 1、Demo 展示 1. 最小文件 {"manifest_version": 3,&quo…

2024哪些跨境电商平台值得做?

时代的巨变在2023年尤其明显,这一年随着全球化进程的加深,跨境出海处于“高景气”阶段。为了在跨境出海浪潮中保有稳定的地位甚至获得增长,跨境人最需要关注的是哪个跨境电商平台成为大势,用户所选择的平台是什么?在跨…

echarts图表

所谓图表就是用来统计一些数据的,图表有很多种,有折线图、柱状图、饼状图、散点图等等多种多样的样式,我们可以根据自身需求来选择。 我们在用的时候是要先下载的,我们可以直接搜echarts官网,里面有快速入门&#xff…

select...in在mybatis里使用(巨坑!!)

情景:最近遇到了一个bug: 在DAO层里的这个sql语句,传入的参数没问题,在mysql里面查询也查询到了数据,为什么在dao层执行的时候查到数据不完整甚至没有呢? 主要原因: Mybatis 在 处理#{}时&…

STM32 基本定时器反转LED

引脚是什么为什么要初始化引脚? 在嵌入式系统中,引脚是微控制器或微处理器上的物理引脚,用于连接外部设备、传感器或其他芯片。每个引脚都有特定的功能和用途,例如输入、输出、模拟输入、电源供应等。STM32F103C8T6引脚图&#xf…

2018年认证杯SPSSPRO杯数学建模B题(第二阶段)动态模糊图像全过程文档及程序

2018年认证杯SPSSPRO杯数学建模 动态模糊图像复原 B题 动态模糊图像 原题再现: 人眼由于存在视觉暂留效应,所以看运动的物体时,看到的每一帧画面都包含了一段时间内 (大约 1/24 秒) 的运动过程,所以这帧画面事实上是模糊的。对…