时间序列预测问题是一类常见的数据分析问题。数据中往往包含时间标签,这类问题往往根据过去一段时间的数据,建立能够比较精确地反映序列中所包含的动态依存关系的数学模型,并对未来的数据进行预测。
01、问题描述及数据挖掘目标
本案例给出二战时期的某气象站温度记录值,通过分析之前的天气状况来预测将来天气情况。与回归分析模型进行预测不同,时间序列模型依赖于事件发生的先后顺序预测接下来的输出模型的结果,改变输入值的先后顺序对模型产生不同的结果。相较于前两个案例,该案例探索时间序列数据的分析方式。
02、数据导入和预处理
导入数据处理阶段使用的库函数,numpy和pandas用于数据处理;matplotlib和seaborn用于可视化操作:
In[1]:import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
使用pandas库的read_csv函数导入数据,示例代码中的csv路径和本地csv路径保持一致。
In[2]:
weather data = pd.read csv("../data/2/Summary of weather.csv"
由于数据集已经经过数据清洗,数据预处理过程简单。我们可以直接观察