第 5 篇：初试牛刀 - 简单的预测方法

经过前面四篇的学习，我们已经具备了处理时间序列数据的基本功：加载、可视化、分解以及处理平稳性。现在，激动人心的时刻到来了——我们要开始尝试预测 (Forecasting) 未来！

预测是时间序列分析最核心的应用之一。虽然存在很多复杂的预测模型，但万丈高楼平地起，一些看似简单的预测方法不仅容易理解和实现，有时效果还出奇地好，并且它们是理解更高级模型的重要基础。

本篇，我们将学习几种“入门级”的时间序列预测方法：

预测的基本概念： 区分训练与预测，划分数据集。
朴素预测 (Naive Forecast): 最简单的方法。
简单平均法 (Simple Average): 用历史平均值预测。
移动平均法 (Moving Average): 用近期历史平均值预测。
(可选) 季节性朴素预测 (Seasonal Naive Forecast): 考虑季节性的朴素方法。

我们将用 Python 实现这些方法，并看看它们的预测效果如何。

预测的基本概念

在进行预测之前，我们需要明确两个基本概念：

拟合 (In-sample Fit) vs. 预测 (Out-of-sample Forecast):
- 拟合： 使用模型去“解释”或“匹配”我们已经拥有的历史数据。
- 预测： 使用模型去推断我们尚未观测到的未来数据点。这才是我们通常意义上的“预测”。
训练集 (Training Set) vs. 测试集 (Test Set):
- 为了评估模型的真实预测能力，我们不能用全部历史数据来构建模型，然后又用这些数据来评估。这就像考试前知道了所有答案。
- 标准的做法是：将历史数据划分为两部分：
  - 训练集： 用于构建（或“训练”）我们的预测模型。模型只能看到这部分数据。
  - 测试集： 用于评估模型的预测效果。模型在训练阶段看不到这部分数据。我们将模型的预测结果与测试集的真实值进行比较。
- 对于时间序列，通常是按时间顺序划分，较早的数据作为训练集，较晚的数据作为测试集。例如，用前 80% 的数据训练，后 20% 的数据测试。

最简单的预测模型

现在，让我们来认识几位简单但重要的“预测选手”。我们将继续使用之前的月度 CO2 数据（或你可以替换成自己的数据）。

import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns# --- 数据准备 ---
# 1. 加载数据
data = sm.datasets.co2.load_pandas().data
data['co2'].interpolate(inplace=True)
monthly_data = data.resample('M').mean()# 2. 划分训练集和测试集 (例如，最后 2 年作为测试集)
train_data = monthly_data[:-24] # 除去最后 24 个月
test_data = monthly_data[-24:]  # 最后 24 个月print(f"训练集范围: {train_data.index.min()} to {train_data.index.max()}")
print(f"测试集范围: {test_data.index.min()} to {test_data.index.max()}")# --- 可视化划分结果 (可选) ---
plt.figure(figsize=(12, 6))
plt.plot(train_data.index, train_data['co2'], label='Train Data')
plt.plot(test_data.index, test_data['co2'], label='Test Data (Actual)')
plt.title('CO2 Data: Train/Test Split')
plt.xlabel('Date')
plt.ylabel('CO2 Concentration')
plt.legend()
plt.show()

在这里插入图片描述

1. 朴素预测 (Naive Forecast)

逻辑： 假设未来跟现在（最近的已知值）一样。预测下一期的值就等于训练集中最后一期的实际值。
- Ŷ(t+1) = Y(t_last_train)
优点： 极其简单，无需参数，是一个重要的基准 (Baseline) 模型（任何更复杂的模型都应该比它做得更好才有意义）。
缺点： 无法捕捉趋势和季节性，对波动敏感。
实现：

# 获取训练集最后一个值
last_train_value = train_data['co2'].iloc[-1]# 创建测试集长度的预测值，所有值都等于 last_train_value
naive_forecast = pd.Series([last_train_value] * len(test_data), index=test_data.index)print("\n朴素预测 (Naive Forecast):")
print(naive_forecast.head())

在这里插入图片描述

2. 简单平均法 (Simple Average)

逻辑： 假设未来会和历史的平均水平一样。预测未来所有期的值都等于训练集中所有数据的平均值。
- Ŷ(t+k) = mean(Y_train) for all k > 0
优点： 简单，考虑了所有历史信息。
缺点： 忽略了时间序列的演变（趋势、季节性），对早期数据和近期数据给予同等权重。如果序列有明显趋势，效果通常很差。
实现：

# 计算训练集平均值
train_mean = train_data['co2'].mean()# 创建测试集长度的预测值，所有值都等于 train_mean
simple_avg_forecast = pd.Series([train_mean] * len(test_data), index=test_data.index)print("\n简单平均法预测 (Simple Average Forecast):")
print(simple_avg_forecast.head())

在这里插入图片描述

3. 移动平均法 (Moving Average)

逻辑： 只考虑最近的一段历史。预测下一期的值等于训练集中最近 N 个数据点的平均值。N 是需要我们指定的窗口大小 (Window Size)。
- Ŷ(t+1) = mean(Y(t), Y(t-1), ..., Y(t-N+1))
优点： 比简单平均法更关注近期变化，能一定程度平滑短期波动。
缺点： 无法很好地处理趋势和季节性。预测值对窗口大小 N 很敏感。它本质上是对近期水平的估计，不是趋势预测。严格来说，移动平均更多用于平滑数据或作为更复杂模型的组件，直接用于多步预测效果有限（通常只预测一步，或者假设未来多步都等于这个平均值）。
实现 (预测未来所有期都等于最后窗口的平均值):

# 设置移动平均窗口大小 (例如，最近 12 个月)
window_size = 12# 计算训练集最后 N 个点的平均值
moving_avg = train_data['co2'].iloc[-window_size:].mean()# 创建测试集长度的预测值
moving_avg_forecast = pd.Series([moving_avg] * len(test_data), index=test_data.index)print(f"\n移动平均法预测 (Moving Average Forecast, N={window_size}):")
print(moving_avg_forecast.head())

在这里插入图片描述

4. (可选) 季节性朴素预测 (Seasonal Naive Forecast)

逻辑： 假设下个季节/周期的同一时间点会和上个季节/周期一样。例如，预测明年 1 月的值等于今年 1 月的值。
- Ŷ(t+k) = Y(t+k-s)，其中 s 是季节周期长度 (e.g., 12 for monthly data with annual seasonality)。
优点： 考虑了季节性，对于有强季节性模式的数据可能效果不错。也是一个重要的基准。
缺点： 忽略了趋势和其他变化。
实现 (需要访问训练集中更早的数据):

# 季节周期
seasonality = 12seasonal_naive_forecast_list = []
for i in range(len(test_data)):if i >= seasonality:# 使用测试集前一个季节周期的预测值seasonal_value = test_data['co2'].iloc[i - seasonality]else:# 不足一个周期，用训练集最后一个完整周期前的值seasonal_value = train_data['co2'].iloc[-seasonality + i]seasonal_naive_forecast_list.append(seasonal_value)seasonal_naive_forecast = pd.Series(seasonal_naive_forecast_list, index=test_data.index)print("\n季节性朴素预测 (Seasonal Naive Forecast):")
print(seasonal_naive_forecast.head())

在这里插入图片描述

可视化预测结果

光看数字不够直观，让我们把预测结果和测试集的真实值画在一起比较一下。

plt.figure(figsize=(14, 8))# 绘制训练数据
plt.plot(train_data.index, train_data['co2'], label='Train Data')# 绘制测试数据 (真实值)
plt.plot(test_data.index, test_data['co2'], label='Test Data (Actual)', color='black', linewidth=2)# 绘制各种预测结果
plt.plot(test_data.index, naive_forecast, label='Naive Forecast', linestyle='--')
plt.plot(test_data.index, simple_avg_forecast, label='Simple Average Forecast', linestyle='--')
plt.plot(test_data.index, moving_avg_forecast, label=f'Moving Average (N={window_size}) Forecast', linestyle='--')
plt.plot(test_data.index, seasonal_naive_forecast, label='Seasonal Naive Forecast', linestyle='--')# 添加标题和标签
plt.title('Comparison of Simple Forecast Methods')
plt.xlabel('Date')
plt.ylabel('CO2 Concentration')
plt.legend()
plt.tight_layout()
plt.show()

在这里插入图片描述

解读图形：

观察每种预测方法（虚线）与测试集真实值（黑色实线）的接近程度。
对于 CO2 数据（有明显趋势和季节性）：
- 朴素预测 和 简单平均 显然跟不上趋势，预测线是平的。
- 移动平均 (N=12) 也基本是平的，因为它只是最后12个月的平均，没有预测趋势。
- 季节性朴素预测 捕捉到了季节波动，但没有捕捉到整体上升的趋势。
这表明，对于具有明显趋势和/或季节性的数据，这些简单方法可能不足以做出准确预测。它们更多是作为后续更复杂模型的比较基准。

小结

今天我们迈出了预测的第一步：

理解了预测的目标是推断未来值，以及训练集/测试集划分的重要性。
学习并实现了四种简单的预测方法：
- 朴素预测 (Naive): Ŷ(t+1) = Y(t)
- 简单平均法 (Simple Average): Ŷ(t+k) = mean(Y_train)
- 移动平均法 (Moving Average): Ŷ(t+1) = mean(Y(t), ..., Y(t-N+1))
- 季节性朴素预测 (Seasonal Naive): Ŷ(t+k) = Y(t+k-s)
通过可视化比较了这些方法在测试集上的表现，并认识到它们作为基准模型的价值。