5. 分段线性回归 (Piecewise Linear Regression)
分段线性回归是一种简单的方式,尤其当数据的弧度变化不大但有多个不同趋势段时。可以将数据分为多个区间,每个区间内拟合一条直线。最终的模型是这些直线的组合。
- 优点:模型简单、易解释,可以很好地拟合具有轻微弯曲的数据。
- 缺点:选择分段点可能需要试验,并且需要手动设定,适合趋势变化较明确的情况。
分段线性回归是一种分段拟合的方法,用于捕捉数据中不同区段的线性变化趋势。我们可以使用 pwlf
(Piecewise Linear Fit)库实现分段线性回归,并绘制数据散点、回归线以及置信区间。
前置安装
首先,需要安装 pwlf
库:
pip install pwlf
代码示例
import numpy as np
import matplotlib.pyplot as plt
import pwlf
from sklearn.utils import resample# 生成带有分段线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.piecewise(x, [x < 4, (x >= 4) & (x < 7), x >= 7], [lambda x: 2*x + 1, lambda x: -1.5*x + 14, lambda x: 0.5*x + 3]) + np.random.normal(0, 1, x.shape)# 初始化分段线性回归模型,假设 3 个分段
model = pwlf.PiecewiseLinFit(x, y)
breakpoints = model.fit(3)# 获取预测值
x_hat = np.linspace(0, 10, 100)
y_hat = model.predict(x_hat)# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_hat_bootstrap = []for _ in range(n_bootstraps):# 随机采样数据,生成新的拟合模型并预测x_sample, y_sample = resample(x, y)model_bootstrap = pwlf.PiecewiseLinFit(x_sample, y_sample)model_bootstrap.fit(3)y_hat_sample = model_bootstrap.predict(x_hat)y_hat_bootstrap.append(y_hat_sample)# 将预测结果转换为数组
y_hat_bootstrap = np.array(y_hat_bootstrap)# 计算 95% 置信区间
lower_bound = np.percentile(y_hat_bootstrap, 2.5, axis=0)
upper_bound = np.percentile(y_hat_bootstrap, 97.5, axis=0)# 绘制散点图、分段线性回归曲线和置信区间
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='gray', label='Data Points')
plt.plot(x_hat, y_hat, color='blue', label='Piecewise Linear Fit')
plt.fill_between(x_hat, lower_bound, upper_bound, color='lightblue', alpha=0.5, label='95% Confidence Interval')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Piecewise Linear Regression with 95% Confidence Interval')
plt.legend()
plt.show()
代码说明
- 数据生成:创建具有分段线性趋势的数据。这里我们假设数据在不同区间内具有不同的线性关系,并在数据中加入噪声。
- 分段线性回归模型:
- 使用
pwlf.PiecewiseLinFit
来拟合分段线性回归。 - 指定分段数为 3,模型将自动找到最佳分段点。
- 使用
- 预测和置信区间:
- 生成预测值
y_hat
。 - 使用 Bootstrap 方法生成 200 个不同的采样集,并对每个采样集进行拟合和预测。得到 2.5% 和 97.5% 百分位数作为 95% 的置信区间。
- 生成预测值
- 绘图:绘制数据散点、分段线性回归曲线和置信区间。
输出图形
运行此代码后会生成以下内容:
- 灰色散点图:展示原始数据点。
- 蓝色的分段线性回归线:拟合的分段线性回归结果,显示了不同区间的线性趋势。
- 淡蓝色的置信区间:通过 Bootstrap 方法生成的 95% 置信区间,反映了模型的置信范围。
更复的情况是,在1-4之间能拟合,在7以上也能拟合另一个线性,但是在4-7之间不存在线性关系,不需要拟合
在这种情况下,可以通过在 pwlf
中设置不同的区间来拟合特定区段的数据,并忽略不需要拟合的区间。我们可以手动筛选出所需区间的数据,例如在区间 x ∈ [ 1 , 4 ] x \in [1, 4] x∈[1,4] 和 x ∈ [ 7 , 10 ] x \in [7, 10] x∈[7,10] 进行线性拟合,而对区间 x ∈ [ 4 , 7 ] x \in [4, 7] x∈[4,7] 不进行拟合。以下代码实现了该思路,并绘制数据、分段线性回归线和置信区间。
代码示例
import numpy as np
import matplotlib.pyplot as plt
import pwlf
from sklearn.utils import resample# 生成带有分段线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.piecewise(x, [x < 4, (x >= 4) & (x < 7), x >= 7], [lambda x: 2 * x + 1, lambda x: 0.2 * x**2, lambda x: -0.5 * x + 10]) + np.random.normal(0, 1, x.shape)# 分别提取需要拟合的两个区间的数据
mask1 = (x >= 1) & (x <= 4)
mask2 = (x >= 7) & (x <= 10)
x_segmented = np.concatenate([x[mask1], x[mask2]])
y_segmented = np.concatenate([y[mask1], y[mask2]])# 使用 pwlf 进行分段线性拟合
model = pwlf.PiecewiseLinFit(x_segmented, y_segmented)
breakpoints = model.fit(2) # 设置两个分段# 预测拟合的 y 值
x_hat1 = np.linspace(1, 4, 50)
x_hat2 = np.linspace(7, 10, 50)
y_hat1 = model.predict(x_hat1)
y_hat2 = model.predict(x_hat2)# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_hat1_bootstrap = []
y_hat2_bootstrap = []for _ in range(n_bootstraps):# 随机采样数据集x_sample, y_sample = resample(x_segmented, y_segmented)model_bootstrap = pwlf.PiecewiseLinFit(x_sample, y_sample)model_bootstrap.fit(2)y_hat1_sample = model_bootstrap.predict(x_hat1)y_hat2_sample = model_bootstrap.predict(x_hat2)y_hat1_bootstrap.append(y_hat1_sample)y_hat2_bootstrap.append(y_hat2_sample)# 转换为数组并计算 95% 置信区间
y_hat1_bootstrap = np.array(y_hat1_bootstrap)
y_hat2_bootstrap = np.array(y_hat2_bootstrap)
lower_bound1 = np.percentile(y_hat1_bootstrap, 2.5, axis=0)
upper_bound1 = np.percentile(y_hat1_bootstrap, 97.5, axis=0)
lower_bound2 = np.percentile(y_hat2_bootstrap, 2.5, axis=0)
upper_bound2 = np.percentile(y_hat2_bootstrap, 97.5, axis=0)# 绘制散点图、分段线性回归线和置信区间
plt.figure(figsize=(10, 6))
plt.scatter(x, y, color='gray', label='Data Points')
plt.plot(x_hat1, y_hat1, color='blue', label='Segmented Linear Fit (1-4)')
plt.plot(x_hat2, y_hat2, color='red', label='Segmented Linear Fit (7-10)')
plt.fill_between(x_hat1, lower_bound1, upper_bound1, color='lightblue', alpha=0.5)
plt.fill_between(x_hat2, lower_bound2, upper_bound2, color='lightcoral', alpha=0.5)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Piecewise Linear Regression with Non-linear Segment Omission')
plt.legend()
plt.show()
代码说明
- 数据生成:生成包含不同区间的分段数据,其中区间 x ∈ [ 1 , 4 ] x \in [1, 4] x∈[1,4] 和 x ∈ [ 7 , 10 ] x \in [7, 10] x∈[7,10] 为线性趋势,而在 x ∈ [ 4 , 7 ] x \in [4, 7] x∈[4,7] 之间存在非线性关系。
- 筛选区间:使用布尔掩码 (
mask1
和mask2
) 筛选出需要拟合的线性区间的数据,忽略不需要拟合的中间区间。 - 分段线性拟合:使用
pwlf
库对所选区间的数据进行分段线性回归。 - 置信区间计算:对两个拟合区间分别使用 Bootstrap 方法,生成 200 组不同的采样集,计算每个区间的 95% 置信区间。
- 绘图:绘制原始数据散点、两个区间的分段线性回归线及其置信区间。
输出图形
运行代码后将得到以下内容:
- 灰色散点图:展示了所有原始数据点。
- 蓝色和红色的分段线性回归线:分别显示在区间 x ∈ [ 1 , 4 ] x \in [1, 4] x∈[1,4] 和 x ∈ [ 7 , 10 ] x \in [7, 10] x∈[7,10] 处的线性拟合。
- 置信区间:通过 Bootstrap 方法生成的 95% 置信区间,分别用淡蓝色和淡红色填充。
更复的情况是,4-7之间存在一种线性关系,但完全和1-4的曲线和7以后的曲线连接不起来,这样就是3段完全分开的情况
在这种情况下,我们可以使用分段线性回归来处理三段独立的线性关系,并在每一段之间没有连接。这里是如何实现的:
- 分段设置:我们需要在 x ∈ [ 1 , 4 ] x \in [1, 4] x∈[1,4]、 x ∈ [ 4 , 7 ] x \in [4, 7] x∈[4,7] 和 x ∈ [ 7 , 10 ] x \in [7, 10] x∈[7,10] 三个区间内分别进行线性拟合。
- 数据生成:我们将创建三段数据,确保每段的线性关系不连接。
下面是一个完整的代码示例,展示如何实现这个分段线性回归并绘制结果:
代码示例
import numpy as np
import matplotlib.pyplot as plt
import pwlf
from sklearn.utils import resample# 生成带有完全独立的三段线性趋势的样本数据
np.random.seed(42)
x = np.linspace(0, 10, 100)
y = np.piecewise(x, [x < 4, (x >= 4) & (x < 7), x >= 7], [lambda x: 2*x + 1 + np.random.normal(0, 0.5, x.shape), # 第一段lambda x: 3*x - 12 + np.random.normal(0, 0.5, x.shape), # 第二段lambda x: -1.5*x + 20 + np.random.normal(0, 0.5, x.shape) # 第三段])# 选取需要拟合的区间的数据
mask1 = (x >= 1) & (x <= 4)
mask2 = (x > 4) & (x < 7)
mask3 = (x >= 7) & (x <= 10)
x_segmented = np.concatenate([x[mask1], x[mask2], x[mask3]])
y_segmented = np.concatenate([y[mask1], y[mask2], y[mask3]])# 使用 pwlf 进行分段线性拟合,假设 3 个分段
model = pwlf.PiecewiseLinFit(x_segmented, y_segmented)
breakpoints = model.fit(3) # 设置三个分段# 预测拟合的 y 值
x_hat1 = np.linspace(1, 4, 50)
x_hat2 = np.linspace(4, 7, 50)
x_hat3 = np.linspace(7, 10, 50)
y_hat1 = model.predict(x_hat1)
y_hat2 = model.predict(x_hat2)
y_hat3 = model.predict(x_hat3)# 使用 Bootstrap 方法计算置信区间
n_bootstraps = 200
y_hat1_bootstrap = []
y_hat2_bootstrap = []
y_hat3_bootstrap = []for _ in range(n_bootstraps):# 随机采样数据集x_sample, y_sample = resample(x_segmented, y_segmented)model_bootstrap = pwlf.PiecewiseLinFit(x_sample, y_sample)model_bootstrap.fit(3)y_hat1_sample = model_bootstrap.predict(x_hat1)y_hat2_sample = model_bootstrap.predict(x_hat2)y_hat3_sample = model_bootstrap.predict(x_hat3)y_hat1_bootstrap.append(y_hat1_sample)y_hat2_bootstrap.append(y_hat2_sample)y_hat3_bootstrap.append(y_hat3_sample)# 转换为数组并计算 95% 置信区间
y_hat1_bootstrap = np.array(y_hat1_bootstrap)
y_hat2_bootstrap = np.array(y_hat2_bootstrap)
y_hat3_bootstrap = np.array(y_hat3_bootstrap)
lower_bound1 = np.percentile(y_hat1_bootstrap, 2.5, axis=0)
upper_bound1 = np.percentile(y_hat1_bootstrap, 97.5, axis=0)
lower_bound2 = np.percentile(y_hat2_bootstrap, 2.5, axis=0)
upper_bound2 = np.percentile(y_hat2_bootstrap, 97.5, axis=0)
lower_bound3 = np.percentile(y_hat3_bootstrap, 2.5, axis=0)
upper_bound3 = np.percentile(y_hat3_bootstrap, 97.5, axis=0)# 绘制散点图、分段线性回归线和置信区间
plt.figure(figsize=(12, 8))
plt.scatter(x, y, color='gray', label='Data Points', alpha=0.5)
plt.plot(x_hat1, y_hat1, color='blue', label='Segmented Linear Fit (1-4)')
plt.plot(x_hat2, y_hat2, color='green', label='Segmented Linear Fit (4-7)')
plt.plot(x_hat3, y_hat3, color='red', label='Segmented Linear Fit (7-10)')
plt.fill_between(x_hat1, lower_bound1, upper_bound1, color='lightblue', alpha=0.5, label='95% CI (1-4)')
plt.fill_between(x_hat2, lower_bound2, upper_bound2, color='lightgreen', alpha=0.5, label='95% CI (4-7)')
plt.fill_between(x_hat3, lower_bound3, upper_bound3, color='lightcoral', alpha=0.5, label='95% CI (7-10)')
plt.xlabel('x')
plt.ylabel('y')
plt.title('Piecewise Linear Regression with Independent Segments')
plt.legend()
plt.grid()
plt.show()
代码说明
- 数据生成:使用
np.piecewise
生成具有三段线性关系的数据。每一段的线性关系都包含一定的随机噪声,确保数据的真实性。- 第一段 ( x < 4 x < 4 x<4):线性方程 y = 2 x + 1 y = 2x + 1 y=2x+1。
- 第二段 ( 4 ≤ x < 7 4 \leq x < 7 4≤x<7):线性方程 y = 3 x − 12 y = 3x - 12 y=3x−12。
- 第三段 ( x ≥ 7 x \geq 7 x≥7):线性方程 y = − 1.5 x + 20 y = -1.5x + 20 y=−1.5x+20。
- 数据筛选:将每个线性区间的数据提取出来以进行分段线性拟合。
- 分段线性拟合:使用
pwlf
库进行三段线性拟合。 - 预测和置信区间计算:分别为每段的预测值计算 Bootstrap 方法下的置信区间。
- 绘图:绘制散点、每段的拟合线和对应的置信区间。
输出图形
运行代码后将生成以下内容:
- 灰色散点图:展示所有原始数据点。
- 蓝色、绿色和红色的分段线性回归线:分别显示 x ∈ [ 1 , 4 ] x \in [1, 4] x∈[1,4]、 x ∈ [ 4 , 7 ] x \in [4, 7] x∈[4,7] 和 x ∈ [ 7 , 10 ] x \in [7, 10] x∈[7,10] 的线性拟合。
- 置信区间:通过 Bootstrap 方法生成的 95% 置信区间,分别用不同颜色的填充区域显示。