线性回归API
sklearn.linear_model.LinearRegression(fit_intercept=True)
- 正规方程优化
- 参数:fit_intercept,是否计算偏置
- 属性:LinearRegression.coef_ (回归系数) LinearRegression.intercept_(偏置)
sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='constant', eta0=0.01)
- SGDRegressor类实现了随机梯度下降学习,它支持不同的 损失函数和正则化惩罚项 来拟合线性回归模型。
- 参数:loss(损失函数类型),fit_intercept(是否计算偏置)learning_rate (学习率)
- 属性:SGDRegressor.coef_ (回归系数)SGDRegressor.intercept_ (偏置)
案例背景介绍
波士顿房价预测数据集来源于1978年美国某经济学杂志,共包含506个数据点,涵盖了麻省波士顿不同郊区房屋13种特征的信息。这些特征包括:
- CRIM:每个城镇人均犯罪率。
- ZN:占地面积超过25,000平方英尺的住宅用地比例。
- INDUS:非零售商用地百分比。
- CHAS:是否靠近查尔斯河(虚拟变量,1表示靠近,0表示不靠近)。
- NOX:氮氧化物浓度(百万分之一)。
- RM:住宅平均房间数目。
- AGE:1940年前建成自用单位比例。
- DIS:到5个波士顿就业服务中心的加权距离。
- RAD:无障碍径向高速公路指数。
- TAX:每万元物业税率。
- PTRATIO:小学师生比例。
- B:黑人比例指数。
- LSTAT:下层经济阶层比例。
需要注意的是从 scikit-learn 1.2 版本开始,波士顿房价数据集(Boston housing prices dataset)已被移除 ,可以使用较低版本的scikit-learn库。
回归性能评估,均方误差(Mean Squared Error, MSE):
MSE = (1/n) * Σ(y_i - ŷ_i)^2
其中,n 表示样本数量,y_i 表示第 i 个样本的真实值,ŷ_i 表示第 i 个样本的预测值,Σ 表示求和。MSE 的值越小,表示模型的预测效果越好。MSE 的单位与预测值和真实值的单位相同,因此可以直接比较不同模型之间的性能。
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor
from sklearn.linear_model import LinearRegression
def linear_model():"""线性回归:梯度下降法"""data = load_boston()x_train, x_test, y_train, y_test = train_test_split(data.data, data.target, random_state=22)transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.fit_transform(x_test)estimator = SGDRegressor(max_iter=1000)estimator.fit(x_train, y_train)y_predict = estimator.predict(x_test)print("预测值为:\n", y_predict)print("模型中的系数为:\n", estimator.coef_)print("模型中的偏置为:\n", estimator.intercept_)# 5.2 评价# 均方误差error = mean_squared_error(y_test, y_predict)print("误差为:\n", error)return None
模型的保存和加载
sklearn模型的保存和加载API import joblib
- 保存:joblib.dump(estimator, 'test.pkl')
- 加载:estimator = joblib.load('test.pkl')
joblib.dump(estimator, 'test.pkl')
estimator = joblib.load('test.pkl')
y_predict = estimator.predict(x_test)
print("预测值为:\n", y_predict)
print("模型中的系数为:\n", estimator.coef_)
print("模型中的偏置为:\n", estimator.intercept_)
总结:
导入所需的库和数据集:我们导入了 scikit-learn 的线性回归模型、SGD 优化器、数据集和其他辅助库。
加载波士顿房价数据集:我们使用 scikit-learn 的
load_boston
函数加载了波士顿房价数据集。数据预处理:我们对数据集进行了预处理,包括将数据集分为训练集和测试集,以及对特征进行标准化。
创建线性回归模型:我们使用 scikit-learn 的
SGDRegressor
类创建了一个线性回归模型,并设置了优化器为随机梯度下降(SGD)。训练模型:我们使用训练集对模型进行训练。
评估模型:我们使用测试集评估模型的性能,计算了均方误差(MSE)和均方根误差(RMSE)。
预测:我们使用训练好的模型对测试集进行预测,并与真实值进行比较。
sklearn.linear_model.LinearRegression()和sklearn.linear_model.SGDRegressor()
都是线性回归模型,但它们的训练方法和性能有所不同。
-
sklearn.linear_model.LinearRegression()
:使用最小二乘法(Ordinary Least Squares, OLS)进行线性回归。在训练过程中,它通过最小化损失函数(均方误差)来找到最佳的权重和截距。 -
sklearn.linear_model.SGDRegressor()
:使用随机梯度下降(Stochastic Gradient Descent, SGD)进行线性回归。在训练过程中,它通过逐步更新权重和截距来最小化损失函数。
性能:
-
sklearn.linear_model.LinearRegression()
:在大型数据集上,它可能需要较长时间进行训练,因为它需要计算整个数据集的梯度。 -
sklearn.linear_model.SGDRegressor()
:在大型数据集上,它的训练速度通常比LinearRegression
快,因为它每次只使用一个样本来更新权重。这使得它在处理大型数据集时更加高效。
LinearRegression
和 SGDRegressor
都是线性回归模型,但它们的训练方法和性能有所不同。在选择合适的模型时,需要根据数据集的大小、特征数量以及训练时间等因素进行权衡。