机器学习原理到Python代码实现之LinearRegression

Linear Regression 线性回归模型

该文章作为机器学习的第一篇文章,主要介绍线性回归模型的原理和实现方法。

更多相关工作请参考:Github

算法介绍

线性回归模型是一种常见的机器学习模型,用于预测一个连续的目标变量(也称为响应变量)与一个或多个自变量之间的线性关系。

算法原理解析

传统版本

线性回归模型是一种常见的机器学习模型,用于预测一个连续的目标变量(也称为响应变量)与一个或多个自变量之间的线性关系。在该模型中,自变量和目标变量之间的关系可以表示为一条直线的函数。该模型的目标是找到最佳的直线,使得预测结果与实际结果之间的误差最小。 线性回归模型通常使用最小二乘法进行训练,即通过最小化预测值与真实值之间的平方误差来确定最佳拟合直线的参数。

线性回归模型的形式为 y = w ⋅ x + e y = w·x + e y=wx+e,其中e为误差,服从均值为0的正态分布。线性回归模型可以分为一元线性回归分析和多元线性回归分析。在一元线性回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示。在多元线性回归分析中,包括两个或两个以上的自变量,且因变量和自变量之间是线性关系。

线性回归模型有一些限制,例如它只能处理线性关系,对于非线性关系的数据拟合效果不佳。此外,该模型对异常值敏感,如果数据中存在异常值,可能会导致模型的误差较大。

线性回归模型具有简单易用、易于解释和理解等优点,因此在许多实际应用中都表现良好,如房价预测、销售预测等。然而,对于非线性关系的数据拟合问题,可能需要使用其他类型的回归模型,如多项式回归、逻辑回归、岭回归等。

故事版本

想象一下,你有一群朋友,每个朋友都有一个身高和一个体重。你想找到一个公式,能够根据身高预测体重。这个公式可能看起来像这样:体重(W) = 身高(H) + 误差(E)。这里的“误差”就像生活中的小意外,它告诉我们身高并不总是完美预测体重的。

现在,你想使用所有朋友的数据来找到最佳的预测公式。线性回归模型就像一个魔法机器,能够“学习”最佳的预测公式。它通过比较每个朋友的身高和体重,找出最接近所有数据的直线。这条直线就是最佳的预测公式。

为了找到这条直线,线性回归模型使用了一种叫做“最小二乘法”的魔法工具。这个工具能够计算每个朋友与预测直线之间的距离,并找出使所有距离之和最小的直线。

一旦找到了最佳的预测公式,你就可以使用它来预测新朋友的体重了!比如,如果你遇到一个新朋友,只知道他的身高,你就可以用线性回归模型预测他的体重。

这就是线性回归模型的算法原理!它就像一个魔法预测器,能够根据自变量(如身高)预测因变量(如体重)。希望这个简单的比喻能帮助你理解线性回归模型的工作原理!

数学原理

首先,让我们了解一下最小二乘法。简单来说,最小二乘法是一种数学优化技术,它通过最小化误差的平方和来寻找最佳函数匹配。在回归分析中,最小二乘法用于找到最佳拟合直线的参数。

现在,让我们通过一个简单的例子来理解最小二乘法。假设我们有一组数据点,每个点都有一个x坐标和一个y坐标。我们的目标是找到一条直线,使得所有数据点到这条直线的垂直距离之和最小。

假设这条直线的方程是 y = w ⋅ x + e y = w·x + e y=wx+e,其中w是斜率,e是截距。为了找到最佳的w和e,我们可以使用最小二乘法。

具体来说,对于每个数据点 (xi, yi),我们计算它到直线的垂直距离的平方,即 ( y i − ( w x + e ) ) 2 (yi - (wx + e))^2 (yi(wx+e))2。然后,我们将所有这些平方距离加起来,得到一个误差平方和。我们的目标是找到w和e,使得这个误差平方和最小。

数学上,这个问题可以表示为:

S = Σ [ ( y i − ( w ⋅ x i + e ) ) 2 ] S = Σ[(yi - (w·xi + e))^2] S=Σ[(yi(wxi+e))2]

其中Σ表示求和符号。

为了找到最优的m和c,我们可以对误差平方和求关于m和c的偏导数,并令偏导数为零。这样我们就可以得到一个线性方程组,解这个方程组就可以得到w和e的最优解。最小二乘法公式如下:

w = ( X T X ) − 1 X T y w = (\mathbf{X}^{\mathrm{T}}\mathbf{X})^{-1}\mathbf{X}^{\mathrm{T}}\mathbf{y} w=(XTX)1XTy

现在,让我们来谈谈为什么我们要用最小二乘法来求解线性回归模型。线性回归模型是一种预测模型,它通过找到最佳拟合数据的直线(或平面),来预测一个目标变量的值。这个模型基于的假设是目标变量和特征变量之间存在线性关系。

使用最小二乘法的优点是它可以提供一个精确的、无偏的估计,这意味着它能够找到最佳拟合数据的直线,使得预测值与实际值之间的误差最小。此外,最小二乘法还具有一些良好的数学性质,例如它有唯一解并且解是稳定的。

最重要的是,最小二乘法在很多情况下都非常有效且易于计算。通过最小二乘法,我们可以快速地找到线性回归模型的参数,从而进行准确的预测。

数据集介绍

这里我们介绍一个十分经典的数据集——波士顿房价数据集 。该数据集包含506个样本,13个特征,以及一个目标变量——房屋价格中位数。

波士顿房价数据集是一个非常经典的数据集,被广泛用于机器学习和数据分析领域。这个数据集包含了波士顿地区不同社区的房价信息:

参数属性
CRIM–城镇人均犯罪率城镇人均犯罪率
ZN - 占地面积超过25,000平方英尺的住宅用地比例。住宅用地所占比例
INDUS - 每个城镇非零售业务的比例。城镇中非商业用地占比例
CHAS - Charles River虚拟变量(如果是河道,则为1;否则为0查尔斯河虚拟变量,用于回归分析
NOX - 一氧化氮浓度(每千万份)环保指标
RM - 每间住宅的平均房间数每栋住宅房间数
AGE - 1940年以前建造的自住单位比例1940年以前建造的自住单位比例
DIS -波士顿的五个就业中心加权距离与波士顿的五个就业中心加权距离
RAD - 径向高速公路的可达性指数距离高速公路的便利指数
TAX - 每10,000美元的全额物业税率每一万美元的不动产税率
PTRATIO - 城镇的学生与教师比例城镇中教师学生比例
B - 1000(Bk - 0.63)^ 2其中Bk是城镇黑人的比例城镇中黑人比例
LSTAT - 人口状况下降%房东属于低等收入阶层比例
MEDV - 自有住房的中位数报价, 单位1000美元自住房屋房价中位数

这个数据集的主要目的是通过机器学习算法,利用这14个特征预测房价中位数。在数据集中,每个样本包含一个社区的房价信息和相关的特征变量,例如社区的犯罪率、住宅用地比例、非商业用地比例、是否临河、房间数等。机器学习算法将根据这些特征变量预测房价中位数,从而帮助房地产经纪人、投资者或购房者更好地了解市场趋势和预测房价。

波士顿房价数据集是一个非常有价值的数据集,因为它包含了多个与房价相关的特征变量,并且数据来源于一个实际的房地产市场。这个数据集被广泛用于机器学习和数据分析的教学和实践,是入门机器学习和数据分析领域的经典案例之一。

接下来我们将对原始数据集进行处理,并对其进行特征工程,最终得到一个更加适合线性回归模型的数据集。数据集的地址在dataset\housing.data,大家可以直接使用。

代码实现

# 准备好我们需要使用的第三方包
import os
import numpy as np
import pandas as pandas
import matplotlib.pyplot as plt

数据分析

为什么要去做数据分析?许多人并不是很关心数据的分析工作,这是存在极大问题的。

在机器学习中,数据分析是一个非常重要的步骤,主要原因如下:

首先,数据分析可以帮助我们更好地了解数据集的性质和结构,从而确定最佳的数据预处理和特征选择方法。通过数据分析,可以识别出异常值、缺失值等问题,并进行相应的处理,提高数据质量。

其次,数据分析可以帮助我们发现数据的内在规律和模式。例如,通过分析数据的相关性、聚类情况、分布情况等,可以发现数据中存在的有趣模式和关系,这些信息可以帮助我们更好地理解数据,并为后续的模型训练提供有价值的指导和建议。

如何做数据分析

针对不同数据集,数据分析的侧重点会有所不同,但一般而言,数据分析的基本步骤和考虑因素是相似的。以下是针对不同数据集进行分析时可能需要特别关注的几个方面:

  1. 数据探索 :对于任何数据集,首先需要进行探索性数据分析,以了解数据的分布、特征和规律。对于大规模的数据集,可能需要进行抽样调查或使用其他统计方法来初步了解数据。
  2. 数据清洗 :在处理任何数据集时,都需要关注数据的质量和清洁度。这包括处理缺失值、异常值、重复数据等问题,以及进行必要的格式转换和数据转换。
    特征选择:对于不同的数据集,特征的选取和分析也是不同的。例如,对于文本数据,可能需要关注词频、主题模型等特征;对于图像数据,可能需要关注颜色、纹理等特征。
  3. 可视化分析 :对于复杂的数据集,可视化是一种有效的分析方法。通过绘制图表、制作地图或使用其他可视化工具,可以更好地理解和解释数据。
    总之,针对不同数据集进行分析时,需要根据数据的特性和项目需求来选择合适的数据分析方法和侧重点。同时,数据分析师还需要不断学习和探索新的数据分析技术和方法,以更好地应对各种复杂的数据分析任务。

当然,数据分析远不止这些步骤,但这三个是重中之重,可以很好的帮助研究人员发现任务中所存在的问题。

def load_data(file_path):# 读取数据文件names = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT", "MEDV"]data = pandas.read_csv(file_path, names=names, delim_whitespace=True)# 删除包含缺失值的数据行data = data.dropna()return datadef preprocess_data(data, func="del"):# 删除有缺失的数据if func == "del":data = data.dropna()# 通过均值的方式填充确实的数据elif func == "fill":data = data.fillna(data.mean())return datadata = load_data("dataset\\housing.data")
data = preprocess_data(data)                 # 该数据不存在缺失值
# 展示每列数据和价格的关系,并以4*4的画布展示,并调整画布大小
def plot_price_relation(data):fig, axes = plt.subplots(nrows=4, ncols=4, figsize=(12, 12))# 控制画布中子图之间的间距plt.tight_layout()for i, col in enumerate(data.columns[:-1]):ax = axes[i // 4, i % 4]ax.scatter(data[col], data["MEDV"])# 设置titile 并控制字体大小# ax.set_title(f"{col} vs MEDV", fontsize=10)ax.set_xlabel(col, fontsize=10)ax.set_ylabel("MEDV", fontsize=10)plt.show()plot_price_relation(data)

在这里插入图片描述

# 将波士顿数据集按照8:2的比例划分成训练集和验证集
def split_data(data, test_ratio):np.random.seed(42)shuffled_indices = np.random.permutation(len(data))test_set_size = int(len(data) * test_ratio)test_indices = shuffled_indices[:test_set_size]train_indices = shuffled_indices[test_set_size:]return data.iloc[train_indices], data.iloc[test_indices]# 划分训练集和验证集
train_set, test_set = split_data(data, 0.2)

构建线性回归模型

构建一个机器学习模型,通常我们需要包含以下几个部分:模型的训练、模型的评估、模型的推理,以及模型的代价函数等。在该部分,我会以线性回归模型为例,讲解如何构建一个完整的机器学习模型。同时,现有的sklearn库中已经提供了线性回归模型的实现,因此,我们平时仅需要调用sklearn库中的线性回归模型即可。

基础实现

这里我们将构建MyLinearRegression类作为线性回归模型的基类。在这个类中,我们需要有以下几个函数:

  1. __init__:初始化模型参数。
  2. fit:使用训练数据来训练模型参数。
  3. predict:使用训练好的模型参数来进行预测。
  4. loss:计算模型的损失函数。

而需要注意的是,为了提升模型的性能,我们还需要对数据做一些处理,保证模型的稳定性。例如,我们可以使用标准化(standardization)或归一化(normalization)来对数据进行预处理。

# 通过最小二乘法求解线性回归class MyLinearRegression:def __init__(self):self.mean, self.std = None, Noneself.w, self.b = None, Nonedef fit(self, X, y):X = self.data_preprocess(X)self.w = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y)self.b = np.mean(y - X.dot(self.w))def data_preprocess(self, X):if self.mean is None:self.mean = np.mean(X, axis=0)self.std = np.std(X, axis=0)return (X - self.mean) / self.stddef loss(self, y, y_pred):return np.mean((y - y_pred) ** 2)def predict(self, X):X = (X - self.mean) / self.stdreturn np.dot(X, self.w) + self.b
# 训练波士顿数据,并验证
def main(train_set, test_set):X_train = train_set.drop("MEDV", axis=1)y_train = train_set["MEDV"]X_test = test_set.drop("MEDV", axis=1)y_test = test_set["MEDV"]model = MyLinearRegression()model.fit(X_train, y_train)w, b = model.w, model.by_pred = model.predict(X_test)mse = model.loss(y_test, y_pred)print("w:%s b:%7.5f 均方误差:%7.5f" % (w, b, mse))
main(train_set, test_set)
w:[-1.00106928  0.71053112  0.26395035  0.71843347 -1.99922398  3.13938815-0.1673871  -3.07870731  2.26939584 -1.79124484 -2.03043684  1.12760396-3.60788753] b:22.79309 均方误差:24.39683
基于sklearn模型的实现方式

sklearn作为机器学习中经典的库,提供了线性回归的实现。我们可以通过sklearn.linear_model.LinearRegression来使用sklearn的线性回归模型。以下是通过sklearn实现线性回归的代码示例:

# 通过sklearn的方式来求解
from sklearn.linear_model import LinearRegressiondef sklearn_main(train_set, test_set):X_train = train_set.drop("MEDV", axis=1)y_train = train_set["MEDV"]X_test = test_set.drop("MEDV", axis=1)y_test = test_set["MEDV"]model = LinearRegression()model.fit(X_train, y_train)y_pred = model.predict(X_test)mse = np.mean((y_test - y_pred) ** 2)print("w:%s b:%7.5f 均方误差:%7.5f" % (model.coef_, model.intercept_, mse))
sklearn_main(train_set, test_set)
w:[-1.13053410e-01  3.07557545e-02  3.83750160e-02  2.78643336e+00-1.70055351e+01  4.43604743e+00 -5.98876791e-03 -1.44796060e+002.64769508e-01 -1.08061172e-02 -9.13265214e-01  1.23437822e-02-5.08514822e-01] b:30.14522 均方误差:24.39683

总结一下

在机器学习算法中,线性回归是一种常用的算法,它通过拟合一个线性模型来预测目标变量。在实现线性回归算法时,可以使用自己编写的代码或者使用现有的库函数来实现。自己编写代码可以更好地理解线性回归算法的原理和实现细节,而使用库函数可以简化代码编写的过程,提高开发效率。因此,选择合适的实现方式是实现线性回归算法的重要一步。

线性回归模型作为机器学习中经典的算法之一,广泛应用于各种数据分析和预测任务中。其基本的原理是通过拟合一个线性模型来预测目标变量。数学推导证明了,我们可以通过最小化损失函数来求解线性回归模型的参数,从而实现对目标变量的预测。其方法便是经典的最小二乘法。在实际应用中,线性回归算法可以通过各种方式进行改进和优化,例如正则化、特征选择、集成学习等。这些方法可以提高模型的预测精度和泛化能力,使线性回归算法在各种数据分析和预测任务中更有效地应用。

更好地理解线性回归算法的原理和实现细节,而使用库函数可以简化代码编写的过程,提高开发效率。因此,选择合适的实现方式是实现线性回归算法的重要一步。

线性回归模型作为机器学习中经典的算法之一,广泛应用于各种数据分析和预测任务中。其基本的原理是通过拟合一个线性模型来预测目标变量。数学推导证明了,我们可以通过最小化损失函数来求解线性回归模型的参数,从而实现对目标变量的预测。其方法便是经典的最小二乘法。在实际应用中,线性回归算法可以通过各种方式进行改进和优化,例如正则化、特征选择、集成学习等。这些方法可以提高模型的预测精度和泛化能力,使线性回归算法在各种数据分析和预测任务中更有效地应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/596542.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring的bean的生命周期!!!

一.单例模式 单例:[启动容器]--->通过构造方法(创建对象)---->调用set方法(注入)--->调用init方法(初始化)----[容器关闭]----->调用destroy方法(销毁) app…

死锁的处理策略“检测和解除”-第三十九天

目录 前言 死锁的检测 数据结构资源分配图 基于“图”检测死锁 可以消除所有边 不能消除所有边 结论 死锁定理 死锁的解除 本节思维导图 前言 如果系统中既不采取预防死锁的措施,也不采取避免死锁的措施,系统就很可能发生死锁,在这种…

西电期末1019.校验和计算

一.题目 二.分析与思路 难点在于逐个取出数据的每一位,我们编写f函数,使用了一个while函数,每次循环中用取余的运算符找到数据的个位累加,再将n/10,如此n便被去除了个位,十位就成了新的个位,最…

案例精选|淄博绿能燃气工程有限公司日志审计系统建设方案

淄博绿能燃气工程有限公司,成立于1994年,前身为淄博市煤气公司管道液化气分公司。公司业务主要涉及天然气、液化气等市政工程施工及城镇燃气供应等领域,具有市政公用工程施工总承包二级资质,《压力管道安装许可证》压力管道安装GB…

利用Embedding优化搜索功能

我们继续用Gemini学习LLM编程之旅。 Embedding是一种自然语言处理 (NLP) 技术,可将文本转换为数值向量。Embedding捕获语义含义和上下文,从而导致具有相似含义的文本具有更接近的Embedding。例如,句子“我带我的狗去看兽医”和“我带我的猫去…

LeetCode---378周赛

题目列表 2980. 检查按位或是否存在尾随零 2981. 找出出现至少三次的最长特殊子字符串 I 2982. 找出出现至少三次的最长特殊子字符串 II 2983. 回文串重新排列查询 一、检查按位或是否存在尾随零 这题和位运算有关,不是很难,题目要求至少有两个数的…

案例073:基于微信小程序的智慧旅游平台开发

文末获取源码 开发语言:Java 框架:SSM JDK版本:JDK1.8 数据库:mysql 5.7 开发软件:eclipse/myeclipse/idea Maven包:Maven3.5.4 小程序框架:uniapp 小程序开发软件:HBuilder X 小程序…

用贪心算法编程求解任务安排问题

题目:用贪心算法编程求解以下任务安排问题 一个单位时间任务是恰好需要一个单位时间完成的任务。给定一个单位时间任务的有限集S。关于S的一个时间表用于描述S中单位时间任务的执行次序。时间表中第1个任务从时间0 开始执行直至时间1 结束,第2 个任务从时…

20240104确认AIO-3399J的开发板适配ov13850摄像头不支持4K分辨率录像

20240104确认AIO-3399J的开发板适配ov13850摄像头不支持4K分辨率录像 2024/1/4 13:23 开发板:Firefly的AIO-3399J【RK3399】 SDK:rk3399-android-11-r20211216.tar.xz【Android11】 Android11.0.tar.bz2.aa【ToyBrick】 Android11.0.tar.bz2.ab Android1…

人工智能如何重塑金融服务业

在体验优先的世界中识别金融服务业中的AI使用场景 人工智能(AI)作为主要行业的大型组织的重要业务驱动力,持续受到关注。众所周知,传统金融服务业在采用新技术方面相对滞后,一些组织使用的还是上世纪50年代和60年代发…

Android Jetpack学习系列——Navigation

写在前面 Google在2018年就推出了Jetpack组件库,但是直到今天我才给重视起来,这真的不得不说是一件让人遗憾的事。过去几年的空闲时间里,我一直在尝试做一套自己的组件库,帮助自己快速开发,虽然也听说过Jetpack&#…

Android如何正确使用 Canvas 的 save() 和 restore() 方法

如何正确使用 Canvas 的 save() 和 restore() 方法 在Android的绘图API中,Canvas类提供了一系列强大的功能来绘制自定义视图。为了更高效地管理绘图状态和变换,Canvas类提供了save()和restore()方法。正确使用这些方法是高效绘图和避免常见错误的关键。 …

任务需求分析中的流程图、用例图、er图、类图、时序图线段、图形的作用意义

任务需求分析中的流程图、用例图、er图、类图、时序图线段、图形的作用意义 流程图 流程图中各种图形的含义及用法解析 连接线符号 连接各要素,表示流程的顺序或过程的方向。 批注符号 批注或说明,也可以做条件叙述。 子流程 流程中一部分图形的逻辑…

机器人动力学一些笔记

动力学方程中,Q和q的关系(Q是sita) Q其实是一个向量,q(Q1,Q2,Q3,Q4,Q5,Q6)(假如6个关节) https://zhuanlan.zhihu.com/p/25789930 举个浅显易懂的例子,你在房…

Windows内核理论基础学习

文章目录 前言Windosw内核 理论基础Windows体系结构CPU权限级别内存空间布局Windows内核结构硬件抽象层(HAL)内核层执行体层设备驱动程序文件系统/存储管理网络 Windows子系统窗口管理图形设备接口 系统线程和系统进程 内核基本概念处理器模式内存管理进…

项目框架构建之5:日志的构建

本文是“项目框架构建”系列之5,本文介绍日志的构建。 为了做出通用的公共日志模块,我们需要使用微软的Microsoft.Extensions.Logging日志管理模块,该模块提供了灵活且可扩展的日志记录机制,它为整个.net应用程序提供了一致统一的…

02-微服务-Eureka注册中心

Eureka注册中心 假如我们的服务提供者user-service部署了多个实例,如图: 大家思考几个问题: order-service在发起远程调用的时候,该如何得知user-service实例的ip地址和端口?有多个user-service实例地址,…

每日一道算法题day-one(备战蓝桥杯)

从今天开始博主会每天做一道算法题备战蓝桥杯,并分享博主做题的思路,有兴趣就加入我把! 算法题目: 有一个长度为 N 的字符串 S ,其中的每个字符要么是 B,要么是 E。 我们规定 S 的价值等于其中包含的子…

牛客网面试题知识点记录-03

1.题目讲解重写后子类调用父类的方法总结:当子类重写了父类方法A,父类方法直接调用被重写的父类方法后,调用的是子类的重写的父类方法A。 class Test {public static void main(String[] args) {System.out.println(new B().getValue());}st…

在线负公差测径仪 生产场景智能化

在线负公差测径仪是专为负公差轧制而研发的精密仪器,除检测的外径尺寸外,还能对负公差信息进行展示。让操作工对生产更加得心应手。 负公差测径仪同样采用八轴测头进行非接触式的在线检测,以实现全方位的尺寸检测,并将截面图实时展…