一、机器学习算法与实践_06迭代法和KMeans、线性回归、逻辑回归算法笔记

0 迭代法

迭代法不仅是机器学习、深度学习的核心,也是整个人工智能领域的重要概念,其对于算法的设计和实现至关重要

0.1 适合场景

对于不能一次搞定的问题,将其分成多步来解决,逐步逼近解决方案

0.2 典型应用

  • KMeans 聚类算法:逐步调整聚类中心,直到满足某个条件
  • 线性回归和逻辑回归:通过迭代优化算法(如梯度下降)逐步找到最佳模型参数

0.3 三个关键点

  • 随机的开始

    • 随机初始化:大多数迭代算法从一个随机点开始迭代

    • 优点:避免陷入局部最优解,增加找到全局最优解的机会(随机-->普适性)

  • 逐步变好的策略

    • 优化:每一步都尝试改进当前解,使目标函数(如损失函数)值减小(每天进步一点点)

    • 积累:通过调整参数,逐渐接近最优解(相信累积,相信长期主义)

  • 退出条件

    • 固定步数:达到预设的迭代次数时退出

    • 误差限制:当前解和最优解之间的差距小于某个阈值时退出

1 KMeans算法

KMeans(K-Means Clustering,即:K-均值聚类)是使用最多、最简单易用的聚类算法,属于无监督学习的一种

KMeans的主要目的是将数据点分成 K 个预先指定的簇,使得簇内的方差尽可能小,簇间的方差尽可能大,算法的基本思想与KNN类似(物以类聚人以群分),具体做法是迭代地移动簇中心(称为质心),直到满足某个终止条件

1.1 基本概念

  • 聚类:将数据点分成若干组,使得同一组内的数据点尽可能相似,不同组之间的数据点尽可能不同
  • 无监督学习:数据没有标签,算法需要自行发现数据的结构(没有标签,只有特征,根据业务需求和样本特征来进行分类)

1.2 KMeans的内涵

  • K:簇的数量(也就是分类数量,K个类)
  • Means:每个簇的中心(质心),是该簇所有点的均值(mean代表均值,s代表多次)

1.3 算法步骤

  • 随机初始化:选择 K 个数据点作为初始质心

  • 分配步骤:将每个数据点分配给最近的质心,形成 K 个簇

  • 更新步骤:计算每个簇的新质心

  • 迭代:重复分配步骤和更新步骤,直到满足退出条件

1.4 随机出生点的影响

  • 初始质心的选择:可能会影响最终的聚类结果
  • 不稳定因素:不同的初始质心可能导致不同的局部最优解
  • 多次运行:为了得到较好的结果,有时需要多次运行 KMeans 算法,选择最好的结果

1.5 算法实践

# 在sklearn.datasets中load_xxx是加载数据集,而make_xxx则是生成模拟数据集
# make_blobs生成模拟的数据集包含若干个分布在随机位置的簇(blobs),每个簇由中心点定义,并包含以高斯分布(正态分布)随机生成的样本点,非常适合KMeans算法的实践
# 因此,需要先引入make_blobs
from sklearn.datasets import make_blobs# 使用make_blobs函数来生成包含特征和标签的数据集:
# (1)n_samples=1000:生成 1000 个样本点
# (2)n_features=2:每个样本点包含 2 个特征
# (3)centers=4:生成 4 个簇中心,数据将围绕这 4 个中心分布
# (4)cluster_std=0.5:设置簇中点分布的标准偏差为 0.5
# (标准偏差用来控制簇内样本点分布的离散程度,较小的标准偏差意味着样本点更紧密地围绕簇中心分布,而较大的标准偏差意味着样本点分布得更分散)
# (5)random_state=0:设置随机数生成器的种子为 0,这确保了每次生成的数据集都是一样的,保证结果的可重复性
X, y = make_blobs(n_samples=1000, n_features=2, centers=4, cluster_std=0.5, random_state=0)# sklearn.cluster是 scikit-learn 中的一个子模块,它包含了多种用于执行聚类任务的算法,比如KMeans
# 所以这里需要对其进行引入
from sklearn.cluster import KMeans
# KMeans是一个类,所以应该用面向对象的思想对其进行使用(即:实例化对象)
# n_clusters=4,这告诉算法你想要将数据分为 4 个簇
# 此外,由于KMeams算法对于初始质心的选择是随机的,所以可以设置random_state随机数种子,确保结果的一致性
km = KMeans(n_clusters=4, random_state=0)
# 由于KMeans是无监督学习算法,所以训练时只需要传入X,通过特征来寻找标签
km.fit(X=X)# 在训练完毕之后,可以得到两个非常关键的属性
# (1)cluster_centers_,表示质心
# (2)km.labels_,表示预测出来的簇标签
# 引入matplotlib的pyplot函数,画出质心和样本的关系图
from matplotlib import pyplot as plt
# 如果是用pycharm等后端工具绘图,需要指定图形用户界面工具包
# import matplotlib
# matplotlib.use('TkAgg')  # 设置绘图后端为 TkAgg
# 由于我们在make_blobs函数中设定了生成的数据只有两个特征,所以我们可以将第一个特征作为横坐标、第二个特征作为纵坐标,绘制对应的散点图,查看样本之间的位置关系
# 将make_blobs函数生成的标签y赋值给c,表示每个簇都有不同的颜色
plt.scatter(x=X[:, 0], y=X[:, 1], c=y)
# 由于质心也是只有两个特征,所以我们可以将第一个特征作为横坐标、第二个特征作为纵坐标,用大小为100的红色五角星来绘制对应的散点图
plt.scatter(x=km.cluster_centers_[:, 0], y=km.cluster_centers_[:, 1], c="red",marker="*",s=100)
# 用show方法显示图表
plt.show()
# 查看每个点的簇标签
print(km.labels_)

2 线性回归

2.1 定义

线性回归(Linear Regression)是一种预测连续数值的监督学习算法,它试图找到特征和目标变量之间的线性关系,并通过线性关系进行模型的训练和预测

2.2 原理

类似于我们在中学时学习的一元一次方程:y = k*x + b,线性回归旨在通过最小化误差的平方和来寻找特征和目标值之间的关系,其模型的表达式通常为:(n元一次方程)

其中: 是权重(能代表特征的重要程度), 是特征,b 是偏置项,y 是目标值

方法: 使用训练数据,通过梯度下降或其他优化算法来调整权重和偏置,来最小化损失函数(通常是均方误差)

2.3 应用场景

线性回归主要用于预测连续数值,如房价、温度、销售额等

2.4 算法实践

以波士顿房价数据集为例,分别用线性回归算法、KNN算法和决策树算法进行回归预测

# 引入pandas,提供一些数据分析的方法
import pandas as pd
# 读取波士顿房价数据集文件
data = pd.read_csv(filepath_or_buffer="./boston_house_prices.csv", skiprows=1)# 将总的数据集划分成X特征和y标签
# 先根据Attrition_Flag字段,取出y标签
y = data["MEDV"].to_numpy()
# 再把Attrition_Flag字段删除,将剩余字段均作为X特征
X = data.drop(columns=["MEDV"]).to_numpy()# 引入train_test_split,将X、y切分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)# 从训练集中获取mu和sigma,然后带入到训练集和测试集这两个数据集中做标准化处理
mu = X_train.mean(axis=0)
sigma = X_train.std(axis=0)
X_train1 = (X_train - mu)  / sigma
X_test1 = (X_test - mu) / sigma# 1、线性回归算法
# sklearn.linear_model 是 scikit-learn 库中的一个模块,它包含多种实现线性模型的类,而LinearRegression是该模块中一个用于实现线性回归算法的类,所以我们这里需要进行引入
from sklearn.linear_model import LinearRegression
# LinearRegression是一个类,所以应该用面向对象的思想对其进行使用(即:实例化对象)
lr = LinearRegression()
# 训练模型时,需要将训练集(X_train和y_train)作为参数传入fit方法中
lr.fit(X=X_train1, y=y_train)
w = lr.coef_
b = lr.intercept_
print(f"线性回归模型训练之后,得到的权重(w)为:{w},\n偏置项(b)为:{b}")
# 预测模型时,需要将测试集(X_test)作为参数传入predict方法中
y_pred1 = lr.predict(X=X_test1)
# 求预测结果的平均绝对误差
mae1 = abs(y_pred1 - y_test).mean()
# 求预测结果的平均平方误差
mse1 = ((y_pred1 - y_test) ** 2).mean()
print(f"线性回归模型预测之后,得到的平均绝对误差为{mae1},平均平方误差为{mse1}")# 2、KNN算法
# 引入KNeighborsRegressor
from sklearn.neighbors import KNeighborsRegressor
# 实例化KNeighborsRegressor对象,并设置邻居数为5
knn = KNeighborsRegressor(n_neighbors=5)
# 模型训练
knn.fit(X=X_train1, y=y_train)
# 模型预测
y_pred2 = knn.predict(X=X_test1)
# 求预测结果的平均绝对误差
mae2 = abs(y_pred2 - y_test).mean()
# 求预测结果的平均平方误差
mse2 = ((y_pred2 - y_test) ** 2).mean()
print(f"KNN模型预测之后,得到的平均绝对误差为{mae2},平均平方误差为{mse2}")# 3、决策树算法
# 引入DecisionTreeRegressor
from sklearn.tree import DecisionTreeRegressor
# 实例化DecisionTreeRegressor对象
dtr = DecisionTreeRegressor()
# 模型训练
dtr.fit(X=X_train1, y=y_train)
# 模型预测
y_pred3 = dtr.predict(X=X_test1)
# 求预测结果的平均绝对误差
mae3 = abs(y_pred3 - y_test).mean()
# 求预测结果的平均平方误差
mse3 = ((y_pred3 - y_test) ** 2).mean()
print(f"决策树模型预测之后,得到的平均绝对误差为{mae3},平均平方误差为{mse3}")

3 逻辑回归

3.1 定义

逻辑回归(Logistic Regression)虽然名字中有“回归”二字,但实际上它并不是一种回归算法,而是一种分类算法,它通常用于预测离散类别标签,特别是二分类问题

3.2 原理

逻辑回归使用 Sigmoid 函数将线性回归的输出映射到 0 和 1 之间,表示为属于某类的概率。模型的表达式为:

其中: 是权重, 是特征,b 是偏置项,e 是自然对数,y 是目标值

从上面公式可得:

的值越小,y 的值就越小

所以上面的公式其实还是可以化简为线性回归的公式:

方法: 使用训练数据,通过梯度下降或其他优化算法来调整权重和偏置,来最大化似然函数或最小化交叉熵损失

3.3 应用场景

逻辑回归主要用于解决二分类或多分类问题,如垃圾邮件检测、疾病诊断、图像识别等

3.4 算法实践

以《一、机器学习算法与实践_05项目实战——信用卡客户流失分析预测及PCA、SVD特征降维》中的数据集为例,用逻辑回归算法进行分类预测

# 引入joblib库,加载保存好的数据文件和模型实例文件
import joblib_, [X_train, y_train, X_test, y_test] = joblib.load(filename="all_data.lxh")# sklearn.linear_model是 scikit-learn 库中的一个模块,它包含多种实现线性模型的类,而LogisticRegression是该模块中一个用于实现逻辑回归算法的类,所以我们这里需要进行引入
from sklearn.linear_model import LogisticRegression
# LogisticRegression是一个类,所以应该用面向对象的思想对其进行使用(即:实例化对象)
lr = LogisticRegression()
# 训练模型时,需要将训练集(X_train和y_train)作为参数传入fit方法中
lr.fit(X=X_train, y=y_train)
# 预测模型时,需要将测试集(X_test)作为参数传入predict方法中
y_pred = lr.predict(X=X_test)# 比较测试集的标签值和预测出来的标签值,计算预测的准确率
acc = (y_pred == y_test).mean()
print(f"预测的准确率为:{acc}")
# 计算权重和偏置项
w = lr.coef_
b = lr.intercept_
print(f"逻辑回归模型训练之后,得到的权重(w)为:{w},\n偏置项(b)为:{b}")

4 梯度下降法

4.1 基本概念

梯度下降法(Gradient Descent)是一种常用的优化算法,用于求解机器学习模型中的参数,目的是最小化损失函数(即误差函数),它广泛应用于训练线性回归、逻辑回归、神经网络等模型

4.2 基本思想

以线性回归和逻辑回归的公式为例:

评价一个模型的好坏,我们通常是需要衡量预测结果和真实结果之间的误差,使得误差最小

通常的操作步骤是:

Step1:从训练集中,取出一批样本 batch_X, batch_y

Step2:把特征 batch_X 带入模型,得到一个预测结果 y_pred(y_pred 是 w 和 b 的函数)

Step3:衡量预测结果和真实结果的误差(设误差函数为loss_fn)

  • 误差值:loss = loss_fn(y_pred, batch_y)

  • 由于loss 是 y_pred 的函数,而y_pred 又是 w 和 b 的函数,所以loss 是 w 和 b 的函数

  • 误差越大表示预测越差,误差越小表示预测越好,所以模型优化的问题就变成了函数求最小值的问题:当 w 和 b 是多少的时候,loss 可以取得最小值?

4.3 求函数最小值的方法

求一个函数的最小值,从理论数学和工程上,分别有着不同的方法

4.3.1 理论数学方法

(1)求导数/偏导

  • 对函数 F(x) 求导数,得到 F'(x)
  • 如果函数是多变量的,对每个变量求偏导数,得到 ▽F(x)

(2)令导数/偏导等于零

  • 将导数 F'(x) 或偏导数 ▽F(x) 设置为零
  • 解方程 F'(x)=0 或方程组 ▽F(x)= 0

(3)解方程/组,得到疑似结果,并进一步结果验证

  • 解这些方程,得到函数的临界点

  • 检查这些临界点是否为最小值,这通常涉及分析二阶导数或使用其他方法来确定临界点的性质(最小值、最大值或鞍点)

因为:

  • 数据量较大或函数复杂时,大量的数学求导及运算会十分繁琐

  • 样本实际上是分布在线性模型周围的,而不是正好在模型上

所以:我们一般不会采用理论数学去解决模型优化问题

4.3.2 工程方法

(1)迭代法:从函数的某个点开始,迭代地更新这个点,直到找到一个最小值

(2)随机梯度下降法:随机梯度下降法(Stochastic Gradient Descent,SGD)是一种用于优化机器学习算法的算法,特别是用于训练大规模数据集。它是梯度下降算法的一种变体,主要区别在于它是在每个训练步骤中使用单个训练样本或一小批样本来更新模型的参数,而不是整个训练集

【公式】假设损失函数为 L,参数为 θ(可以是权重 w 和偏置 b),学习率为 α,则 SGD的参数更新规则为:

其中,是损失函数在当前参数 下的梯度(也就是:函数在多维空间中每一点的方向导数)

4.4 算法流程

  • 初始化:首先随机初始化模型的参数(例如,权重和偏置)

  • 计算梯度:计算损失函数相对于每个参数的梯度(或偏导数),梯度是损失函数在当前参数值下的“斜率”,指向损失函数增加最快的方向

  • 更新参数:使用计算出的梯度和预先设定的学习率(步长)来更新每个参数,参数的更新遵循梯度的反方向,因为这是损失函数减少的方向

  • 迭代:重复步骤2和3,直到满足某个停止条件(例如:达到最大迭代次数,或损失函数下降到某个阈值以下)

4.4.1 手动求导,计算x为多少时, y=x² 达到最小值

根据数学知识,可得x²的导数为2x(常见初等函数的导数可见本文附页内容),因此计算方法如下:

# 引入numpy,提供一些科学计算的方法
import numpy as np
def fn(x):"""原始函数"""return x ** 2def dfn(x):"""求导函数"""return 2 * x# 设置迭代次数
steps = 1000
# 设置学习率(较大的学习率会使得算法更快地接近最小值,但也可能导致算法在最小值附近震荡或发散;较小的学习率会使得算法更慢地接近最小值,但更稳定)
# 不用numpy库和manth模块中的表示方法,直接写1e-2,代表的不是自然对数e,而是科学计数法,实际值就是0.01
learning_rate = 1e-2# 1、随机的开始
# 从-1000到1000中,取出一个随机整数,并将其设置为一个一维数组
x = np.random.randint(low=-1000, high=1001, size=(1,))
# 2、迭代优化
for step in range(steps):# 梯度下降法,更新x的值x = x - learning_rate * dfn(x)print(f"优化{step+1}步后, x的值为: {x}")
print(f"迭代{steps}次之后,x的最终值为: {x}")

4.4.2 PyTorch自动求导,计算x为多少时, y=x² 达到最小值

PyTorch是目前主流的深度学习框架,提供了针对深度学习的科学计算库:

  • PyTorch基于 NumPy 扩展了更多功能,专门用于构建和训练深度学习模型(PyTorch中使用张量,NumPy中使用数组,张量和数组具备的方法和属性几乎一样)

  • 每一个张量都有3个重要的属性(data、grad、item()),其中:data表示张量的数据部分,grad表示张量的梯度部分,item()是直接取出张量的数据值

  • PyTorch支持自动求导(自动微分),方便定义梯度计算图(在 PyTorch 中,通过设置 requires_grad=True 来让张量支持进行梯度计算,计算的过程不是先求导函数,再带入变量求导数值,而是求导和带入一起完成)

  • PyTorch提供了丰富的神经网络层、优化器、激活函数等预定义模块

使用PyTorch自动求导的计算方法如下:

# 引入PyTorch,提供一些深度学习科学计算的方法
import torch
def fn(x):"""原始函数"""return x ** 2# 走一个固定的步数
steps = 1000
# 设置学习率(较大的学习率会使得算法更快地接近最小值,但也可能导致算法在最小值附近震荡或发散;较小的学习率会使得算法更慢地接近最小值,但更稳定)
# 不用numpy库和manth模块中的表示方法,直接写1e-2,代表的不是自然对数e,而是科学计数法,实际值就是0.01
learning_rate = 1e-2# 1、随机的开始
# 从-1000到1000中,取出一个随机整数,并将其设置为一个一维张量
# 设置requires_grad=True,表示x支持使用backward方法进行自动求导
x = torch.randint(low=-1000, high=1001, size=(1,), dtype=torch.float32, requires_grad=True)
# 2、迭代优化
for step in range(steps):# Step1:正向传播(原始函数)y = fn(x)# Step2:反向传播(自动求导,计算和存储梯度)y.backward()# Step3:梯度下降法,更新x的值x.data -= learning_rate * x.grad# Step4:清空梯度(如果不清空,则grad值会累加,这样就不是想要的效果了)x.grad.zero_()print(f"优化{step+1}步后, x的值为: {x}")
print(f"迭代{steps}次之后,x的最终值为: {x}")

4.5 算法实践

4.5.1 线性回归

以波士顿房价数据集为例,使用梯度下降法进行线性回归预测

Step1: 读取数据,使用PyTorch自动求导,结合梯度下降法计算w和b的值

# 引入pandas库,提供一些数据分析的方法
import pandas as pd
# 从csv文件中读取数据集
data = pd.read_csv(filepath_or_buffer="boston_house_prices.csv", skiprows=1)# 通过索引,将数据集拆分为特征集和标签集
data = data.to_numpy()
X = data[:, :-1]
y = data[:, -1]# 引入train_test_split,将数据集进一步切分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)# 数据标准化处理
mu = X_train.mean(axis=0)
sigma = X_train.std(axis=0)
X_train = (X_train - mu) / sigma
X_test = (X_test - mu) / sigma# 引入PyTorch,提供一些深度学习科学计算的方法
import torch
# 初始化权重和偏置
w = torch.randn(13, 1, requires_grad=True)
b = torch.randn(1, 1, requires_grad=True)def model(X):"""定义线性回归函数"""return X @ w + b   # 将数组数据转换为张量
X_train = torch.tensor(data=X_train, dtype=torch.float32)
y_train = torch.tensor(data=y_train.reshape(-1, 1), dtype=torch.float32)# 设置迭代次数和学习率
steps = 3000
learning_rate = 1e-3# 迭代优化
for step in range(steps):# 1、正向传播(原始函数)y_pred = model(X_train)# 2、计算损失(均方误差MSE)loss = ((y_train - y_pred) ** 2).mean()# 3、反向传播(自动求导,计算和存储梯度)loss.backward()# 4、梯度下降法,更新w、b的值w.data -= learning_rate * w.gradb.data -= learning_rate * b.grad# 5、清空梯度(如果不清空,则grad值会累加,这样就不是想要的效果了)w.grad.zero_()b.grad.zero_()# 每隔10次迭代,打印一次loss的值if step % 10 == 0:print(loss.item())

Step2: 定义预测方法,根据上面迭代出来的w和b,带入X_test进行预测

def predict(X_test):"""定义预测方法"""# 将数组数据转换为张量X_test = torch.tensor(data=X_test, dtype=torch.float32)# 在PyTorch中,当requires_grad=True的张量参与任何运算时,PyTorch都会构建一个计算图,并自动计算和存储这些张量的梯度# 然而,在某些情况(如模型评估或推理)下,我们并不需要计算梯度,此时即可使用 with torch.no_grad() 告诉 PyTorch ,在某个代码块内部不跟踪梯度信息,从而节省内存和计算资源with torch.no_grad():# 结合上面迭代出来的w和b,带入X_test进行预测y_pred = model(X_test)# 返回预测结果return y_pred# 调用预测方法,获取预测结果
y_pred = predict(X_test)
# 将y_pred转换为一维数组,torch的view方法类似numpy的reshape方法
y_pred = y_pred.view(-1).numpy()
# 预测结果评估
mse = ((y_pred - y_test) ** 2).mean()
print(f"预测结果的均方误差(mse)值为:{mse}")

4.5.2 逻辑回归

以乳腺癌数据集为例,使用梯度下降法进行逻辑回归预测

Step1: 加载数据,使用PyTorch自动求导,结合梯度下降法计算w和b的值

# 引入load_breast_cancer,获取乳腺癌数据集
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)# 引入train_test_split,将X、y切分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)# 数据标准化处理
mu = X_train.mean(axis=0)
sigma = X_train.std(axis=0)
X_train = (X_train - mu) / sigma
X_test = (X_test - mu) / sigma# 引入PyTorch,提供一些深度学习科学计算的方法
import torch# 定义权重和偏置
# 30个特征、2个类别,所以w是(30,2)、b是(1,2)
w = torch.randn(30, 2, dtype=torch.float32, requires_grad=True)
b = torch.randn(1, 2, dtype=torch.float32, requires_grad=True)def model(X):"""定义逻辑回归函数"""return X @ w + b# 设置迭代次数和学习率
steps = 200
learning_rate = 1e-2# 将数组数据转换为张量
X_train = torch.tensor(data=X_train, dtype=torch.float32)
X_test = torch.tensor(data=X_test, dtype=torch.float32)
y_train = torch.tensor(data=y_train, dtype=torch.long)
y_test = torch.tensor(data=y_test, dtype=torch.long)def get_cross_entropy(y_pred, y_true):"""每个样本的交叉熵ce = y_true @ np.log(1/y_pred)批量的交叉熵为每个样本交叉熵的平均值"""# Step1:真实标签转 one-hot 编码# torch.eye(2)表示2×2的单位矩阵,y_true是0和1两种类型,中括号是切片,以此实现one-hot编码y_true = torch.eye(2)[y_true]# Step2:原始输出转概率# dim=1代表对每一行的各列值进行求和,keepdim=True表示求和后继续保持原始张量的维度# 因精度问题,可能会导致迭代多次后结果为0,所以这里加一个很小的数字(1e-9)y_pred = torch.exp(y_pred) / torch.exp(y_pred).sum(dim=1, keepdim=True) + 1e-9# Step3:求每个样本的交叉熵之和(dim=1代表对每一行的各列值进行求和)cross_entropy = (y_true * torch.log(1 / y_pred)).sum(dim=1)# Step4:求平均交叉熵cross_entropy = cross_entropy.mean()# 返回结果return cross_entropydef get_acc(X, y):"""计算准确率"""with torch.no_grad():# 结合上面迭代出来的w和b,带入X进行预测y_pred = model(X=X)# 因为w,b是两组值,计算得出的y_pred分别是两个类别的概率,所以我们需要获得最大值对应的索引,代表预测出来的是哪种类型y_pred = y_pred.argmax(dim=1)# 实际值与y_pred进行对比,看有多少个数是相等的,就可以得到预测的准确率(用item方法获取acc这个张量的值)# pytorch不允许布尔值进行平均值计算,所以现将其转换为浮点数,再算均值acc = (y == y_pred).to(dtype=torch.float32).mean().item()return accdef train():"""训练过程"""# 训练前,测试一下准确率train_acc = get_acc(X=X_train, y=y_train)test_acc = get_acc(X=X_test, y=y_test)print(f"开始训练之前,train_acc: {train_acc}, test_acc: {test_acc}")for step in range(steps):# 1、正向传播(原始函数)y_pred = model(X=X_train)# 2、计算损失(交叉熵)loss = get_cross_entropy(y_pred=y_pred, y_true=y_train)# 3、反向传播(自动求导,计算和存储梯度)loss.backward()# 4、梯度下降法,更新w、b的值w.data -= learning_rate * w.gradb.data -= learning_rate * b.grad# 5、清空梯度(如果不清空,则grad值会累加,这样就不是想要的效果了)w.grad.zero_()b.grad.zero_()# 6、模型评估train_acc = get_acc(X=X_train, y=y_train)test_acc = get_acc(X=X_test, y=y_test)print(f"训练了{step + 1}轮,train_acc: {train_acc}, test_acc: {test_acc}")

Step2: 调用训练函数,进行模型训练及准确率查看

train()

4.6 pytorch中封装好的线性模型实践

在上面4.5章节的算法实践中,为了理解梯度下降法的原理,我们自己定义了线性模型的函数,编写了求w和b的代码逻辑

但事实上,pytorch中也有已经封装好的现成方法(nn.Linear),下面来使用此方法,集合乳腺癌数据集来进行实践

Step1: 加载数据,引用nn模块

# 引入load_breast_cancer,获取乳腺癌数据集
from sklearn.datasets import load_breast_cancer
X, y = load_breast_cancer(return_X_y=True)# 引入train_test_split,将X、y切分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)# 数据标准化处理
mu = X_train.mean(axis=0)
sigma = X_train.std(axis=0)
X_train = (X_train - mu) / sigma
X_test = (X_test - mu) / sigma# 引入PyTorch,提供一些深度学习科学计算的方法
import torch
# 从PyTorch中导入nn(神经网络)模块
from torch import nn
# Linear是nn模块中创建全连接线性层的类,自带w和b的属性及计算,这里我们用面向对象的思想对其进行使用(即:实例化对象)
# in_features=30, out_features=2表示输入特征有30种,输出标签为两类
model = nn.Linear(in_features=30, out_features=2)# 设置迭代次数和学习率
steps = 200
# 优化器(可以帮助我们实现梯度下降和清空的方法)
# 将上面实例化的model参数传递给此优化器,并设置学习率lr为0.001
optimizer = torch.optim.SGD(params=model.parameters(), lr=1e-3)
# 损失函数(直接使用nn模块中计算交叉熵的CrossEntropyLoss方法)
loss_fn = nn.CrossEntropyLoss()# 将数组数据转换为张量
X_train = torch.tensor(data=X_train, dtype=torch.float32)
X_test = torch.tensor(data=X_test, dtype=torch.float32)
y_train = torch.tensor(data=y_train, dtype=torch.long)
y_test = torch.tensor(data=y_test, dtype=torch.long)def get_acc(X, y):"""计算准确率"""with torch.no_grad():# 结合上面迭代出来的w和b,带入X进行预测y_pred = model(X)# 因为w,b是两组值,计算得出的y_pred分别是两个类别的概率,所以我们需要获得最大值对应的索引,代表预测出来的是哪种类型y_pred = y_pred.argmax(dim=1)# 实际值与y_pred进行对比,看有多少个数是相等的,就可以得到预测的准确率(用item方法获取acc这个张量的值)# pytorch不允许布尔值进行平均值计算,所以现将其转换为浮点数,再算均值acc = (y == y_pred).to(dtype=torch.float32).mean().item()return accdef train():"""训练过程"""# 训练前,测试一下准确率train_acc = get_acc(X=X_train, y=y_train)test_acc = get_acc(X=X_test, y=y_test)print(f"开始训练之前,train_acc: {train_acc}, test_acc: {test_acc}")for step in range(steps):# 1、正向传播(原始函数)y_pred = model(X_train)# 2、计算损失(交叉熵)loss = loss_fn(y_pred, y_train)# 3、反向传播(自动求导,计算和存储梯度)loss.backward()# 4、优化一步(自动计算和更新w、b)optimizer.step()# 5、清空梯度optimizer.zero_grad()# 6、模型评估train_acc = get_acc(X=X_train, y=y_train)test_acc = get_acc(X=X_test, y=y_test)print(f"训练了{step + 1}轮,train_acc: {train_acc}, test_acc: {test_acc}")

Step2: 调用训练函数,进行模型训练及准确率查看

train()

Step3: 保存模型权重和偏置

torch.save(obj=model.state_dict(), f="model.pt")

Step4: 加载模型权重和偏置

# 初始化模型
m = nn.Linear(in_features=30, out_features=2)
# 加载训练好的权重
# weights_only=True表示在加载模型状态字典(state dict)时仅加载模型的权重和偏置,而不加载模型的结构或其它非权重参数
m.load_state_dict(state_dict=torch.load(f="model.pt", weights_only=True))

Step5: 定义推理函数

def predict(X):"""推理流程"""# 类型校验:如果X不是张量,则将其转换为张量if not isinstance(X, torch.Tensor):X = torch.tensor(data=X, dtype=torch.float32)# 数据结构判断:如果特征不是30种,标签不是2类,则抛出异常if (X.size(1) != 30) or (X.ndim !=2):raise ValueError("输入数据有误!!!")# 通过模型进行预测y_pred = m(X)# w,b是两组值,计算得出的y_pred分别是两个类别的概率,所以我们需要获得最大值对应的索引,代表预测出来的是哪种类型y_pred = y_pred.argmax(dim=1)# 返回预测值return y_pred

Step6: 将测试集数据带入推理函数,进行结果预测

print(predict(X=X_test))

Step7: 查看实际值,比较其与预测值之间的差异

print(y_test)

5 附页

5.1 常见初等函数的导数

5.2 总体方差和样本方差

人工智能(AI)通常被认为是“以小博大”的过程,与统计学项目类似,由于总体可能非常大或难以直接访问,研究者通常无法直接研究总体,因此,一般会采取抽样的方法,从总体中选取一部分样本进行研究,使用样本来估计总体

(1)对总体的统计

  • 均值:mu = sum(x) / len(x)
  • 方差:sum((x - mu) ** 2) / len(x)
  • 标准差:(sum((x - mu) ** 2) / len(x)) ** 0.5

(2)对样本的统计(无偏估计,n-1的自由度)

  • 均值:mu = sum(x) / len(x)
  • 方差:sum((x - mu) ** 2) / (len(x) - 1)
  • 标准差:(sum((x - mu) ** 2) / (len(x) - 1)) ** 0.5

(3)NumPy和PyTorch的差异

  • NumPy 默认求的是总体标准差:(sum((x - mu) ** 2) / len(x)) ** 0.5

    • import numpy as np

    • arr = np.array([1, 2, 3, 4, 5, 6])

    • 总体标准差:arr.std()

    • 样本标准差:arr.std(ddof=1)

  • PyTorch 默认求的是样本标准差:(sum((x - mu) ** 2) / (len(x) - 1)) ** 0.5

    • import torch

    • tensor = torch.tensor([1, 2, 3, 4, 5, 6], dtype=torch.float32)

    • 样本标准差:t.std()

    • 总体标准差:t.std(correction=0)

5.3 判断是否有可用的GPU

import torch# 创建一个随机张量,默认在CPU上
t1 = torch.randn(2, 3)
print(t1)
print("Device:", t1.device)  # 输出将显示 'cpu'# 如果有可用的GPU设备,指定使用CUDA
if torch.cuda.is_available():t2 = torch.randn(2, 3, device='cuda')print(t2)print("Device:", t2.device)  # 输出将显示 'cuda:0'# 有可用的GPU设备,则指定使用CUDA;没有可用的GPU设备,则指定使用CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
t2 = torch.randn(2, 3, device=device)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/55819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9-贪心算法

PDF文档下载:LeetCode-贪心算法-java 参考:代码随想录 题目分类大纲如下: 贪心算法理论基础 什么是贪心? 贪心的本质是选择每一阶段的局部最优,从而达到全局最优。 贪心的套路(什么时候用贪心&#xff…

计算机网络——http和web

无状态服务器——不维护客户端 怎么变成有状态连接 所以此时本地建立代理—— 若本地缓存了——但是服务器变了——怎么办?

Pikachu-File Inclusion-远程文件包含

远程文件包含漏洞 是指能够包含远程服务器上的文件并执行。由于远程服务器的文件是我们可控的,因此漏洞一旦存在,危害性会很大。但远程文件包含漏洞的利用条件较为苛刻;因此,在web应用系统的功能设计上尽量不要让前端用户直接传变…

用java编写飞机大战

游戏界面使用JFrame和JPanel构建。背景图通过BG类绘制。英雄机和敌机在界面上显示并移动。子弹从英雄机发射并在屏幕上移动。游戏有四种状态:READY、RUNNING、PAUSE、GAMEOVER。状态通过鼠标点击进行切换:点击开始游戏(从READY变为RUNNING&am…

CSS | 响应式布局之媒体查询(media-query)详解

media type(媒体类型)是CSS 2中的一个非常有用的属性,通过media type我们可以对不同的设备指定特定的样式,从而实现更丰富的界面。media query(媒体查询)是对media type的一种增强,是CSS 3的重要内容之一。随着移动互联网的发展,m…

reactNative本地调试localhost踩坑

本地调试请求localhost的时候 1.要和电脑处在同一局域网下面(同一个wifi) 2.把baseURL的localhost改成命令行中ipconfig查询到的IPv4 地址 . . . . . . . . . . . . : (例如)192.168.1.103 如果报错Net Work Error,可…

BMC pam认证的使用

1.说明 1.1 文档参考资料 https://www.chiark.greenend.org.uk/doc/libpam-doc/html/Linux-PAM_ADG.htmlhttp://www.fifi.org/doc/libpam-doc/html/pam_appl-3.htmlpdf文档: https://fossies.org/linux/Linux-PAM-docs/doc/adg/Linux-PAM_ADG.pdflinux-pam 中文文档pam 旧文p…

Redis基础二(spring整合redis)

Springboot整合Redis 一、Springboot整合redis ​ redis可以通过使用java代码来实现 第一部分文档中 在终端操作redis的所有命令,Spring已经帮我们封装了所有的操作,所以变得很简单了。 ​ Spring专门提供了一个模块来进行这些操作的封装,这…

【Linux】详解Linux下的工具(内含yum指令和vim指令)

文章目录 前言1. Linux下软件安装的方式2. yum2.1 软件下载的小知识2.2 在自己的Linux系统下验证yum源的存在2.3 利用yum指令下载软件2.4 拓展yum源(针对于虚拟机用户) 3. vim编辑器3.1 vim是什么?3.2 如何打开vim3.2 vim各模式下的讲解3.2.1…

Oracle中ADD_MONTHS()函数详解

文章目录 前言一、ADD_MONTHS()的语法二、主要用途三、测试用例总结 前言 在Oracle数据库中,ADD_MONTHS()函数用于在日期中添加指定的月数。 一、ADD_MONTHS()的语法 ADD_MONTHS(date, n) 其中,date是一个日期值,n是一个整数值&#xff0c…

基于vue框架的大学生学业预警系统设计与实现53ify(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:学生,公告信息,成绩信息,科目,学分信息,考勤信息,教师 开题报告内容 基于Vue框架的大学生学业预警系统设计与实现开题报告 一、研究背景与意义 随着高等教育的普及与深入,大学生群体规模日益扩大,其学业管理成…

百元头戴式耳机哪款口碑爆棚+质价比高?2024耳机最强推荐攻略!

在2024年的耳机市场中,百元头戴式耳机凭借其亲民的价格和出色的性能,成为了众多消费者的首选。随着技术的不断进步,这一价位段的耳机不仅在音质上有了显著提升,还在舒适度、降噪能力以及续航时间等方面表现出色。那百元头戴式耳机…

CAN XL协议标准在CANoe中的应用

众所周知,CAN通信技术在汽车领域中,有着非常广泛的应用。从1991年,第一代经典CAN在奔驰S级轿车中首次应用;到2011年,开始第二代CAN总线(即CAN FD)的开发;如今,ISO 11898-…

MyBatis 操作数据库入门

目录 前言 1.创建springboot⼯程 2.数据准备 3.配置Mybatis数据库连接信息 4.编写SQL语句,进行测试 前言 什么是MyBatis? MyBatis是⼀款优秀的 持久层 框架,⽤于简化JDBC的开发 Mybatis操作数据库的入门步骤: 1.创建springboot⼯程 2.数…

kwin- 插件加载绘制流程

1. 配置文件的作用具体是做什么的? 相当于用户强制设置了特效的开关,对于没有写在配置文件里的特效,会检测默认加载值,确定是否加载。写在了文件里的会根据返回的值,来加载特效。 2. 为什么配置文件没有写&#xff0c…

【自用】王道文件管理强化笔记

文章目录 操作系统引导:磁盘初始化文件打开过程角度1文件的打开过程角度2 内存映射的文件访问 操作系统引导: ①CPU从一个特定主存地址开始,取指令,执行ROM中的引导程序(先进行硬件自检,再开机) ②)将磁盘的第一块–主引导记录读入内存&…

【Ubuntu】git

文章目录 1.配置SSH key2. 基础知识操作命令1分支branch 如果对git命令使用不熟悉,推荐一个非常棒的git在线练习工具 Learn Git Branching。 https://m.runoob.com/git/git-basic-operations.html 1.配置SSH key ssh-keygen -t rsa -C "YOUR EMAIL"完成…

markdown 中启用音频支持

markdown 中启用音频支持 markdown 默认不支持音频文件&#xff0c;我们通过 html 标签渲染 flask项目 其中音频文件放在 /static/audios/vad_example.wav markdown 内容如下&#xff1a; ## 音频播放器示例 <audio controls ><source src"vad_example.wav…

Flink源码剖析

写在前面 最近一段时间都没有更新博客了&#xff0c;原因有点离谱&#xff0c;在实现flink的两阶段提交的时候&#xff0c;每次执行自定义的notifyCheckpointComplete时候&#xff0c;好像就会停止消费数据&#xff0c;完成notifyComplete后再消费数据&#xff1b;基于上述原因…

力扣16~20题

题16&#xff08;中等&#xff09;&#xff1a; 思路&#xff1a; 双指针法&#xff0c;和15题差不多&#xff0c;就是要排除了&#xff0c;如果total<target则排除了更小的&#xff08;left右移&#xff09;&#xff0c;如果total>target则排除了更大的&#xff08;rig…