Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

目录

Python 机器学习 基础 之 【常用机器学习库】 scikit-learn 机器学习库

一、简单介绍

二、scikit-learn 基础

1、安装 scikit-learn

2、导入 scikit-learn

3、数据准备

4、数据分割

5、训练模型

5.1 线性回归

5.2 逻辑回归

5.3 K 近邻算法 (KNN)

5.4 决策树

5.5 随机森林

6、模型评估

6.1 混淆矩阵

6.2 ROC 曲线

7、特征选择

7.1 使用基于树的特征选择

8、超参数调优

附录

一、scikit-learn 学习文档地址

二、scikit-learn 功能特点介绍

scikit-learn 的特点

scikit-learn 提供的主要功能

1. 数据预处理

2. 分类算法

3. 回归算法

4. 聚类算法

5. 降维算法

6. 模型选择与评估

示例:使用 scikit-learn 进行简单的分类任务

三、scikit-learn 提供的 内置数据集

示例:如何加载内置数据集


一、简单介绍

Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。Python是一种解释型脚本语言,可以应用于以下领域: Web 和 Internet开发、科学计算和统计、人工智能、教育、桌面界面开发、软件开发、后端开发、网络爬虫。

Python 机器学习是利用 Python 编程语言中的各种工具和库来实现机器学习算法和技术的过程。Python 是一种功能强大且易于学习和使用的编程语言,因此成为了机器学习领域的首选语言之一。Python 提供了丰富的机器学习库,如Scikit-learn、TensorFlow、Keras、PyTorch等,这些库包含了许多常用的机器学习算法和深度学习框架,使得开发者能够快速实现、测试和部署各种机器学习模型。

Python 机器学习涵盖了许多任务和技术,包括但不限于:

  1. 监督学习:包括分类、回归等任务。
  2. 无监督学习:如聚类、降维等。
  3. 半监督学习:结合了有监督和无监督学习的技术。
  4. 强化学习:通过与环境的交互学习来优化决策策略。
  5. 深度学习:利用深度神经网络进行学习和预测。

通过 Python 进行机器学习,开发者可以利用其丰富的工具和库来处理数据、构建模型、评估模型性能,并将模型部署到实际应用中。Python 的易用性和庞大的社区支持使得机器学习在各个领域都得到了广泛的应用和发展。

二、scikit-learn 基础

scikit-learn 是一个强大的 Python 机器学习库,提供了各种常见的机器学习算法和工具。它易于使用,适合初学者和专家。本文将介绍 scikit-learn 的基本概念和操作。

1、安装 scikit-learn

在开始之前,请确保已安装 scikit-learn。您可以使用以下命令安装:

pip install scikit-learn

2、导入 scikit-learn

在使用 scikit-learn 之前,需要先导入它。

import sklearn

3、数据准备

scikit-learn 提供了许多内置的数据集,可以方便地进行学习和测试。我们将使用鸢尾花数据集进行演示。

from sklearn.datasets import load_iris
import pandas as pd# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 查看前几行数据
print(df.head())
# 打印结果:
#   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  target
# 0               5.1               3.5                1.4               0.2       0
# 1               4.9               3.0                1.4               0.2       0
# 2               4.7               3.2                1.3               0.2       0
# 3               4.6               3.1                1.5               0.2       0
# 4               5.0               3.6                1.4               0.2       0

请注意,实际输出结果会根据 load_iris() 函数加载的鸢尾花数据集的具体内容而有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集,该数据集包含150个样本,每个样本有4个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个目标变量(鸢尾花种类)。
  • pd.DataFrame() 创建了一个包含数据集特征和目标的 DataFrame。
  • print(df.head()) 打印了 DataFrame 的前五行数据。这为我们提供了数据集的一个快速预览,包括特征值和对应的目标类别。

4、数据分割

将数据分为训练集和测试集是机器学习模型训练的必要步骤。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)print("训练集大小:", X_train.shape)
# 打印结果:
# 训练集大小: (120, 4)print("测试集大小:", X_test.shape)
# 打印结果:
# 测试集大小: (30, 4)

请注意,实际输出结果会根据 train_test_split() 函数分割数据集的方式而有所不同,但由于我们设置了 test_size=0.2random_state=42,每次执行代码时结果应该是一致的。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集,其中测试集占总数据集的20%,训练集占80%。random_state=42 确保了每次分割的结果都是一致的。
  • print() 函数用于打印训练集和测试集的大小,X_train.shapeX_test.shape 分别提供了训练集和测试集的维度信息。由于原始数据集有150个样本,所以训练集应该有120个样本,测试集有30个样本,每个样本有4个特征。

5、训练模型

5.1 线性回归

线性回归是一种简单的回归算法,用于预测连续值。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
# 查看模型性能
from sklearn.metrics import mean_squared_error# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = LinearRegression()# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)mse = mean_squared_error(y_test, y_pred)
print("均方误差:", mse)
# 打印结果:
# 均方误差: 0.03711379440797686

请注意,实际的均方误差(MSE)值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • LinearRegression() 创建了一个线性回归模型,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • mean_squared_error() 计算了测试集的真实值和预测值之间的均方误差。
  • print() 函数用于打印均方误差的结果,这是评估模型性能的一个指标。

5.2 逻辑回归

逻辑回归是一种常用的分类算法,适用于二分类问题。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = LogisticRegression(max_iter=200)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算准确率
accuracy = accuracy_score(y_test, y_pred)print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • LogisticRegression() 创建了一个逻辑回归分类模型,max_iter=200 确保了模型能够收敛,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.3 K 近邻算法 (KNN)

K 近邻算法是一种简单的非参数分类算法。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = KNeighborsClassifier(n_neighbors=3)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • KNeighborsClassifier() 创建了一个 K 近邻分类器模型,n_neighbors=3 表示选择最近的3个邻居进行投票,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.4 决策树

决策树是一种树形结构的分类和回归模型。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = DecisionTreeClassifier()# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • DecisionTreeClassifier() 创建了一个决策树分类器模型,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

5.5 随机森林

随机森林是一种集成学习方法,通过多个决策树的组合来提高性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
# 查看模型性能
from sklearn.metrics import accuracy_score# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = RandomForestClassifier(n_estimators=100)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 查看模型性能
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)
# 打印结果:
# 准确率: 1.0

请注意,实际的准确率值取决于模型在测试集上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • accuracy_score() 计算了测试集的真实值和预测值之间的准确率。
  • print() 函数用于打印准确率的结果,这是评估分类模型性能的一个指标。

6、模型评估

在机器学习中,模型评估是非常重要的一环。以下是一些常见的评估指标和方法。

6.1 混淆矩阵

混淆矩阵用于评估分类模型的性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建模型
model = RandomForestClassifier(n_estimators=100)# 训练模型
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)# 绘制混淆矩阵
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:混淆矩阵图已保存至 'Images/savedImage.png'plt.show()  # 显示混淆矩阵图

请注意,这段代码中没有直接的打印语句输出结果,但是注释中已经说明了每个步骤的作用和预期结果。具体来说:

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • predict() 方法用于对测试集进行预测。
  • confusion_matrix() 计算了测试集的真实值和预测值之间的混淆矩阵。
  • ConfusionMatrixDisplay()plot() 绘制了混淆矩阵的图表。
  • plt.savefig() 将混淆矩阵图保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示混淆矩阵图。

6.2 ROC 曲线

ROC 曲线用于评估二分类模型的性能。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import label_binarize
from sklearn.multiclass import OneVsRestClassifier
import matplotlib.pyplot as plt
import numpy as np# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 将目标变量二值化
y_train = label_binarize(y_train, classes=[0, 1, 2])
y_test = label_binarize(y_test, classes=[0, 1, 2])
n_classes = y_train.shape[1]# 创建并训练模型
model = OneVsRestClassifier(RandomForestClassifier(n_estimators=100))
model.fit(X_train, y_train)# 预测
y_score = model.predict_proba(X_test)# 计算每个类别的 ROC 曲线和 AUC
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])roc_auc[i] = auc(fpr[i], tpr[i])# 绘制所有类别的 ROC 曲线
plt.figure()
colors = ['blue', 'green', 'red']
for i, color in zip(range(n_classes), colors):plt.plot(fpr[i], tpr[i], color=color, lw=2,label=f'ROC curve of class {i} (area = {roc_auc[i]:.2f})')plt.plot([0, 1], [0, 1], 'k--', lw=2)
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve for Each Class')
plt.legend(loc='lower right')# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:ROC图表已保存至 'Images/savedImage.png'plt.show()  # 显示ROC图表

请注意,这段代码中没有直接的打印语句输出结果,但是注释中已经说明了每个步骤的作用和预期结果。具体来说:

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • label_binarize() 将目标变量转换为二进制形式,以便进行多类别的ROC曲线绘制。
  • OneVsRestClassifier() 创建了一个一对多的分类器模型,包装了随机森林分类器,fit() 方法用于训练模型。
  • predict_proba() 方法用于获取测试集的预测概率。
  • roc_curve()auc() 计算了每个类别的ROC曲线和AUC值。
  • plt.plot() 用于绘制每个类别的ROC曲线。
  • plt.savefig() 将ROC图表保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示ROC图表。

注意:由于 ROC 曲线和 AUC 只能用于二分类问题,而鸢尾花数据集是一个三分类问题。在这种情况下,您需要将多分类问题转换为多个二分类问题,可以使用 OneVsRestClassifierOneVsOneClassifier 来处理多分类问题,或者使用每个类的 ROC 曲线。

7、特征选择

特征选择是提高模型性能的重要步骤之一。

7.1 使用基于树的特征选择
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建随机森林模型
model = RandomForestClassifier(n_estimators=100)
model.fit(X_train, y_train)# 获取特征重要性
importances = model.feature_importances_
feature_names = X.columns# 绘制特征重要性图
plt.barh(range(len(importances)), importances, align='center')
plt.yticks(range(len(importances)), feature_names)
plt.title('Feature Importances')# 保存图表
plt.savefig('Images/savedImage.png', bbox_inches='tight')  # 打印结果:特征重要性图已保存至 'Images/savedImage.png'plt.show()

请注意,我添加了range(len(importances))来为条形图提供位置,并使用plt.yticks()将特征名称设置为y轴的刻度标签。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • RandomForestClassifier() 创建了一个随机森林分类器模型,n_estimators=100 表示使用100棵树,fit() 方法用于训练模型。
  • 通过model.feature_importances_获取特征重要性。
  • plt.barh() 绘制了特征重要性图。
  • plt.savefig() 将特征重要性图保存到文件中,路径为 'Images/savedImage.png'。请确保 'Images' 文件夹存在于您的工作目录中,否则保存操作可能会失败。
  • plt.show() 显示特征重要性图。

8、超参数调优

使用网格搜索进行超参数调优,可以找到模型的最佳参数。

from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV# 加载鸢尾花数据集
iris = load_iris()# 创建 DataFrame
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 准备数据
X = df.drop('target', axis=1)
y = df['target']# 分割数据
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 定义参数网格
param_grid = {'n_neighbors': [3, 5, 7, 9]
}# 创建KNN模型
model = KNeighborsClassifier()# 进行网格搜索
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train, y_train)# 输出最佳参数
print("最佳参数:", grid_search.best_params_)
# 打印结果:
# 最佳参数: {'n_neighbors': 3}print("最佳准确率:", grid_search.best_score_)
# 打印结果:
# 最佳准确率: 0.9583333333333334

请注意,实际的输出结果,包括最佳参数和准确率,将取决于模型在训练数据上的表现,因此具体的数值每次运行可能会有所不同。上述代码中的注释和输出结果仅为示例。

  • load_iris() 函数加载了鸢尾花数据集。
  • pd.DataFrame() 创建了一个包含数据集特征的 DataFrame,并添加了目标列。
  • train_test_split() 将数据集分割为训练集和测试集。
  • KNeighborsClassifier() 创建了一个 K 近邻分类器模型。
  • GridSearchCV() 进行网格搜索来找到最佳的参数组合,cv=5 表示使用5折交叉验证。
  • fit() 方法用于在训练集上训练网格搜索对象。
  • print() 函数用于打印出最佳的参数和准确率,这是评估模型性能的指标。

附录

一、scikit-learn 学习文档地址

scikit-learn: machine learning in Python — scikit-learn 1.5.0 documentation

二、scikit-learn 功能特点介绍

scikit-learn 是一个广受欢迎的 Python 机器学习库,因其简单易用且功能强大而备受青睐。它提供了多种常见的机器学习算法和工具,适用于数据预处理、模型训练、模型评估以及模型选择等各个环节。以下是对 scikit-learn 的详细介绍。

scikit-learn 的特点

  1. 丰富的算法:scikit-learn 包含了多种机器学习算法,包括分类、回归、聚类和降维算法。
  2. 易于使用:提供了统一且简单的接口,适合初学者快速上手,也能满足专家的复杂需求。
  3. 高效:底层基于 Cython 和 NumPy 实现,保证了计算效率。
  4. 广泛的应用:适用于学术研究、数据科学和工业应用等多个领域。

scikit-learn 提供的主要功能

1. 数据预处理

数据预处理是机器学习中的重要步骤,scikit-learn 提供了多种工具来处理数据:

  • 标准化和归一化(StandardScaler、MinMaxScaler)
  • 缺失值处理(SimpleImputer)
  • 类别编码(OneHotEncoder、LabelEncoder)
  • 特征选择(SelectKBest、RFE)
2. 分类算法

scikit-learn 提供了多种分类算法,用于预测离散标签:

  • 逻辑回归(Logistic Regression)
  • k近邻算法(k-Nearest Neighbors, KNN)
  • 支持向量机(Support Vector Machines, SVM)
  • 决策树(Decision Trees)
  • 随机森林(Random Forest)
  • 朴素贝叶斯(Naive Bayes)
  • 梯度提升(Gradient Boosting)
3. 回归算法

用于预测连续值的回归算法包括:

  • 线性回归(Linear Regression)
  • 决策树回归(Decision Tree Regressor)
  • 支持向量回归(Support Vector Regressor, SVR)
  • 随机森林回归(Random Forest Regressor)
  • 岭回归(Ridge Regression)
  • 拉索回归(Lasso Regression)
4. 聚类算法

聚类算法用于无监督学习,发现数据的内在结构:

  • k均值聚类(k-Means Clustering)
  • 层次聚类(Agglomerative Clustering)
  • DBSCAN(Density-Based Spatial Clustering of Applications with Noise)
  • 均值漂移(Mean Shift)
5. 降维算法

降维算法用于数据降维和特征提取:

  • 主成分分析(Principal Component Analysis, PCA)
  • 线性判别分析(Linear Discriminant Analysis, LDA)
  • 奇异值分解(Singular Value Decomposition, SVD)
  • 因子分析(Factor Analysis)
6. 模型选择与评估

scikit-learn 提供了多种工具来进行模型选择和评估:

  • 交叉验证(Cross-Validation)
  • 网格搜索和随机搜索(GridSearchCV、RandomizedSearchCV)
  • 各种评估指标(accuracy_score、mean_squared_error、confusion_matrix 等)

示例:使用 scikit-learn 进行简单的分类任务

以下是一个使用鸢尾花数据集进行分类任务的示例,展示了从数据加载、预处理到模型训练和评估的完整流程。

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt# 加载数据
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target# 数据分割
X = df.drop('target', axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)# 训练模型
model = LogisticRegression(max_iter=200)
model.fit(X_train, y_train)# 进行预测
y_pred = model.predict(X_test)# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print("准确率:", accuracy)# 绘制混淆矩阵
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm)
disp.plot(cmap='Blues')
plt.title('Confusion Matrix')
plt.show()

三、scikit-learn 提供的 内置数据集

scikit-learn 提供了许多内置的数据集,这些数据集可以方便地用于学习和测试。以下是一些常见的内置数据集:

  1. Iris 数据集

    • 描述:著名的鸢尾花数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_iris()
  2. Digits 数据集

    • 描述:手写数字数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_digits()
  3. Wine 数据集

    • 描述:葡萄酒分类数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_wine()
  4. Breast Cancer 数据集

    • 描述:乳腺癌数据集,用于分类任务。
    • 加载方法sklearn.datasets.load_breast_cancer()
  5. Boston Housing 数据集

    • 描述:波士顿房价数据集,用于回归任务。(注:该数据集已被标记为不推荐使用)
    • 加载方法sklearn.datasets.load_boston()
  6. Diabetes 数据集

    • 描述:糖尿病数据集,用于回归任务。
    • 加载方法sklearn.datasets.load_diabetes()
  7. Linnerud 数据集

    • 描述:多输出回归数据集,包括锻炼和生理数据。
    • 加载方法sklearn.datasets.load_linnerud()
  8. California Housing 数据集

    • 描述:加利福尼亚房价数据集,用于回归任务。
    • 加载方法sklearn.datasets.fetch_california_housing()
  9. 20 Newsgroups 数据集

    • 描述:20个新闻组数据集,用于文本分类任务。
    • 加载方法sklearn.datasets.fetch_20newsgroups()
  10. Olive Oil 数据集

    • 描述:橄榄油数据集,用于聚类任务。
    • 加载方法sklearn.datasets.fetch_olivetti_faces()

示例:如何加载内置数据集

以下是一些数据集的加载示例:

from sklearn.datasets import load_iris, load_digits, load_wine, load_breast_cancer, load_diabetes, load_linnerud, fetch_california_housing, fetch_20newsgroups, fetch_olivetti_faces# 加载 Iris 数据集
iris = load_iris()
print(iris.data.shape)# 加载 Digits 数据集
digits = load_digits()
print(digits.data.shape)# 加载 Wine 数据集
wine = load_wine()
print(wine.data.shape)# 加载 Breast Cancer 数据集
breast_cancer = load_breast_cancer()
print(breast_cancer.data.shape)# 加载 Diabetes 数据集
diabetes = load_diabetes()
print(diabetes.data.shape)# 加载 Linnerud 数据集
linnerud = load_linnerud()
print(linnerud.data.shape)# 加载 California Housing 数据集
california_housing = fetch_california_housing()
print(california_housing.data.shape)# 加载 20 Newsgroups 数据集
newsgroups = fetch_20newsgroups()
print(len(newsgroups.data))# 加载 Olivetti Faces 数据集
faces = fetch_olivetti_faces()
print(faces.data.shape)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Gitblit软件开启git服务器

文章目录 使用Gitblit软件开启git服务器,供局域网其他电脑当做git仓库服务1. java依赖环境安装2. Mac系统操作2.1 下载Gitblit、配置参数2.2 启动服务2.3 终止服务:停止脚本即可 3. window系统操作3.1 下载Gitblit、配置参数3.2 启动服务3.3 终止服务&am…

揭秘抖音矩阵号低成本高效运作批量账号的秘诀!

在当今互联网时代,抖音矩阵号搭建已经成为了许多企业和个人追求高效率媒介管理的重要方式,但是高效、低成本地运作这些账号却是一个相当具有挑战性的任务。 在这篇文章中,我将从抖音矩阵账号准备,如何低成本制作视频以及在进行内容制作时,如何高效运作批量账号等大家比较…

翻译软件就用DT浏览器

翻译软件就用DT浏览器

LeetCode 7- 整数反转

给你一个 32 位的有符号整数 x ,返回将 x 中的数字部分反转后的结果。 如果反转后整数超过 32 位的有符号整数的范围 [-231, 231 - 1] ,就返回 0。 假设环境不允许存储 64 位整数(有符号或无符号)。 示例 1: 输入&…

融云:应用出海新增长引擎,GPT-4o 后的 AI 创新与用户运营

近日,融云与 TikTok、维卓联合在京举办了“十年出海,遇上 AI”私享会。 会上,融云解决方案架构师于洪达带来了《应用出海新增长引擎,AI 创新与用户精细化运营》主题分享,探讨在 AI 技术大潮下应用出海通过创新运营方式…

金融科技:跨境支付的新引擎,开启全球化支付新时代

一、引言 在全球经济一体化的今天,跨境支付作为连接各国经贸往来的重要桥梁,其便捷性、安全性和效率性成为了各国企业和消费者关注的焦点。金融科技,作为现代金融与传统科技深度融合的产物,正以其独特的创新力和推动力,成为跨境支付领域的新引擎,引领着全球化支付新时代…

群体优化算法---灰狼优化算法学习介绍以及在卷积神经网络训练上的应用

**长文预警**介绍 在自然界中,狼群的社会结构和捕猎策略展现了高度的智能和协调性,灰狼优化算法(Grey Wolf Optimizer, GWO)正是受此启发提出的一种群体智能优化算法。GWO主要模拟了灰狼的社会等级制度和捕猎行为,其核…

Playwright框架入门

自从2023年底playwright框架火起来之后,很多小伙伴咨询我们这个框架,甚至问我们什么时候出这个课程. 这步这个课程在我们千呼万唤中出来了.具体的课程大纲和试听可以联系下方二维码获取. 今天给大家分享一下playwright的安装和一些常用API,为后续的学习做好准备工作. Playwrig…

计算机网络--传输层

计算机网络--计算机网络概念 计算机网络--物理层 计算机网络--数据链路层 计算机网络--网络层 计算机网络--传输层 计算机网络--应用层 1. 概述 1.1 传输层的意义 网络层可以把数据从一个主机传送到另一个主机,但是没有和进程建立联系。 传输层就是讲进程和…

【中间件系列】浅析redis是否适合做消息队列

文章目录 一、简单的list消息队列1.命令示例2.伪代码示例3.方案优劣 二、Pub/Sub发布订阅1.消息丢失2.消息堆积 三、相对成熟的Stream1.redis命令介绍2.多消费者组测试3.Stream会持久化吗?4.消息堆积如何解决? 总结 用redis也是比较久了,并且…

Unity3d简单对话系统的实现——使用Dialogue editor完成对话系统

目录 前言 使用方法 1.下载dialogue editor 2.新建空物体 3.对对话内容进行编辑 4.对话画布建立 5.触发对话框代码 结束语 前言 今天是坚持写博客的第21天,很高兴自己可以坚持,也希望能与大家一起进步。我们今天来看unity3d当中的一个可以轻松实…

Go select 语句使用场景

1. select介绍 select 是 Go 语言中的一种控制结构,用于在多个通信操作中选择一个可执行的操作。它可以协调多个 channel 的读写操作,使得我们能够在多个 channel 中进行非阻塞的数据传输、同步和控制。 基本语法: select {case communica…

2024 cicsn SuperHeap

文章目录 参考沙箱存在protobuf逆向buy_booksee_bookreturn_bookedit_booksearch_book 思路exp 参考 https://hakuya.work/post/7 https://akaieurus.github.io/2024/05/20/2024%E5%9B%BD%E8%B5%9B%E5%88%9D%E8%B5%9Bpwn-wp/#SuperHeap https://blog.csdn.net/m0_63437215/art…

TSINGSEE青犀视频汇聚机房动环智能监控方案,提升机房安全稳定性

一、背景需求 在当今信息化时代,机房作为数据中心的核心设施,承载着重要的网络设备和数据存储设备,其正常运行对于企业的数据安全和业务连续性至关重要。机房内部设备众多,且运行过程中涉及大量的数据交换和传输。一旦发生安全事…

java 类加载器及双亲委派机制

1、 有哪些类加载器 还有自定义类加载器。最上面的为父加载器,加载类的路径是不一样的 2、 什么是双亲委派机制: 1. 加载时,先去找父类,父类无法加载时,在由儿子加载 3、 为什么用双亲委派: 沙箱安全&…

【devops】 Bytebase 一站式开源 数据库DevOps平台

初识 Bytebase 1、安装 安装地址 https://www.bytebase.com/docs/get-started/self-host/#docker 安装指令 docker run --init \--name bytebase \--publish 8080:8080 --pull always \--volume ~/.bytebase/data:/var/opt/bytebase \bytebase/bytebase:2.18.02、登录-dashboa…

OlSoul系统调校程序v2024.06.05

软件介绍 OlSoul是一款能够适配用于Win各个系统的系统调校软件,OlSoul内置有众多调校功能可以直接使用,如有启用无线网络功能、启用打印机功能、系统快速休眠与休眠开关、快捷方式小箭头去除功能等,具体的调校功能多达几十项,可自…

RT-DETR 详解之 Efficient Hybrid Encoder

在先前的博文中,博主介绍了RT-DETR在官方代码与YOLOv8集成程序中的训练与推理过程,接下来,博主将通过代码调试的方式来梳理RT-DETR的整个过程。 整体结构 RT-DETR的代码调试大家可以参考博主这篇文章: 在梳理整个代码之前&…

SpringBoot高手之路-原理篇

文章目录 JDK动态代理 JDK动态代理

长文预警:自动驾驶の核燃料库!Tesla数据标注系统解析

长文预警:自动驾驶の核燃料库!Tesla数据标注系统解析 前言 本文整理自原文链接,写的非常好,给了博主很多启发,投原创是因为平台机制,希望能被更多人看到。 掐指一算,又到了该学习的时间&#…