【scikit-learn入门指南】:机器学习从零开始

1. 简介

scikit-learn是一款用于数据挖掘和数据分析的简单高效的工具,基于NumPy、SciPy和Matplotlib构建。它能够进行各种机器学习任务,如分类、回归和聚类。

2. 安装scikit-learn

在开始使用scikit-learn之前,需要确保已经安装了scikit-learn库。可以使用以下命令安装:

pip install scikit-learn

3. 数据预处理

数据预处理是机器学习中的一个重要步骤。在这一部分,我们将讨论如何处理缺失值、标准化数据以及编码类别变量。

缺失值处理

在实际数据集中,经常会遇到缺失值。我们可以使用scikit-learn的SimpleImputer类来填补缺失值。

import numpy as np
from sklearn.impute import SimpleImputer# 创建一个包含缺失值的数据集
data = np.array([[1, 2, np.nan], [3, np.nan, 6], [7, 8, 9]])# 使用均值填补缺失值
imputer = SimpleImputer(strategy='mean')
data_imputed = imputer.fit_transform(data)print("填补后的数据:\n", data_imputed)

结果分析:以上代码用列的均值填补了缺失值,输出的填补后数据如下:

填补后的数据:
[[1. 2. 7.5][3. 5. 6.][7. 8. 9.]]

数据标准化

不同特征的数值范围可能差异很大,为了提高模型的性能,通常需要对数据进行标准化处理。

from sklearn.preprocessing import StandardScaler# 标准化数据
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_imputed)print("标准化后的数据:\n", data_scaled)

结果分析:数据标准化后,各特征的均值为0,标准差为1。

类别变量编码

对于分类变量,需要将其转换为数值型。可以使用OneHotEncoder来进行独热编码。

from sklearn.preprocessing import OneHotEncoder# 创建一个包含类别变量的数据集
data = np.array([['Male', 1], ['Female', 3], ['Female', 2]])# 独热编码
encoder = OneHotEncoder(sparse=False)
data_encoded = encoder.fit_transform(data)print("编码后的数据:\n", data_encoded)

结果分析:独热编码将类别变量转换为二进制特征。

4. 数据集划分

在训练模型前,需要将数据集划分为训练集和测试集。train_test_split函数可以轻松实现这一点。

from sklearn.model_selection import train_test_split# 创建一个示例数据集
X = np.array([[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]])
y = np.array([0, 1, 0, 1, 0])# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)print("训练集特征:\n", X_train)
print("测试集特征:\n", X_test)

结果分析:数据集按照80%的比例划分为训练集和测试集。

5. 模型选择与训练

在这部分,我们将介绍几种常用的机器学习模型,并展示如何使用scikit-learn进行训练和预测。

线性回归

线性回归是最简单的回归模型之一。

from sklearn.linear_model import LinearRegression# 创建线性回归模型
model = LinearRegression()# 训练模型
model.fit(X_train, y_train)# 预测
predictions = model.predict(X_test)print("线性回归预测结果:", predictions)

结果分析:线性回归模型对测试集进行了预测,输出预测值。

逻辑回归

逻辑回归常用于二分类问题。

from sklearn.linear_model import LogisticRegression# 创建逻辑回归模型
model = LogisticRegression()# 训练模型
model.fit(X_train, y_train)# 预测
predictions = model.predict(X_test)print("逻辑回归预测结果:", predictions)

结果分析:逻辑回归模型对测试集进行了预测,输出预测类别。

K近邻算法

K近邻算法是一种基于实例的学习方法。

from sklearn.neighbors import KNeighborsClassifier# 创建K近邻模型
model = KNeighborsClassifier(n_neighbors=3)# 训练模型
model.fit(X_train, y_train)# 预测
predictions = model.predict(X_test)print("K近邻预测结果:", predictions)

结果分析:K近邻模型对测试集进行了预测,输出预测类别。

决策树

决策树是一种常见的分类和回归方法。

from sklearn.tree import DecisionTreeClassifier# 创建决策树模型
model = DecisionTreeClassifier()# 训练模型
model.fit(X_train, y_train)# 预测
predictions = model.predict(X_test)print("决策树预测结果:", predictions)

结果分析:决策树模型对测试集进行了预测,输出预测类别。

6. 模型评估

在这一部分,我们将讨论如何使用交叉验证、混淆矩阵和ROC曲线来评估模型性能。

交叉验证

交叉验证可以帮助我们更稳定地评估模型性能。

from sklearn.model_selection import cross_val_score# 使用交叉验证评估模型
scores = cross_val_score(model, X, y, cv=5)print("交叉验证得分:", scores)

结果分析:交叉验证得分展示了模型在不同折中的性能。

混淆矩阵

混淆矩阵用于评估分类模型的性能。

from sklearn.metrics import confusion_matrix# 计算混淆矩阵
cm = confusion_matrix(y_test, predictions)print("混淆矩阵:\n", cm)

结果分析:混淆矩阵展示了模型的分类情况,包括正确和错误的分类数量。

ROC曲线

ROC曲线用于评估二分类模型的性能。

from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt# 计算ROC曲线
fpr, tpr, thresholds = roc_curve(y_test, model.predict_proba(X_test)[:,1])
roc_auc = auc(fpr, tpr)# 绘制ROC曲线
plt.figure()
plt.plot(fpr, tpr, color='darkorange', lw=2, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()

结果分析:ROC曲线展示了模型在不同阈值下的性能,AUC值越接近1表示模型性能越好。

7. 结论

本教程详细介绍了如何使用scikit-learn进行数据预处理、模型训练与评估。scikit-learn提供了丰富的工具和方法,可以方便地进行机器学习任务。希望通过本教程,读者能对scikit-learn有一个全面的了解,并能够在实际项目中应用这些知识。

通过对各个模型的详细解释和代码实现,相信你已经掌握了scikit-learn的基础操作。尝试用你自己的数据集进行练习,进一步提升你的机器学习技能吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27688.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pyinstall打包exe报错

1- 报错 Please install pywin32-ctypes. 前提:python安装路径中已经安装了pywin32-ctypes。 运行pyinstaller报错 PyInstaller cannot check for assembly dependencies. Please install pywin32-ctypes. 解决思路: python安装路径下Lib\site-packa…

算法:位运算题目练习

目录 常见的位运算的操作总结 ①基础位操作 ②给一个数n,确定它的二进制表示中的第x位是0还是1 ③将一个数n的二进制表示的第x位修改成1 ④将一个数n的二进制表示的第x位修改成0 ⑤位图的思想 ⑥提取一个数n二进制表示中最右侧的1 ⑦干掉一个数n二进制表示中…

JVM 根可达算法

Java中的垃圾 Java中"垃圾"通常指的是不再被程序使用和引用的对象,具体表现在没有被栈、JNI指针和永久代对象所引用的对象。Java作为一种面向对象的编程语言,它使用自动内存管理机制,其中垃圾收集器负责检测和回收不再被程序引用的…

响应式德米拉数字内容交易系统素材下载站模板

★模板说明★ 该数字交易系统设计非常完美,两种响应式模式,可打开边栏模式和盒子模式;八种网站颜色,四种风格颜色可供用户自行选择,还可在网站选背景图片;完美的分成系统、充值功能、个人中心等等都以html…

可重复读(Repeatable Read) 隔离级别-幻读

幻读通常发生在范围查询中,下面通过一个简单的例子来说明幻读现象: 假设有一个名为 employees 的表,其中包含员工的ID和部门ID: CREATE TABLE employees (id INT,department_id INT,name VARCHAR(255) );现在有两个并发事务 A 和…

警示:AGI竞赛之未来十年

后新冠时代,人类智商普遍下降,人工智能赶超人类智能指日可待。 最近几天,AI领域悄悄流行一份AGI白皮书,虽然有些危言耸听,甚至包含以中国为竞争对手的阴谋论。下面是主要思想: 在过去的一年里&#xff1a…

速盾:被攻击后开ddos防御还有效吗?

在网络世界中,DDOS(分布式拒绝服务)攻击是一种常见且具有极大破坏力的网络攻击手段。当网站或系统遭受此类攻击后,一个关键的问题便是此时开启 DDOS 防御是否仍然有效。作为一名专业程序员,以下是对这一问题的深入分析…

6.11 作业

以下是一个简单的比喻,将多态概念与生活中的实际情况相联系: 比喻:动物园的讲解员和动物表演 想象一下你去了一家动物园,看到了许多不同种类的动物,如狮子、大象、猴子等。现在,动物园里有一位讲解员&…

找我设计官网的不多了,看到漂亮大气的,还是忍不住分享出来。

现在有客户找我做官网设计,我说:要么搞个高大上个性化定制的,要么就选个模板得了,几千元的网站不上不下,不如不做。 分享一批高大上的网站给老铁们看看。

功能强大的API函数FindFirstFile使用介绍(附源码)

在处理文件的相关代码中,会频繁使用到Windows系统API函数FindFirstFile,这个函数功能很强大,很多功能都不开它。本文就根据我们在项目中使用该函数的情况,来大概地梳理一下使用FindFirstFile都可以实现哪些常用的功能。 1、FindFirstFile函数声明与WIN32_FIND_DATA结构体 我…

C++ 33 之 const 修饰静态成员

#include <iostream> #include <string.h> using namespace std;// 定义静态const数据成员时&#xff0c;最好在类内部初始化,避免在类外重复初始化&#xff0c;也为了代码的可读性和可维护性class Students03{ public:// 两种写法都可以const static int s_a 10;…

开源模型应用落地-LangChain高阶-LCEL-表达式语言(六)

一、前言 尽管现在的大语言模型已经非常强大,可以解决许多问题,但在处理复杂情况时,仍然需要进行多个步骤或整合不同的流程才能达到最终的目标。然而,现在可以利用langchain来使得模型的应用变得更加直接和简单。 LCEL是什么? LCEL是一种非常灵活和强大的语言,可以帮助您更…

openjudge_2.5基本算法之搜索_7221:拯救公主

题目 7221:拯救公主 总时间限制: 1000ms 内存限制: 65536kB 描述 多灾多难的公主又被大魔王抓走啦&#xff01;国王派遣了第一勇士阿福去拯救她。 身为超级厉害的术士&#xff0c;同时也是阿福的好伙伴&#xff0c;你决定祝他一臂之力。你为阿福提供了一张大魔王根据地的地图…

如何完美解决升级 IntelliJ IDEA 最新版之后遇到 Git 记住密码功能失效的问题

&#x1f6e0;️ 如何完美解决升级 IntelliJ IDEA 最新版之后遇到 Git 记住密码功能失效的问题 摘要 在这篇文章中&#xff0c;我们将详细探讨如何解决在升级到 IntelliJ IDEA 最新版&#xff08;2024.1.3 Ultimate Edition&#xff09;后遇到的 Git 记住密码功能失效的问题。…

FPGA - Verilog题目: 非整数倍数据位宽转换24to128

题目描述&#xff1a; 实现数据位宽转换电路&#xff0c;实现24bit数据输入转换为128bit数据输出。其中&#xff0c;先到的数据应置于输出的高bit位。 电路的接口如下图所示。valid_in用来指示数据输入data_in的有效性&#xff0c;valid_out用来指示数据输出data_out的有效性…

zabbix老版本3.0.14迁移

由于之前zabbix版本过老&#xff0c;一直未能升级&#xff0c;现在一台老的服务器需要迁移&#xff0c;服务器较老&#xff0c;就不更新&#xff0c;先迁移数据&#xff0c; 下载地址&#xff1a; Zabbix Official Repository http://repo.zabbix.com/zabbix/3.0/rhel/7/x86…

数据结构之线性表(4)

前面我们了解到线性表中的顺序表、链表等结构&#xff0c;今天我们探讨新的一种线性表——栈。 那么我们开始栈的探讨之旅吧。 1.栈的基本概念 1.1栈&#xff08;Stack&#xff09;&#xff1a; 是只允许在一端进行插入或删除的线性表。首先栈是一种线性表&#xff0c;但限定…

从零开始!如何安装和配置Jupyter Notebook

目录 一、Jupyter Notebook简介 二、Jupyter Notebook的安装步骤 1. 安装Python 2. 安装Jupyter Notebook 三、Jupyter Notebook的配置 1. 配置Jupyter Notebook的工作目录 2. 设置密码访问 3. 设置SSL安全连接 四、Jupyter Notebook的基本操作 1. 创建和运行Noteboo…

对象和引用类型的赋值都是通过引用传递的方式进行的,这意味着变量实际上存储的是对象的引用,而不是对象本身的副本

这篇博客我主要想解释一下这句话&#xff1a;对象和引用类型的赋值都是通过引用传递的方式进行的&#xff0c;这意味着变量实际上存储的是对象的引用&#xff0c;而不是对象本身的副本。 其实这段话早在学习JS的时候就接触过&#xff0c;只是被我丢进了“记忆垃圾桶”&#xf…

面试专区|【32道Python面向对象高频题整理(附答案背诵版)】

Python中的元类( metaclass )&#xff1f; 元类&#xff08;metaclass&#xff09;在Python中是一个相对高级且深奥的概念。简单来说&#xff0c;元类是创建类的类。在Python中&#xff0c;一切都是对象&#xff0c;类也不例外。当我们定义一个类时&#xff0c;Python会在内存…