实战机器学习--决策树分类器在蘑菇分类中的应用

数据集:https://pan.quark.cn/s/4d3526600c0c

在机器学习领域,图像分类是一个常见的任务,尤其是在自然语言处理和生物识别等领域。本文将通过一个简单的例子,展示如何使用Python和一些流行的库来实现蘑菇的分类,区分可食用蘑菇和毒蘑菇。以下是详细的步骤和代码解析。

1. 导入必要的库

首先,我们需要导入一些必要的Python库:

import os  # 用于文件和目录操作
import cv2  # 用于图像读取和处理
import numpy as np  # 用于数值计算
from sklearn.model_selection import train_test_split  # 用于数据集分割
from sklearn.tree import DecisionTreeClassifier  # 用于创建决策树分类器
from sklearn.metrics import classification_report  # 用于生成分类报告

2. 设置数据路径

我们需要为可食用蘑菇和毒蘑菇的图片设置存储路径。这里假设图片存储在本地磁盘上:

edible_path = r'Mushroom dataset\Edible'
poisonous_path = r'Mushroom dataset\Poisonous'

3. 初始化数据和标签列表

在开始读取图片之前,我们需要初始化两个列表:X用于存储图像数据,y用于存储对应的标签。

X = []  # 存储图像数据的列表
y = []  # 存储标签的列表

4. 读取图片并处理

接下来,我们遍历存储路径中的每个文件,读取图片,调整图片大小,并将其展平成一维向量。同时,根据图片的类型(可食用或毒蘑菇),添加相应的标签。

for filename in os.listdir(edible_path):  # 遍历可食用蘑菇图片目录img_path = os.path.join(edible_path, filename)  # 获取图片的完整路径image = cv2.imread(img_path)  # 读取图片if image is not None:  # 确保图片被成功读取image = cv2.resize(image, (64, 64))  # 将图片调整为64x64像素image = image.flatten()  # 将图片数据展平成一维数组X.append(image)  # 添加到X列表y.append('Edible')  # 添加标签到y列表for filename in os.listdir(poisonous_path):  # 遍历毒蘑菇图片目录img_path = os.path.join(poisonous_path, filename)  # 获取图片的完整路径image = cv2.imread(img_path)  # 读取图片if image is not None:  # 确保图片被成功读取image = cv2.resize(image, (64, 64))  # 将图片调整为64x64像素image = image.flatten()  # 将图片数据展平成一维数组X.append(image)  # 添加到X列表y.append('Poisonous')  # 添加标签到y列表

5. 转换为NumPy数组

Xy列表转换为NumPy数组,以便进行机器学习处理。

X = np.array(X)
y = np.array(y)

6. 划分数据集

使用train_test_split函数将数据集划分为训练集和测试集。这里,测试集占总数据的20%。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

7. 创建决策树分类器实例

初始化一个决策树分类器,并设置random_state参数以确保结果的可复现性。

clf = DecisionTreeClassifier(random_state=42)

8. 训练模型

使用训练集数据训练决策树模型。

clf.fit(X_train, y_train)

9. 预测测试集

使用训练好的模型对测试集进行预测。

y_pred = clf.predict(X_test)

10. 打印评价报告

最后,使用classification_report函数打印出模型在测试集上的性能评价报告。

print(classification_report(y_test, y_pred))

11. 总代码

import os
import cv2
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
# 数据路径
edible_path = r'Mushroom dataset\Edible'
poisonous_path = r'Mushroom dataset\Poisonous'
# 初始化数据和标签列表,用于存储图片数据和对应的标签。
X = []
y = []
# 遍历 edible_path 目录中的每个文件,读取图片,调整图片大小到 64x64 像素
# 然后将图片展平成一维向量,并将其添加到 X 列表中,同时将标签 "Edible" 添加到 y 列表中。
# 读取可食用蘑菇图片并添加标签
for filename in os.listdir(edible_path):img_path = os.path.join(edible_path, filename)image = cv2.imread(img_path)if image is not None:image = cv2.resize(image, (64, 64))  # 调整图片大小以保证一致性image = image.flatten()  # 将图片展平成一维向量X.append(image)y.append('Edible')
# 读取毒蘑菇图片并添加标签
for filename in os.listdir(poisonous_path):img_path = os.path.join(poisonous_path, filename)image = cv2.imread(img_path)if image is not None:image = cv2.resize(image, (64, 64))  # 调整图片大小以保证一致性image = image.flatten()  # 将图片展平成一维向量X.append(image)y.append('Poisonous')
# 转换为numpy数组
X = np.array(X)
y = np.array(y)
# 划分数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建决策树分类器实例
clf = DecisionTreeClassifier(random_state=42)
# 训练模型
clf.fit(X_train, y_train)
# 预测测试集
y_pred = clf.predict(X_test)
# 打印评价报告
print(classification_report(y_test, y_pred))

总结

通过以上步骤,我们成功地使用决策树分类器对蘑菇图片进行了分类。这种方法可以扩展到其他图像分类任务中,只需调整数据路径和相应的处理逻辑即可。决策树是一种简单但有效的分类方法,适合初学者理解和应用。然而,对于更复杂的任务,可能需要更高级的模型,如深度学习模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/50024.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker 部署 LaTeX 环境

docker 部署 LaTeX 环境 需求表述部署步骤环境补丁(解决 picins.sty 缺失问题) 同步发布在个人笔记docker 部署 LaTeX 环境 需求表述 想做一个项目,需要一个 LaTeX 的中文环境,由于习惯了在服务器上用 docker 部署环境&#xff0…

pgsql的update语句在set里进行字段的运算 SET sort = sort +1

一、场景 需求:version 版本字段是记录数据更新的次数,新增时自动填充 version1 ,每更新一次数据 version就自增1。项目里单表插入和更新要手写update语句进行插入和更新。 –表中int4类型的字段 version 是1时,由1变成2 – version 是null…

【Linux】信号(signal)

目录 一、信号概念: 二、信号的常见状态: 信号递达: 信号未决: 阻塞信号: 忽略信号: 信号在内核中的表示: 三、信号相关函数: sigset_t (类型)&…

二、QGroundControl开发环境搭建

文章目录 环境列表QGC源码下载编译 环境列表 QGC GithubPX4-AutopilotQt 5.15Ubuntu20.04 QGC源码下载编译 官网下载指令 如下 // Clone the repo (or your fork) including submodules: git clone --recursive -j8 https://github.com/mavlink/qgroundcontrol.git // Upda…

Axure中继器实战篇:让数据展示和交互设计更上一层楼!

Axure中继器实战篇:让数据展示和交互设计更上一层楼! 前言 经过了前两章的学习,接下来我们去模拟的实际场景开启实战篇,以下是界面 1.前期准备 前期把页面准备好后,给中继器的每个单元格命名为了方便数据绑定的操作。 为了演示我准备了几十行数据,建议也多准备一点。…

后端返回一个图片链接,前端如何实现下载功能?

纯原创文章,转载请说明来源。 一、背景 要实现一个下载功能,后端直接返回了一个图片的地址https://xxxxx/pic.jpg。如果我们直接通过window.open(url, _blank) 的方式去下载这个图片,会发现 Chrome 浏览器会对这个图片进行预览,…

魅族手机怎么录屏?详细步骤助你轻松上手

“有人知道魅族手机怎么录屏吗,最近我在准备一些教学视频,急需用到手机的录屏功能来记录操作过程,但遗憾的是,我翻遍了设置也没能找到录屏的开关。所以,我在这里想问问大家,魅族手机是如何启动录屏功能的&a…

【PyTorch】图像多分类项目部署

【PyTorch】图像多分类项目 【PyTorch】图像多分类项目部署 如果需要在独立于训练脚本的新脚本中部署模型,这种情况模型和权重在内存中不存在,因此需要构造一个模型类的对象,然后将存储的权重加载到模型中。 加载模型参数,验证模型…

Sftp和ftp 区别、工作原理

Sftp的工作原理: SFTP的工作原理基于SSH协议,通过加密连接和安全认证来保障文件传输的安全性。 SFTP(SSH File Transfer Protocol)是一个确保数据在传输过程中安全的协议,它通过为传输的数据提供加密保护和对用户…

Docker重启策略和缩小镜像体积

目录 Docker重启策略 命令格式 命令选项 Docker缩小镜像体积 Docker重启策略 命令格式 docker run --restartno|always|on-failure|unless-stopped .... 命令选项 no:不管容器是正常退出还是异常退出,都不会重启容器。默认策略。always&#xf…

Java面试锦集 之 一、Java基础(1)

一、Java基础(1) 1.final 关键字的作用? 修饰变量: 一旦被赋值,就不能再被修改,保证了变量值的稳定性。 例: final int NUMBER 10; //之后就不能再改变 NUMBER 的值了。修饰方法:…

图解 HDFS 架构 |读写过程

HDFS HDFS 全称 Hadoop Distributed File System,是一个分布式文件系统。HDFS(Hadoop Distributed File System)是 Apache Hadoop 生态系统的一部分,它是一个分布式文件系统,用于存储和处理大规模数据集。HDFS 专门设…

【学习笔记】子集DP

背景 有一类问题和子集有关。 给你一个集合 S S S&#xff0c;令 T T T 为 S S S 的超集&#xff0c;也就是 S S S 所有子集的集合&#xff0c;求 T T T 中所有元素的和。 暴力1 先预处理子集的元素和 A i A_i Ai​&#xff0c;再枚举子集。 for(int s0; s<(1<…

源代码防泄密如何做?企业如何有效选择源代码防泄密产品?

源代码防泄密怎么选&#xff1f;如何高效做源代码防泄密工作&#xff1f; 源代码开发环境复杂&#xff0c;涉及的开发软件和文件类型众多且变化多端&#xff0c;那么究竟有哪些源代码防泄密软件能够适应各种开发软件而不影响原有的工作效率呢&#xff1f; 对于研发人员来说&a…

SpringBoot3 使用虚拟线程

目录 环境 说明 application.properties pom.xml Controller Java 验证 环境 Java Java: graalvm-jdk-21Springboot3.3.1 说明 springboot3.x 打开虚拟线程非常简单&#xff0c;只需添加一行配置信息即可。 spring.threads.virtual.enabled true application.properti…

探索 Framer Motion 高级动画技巧:提升前端设计水平

在现代的网页和应用设计中&#xff0c;动画不仅仅是视觉的点缀&#xff0c;更是用户体验的重要组成部分。它能够使界面更具吸引力&#xff0c;提升交互的流畅性&#xff0c;甚至在不经意间传达品牌的个性和态度。然而&#xff0c;要创造出令人惊叹的动效并不容易——直到有了 F…

经验——OLED的使用

型号&#xff1a;HS96L01W 4S03 分辨率&#xff1a;120*64 通讯方式&#xff1a;4线SPI 模式00 MCU&#xff1a;MSPM0G3507&#xff08;只影响SPI的配置&#xff09; 原本照着型号搜到了嘉立创的使用文档&#xff0c;但是实际上并不能正常使用&#xff0c;后来寻到了一篇博客…

PyTorch可以用来干嘛?

PyTorch 是一个广泛使用的开源机器学习库&#xff0c;由 Facebook AI Research&#xff08;FAIR&#xff09;开发。它主要用于计算机视觉和自然语言处理等深度学习领域&#xff0c;但也可以应用于许多其他类型的机器学习任务。PyTorch 提供了丰富的功能和灵活的设计&#xff0c…

MFC与QT中禁用Esc、Alt+F4、关闭图标

在业务中&#xff0c;我们需要按指定的方式才能关闭当前对话框。如下图需输入密码点击确认后&#xff0c;界面才能关闭。 方法1&#xff1a;通过禁用界面的按钮以及键盘上对应关闭对话框的按键。 1.灰度化关闭按钮 在对话框初始化部分添加将关闭按钮禁用 //MFC CMenu *pSysMe…

主要的国产信创数据库有哪些

数据库生态分类 当前数据库生态可以大致分类三类: 一、传统商业数据库&#xff0c;以 Oracle 为代表&#xff0c;其在 40 余年时间里所创造的数据库帝国已拥有了极其完善的生态; 二、开源数据库&#xff0c;以 MYSQL、PostgreSQL为代表&#xff0c;遍布全球的社区组织形成了强…