决策树完成图片分类任务

数据集要求: 训练集 和 验证集 (要求分好) 

图片放置规则 : 一个总文件夹 放类别名称的子文件夹 其中子文件夹 为存放同一类别图片

举个例子 分类动物 则 总文件夹名称为动物 子文件夹为 猫 狗 猪猪 。。。

其中猫的文件夹里面都是猫

给出代码:

import os
import cv2
import numpy as np
import logging
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix# 设置日志
logging.basicConfig(filename='training_log.txt', level=logging.INFO, format='%(asctime)s - %(message)s')# 读取图像数据和标签
def load_images_from_folder(folder):images = []labels = []label = 0for subdir in os.listdir(folder):subpath = os.path.join(folder, subdir)if os.path.isdir(subpath):for filename in os.listdir(subpath):if filename.endswith(".jpg"):img_path = os.path.join(subpath, filename)img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)img_normalized = cv2.resize(img, (256, 256))  # 归一化图像大小为256x256images.append(img_normalized.flatten())labels.append(label)label += 1return images, labels# 主函数
def main():# train_folder = "YOUR_TRAIN_DATASET_FOLDER_PATH"  # 替换为你的训练集文件夹路径# test_folder = "YOUR_TEST_DATASET_FOLDER_PATH"    # 替换为你的测试集文件夹路径train_folder = "/Users/chen_dongdong/Desktop/宝钢项目/little_work/train"  # 替换为你的训练集文件夹路径test_folder = "/Users/chen_dongdong/Desktop/宝钢项目/little_work/val"    # 替换为你的测试集文件夹路径logging.info("Loading training data from %s", train_folder)X_train, y_train = load_images_from_folder(train_folder)logging.info("Loaded %d training samples", len(X_train))logging.info("Loading test data from %s", test_folder)X_test, y_test = load_images_from_folder(test_folder)logging.info("Loaded %d test samples", len(X_test))logging.info("Training DecisionTreeClassifier...")clf = DecisionTreeClassifier()clf.fit(X_train, y_train)logging.info("Training completed.")y_pred = clf.predict(X_test)accuracy = accuracy_score(y_test, y_pred)logging.info("Test Accuracy: %f", accuracy)cm = confusion_matrix(y_test, y_pred)cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]logging.info("Normalized Confusion Matrix:")for row in cm_normalized:logging.info(" - ".join(map(lambda x: "{:.2f}".format(x), row)))# 打印特征重要性feature_importances = clf.feature_importances_top_features = np.argsort(feature_importances)[-10:]  # 打印最重要的10个特征logging.info("Top 10 important features:")for idx in top_features:logging.info("Feature %d: %f", idx, feature_importances[idx])if __name__ == "__main__":main()

使用DecisionTreeClassifierfeature_importances_属性。这个属性会返回一个数组,其中每个值表示相应特征的重要性。值越大,特征越重要。

我们使用的是图像的灰度值作为特征,所以特征的数量会非常大(例如,对于256x256的图像,有65536个特征)。为了简化输出,我们可以只打印出最重要的特征。

这是我们生成的日志文件 

使用sklearn的决策树分类器和opencv来处理图像数据。这个脚本将:

  1. 从指定的文件夹中读取所有子文件夹中的图像。
  2. 将图像转换为灰度。
  3. 将灰度图像转换为一维数组作为特征。
  4. 使用决策树分类器进行训练。
  5. 输出模型的准确性。

请确保已经安装了opencvsklearn库。

pip install opencv-python-headless
pip install scikit-learn


 可加镜像

pip install 镜像-CSDN博客

在训练过程中记录关键的信息,例如每次迭代的训练损失、验证损失、准确性等。但由于我们在此使用的是DecisionTreeClassifier,它不像深度学习模型那样进行多次迭代,所以我们只能记录模型的最终准确性和混淆矩阵。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/116086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

css-边框流水线

效果图&#xff1a; 代码&#xff1a; <!DOCTYPE html> <html><head><meta charset"utf-8"><meta name"viewport" content"initial-scale1.0, user-scalableno" /><title></title><style type&…

Latex——双引号的正确输入

方法 左引号&#xff1a;按两次 &#xff08;即主键盘区左上角&#xff0c;Tab键上方的键&#xff09;。 右引号&#xff1a;按两次 ’ &#xff08;即分号右&#xff0c;回车左侧的键&#xff09;。 参考文章&#xff1a; LaTex写英文论文时 如何输入单引号、双引号、省略…

Java将djvu文件转成pdf

需求来源 迫于有部分资源是djvu格式的文件&#xff0c;需要预览这部分文件&#xff0c;web端无法直接预览djvu&#xff0c;所以需要将djvu转成pdf。 转换方法 简单来说就是先把djvu文件转换成tiff文件&#xff0c;再将tiff文件转换成pdf文件。 Ubuntu服务器 如果服务器是U…

边界、融合与突破:启明星辰集团郭春梅详解云原生安全技术与策略

随着云计算技术的迅猛发展&#xff0c;传统的安全防护手段已经无法满足企业的安全需求&#xff0c;云原生安全成为技术领域新的热点。 当前&#xff0c;云原生安全的持续发展和技术演进已成为不可阻挡的趋势。从更加原生化的安全实践到智能化的安全防护策略&#xff0c;为我们…

二分查找:如何快速定位IP对应的省份地址?

文章来源于极客时间前google工程师−王争专栏。 通过IP地址查找IP归属地功能&#xff1a; 这个功能是通过维护一个很大的IP地址库来实现。地址库中包含IP地址范围和归属地的对应关系。 当我们查询202.201.133.13这个IP地址归属地时&#xff0c;在地址库中搜索&#xff0c;这个…

QT_day6

qt与数据库连接&#xff0c;实现添加、显示、查找、删除功能 weiget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QSqlDatabase> //数据库管理 类 #include <QSqlQuery> //执行sql语句 类 #include <QSqlRecord> //数据…

H3C AC通过Web平台进行AC软件的升级?

软件升级的流程 1、获取软件版本 登录新华三官网&#xff08;首页>产品支持与服务>文档与软件>软件下载&#xff09;&#xff0c;将指定的软件版本下载至本地。 无线路由器-无线接入点-无线控制器-新华三集团-H3C 官网软件下载公共账号密码&#xff1a;账号&#x…

selenium 3种等待方式

三种等待方式 ①强制等待 强制等待是使线程休眠一定时间。强制等待一般在隐式等待和显式等待都不起作用时使用。示例代码如下&#xff1a; time.sleep(3)②隐式等待 隐式等待的作用是全局的&#xff0c;是作用于整个 session 的生命周期&#xff0c;也就是说只要设置一次隐式…

c语言刷题(第8周)

输入整数m,n&#xff08;m&#xff1c;n&#xff09;&#xff0c;输出[m,n]之间所有能被3&#xff0c;不能被4整除的所有数并求和&#xff0c;输出时每行显示5个数。 题干输入整数m,n&#xff08;m&#xff1c;n&#xff09;&#xff0c;输出[m,n]之间所有能被3&#xff0c;不…

C++进阶篇2---多态

1.多态的概念 多态的概念&#xff1a;通俗来说&#xff0c;就是多种形态&#xff0c;具体点就是当不同的对象&#xff0c;去完成某个行为&#xff0c;会产生不同的状态 举个例子&#xff1a;同样是吃饭&#xff0c;狗吃狗粮&#xff0c;猫吃猫粮&#xff0c;不同的对象&#…

nodejs+vue大学生社团管理系统

通过软件的需求分析已经获得了系统的基本功能需求&#xff0c;根据需求&#xff0c;将大学生社团管理系统平台功能模块主要分为管理员模块。管理员添加社团成员管理、社团信息管理&#xff0c;社长管理、用户注册管理等操作。 目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1…

asp.net社区医疗辅助诊断网站系统VS开发sqlserver数据库web结构c#编程

一、源码特点 asp.net社区医疗辅助诊断网站系统 是一套完善的web设计管理系统&#xff0c;系统采用mvc模式&#xff08;BLLDALENTITY&#xff09;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为vs2010&#xff0c;数据库为sqlserver200…

spring懒加载

简介 Spring默认会在容器初始化的过程中&#xff0c;解析xml或注解&#xff0c;创建配置为单例的bean并保存到一个map中&#xff0c;这样的机制在bean比较少时问题不大&#xff0c;但一旦bean非常多时&#xff0c;spring需要在启动的过程中花费大量的时间来创建bean &#xff0…

Flink学习笔记(四):Flink 四大基石之 Window 和 Time

文章目录 1、 概述2、 Flink 的 Window 和 Time2.1、Window API2.1.1、WindowAssigner2.1.2、Trigger2.1.3、Evictor 2.2、窗口类型2.2.1、Tumbling Windows2.2.2、Sliding Windows2.2.3、Session Windows2.2.4、Global Windows 2.3、Time 时间语义2.4、乱序和延迟数据处理2.5、…

【2024秋招】2023-9-14 最右线下后端开发二面

1 OS 1.1 讲讲什么是虚拟内存&#xff0c;怎么实现的 虚拟内存是一种存储器管理能力&#xff0c;它使得一个应用程序似乎有更多的物理内存&#xff08;RAM&#xff09;可用&#xff0c;而实际上&#xff0c;系统使用了一部分硬盘空间来模拟额外的 RAM。通过使用虚拟内存&…

Git(一)Windows下安装及使用Git Bash

目录 一、简介1.1 什么是Git&#xff1f;1.2 Git 的主要特点1.3 什么是 Git Bash&#xff1f; 二、下载三、安装3.1 同意协议3.2 选择安装位置3.3 其他配置&#xff08;【Next】 即可&#xff09;3.4 安装完毕3.5 打开 Git Bash 官网地址&#xff1a; https://www.git-scm.com/…

视频去噪网络BSVD的实现

前些天写了视频去噪网络BSVD论文的理解&#xff0c;详情请点击这里&#xff0c;这两个星期动手实践了一下&#xff0c;本篇就来记录一下这个模型的实现。 这个网络的独特之处在于&#xff0c;它的训练和推理在实现上有所差别。在训练阶段&#xff0c;其使用了TSM&#xff08;T…

基于斑马优化的BP神经网络(分类应用) - 附代码

基于斑马优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码 文章目录 基于斑马优化的BP神经网络&#xff08;分类应用&#xff09; - 附代码1.鸢尾花iris数据介绍2.数据集整理3.斑马优化BP神经网络3.1 BP神经网络参数设置3.2 斑马算法应用 4.测试结果&#xff1a;5.M…

【数据仓库-零】数据仓库知识体系 ing

文章目录 一. 数仓基本概念二. 离线数仓建设方法论三. etl流程四. 数仓规范建设指南四. 数据仓库架构五. 数据可视化 通过熟悉构建数仓整体的过程&#xff0c;可以系统的了解 数仓构建理论&#xff1a;能够站在全局角度看数仓的运行架构&#xff0c;数仓执行流程。了解到构建数…

车道线检测laneatt 学习笔记

目录 图片检测可视化 图片检测可视化 import logging import argparse import os import timeimport cv2 import numpy as np import torchfrom lib.config import Config from lib.runner import Runner from lib.experiment import Experimentdef parse_args():parser = ar…