决策树与机器学习实战【代码为主】

文章目录

  • 🛴🛴引言
  • 🛴🛴决策树使用案例
  • 🛴🛴`numpy`库生成模拟数据案例
  • 🛴🛴决策树回归问题
  • 🛴🛴决策树多分类问题

🛴🛴引言

决策树是一种经典的机器学习算法,在数据挖掘和预测分析中广泛应用。它是一种基于树结构进行决策的模型,可以用于分类和回归问题。

决策树的基本原理是通过对特征进行逐步划分,生成一棵树形结构,以实现对数据的分类或回归。从根节点开始,根据特征的不同取值,将数据划分到不同的子节点中。这个划分过程是基于一些衡量指标(例如信息增益、基尼系数等),目标是在每个节点上选择最佳的划分属性。

决策树的生成过程通常遵循下列步骤:

  • 特征选择:从给定的特征集合中选择最佳的特征作为当前节点的划分属性。衡量指标常包括信息增益、基尼系数等。
  • 树的构建:根据选择的划分属性,将数据集划分为多个子集,并生成相应的子节点。如果某个子集中的样本属于同一类别或达到终止条件,则将该节点标记为叶子节点。
  • 递归过程:对于每个子节点,重复步骤1和步骤2,直到所有数据划分完毕或达到停止条件。
  • 剪枝:为了避免过拟合,可以对生成的决策树进行剪枝。剪枝可以通过预剪枝和后剪枝两个方法实现,其中预剪枝是在生成树的过程中决定是否分裂节点,后剪枝是在生成树之后进行节点合并。
    请添加图片描述
    决策树的优点包括易于理解和解释、能够处理离散和连续特征、具有较好的可解释性等。此外,决策树还可以处理缺失值和异常值。

然而,决策树也有一些限制,包括容易过拟合、对特征空间划分较为敏感等。为了解决过拟合问题,可以通过剪枝、调整参数等方法进行优化。

在使用决策树时,需要注意以下几点:

  • 特征选择:选择合适的特征作为划分属性对决策树的性能至关重要。
  • 停止条件:设置递归停止的条件,防止过度拟合。常见的停止条件包括叶子节点中样本数量的最小值、树的最大深度、信息增益或基尼系数的阈值等。
  • 数据预处理:决策树对数据的尺度不敏感,通常不需要进行归一化或标准化处理。
  • 模型评估:决策树的常见评估指标包括准确率、精确率、召回率、F1分数等。

总之,决策树是一种直观且易于理解的机器学习模型,适用于一般的分类和回归问题。理解决策树的基本原理和构建过程,有助于更好地应用和解释该算法,为实际问题提供有效的预测和决策。
请添加图片描述



🛴🛴决策树使用案例

以下是一个使用真实数据集的示例代码,数据类型是csv,文件名称是data.csv:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn import metrics
from matplotlib import pyplot as plt
from sklearn import tree# 读取数据集
data = pd.read_csv('data.csv')# 分割特征和目标变量
X = data.drop('target', axis=1)
y = data['target']# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建并拟合决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)# 使用模型进行预测
y_pred = model.predict(X_test)# 计算模型准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print('模型准确率:', accuracy)# 可视化决策树
fig = plt.figure(figsize=(10, 10))
_ = tree.plot_tree(model, feature_names=X.columns, class_names=['0', '1'], filled=True)
plt.show()

导入必要的库:

  • pandas用于数据分析和处理。
  • DecisionTreeClassifier用于构建决策树模型。
  • train_test_split用于将数据集划分为训练集和测试集。
  • metrics提供了一些评估模型性能的方法。
  • tree用于可视化决策树。

读取数据集:

  • 使用read_csv()函数读取名为data.csv的数据文件。

分割特征和目标变量:

  • 使用drop()函数从数据中移除目标变量,得到特征数据集X
  • 将目标变量保存在y中。

划分训练集和测试集:

  • 使用train_test_split()函数将数据集划分为训练集和测试集,其中测试集占比为0.2。

创建并拟合决策树模型:

  • 创建DecisionTreeClassifier类的实例作为模型。
  • 使用fit()方法拟合模型,传入训练集的特征数据和目标变量。

使用模型进行预测:

  • 调用已训练的模型的predict()方法,传入测试集的特征数据,得到预测结果y_pred

计算模型准确率:

  • 使用accuracy_score()函数计算模型在测试集上的准确率,传入真实的目标变量y_test和预测值y_pred

可视化决策树:

  • 创建一个图形对象fig
  • 使用tree.plot_tree()方法绘制决策树,参数包括模型、特征名称和类别名称。
  • 使用plt.show()方法显示绘制好的图形。

请确保在运行代码之前,将数据集文件data.csv放在与代码文件相同的目录下。这段代码展示了如何使用决策树模型对真实数据集进行分类预测,并可视化决策树结构。希望这可以帮助您更好地理解决策树模型的应用。如有任何疑问,请随时提问。



🛴🛴numpy库生成模拟数据案例

import numpy as np
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
from sklearn import metrics
from sklearn import tree# 生成特征数据
X = np.random.rand(100, 3)  # 生成100个样本,每个样本有3个特征# 生成目标变量
y = np.random.choice([0, 1], size=100)  # 生成100个目标变量,取值为0或1# 创建数据框
data = pd.DataFrame(X, columns=['feature1', 'feature2', 'feature3'])
data['target'] = y# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建并拟合决策树模型
model = DecisionTreeClassifier()
model.fit(X_train, y_train)# 使用模型进行预测
y_pred = model.predict(X_test)# 计算模型准确率
accuracy = metrics.accuracy_score(y_test, y_pred)
print('模型准确率:', accuracy)# 可视化决策树
fig = plt.figure(figsize=(10, 10))
_ = tree.plot_tree(model, feature_names=data.columns[:-1], class_names=['0', '1'], filled=True)
plt.show()

在这里插入图片描述
在这里插入图片描述
请添加图片描述

这段代码生成了具有3个特征和一个目标变量的模拟数据,并使用决策树模型进行学习和预测。你可以调整生成数据的方式,修改特征数量、样本数量,以及目标变量的取值等。

导入必要的库:

  • numpy用于生成随机数组作为特征数据。
  • pandas用于创建和处理数据框。
  • DecisionTreeClassifier用于创建决策树模型。
  • train_test_split用于将数据集划分为训练集和测试集。
  • metrics提供了一些评估模型性能的方法。
  • tree用于可视化决策树。

生成特征数据:

  • 使用numpy.random.rand()函数生成一个形状为(100, 3)的随机数组,表示100个样本,每个样本有3个特征。

生成目标变量:

  • 使用numpy.random.choice()函数生成一个长度为100的随机数组,随机选择值为0或1作为目标变量。

创建数据框:

  • 使用pandas.DataFrame()函数将特征数据X和目标变量y组合成一个数据框,特征列的名称为feature1feature2feature3,目标变量列的名称为target

划分训练集和测试集:

  • 使用train_test_split()函数将数据集划分为训练集和测试集,其中测试集占比为0.2。

创建并拟合决策树模型:

  • 创建DecisionTreeClassifier类的实例作为模型。
  • 使用fit()方法拟合模型,传入训练集的特征数据X_train和目标变量y_train

使用模型进行预测:

  • 调用已训练的模型的predict()方法,传入测试集的特征数据X_test,得到预测结果y_pred

计算模型准确率:

  • 使用accuracy_score()函数计算模型在测试集上的准确率,传入真实目标变量y_test和预测值y_pred

可视化决策树:

  • 创建一个图形对象fig
  • 使用tree.plot_tree()方法绘制决策树,参数包括模型、特征名称和类别名称。
  • 使用plt.show()方法显示绘制好的图形。

这段代码演示了如何使用决策树模型对生成的模拟数据进行分类预测,并可视化生成的决策树结构



🛴🛴决策树回归问题

import numpy as np
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeRegressor
from matplotlib import pyplot as plt# 生成特征数据
X = np.random.rand(100, 1)  # 生成100个样本,每个样本有1个特征# 生成目标变量
y = np.sin(2 * np.pi * X) + np.random.normal(0, 0.1, size=(100, 1))  # 生成目标变量,使用正弦函数,并添加噪声# 创建并拟合决策树回归模型
model = DecisionTreeRegressor()
model.fit(X, y)# 预测新数据
new_data = np.linspace(0, 1, 100).reshape(-1, 1)
prediction = model.predict(new_data)# 可视化结果
plt.scatter(X, y, label='Actual')
plt.plot(new_data, prediction, color='red', label='Prediction')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

在这里插入图片描述
请添加图片描述

  • 导入必要的库:

    • numpy用于生成随机数和数学计算。
    • matplotlib.pyplot用于绘制图形。
    • DecisionTreeRegressor用于创建决策树回归模型。

  • 生成特征数据:

    • 使用numpy.random.rand()生成一个形状为(100, 1)的随机数组,表示100个样本,每个样本有1个特征。

  • 生成目标变量:

    • 使用正弦函数np.sin()生成目标变量y,并添加服从正态分布的噪声np.random.normal()

4- 创建并拟合决策树回归模型:

  • 创建DecisionTreeRegressor类的实例作为回归模型。
  • 使用fit()方法拟合模型,传入特征数据X和目标变量y

  • 预测新数据:
    • 生成一组新的特征数据new_data,使用np.linspace()生成0到1之间的等差数列。
    • 使用已训练的模型的predict()方法对新数据进行回归预测,得到预测结果prediction

  • 可视化结果:
    • 使用plt.scatter()绘制原始数据散点图。
    • 使用plt.plot()绘制预测结果曲线。
    • 设置横轴和纵轴标签。
    • 使用plt.legend()显示图例。
    • 使用plt.show()显示图形。

该代码演示了如何使用决策树回归模型来解决回归问题,并使用可视化方式展示预测结果。



🛴🛴决策树多分类问题

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from matplotlib import pyplot as plt# 生成特征数据
X = np.random.rand(100, 2)  # 生成100个样本,每个样本有2个特征# 生成目标变量
y = np.random.randint(0, 3, size=100)  # 生成目标变量,取值为0、1、2# 创建并拟合决策树分类模型
model = DecisionTreeClassifier()
model.fit(X, y)# 预测新数据
new_data = np.random.rand(10, 2)  # 生成10个新数据样本
prediction = model.predict(new_data)print('预测结果:', prediction)

在这里插入图片描述

  • 导入必要的库:
    • numpy用于生成随机数组。
    • DecisionTreeClassifier用于创建决策树分类模型。

  • 生成特征数据:
    • 使用numpy.random.rand()生成一个形状为(100, 2)的随机数组,表示有100个样本,每个样本有2个特征。

  • 生成目标变量:
    • 使用numpy.random.randint()生成一个长度为100的随机数组,取值范围为0到2,表示3个分类。

  • 创建并拟合决策树分类模型:
    • 创建DecisionTreeClassifier类的实例作为分类模型。
    • 使用fit()方法拟合模型,传入特征数据X和目标变量`

请添加图片描述







本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16651.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

1-Django开端--学生管理系统

目录 项目结构 前端页面: add_data.html class_data.html index.html apps.py models.py views.py settings,py urls.py ...实现简略的身架... 项目结构 前端页面: add_data.html --添加数据. {% extends index/index.html %}{% block content %} <div class&qu…

强化学习,第 2 部分:政策评估和改进

目录 一、介绍 二、关于此文章 三、求解贝尔曼方程 四、策略评估 4.1 更新变体 4.2 例描述 五、策略改进 5.1 V函数描述 5.2 政策改进定理 六、策略迭代 七、值迭代 7.1 算法描述 7.2 异步值迭代 八、广义策略迭代 九、结论 一、介绍 R强化学习是机器学习中的一…

C#子窗体嵌入主窗体

上位机开发中&#xff0c;经常会需要将子窗体嵌入到主窗体。 运行结果 核心实现&#xff1a; private void button2_Click(object sender, EventArgs e){Form3 childForm new Form3();//判断容器中是否已经打开子窗体&#xff0c;如果打开现将其关闭foreach (Control item in…

RocketMq源码解析三:路由管理

Nameserver的主要作用是为消息的生产者和消息消费者提供关于主题Topic的路由信息&#xff0c;那么Nameserver需要存储路由的基础信息&#xff0c;还要管理Broker节点&#xff0c;包括路由注册、路由删除等。 一、路由元数据 路由元数据主要保存了topic信息&#xff0c;broker信…

5.22 R语言-正态性检验

正态性检验 正态性检验的目的是确定一组数据是否符合正态分布&#xff08;也称高斯分布&#xff09;。在统计分析和数据建模中&#xff0c;正态性假设是许多统计方法和模型的基础。了解数据是否符合正态分布有助于选择适当的统计方法和确保分析结果的有效性。 本文主要从概率…

执法行动高压下,勒索软件攻击仍持续增加

执法行动 最近几年&#xff0c;随着网络犯罪特别是勒索软件犯罪的日益猖獗&#xff0c;勒索软件攻击已经对网络空间安全构成重大威胁。互联网不是法外之地&#xff0c;执法机构也对应加强了执法力度&#xff0c;对全球威胁重大的网络犯罪团伙进行重点打击。对勒索软件团伙所控…

golang、laravel对接stripe海外支付接口的总结和流程(通俗易懂)

目录 stripe是什么&#xff1f; 环境 配置后台 首先让管理员把你设置成为开发者 然后进入后台 然后你要创建产品&#xff0c;开单周期要写每天&#xff0c;我这里理解成每天都会有人买的 获取产品id 获取密钥&#xff0c;后续代码需要用到 支付代码 唤起支付页面 测…

甘肃省大学生志愿服务西部计划报名流程及免冠证件照处理

在甘肃省&#xff0c;大学生志愿服务西部计划是一项旨在鼓励和引导大学生参与西部地区社会服务与发展的重要项目。随着2024年报名季的到来&#xff0c;许多有志青年正准备投身这一有意义的事业。本文将详细介绍报名流程&#xff0c;并提供免冠证件照的处理技巧&#xff0c;帮助…

设计模式11——代理模式

写文章的初心主要是用来帮助自己快速的回忆这个模式该怎么用&#xff0c;主要是下面的UML图可以起到大作用&#xff0c;在你学习过一遍以后可能会遗忘&#xff0c;忘记了不要紧&#xff0c;只要看一眼UML图就能想起来了。同时也请大家多多指教。 代理模式&#xff08;Proxy&am…

每日AIGC最新进展(12):在舞蹈视频生成中将节拍与视觉相融合、Text-to-3D综述、通过内容感知形状调整进行 3D 形状增强

Diffusion Models专栏文章汇总&#xff1a;入门与实战 Dance Any Beat: Blending Beats with Visuals in Dance Video Generation https://DabFusion.github.io 本文提出了一种名为DabFusion的新型舞蹈视频生成模型&#xff0c;该模型能够根据给定的静态图像和音乐直接生成舞蹈…

免费 OSS 资源 Backblaze B2 使用最新指南

免费的对象存储资源日渐枯竭&#xff0c;Backblaze 是为数不多仍提供免费 OSS 的良心厂商。另外一个则是大名鼎鼎的 Cloudflare R2。虽然免费&#xff0c;但 Backblaze 也修改了政策&#xff1a;如果不验证信用卡的话是不能打开 Public 选项的&#xff0c;或者支付一美金。估计…

24.5.26(树链剖分板子,二分+线段树)

星期一&#xff1a; 补重庆科技 C 二分 牛客传送门 思路&#xff1a;二维前缀和表示到第 i个人第 j个弹巢开了多少发&#xff0c;和st【i】表示第 i个人开的是第几个弹巢 对于 l和r的查询&#xff0c;使用前缀和二分找出第一个…

【UE5.1 角色练习】06-角色发射火球-part1

前言 在上一篇&#xff08;【UE5.1 角色练习】05-火球发射物-CSDN博客&#xff09;基础上实现角色可以发射火球的技能 效果 步骤 一、准备 1. 打开角色蓝图&#xff0c;添加两个浮点型变量&#xff0c;分别表示当前的MP值和满状态的MP值 添加一个函数&#xff0c;这里命名…

解密 Alpha 勒索软件

Alpha 勒索软件很容易与 ALPHV 勒索软件混淆&#xff0c;但其实这是两个不同的勒索软件团伙。近期&#xff0c;Alpha 勒索软件团伙在暗网上建立了数据披露网站&#xff0c;并且对外公开了6个受害者。 通常来说&#xff0c;勒索软件运营者在启动数据披露网站前会保持攻击态势。一…

c++ 实现 梯度下降线性回归模型

理论与python实现部分 3.1. 线性回归 — 动手学深度学习 2.0.0 documentation c代码 没能力实现反向传播求梯度&#xff0c;只能自己手动算导数了 #include <bits/stdc.h> #include <time.h> using namespace std;//y_hat X * W b // linreg 函数&#xff1a…

无经验求职者的福音:AI生成简历的便捷之道

第一步你需要先给自己写个简历&#xff0c;简历就是你求职时的一张脸&#xff0c;“漂亮”程度与否那可大了去了。一份漂亮的简历不仅内容满满当当突出重点&#xff0c;而且排版清晰亮眼&#xff0c;能让hr一下子捕捉到重点。 来看看一份漂亮的简历长啥样↓ 工作经历、个人能力…

Go语言

Go语言 Go语言全称Golanguage&#xff0c;Go&#xff08;又称 Golang&#xff09;是 Google 的 Robert Griesemer&#xff0c;Rob Pike 及 Ken Thompson 开发的一种静态强类型、编译并发型语言。于2009年首次发布 官网 特点 简单易学&#xff1a;Go语言语法简洁明了&#x…

【C++】Vector的简易模拟与探索

&#x1f49e;&#x1f49e; 前言 hello hello~ &#xff0c;这里是大耳朵土土垚~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#x…

04Django项目基本运行逻辑及模板资源套用

对应视频链接点击直达 Django项目用户管理及模板资源 对应视频链接点击直达1.基本运行逻辑Django的基本运行路线&#xff1a;视图views.py中的 纯操作、数据返回、页面渲染 2.模版套用1.寻找一个好的模版2.模板部署--修改适配联动 OVER&#xff0c;不会有人不会吧不会的加Q1394…

Java 类加载过程和双亲委派模型

Java 类加载过程概述 在 Java 中&#xff0c;类装载器把一个类装入 Java 虚拟机中&#xff0c;要经过三个步骤来完成&#xff1a;装载、链接和初始化&#xff0c;其中链接又可以分成校验、准备、解析 Java类加载过程分为如下步骤&#xff1a; 1.装载&#xff08; 加载&#xf…