【模型】5分钟了解决策树是一个什么模型

本站原创文章,转载请说明来自《老饼讲解-机器学习》[www.bbbdata.com(https://www.bbbdata.com/ml)

决策树模型是机器学习中不可不学的模型之一,本文简单直接地快速讲解决策树是什么,如何实现。

一、决策树模型

决策树一般包括ID3决策树,C4.5决策树与CART决策树。
ID3与C4.5决策树是基于熵的概念构建的决策树,现在已经用得相对较少,目前用得较多的是CART决策树。
CART决策树全称为Classification And Regression Tree,即分类与回归树。因此CART决策树既可以用来做分类,又可以用来做回归。

1.1.ID3决策树

ID3决策树
ID3决策树是最早提出的决策树,它的变量是枚举变量,然后根据枚举值不断分枝决策,最终到达的叶子节点就是模型的预测结果。ID3决策树在构建时使用信息熵的来确定选择哪个变量进行构建。

1.2. CART决策树

CART决策树模型是一棵二叉树,如下:
CART决策模型
CART决策树模型是一棵二叉树,会根据变量不断地进行判断,最后到达叶子节点时,节点上的类别(做回归时则是值)就是模型的预测结果。CART决策树在构建时一般使用GINI系数来确定选择哪个变量来构建。
CART决策树的详细构建流程可参考:【原理】CART决策树构建过程详细讲解

1.3. C4.5决策树

C4.5决策树可以认为是ID3决策树到CART决策树的过渡,即支持枚举变量,又支持连续变量。C4.5决策树使用信息增益比来确定选择哪个变量进行构建。

二、如何在python中构建一棵决策树

2.1. 数据说明

不妨以鸢尾花数据为例(即sk-learn中的iris数据)
鸢尾花数据共有150个样本,包括鸢尾花的四个特征与鸢尾花的类别,具体数据如下:
鸢尾花数据
花萼长度 sepal length (cm) 、花萼宽度 sepal width (cm)
花瓣长度 petal length (cm) 、花瓣宽度 petal width (cm)
山鸢尾:0,杂色鸢尾:1,弗吉尼亚鸢尾:2

2.2. python中构建一棵CART决策树

下面使用python的sklearn包来构建一棵CART决策树,具体代码如下:

from sklearn.datasets import load_iris
from sklearn import tree
#----------------数据准备--------------------
iris = load_iris()                                 # 加载数据
#---------------模型训练---------------------
clf = tree.DecisionTreeClassifier()                # sk-learn的决策树模型
clf = clf.fit(iris.data, iris.target)              # 用数据训练树模型构建()
r = tree.export_text(clf, feature_names=iris['feature_names'])#---------------模型预测结果------------------
text_x = iris.data[[0,1,50,51,100,101], :]
pred_target_prob = clf.predict_proba(text_x)        # 预测类别概率
pred_target = clf.predict(text_x)                   # 预测类别#---------------打印结果---------------------
print("\n===模型======")
print(r)
print("\n===测试数据:=====")
print(text_x)
print("\n===预测所属类别概率:=====")
print(pred_target_prob)
print("\n===预测所属类别:======")
print(pred_target)

运行结果如下:
构建好的决策树模型:
在这里插入图片描述
预测结果:
在这里插入图片描述
可以看到模型的预测结果是正确的。

三、如何将决策树可视化

要绘画出决策树的模型结构,可以使用graphviz 包,下面是一个代码示例与实现效果。

from sklearn.datasets import load_iris
from sklearn import tree
import graphviz 
#----------------数据准备----------------------------
iris = load_iris()                          # 加载数据
#---------------模型训练----------------------------------
clf = tree.DecisionTreeClassifier()         # sk-learn的决策树模型
clf = clf.fit(iris.data, iris.target)       # 用数据训练树模型构建()
r = tree.export_text(clf, feature_names=iris['feature_names'])
dot_data = tree.export_graphviz(clf, out_file=None, feature_names=iris.feature_names,  class_names=iris.target_names,  filled=True, rounded=True,  special_characters=True)  
graph = graphviz.Source(dot_data)  
graph                                    # 显示图形。(如果没显示,则需要独立运行这一句)
#graph.render("iris")                    # 将图形保存为iris.pdf文件。
#graph.view()                            # 直接打开pdf文件展示

运行后就可以打印出决策树的模型结构,如下:
决策树可视化
上面的图比较丑,是graphviz 的默认图案。实际上graphviz 是非常强大的,可以按自己的喜爱设置得更加好看。
特别说明的是,软件中一般都只实现CART决策树, 如果要实现ID3或C4.5决策树,就需要自己仔细地去按原理重新实现了。


相关链接:

《老饼讲解-机器学习》:老饼讲解-机器学习教程-通俗易懂
《老饼讲解-神经网络》:老饼讲解-matlab神经网络-通俗易懂
《老饼讲解-神经网络》:老饼讲解-深度学习-通俗易懂

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JS问题】require相对路径引入模块

潜在问题 安全性问题:使用相对路径来引入模块可能会带来安全隐患,尤其是如果这段代码运行在客户端(比如Node.js的Electron框架)且相对路径可以被用户控制的情况下。恶意用户可能会尝试修改路径来访问不应该被访问的文件。 模块路…

记录一个笔误引发的bug导致生产环境报错,但是本地环境,测试环境运行正常

记录一个笔误引发的bug导致生产环境报错,但是本地环境,测试环境运行正常 因为headers请求头过长导致报错 在feign外调其他系统时候,是重新封装headers 问题在于 MultiValueMap 属于静态变量。这里讲userAgent的内容传递过去。是不断累加的…

Java 应用的部署和运维方法,包括 Tomcat、Docker 等

Java应用的部署和运维是一个复杂且多样的过程,包括从代码编写到应用上线,再到应用的持续维护和优化。 一、基于Tomcat的Java应用部署和运维 1. 环境准备 操作系统:选择适合运行Java和Tomcat的操作系统,常见的有Ubuntu、CentOS等…

如何遍历STL容器

在C中,遍历STL(Standard Template Library)容器通常可以通过多种方法来完成。以下是几种常用的遍历STL容器的方法: 1. 使用迭代器(Iterator) 迭代器是STL中用于遍历容器的主要工具。它们提供了一种通用方…

Qt项目天气预报(8) - 绘制温度曲线 + 回车搜索(最终篇)

全部内容在专栏: Qt项目 天气预报_mx_jun的博客-CSDN博客 目录 绘制温度曲线 事件过滤器在子控件上绘图 子控件下载事件过滤器 事件过滤器进行绘图 - eventFilter 画初步高温曲线 画初步低温曲线 效果演示 画低温曲线 画高温曲线 效果演示 按下回车搜索: …

【C++PCL】点云处理点云密度计算

作者:迅卓科技 简介:本人从事过多项点云项目,并且负责的项目均已得到好评! 公众号:迅卓科技,一个可以让您可以学习点云的好地方 重点:每个模块都有参数如何调试的讲解,即调试某个参数对结果的影响是什么,大家有问题可以评论哈,如果文章有错误的地方,欢迎来指出错误的…

收银系统源码-千呼新零售2.0【宠物、养生、大健康行业解决方案】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物、中医养生、大健康等连锁店…

什么是 java 序列化,如何实现 java 序列化

Java序列化是将对象的状态转换为字节流的过程,这样对象的状态可以被存储在文件、数据库中,或者通过网络传输给另一个Java虚拟机(JVM)。反序列化是相反的过程,即从字节流中重建对象的状态。 为什么需要序列化&#xff…

Web渗透:文件上传漏洞

文件上传漏洞(File Upload Vulnerability)是网络安全中的一种常见漏洞,攻击者可以通过此漏洞将恶意文件上传到服务器,从而执行任意代码、覆盖重要文件、或进行其他恶意操作。这种漏洞可能带来严重的安全风险,包括数据泄…

Python里的类型list是什么?

在Python中,list(列表)是一种内置的数据类型,用于存储有序的元素集合。这些元素可以是任何数据类型(整数、浮点数、字符串、其他列表等),并且它们不需要是同一种数据类型。 列表使用方括号 [] 表…

在 PMP 考试中,项目管理经验不足怎么办?

在项目管理的专业成长之路上,PMP认证如同一块里程碑,标志着从业者的专业水平达到了国际公认的标准。然而,对于那些项目管理经验尚浅的考生来说,这座里程碑似乎显得有些遥不可及。那么,在PMP考试准备中,项目…

【LeetCode】Hot100:验证二叉搜索树

给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左子树 只包含 小于 当前节点的数。 节点的右子树只包含 大于 当前节点的数。 所有左子树和右子树自身必须也是二叉搜索树。 英文题目 Given the root…

【代码随想录算法训练营第四十八天|188.买卖股票的最佳时机IV、309. 买卖股票的最佳时机含冷冻期、714. 买卖股票的最佳时机含手续费】

文章目录 188.买卖股票的最佳时机IV[309. 买卖股票的最佳时机含冷冻期](https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-with-cooldown/description/) 188.买卖股票的最佳时机IV 和前几个一样,dp数组变大到[n][2k1],推导公式也一样。 …

考大学能改变命运吗?不能

今天高考出分,今天早上就有朋友问我这个分怎么选学校怎么选专业。 (1) 我先跟他说的是选专业。 我说未来十年,中国会呈现M型社会: 要么你牛,做卡脖子突破,会就是会、不会就是不会 要么你不牛&…

AI技术在呼吸健康诊断领域的前沿进展

近期,谷歌科研团队在《自然》杂志上发布了一项引人注目的研究成果,该研究聚焦于利用人工智能(AI)技术对人类咳嗽及呼吸音进行分析,以实现对个体健康状况的精准评估。这一创新系统的研发基于大规模音频数据的深度学习&a…

C++STL 6大组件—你必知必会的编程利器

课程总目录 文章目录 一、vector容器二、deque和list容器三、vector、deque、list横向对比四、详解容器是配置stack、queue、priority_queue五、无序关联容器六、有序关联容器七、迭代器八、函数对象九、泛型算法和绑定器 一、vector容器 底层数据结构是动态开辟的数组&#x…

Ai指令优化文章成爆款实战记录6.26

大家好,我是网创有方的站长,继上篇文章出来之后,立马测试了一翻,没想到第一篇就出来了小爆款。展现量当天3万多,阅读量也有7000多的一个数据。虽说不是很高,相比平常几十的阅读量来说,进步还是非…

什么是代理IP服务?

代理IP服务是一种通过中间代理服务器来隐藏用户真实IP地址的服务。当您使用代理IP服务时,您的网络请求首先会发送到代理服务器,然后再由代理服务器发送到目标网站。代理IP就像是一台专门用来帮你“撒谎”的服务器,你通过这台服务器访问互联网…

process.cwd()与__dirname的区别

process.cwd() 是当前执行node命令时候的文件夹地址 ——工作目录,保证了文件在不同的目录下执行时,路径始终不变__dirname 是被执行的js 文件的地址 ——文件所在目录 在electron进程中使用 如果使用__dirname则会读取到当前运行目录(dist_electron)下…

【大模型】大模型微调方法总结(二)

1.Adapter Tuning 1.背景 2019年谷歌的研究人员首次在论文《Parameter-Efficient Transfer Learning for NLP》提出针对 BERT 的 PEFT微调方式,拉开了 PEFT 研究的序幕。他们指出,在面对特定的下游任务时,如果进行 Full-Fintuning&#xff0…