分类算法——决策树(五)

认识决策树

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
在这里插入图片描述

决策树分类原理详解

为了更好理解决策树具体怎么分类的,通过一个问题例子:
在这里插入图片描述
问题:如何对这些客户进行分类预测?如何划分?
有可能划分是这样的:
在这里插入图片描述

已知有四个特征值,预测是否贷款给某个人:
①类:先看房子,再工作–> 是否贷款——只看了两个特征
②类:年龄,信贷情况,工作——看了三个特征

在这里插入图片描述
1原理

  • 信息熵、信息增益等

需要用到信息论的知识!!!问题:通过例子引入信息熵

2信息熵的定义

  • H的专业术语称之为信息熵,单位为比特。

在这里插入图片描述

3决策树的划分依据之-------信息增益

香农:消除随机不定性的东西
小明,年龄“我今年18岁”——信息
小华 “小明明年19岁”——不是信息

  • 定义与公式

特征A对训练数据集D的信息增益 g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵 H(D|A) 之差,即公式为:
在这里插入图片描述

  • 公式的详细解释:
    在这里插入图片描述
    在这里插入图片描述

注:信息增益表示得知特征X的信息而息的不确定性减少的程度使得类Y的信息熵减少的程度

  • 我们以年龄特征来计算:
1g(D,年龄)=H(D)-H(D|年龄)=0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年)]
2H(D)=-(6/15log(6/15)+9/15log(9/15))=0.971
3H(青年)=-(3/5log(3/5)+2/5log(2/5))
H(中年)=-(3/5log(3/5)+2/5log(2/5))
H(老年)=-(4/5log(4/5)+1/5log(1/5))

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D,A1)=0.313,g(D,A2)=0.324,g(D,A3)=0.420,g(D,A4)=0.363。所以我们选择A3作为划分的第一个特征。这样我们就可以一棵树慢慢建立。

4决策树的划分依据之-------信息增益
当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似。

  • ID3
    • 信息增益 最大的准则
  • C4.5
    • 信息增益比 最大的准则
  • CART
    • 分类树:基尼系数 最小的准则(在sklearn中可以选择划分的默认原则)
    • 优势:划分更加细致(从后面例子的树显示来理解)

决策树API

  • class sklearn.tree.DecisionTreeClassifier(criterion='gini’,max_depth=None,random_state=None)
    • 决策树分类器
    • criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy
    • max_depth:树的深度大小
    • random_state:随机数种子

1用决策树对鸢尾花进行分类
在这里插入图片描述
在这里插入图片描述
决策树的结构是可以直接显示的,所以

决策树可视化

1保存树的结构到dot文件

  • sklearn.tree.export_graphviz() 该函数能够导出DOT格式
    • tree.export_graphviz(estimator,out_file=‘tree.dot’,feature_names=[“,”])
//可视化决策树
export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names

运行后生成:
在这里插入图片描述
在这里插入图片描述

复制到webgraphviz.com网页中:
在这里插入图片描述

决策树总结

  • 优点:
    • 简单的理解和解释,树有可视化
  • 缺点:
    • 决策树学习者可以创建不能很好地推广数据的过于复杂的树,这被称为过拟合
  • 改进:
    • 减枝cart算法(决策树API当中已经实现,随机森林参数调优有相关介绍)
    • 随机森林

注:企业重要决策,由于决策树很好的分析能力,在决策过程应用较多,可以选择特征

总结

  • 信息熵、信息增益的计算
  • DecisionTreeClassifier进行决策树的划分
  • export_graphviz导出到dot文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++入门----内联函数auto范围fornullptr指针

1.内联函数 顾名思义,内联函数也是函数的一种,我们在C语言的学习过程里面知道了函数和宏之间的区别和各自的优缺点; 函数的使用需要建立栈帧,宏的使用需要考虑各种符号的优先级问题,很容易出错,因为宏在使…

HarmonyOS开发案例:【闹钟】

介绍 使用后台代理提醒,实现一个简易闹钟。要求完成以下功能: 展示指针表盘或数字时间。添加、修改和删除闹钟。展示闹钟列表,并可打开和关闭单个闹钟。闹钟到设定的时间后弹出提醒。将闹钟的定时数据保存到轻量级数据库。 相关概念 [Canva…

数学建模完整版

模型与适用题型 微分方程传染病预测模型 神经网络 层次分析法 粒子群算法 matlab 优劣解距离法

如何为Postgres数据库设置安全的访问控制和权限管理

文章目录 解决方案1. 使用角色和权限管理2. 配置认证方法3. 使用网络访问控制4. 定期审查和更新权限 示例代码1. 创建角色并分配权限2. 配置密码认证3. 配置网络访问控制 总结 PostgreSQL是一个功能强大的开源关系型数据库系统,提供了丰富的权限和访问控制机制&…

LLM大语言模型(十二):关于ChatGLM3-6B不兼容Langchain 的Function Call

背景 基于本地的ChatGLM3-6B直接开发LangChain Function Call应用,发现其输出的action和action_input非常不稳定。 表现为生成的JSON格式回答非常容易出现不规范的情况,导致LangChain的Agent执行报错,或者进入死循环。 ChatGLM3-6B不兼容La…

基于北京迅为iTOP-RK3588大语言模型部署测试

人工智能(AI)领域中的大模型(Large Model)逐渐成为研究的热点。大模型,顾名思义,是指拥有海量参数和高度复杂结构的深度学习模型。它的出现,不仅推动了AI技术的突破,更为各行各业带来…

【C++】——类和对象(构造函数,析构函数,拷贝构造函数,赋值运算符重载)

创作不易,多多支持! 前言 相信你对这几个知识点有点混淆,相信看完以后,你会对此有一个清晰的认识。 一 类的6个默认成员函数 如果我们写一个类,但是类里面什么都没有,我们称之为空类。 其实这个类也不…

DC-DC电源芯片规格书上的各种参数详解

1.输出电压精确度 输出电压的精确度,也被称为设定点精度,它描述了输出电压的允许误差。该参数通常是在常温,满载和额定输入电压的条件下测得的,它是这样定义的: 输出电压之所以产生误差,是因为元器件本身存在误差,特别是输出端的分压电阻,它将输出电压降低后比PWM比较…

Mac装虚拟机好不好 Mac装虚拟机和装Windows系统一样吗 PD虚拟机

随着跨系统操作的不断发展,虚拟机技术在生产力领域扮演着越来越重要的角色。Mac作为一款主流的操作系统,也有着运行虚拟机的能力。接下来给大家介绍Mac装虚拟机好不好,Mac装虚拟机和装Windows系统一样吗的具体内容。 一、Mac装虚拟机好不好 …

UNIX环境高级编程->高级IO(概念篇)

UINX环境 常见的操作系统比如Linux 和 MacOS都是基于UNIX的。它们都继承了UNIX的许多特性和设计理念。因此,它们的高级I/O技术确实是建立在UNIX基础之上的。Linux和macOS都提供了丰富的高级I/O功能和API,利用了UNIX系统调用和原则。这些功能包括非阻塞I…

【Linux】自定义协议——实现网络序列化和反序列化

欢迎来到Cefler的博客😁 🕌博客主页:折纸花满衣 🏠个人专栏:题目解析 🌎推荐文章:承接上文内容【Linux】应用层协议序列化和反序列化 目录 👉🏻代码实现如下Calculate.hp…

C语言-联合体基本概念

联合体的外在形式跟结构体非常类似,但它们有一个本质的区别:结构体中的各个成员是各自独立的,而联合体中的各个成员却共用同一块内存,因此联合体也称为共用体。 联合体内部成员的这种特殊的“堆叠”效果,使得联合体有如…

Ollama完成本地模型的运行

Ollama完成本地模型的运行 llama 3 8b很多pc都可以run起来,可以用这个练练手 简介 Ollama 是一个开源的大型语言模型(LLM)服务工具,它允许用户在本地运行和使用各种大型语言模型。Ollama 提供了一个命令行界面,支持多种流行的模型,如 Llama 3、Qwen 1.5、Mixtral、Gemma…

MapMagic 2 Biomes and Functions

MapMagic 2(免费)世界生成器官方模块。支持基于遮罩混合几个图形,从而可以在无限地形上混合不同的生物群落。也随附函数节点,从而可以在子图中执行复杂的生成过程。将它们视作含有输入和输出连接器的生物群落。请注意,必须使用 MapMagic 2 的现有安装才能使用该模块。 下…

(一)JVM实战——jvm的组成部分详解

前言 本节内容是关于java虚拟机JVM组成部分的介绍,通过其组成架构图了解JVM的主要组成部分。 正文 ClassFile:字节码文件 - javac:javac前端编译器将源代码编译成符合jvm规范的.class文件,即字节码文件 - class文件的结构组成&a…

数据变更捕获 (CDC):PostgreSQL 与 ClickHouse - 第一部分

本文字数:13442;估计阅读时间:34 分钟 审校:庄晓东(魏庄) 本文在公众号【ClickHouseInc】首发 简介 在之前的文章中,我们已经讨论了OLTP数据库(例如Postgres)和OLAP数据…

【go零基础】go-zero从零基础学习到实战教程 - 1项目表设计

既然是0基础,现在来写下设计思路,因为go-zero是个微服务架构,所以,哪怕是0基础,也从两个服务模块开始写起。 我们的目标是:最小可用微服务架构最佳实践! 好了,饼画完了。 第0部分写到…

504网关超时可能是哪些原因导致

当前随时互联网的发展普及,我们经常会使用到网站服务,许多网站为了提高打开速度,都会接入使用CDN。当我们在浏览网页或使用网络服务时,有时候可能有遇到网站打不开的情况,出现各式各样的错误代码,其中504网…

【注解和反射】通过反射动态创建对象、调用普通方法、操作属性

继上一篇博客【注解和反射】获取类运行时结构-CSDN博客 目录 八、通过反射动态创建对象 测试:通过反射动态创建对象 思考:难道没有无参的构造器就不能创建对象了吗?只要在操作的时候明确的调用类中的构造器并将参数传递进去之后,才可以实…

三维图形程序员必学-CGAL几何算法

GCAL几何算法库,涵盖了很多数学几何算法,矩阵运算、平面拟合、曲线拟合、曲面重建、网格优化、网格剖分、面线相交、布尔运算等等各种图形学几何相关的算法。 文章最后放了一个CGAL求点集拟合平面,投影求线的例子代码。 CGAL是一个开源代码库,官网连接GitHub - CGAL/cgal…