分类算法——决策树(五)

认识决策树

决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-else结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法。
在这里插入图片描述

决策树分类原理详解

为了更好理解决策树具体怎么分类的,通过一个问题例子:
在这里插入图片描述
问题:如何对这些客户进行分类预测?如何划分?
有可能划分是这样的:
在这里插入图片描述

已知有四个特征值,预测是否贷款给某个人:
①类:先看房子,再工作–> 是否贷款——只看了两个特征
②类:年龄,信贷情况,工作——看了三个特征

在这里插入图片描述
1原理

  • 信息熵、信息增益等

需要用到信息论的知识!!!问题:通过例子引入信息熵

2信息熵的定义

  • H的专业术语称之为信息熵,单位为比特。

在这里插入图片描述

3决策树的划分依据之-------信息增益

香农:消除随机不定性的东西
小明,年龄“我今年18岁”——信息
小华 “小明明年19岁”——不是信息

  • 定义与公式

特征A对训练数据集D的信息增益 g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵 H(D|A) 之差,即公式为:
在这里插入图片描述

  • 公式的详细解释:
    在这里插入图片描述
    在这里插入图片描述

注:信息增益表示得知特征X的信息而息的不确定性减少的程度使得类Y的信息熵减少的程度

  • 我们以年龄特征来计算:
1g(D,年龄)=H(D)-H(D|年龄)=0.971-[5/15H(青年)+5/15H(中年)+5/15H(老年)]
2H(D)=-(6/15log(6/15)+9/15log(9/15))=0.971
3H(青年)=-(3/5log(3/5)+2/5log(2/5))
H(中年)=-(3/5log(3/5)+2/5log(2/5))
H(老年)=-(4/5log(4/5)+1/5log(1/5))

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况。最终计算的结果g(D,A1)=0.313,g(D,A2)=0.324,g(D,A3)=0.420,g(D,A4)=0.363。所以我们选择A3作为划分的第一个特征。这样我们就可以一棵树慢慢建立。

4决策树的划分依据之-------信息增益
当然决策树的原理不止信息增益这一种,还有其他方法。但是原理都类似。

  • ID3
    • 信息增益 最大的准则
  • C4.5
    • 信息增益比 最大的准则
  • CART
    • 分类树:基尼系数 最小的准则(在sklearn中可以选择划分的默认原则)
    • 优势:划分更加细致(从后面例子的树显示来理解)

决策树API

  • class sklearn.tree.DecisionTreeClassifier(criterion='gini’,max_depth=None,random_state=None)
    • 决策树分类器
    • criterion:默认是’gini’系数,也可以选择信息增益的熵’entropy
    • max_depth:树的深度大小
    • random_state:随机数种子

1用决策树对鸢尾花进行分类
在这里插入图片描述
在这里插入图片描述
决策树的结构是可以直接显示的,所以

决策树可视化

1保存树的结构到dot文件

  • sklearn.tree.export_graphviz() 该函数能够导出DOT格式
    • tree.export_graphviz(estimator,out_file=‘tree.dot’,feature_names=[“,”])
//可视化决策树
export_graphviz(estimator,out_file="iris_tree.dot",feature_names=iris.feature_names

运行后生成:
在这里插入图片描述
在这里插入图片描述

复制到webgraphviz.com网页中:
在这里插入图片描述

决策树总结

  • 优点:
    • 简单的理解和解释,树有可视化
  • 缺点:
    • 决策树学习者可以创建不能很好地推广数据的过于复杂的树,这被称为过拟合
  • 改进:
    • 减枝cart算法(决策树API当中已经实现,随机森林参数调优有相关介绍)
    • 随机森林

注:企业重要决策,由于决策树很好的分析能力,在决策过程应用较多,可以选择特征

总结

  • 信息熵、信息增益的计算
  • DecisionTreeClassifier进行决策树的划分
  • export_graphviz导出到dot文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/3177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++入门----内联函数auto范围fornullptr指针

1.内联函数 顾名思义,内联函数也是函数的一种,我们在C语言的学习过程里面知道了函数和宏之间的区别和各自的优缺点; 函数的使用需要建立栈帧,宏的使用需要考虑各种符号的优先级问题,很容易出错,因为宏在使…

HarmonyOS开发案例:【闹钟】

介绍 使用后台代理提醒,实现一个简易闹钟。要求完成以下功能: 展示指针表盘或数字时间。添加、修改和删除闹钟。展示闹钟列表,并可打开和关闭单个闹钟。闹钟到设定的时间后弹出提醒。将闹钟的定时数据保存到轻量级数据库。 相关概念 [Canva…

MySQL创建表时添加约束

创建表时添加约束 ①列级约束 演示: CREATE TABLE students( id INT PRIMARY KEY,#主建约束(唯一性,非空) s_name VARCHAR(10) NOT NULL, #非空 s_sex CHAR(1) CHECK(s_sex男 OR s_sex女),#检查约束(Mysql无效) s_seat INT UNI…

数学建模完整版

模型与适用题型 微分方程传染病预测模型 神经网络 层次分析法 粒子群算法 matlab 优劣解距离法

如何为Postgres数据库设置安全的访问控制和权限管理

文章目录 解决方案1. 使用角色和权限管理2. 配置认证方法3. 使用网络访问控制4. 定期审查和更新权限 示例代码1. 创建角色并分配权限2. 配置密码认证3. 配置网络访问控制 总结 PostgreSQL是一个功能强大的开源关系型数据库系统,提供了丰富的权限和访问控制机制&…

前端表单滑块验证码开发

Jsp页面用javascript加 滑动验证条_jsp验证码滑动实现-CSDN博客 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name&quo…

云原生技术助力某制造业巨头构建面向未来的统一技术中台

制造帝国的数字化绮梦 在全球经济一体化和信息化快速发展的今天&#xff0c;制造业的数字化转型已经成为推动产业高质量发展的关键趋势。中国政府高度重视制造业的数字化转型&#xff0c;将其视为实现制造强国战略的核心内容&#xff0c;并出台了一系列政策支持推动发展进程。…

LLM大语言模型(十二):关于ChatGLM3-6B不兼容Langchain 的Function Call

背景 基于本地的ChatGLM3-6B直接开发LangChain Function Call应用&#xff0c;发现其输出的action和action_input非常不稳定。 表现为生成的JSON格式回答非常容易出现不规范的情况&#xff0c;导致LangChain的Agent执行报错&#xff0c;或者进入死循环。 ChatGLM3-6B不兼容La…

基于北京迅为iTOP-RK3588大语言模型部署测试

人工智能&#xff08;AI&#xff09;领域中的大模型&#xff08;Large Model&#xff09;逐渐成为研究的热点。大模型&#xff0c;顾名思义&#xff0c;是指拥有海量参数和高度复杂结构的深度学习模型。它的出现&#xff0c;不仅推动了AI技术的突破&#xff0c;更为各行各业带来…

简单仓库管理系统(增删改查功能)

前端 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>Document</title> …

职场受挫,没有晋升机会怎么办?

和其他人比较没有意义。 每个人的基础不一样&#xff0c;经历不一样&#xff0c;学习方法不一样&#xff0c;无谓的比较只会徒增烦恼。 我们能做的就是&#xff0c;深入了解自己&#xff0c;做自己&#xff0c;找到适合自己的方法&#xff0c;从而快速提升自己。做自己&#…

Pow(x,n)——力扣

python&#xff08;快速幂&#xff09; 50. Pow(x, n) 已解答 中等 相关标签 相关企业 实现 pow(x, n) &#xff0c;即计算 x 的整数 n 次幂函数&#xff08;即&#xff0c;xn &#xff09;。 示例 1&#xff1a; 输入&#xff1a;x 2.00000, n 10 输出&#xff1a;10…

若依ruoyi-vue部署在域名的子目录下应该如何配置

本文相关视频教程&#xff1a;https://www.bilibili.com/video/BV1Fi4y1q74p?p46&vd_source2894aa0e46c09ba98269f266128b6c6e 有些特殊情况需要部署到子路径下&#xff0c;例如&#xff1a;https://www.ruoyi.vip/admin&#xff0c;以下是若依ruoyi-vue部署在域名的子目…

【C++】——类和对象(构造函数,析构函数,拷贝构造函数,赋值运算符重载)

创作不易&#xff0c;多多支持&#xff01; 前言 相信你对这几个知识点有点混淆&#xff0c;相信看完以后&#xff0c;你会对此有一个清晰的认识。 一 类的6个默认成员函数 如果我们写一个类&#xff0c;但是类里面什么都没有&#xff0c;我们称之为空类。 其实这个类也不…

Xtrabackup导致主从延时问题

背景问题 公司数据库备份采用Xtrabackup&#xff0c; 备份期间会导致数据库实例产生主从延时&#xff0c;增加数据库告警数量。而且数据库主从延时会影响数据访问的准确性&#xff0c;延时期间如果主库发生故障&#xff0c;会有数据丢失的风险&#xff1b;延时也可能影响抽数等…

DC-DC电源芯片规格书上的各种参数详解

1.输出电压精确度 输出电压的精确度,也被称为设定点精度,它描述了输出电压的允许误差。该参数通常是在常温,满载和额定输入电压的条件下测得的,它是这样定义的: 输出电压之所以产生误差,是因为元器件本身存在误差,特别是输出端的分压电阻,它将输出电压降低后比PWM比较…

Mac装虚拟机好不好 Mac装虚拟机和装Windows系统一样吗 PD虚拟机

随着跨系统操作的不断发展&#xff0c;虚拟机技术在生产力领域扮演着越来越重要的角色。Mac作为一款主流的操作系统&#xff0c;也有着运行虚拟机的能力。接下来给大家介绍Mac装虚拟机好不好&#xff0c;Mac装虚拟机和装Windows系统一样吗的具体内容。 一、Mac装虚拟机好不好 …

UNIX环境高级编程->高级IO(概念篇)

UINX环境 常见的操作系统比如Linux 和 MacOS都是基于UNIX的。它们都继承了UNIX的许多特性和设计理念。因此&#xff0c;它们的高级I/O技术确实是建立在UNIX基础之上的。Linux和macOS都提供了丰富的高级I/O功能和API&#xff0c;利用了UNIX系统调用和原则。这些功能包括非阻塞I…

【Linux】自定义协议——实现网络序列化和反序列化

欢迎来到Cefler的博客&#x1f601; &#x1f54c;博客主页&#xff1a;折纸花满衣 &#x1f3e0;个人专栏&#xff1a;题目解析 &#x1f30e;推荐文章&#xff1a;承接上文内容【Linux】应用层协议序列化和反序列化 目录 &#x1f449;&#x1f3fb;代码实现如下Calculate.hp…

C语言-联合体基本概念

联合体的外在形式跟结构体非常类似&#xff0c;但它们有一个本质的区别&#xff1a;结构体中的各个成员是各自独立的&#xff0c;而联合体中的各个成员却共用同一块内存&#xff0c;因此联合体也称为共用体。 联合体内部成员的这种特殊的“堆叠”效果&#xff0c;使得联合体有如…