DataWhale-吃瓜教程学习笔记 (五)

学习视频:第4章-决策树_哔哩哔哩_bilibili
西瓜书对应章节: 第四章 4.1;4.2


文章目录

  • 决策树算法原理
        • - 逻辑角度
        • - 几何角度
  • ID3 决策树
        • - 自信息
        • - 信息熵 (自信息的期望)
        • - 条件熵 ( Y 的信息熵关于概率分布 X 的期望)
        • - 信息增益
        • - ID3 决策树
        • - 问题
  • C4.5决策树
        • - 增益率
          • -- 属性固有值
        • - 缺点
  • CART 决策树
        • - 基尼值
        • - 属性的基尼指数
        • - CART 决策树的实际构造算法


决策树算法原理

- 逻辑角度

if...else.. 语句的组合,不断的选择

- 几何角度

根据某种准则划分特征空间

最终目的:提高分类样本的纯度


ID3 决策树

- 自信息

image.png

- 信息熵 (自信息的期望)

image.png

其中 X 作为随机变量,假设可能有 a, b, c 3种可能的状态:

  • p(a|b|c)=1 是最确定的,信息熵最小
  • p(a) = p(b) = p© 时可能性相同, X是最不确定的,信息熵最大

将样本类别标记视作随机变量,各个类别在样本集合中的占比视作各类别取值的概率,此时信息熵的 不确定性 可以转化为 集合内样本的纯度

- 条件熵 ( Y 的信息熵关于概率分布 X 的期望)

在已知 X 后 Y 的不确定性

image.png

image.png

- 信息增益

已知属性特征 a 的取值后, y 的不确定减少的量
image.png

- ID3 决策树

以 信息增益 为准则选择划分属性的 决策树
image.png

- 问题

信息增益 可能对取值数目多的属性有偏好 (比如 编号)


C4.5决策树

- 增益率

image.png

– 属性固有值

image.png

a 可能取值的个数 V 越多,则 通常其固有值 IV(a)越大

- 缺点

增益率可能对 取值数目少的属性有偏好

  • C45算法 并未完全使用 “增益率”替代 “信息增益”。采用启发式算法:先选出信息增益高出平均水平 的属性,然后从中选择增益率最高的。

CART 决策树

- 基尼值

从样本集合D中随机抽取两个样本,其类别标记不一致的概率

image.png

- 属性的基尼指数

image.png

- CART 决策树的实际构造算法

image.png


在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python selenium 打开网页

selenium工具类 - 文件名 seleniumkit.py 代码如下 # -*- coding:utf-8 _*-from selenium import webdriverimport os import timefrom selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from seleniu…

Ascend基于自定义算子工程的算子开发

环境准备 见https://gitee.com/zaj1414904389/ascend-tutorial.git 工程创建 CANN软件包中提供了工程创建工具msopgen,开发者可以输入算子原型定义文件生成Ascend C算子开发工程 [{"op": "AddCustom","input_desc": [{"name…

CVPR2024 轨迹预测系列(一)

CVPR2024 轨迹预测系列(一) 文章目录 CVPR2024 轨迹预测系列(一)一、Adapting to Length Shift: FlexiLength Network for Trajectory Prediction.1、Abstract2、FlexiLength Network3、Datasets4、Experiments5、Implementation …

分类预测 | PSO-PNN基于粒子群算法优化概率神经网络的数据分类预测(Matlab)

分类预测 | ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融合注意力机制的故障识别 目录 分类预测 | ZOA-PCNN-AT-SVM斑马优化并行卷积-支持向量机融合注意力机制的故障识别分类效果基本描述程序设计参考资料 分类效果 基本描述 1.PSO-PNN基于粒子群算法优化概率神经网络的数据…

长鑫存储母公司斥资24亿美元发展国产HBM

国产DRAM厂商长鑫存储母公司睿力集成计划投资24亿美元在上海建一座高端封装工厂。据报道,该工厂将专注于高带宽存储器(HBM)芯片的封装,预计到2026年中开始投入生产。长鑫存储将利用来自多方投资者的资金进行建设,其中包…

鼠尾草(洋苏草)

鼠尾草(Salvia japonica Thunb.),又名洋苏草、普通鼠尾草、庭院鼠尾草,属于唇形科鼠尾草属多年生草本植物。鼠尾草以其独特的蓝紫色花序和长而细密的叶片为特点,常用于花坛、庭院和药用植物栽培。 鼠尾草的名字源自于…

江科大笔记—读写内部闪存FLASH读取芯片ID

读写内部闪存FLASH 右下角是OLED,然后左上角在PB1和PB11两个引脚,插上两个按键用于控制。下一个代码读取芯片ID,这个也是接上一个OLED,能显示测试数据就可以了。 STM32-STLINK Utility 本节的代码调试,使用辅助软件…

Langchain-实战篇-搭建本地问答机器人-01

项目背景 在这个快节奏的职场世界里,我们每个人都可能在某个时刻,化身为一头辛勤的牛或一匹奔腾的马,面对入职签合同时的迷茫,或是离职时的纠纷,心中难免会涌现出各种疑问。比如: "这份合同里的条款…

Python在Excel中设置数字格式和获取应用数字格式后的值

目录 安装Python Excel库 Python在Excel中设置数字格式 Python获取Excel中应用数字格式的单元格的显示值 总结 Excel 数字格式是用于控制单元格中数字显示方式的一组规则或代码。通过设置不同的数字格式,可以定义数字的显示方式,如小数位数、货币符号…

Java对应C++ STL的用法

sort: 1:java.util.Arrays中的静态方法Arrays.sort()方法,针对基本数据类型和引用对象类型的数组元素排序 2:java.util.Collections中的静态方法的Collections.sort()方法,针对集合框架中的动态数组,链表&…

iOS17系统适配

iOS17 新功能 文章目录 iOS17 新功能iOS17支持哪几款机型Xcode15新特性iOS17-开发适配指南 横屏待机 在iOS 17中,还带来了横屏待机功能,苹果将这个新功能命名为“Standby”模式,为 iPhone 带来了全新的玩法。iPhone启用之后,默认情…

1-Pandas是什么

Pandas是什么 Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。Pandas 已经成为 Python 数据分析的必备高级工具,它的…

PyTorch Tensor进阶操作指南(二):深度学习中的关键技巧

本文主要讲tensor的裁剪、索引、降维和增维 Tensor与numpy互转、Tensor运算等,请看这篇文章 目录 9.1、首先看torch.squeeze()函数: 示例9.1:(基本的使用) 小技巧1:如何看维数 示例9.2:&a…

安全架构概述_1.信息安全面临的威胁

在当今以计算机、网络和软件为载体的数字化服务几乎成为人类赖以生存的手段。与之而来的计算机犯罪呈现指数上升趋势,因此,信息的可用性、完整性、机密性、可控性和不可抵赖性等安全保障显得尤为重要,而满足这些诉求,离不开好的安…

Vulnhub-AdmX

主机发现 靶机 : 192.168.145.131131 这台主机 存活 端口扫描 nmap -sV -O -p 1-65535 192.168.145.131 存在 80 端口 ,这里连ssh 端口都没了 80 端口存在 Apache httpd 2.4.1 存在 Apache 默认页面 像这种页面 ,没有什么具体的价值 扫描一…

嵌入式Linux系统编程 — 4.6 atoi、strtol等函数实现字符串与数字转换

目录 1 字符串转整形数据 1.1 函数功能 1.2 示例程序 2 字符串转浮点型数据 2.1 函数介绍 2.2 示例程序 3 数字转字符串 3.1 函数介绍 3.2 函数原型 在编程中,经常会需要将数字组成的字符串转换为相应的数字、或者将数字转换为字符串,在 C 函数…

连环计 | 第6集 | 百姓有倒悬之危,君臣有累卵之急 | 貂蝉 | 三国演义 | 逐鹿群雄

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌这篇博客分享的是《三国演义》文学剧本第Ⅰ部分《群雄逐鹿》的第6️⃣集《连环计》的经典语句和文学剧本全集台词 文章目录 1.经典语句2.文学剧本台词 …

LabVIEW材料样本结构缺陷检测

本文介绍了一种基于LabVIEW的实验室振动特性分析测试装置,通过分析振动特性来检测结构缺陷。文章详细描述了具体案例、硬件型号、工作原理、软件功能以及注意事项。 硬件型号 振动传感器:PCB Piezotronics 352C33加速度计 数据采集卡:NI PXI…

python(基础语法,pandas,numpy,正则表达式,数据预处理)

python学习推荐网址: 白月黑羽 一、语法基础 目标: • list、tuple、set、dict的基本用法 • 内置函数 len(), eval(),range(),sort(…

Linux自动化交互脚本expect开发

在日常开发任务中,运行shell脚本有时候会提示输入密码的操作,如何让脚本自动输入密码呢?这时使用expect帮我们输入,Expect是基于Tcl发展而来的,它不仅可以进行交互,还可以根据程序的提示模拟标准输入&#…