常用决策树模型ID3、C4.5、CART算法

决策树概述

决策树(decision tree):是一种基本的分类与回归方法,下面提到的ID3、C4.5、CART主要讨论分类的决策树。

在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树通常有三个步骤

  • 特征选择
  • 决策树的生成
  • 决策树的剪枝

决策树的优点和缺点

优点:

  1. 决策树算法中学习简单的决策规则建立决策树模型的过程非常容易理解
  2. 决策树模型可以可视化,非常直观
  3. 应用范围广,可用于分类和回归,而且非常容易做多类别的分类
  4. 能够处理离散型和连续的样本特征
  5. 训练极端样本对树模型的性能影响相对其他模型较小(不包括回归树)
  6. 不平衡样本数据集也能取得好的表现(CART树)

缺点:

  1. 很容易在训练数据中生成复杂的树结构,造成过拟合(overfitting)。剪枝可以缓解过拟合的负作用,常用方法是限制树的高度、叶子节点中的最少样本数量。
  2. 学习一棵最优的决策树被认为是NP-Complete问题。实际中的决策树是基于启发式的贪心算法建立的,这种算法不能保证建立全局最优的决策树。Random Forest 引入随机能缓解这个问题

常用的决策树模型

决策树模型在监督学习中非常常见,决策树是一个非常常见并且优秀的机器学习算法,它易于理解、可解释性强,其可作为分类算法,也可用于回归模型。本文主要介绍常用的基本树(包括 ID3、C4.5、CART)。一般而言一棵“完全生长”的决策树包含,特征划分、决策树构建、剪枝三个过程。

在介绍决策树之前我们先了解一下“纯度”的概念:
决策树的构建是基于样本概率和纯度进行构建操作的,判断数据集“纯”的指标有:Gini指数、信息熵、不确定性、错误率、标准方差。他们的值越小,说明越“纯”。并且他们有以下关系:

信息熵:可以理解为衡量不确定性的指标。
Gini指数:可以理解为衡量错误率的指标。

下面开始介绍一下常用的三种算法ID3、C4.5、CART。

ID3算法

划分标准:ID3选用使得信息增益最大(纯度提升)的那个特征作为决策节点来划分样本。

ID3算法的三个基本概念和通俗的理解:
信息熵(entropy): 表示随机变量的不确定性。
条件熵(Conditional Entropy): 在一个条件下,随机变量的不确定性。
信息增益(Information Gain): 信息增益=信息熵 - 条件熵。表示在一个条件下,信息不确定性减少的程度(纯度提升)。

ID3算法缺点

  • 倾向于使用属性值多的特征来划分样本
  • 不能处理具有连续值的特征。
  • 不能处理特征具有缺失值的样本。
  • ID3 没有剪枝策略,容易过拟合。

由于上述缺点,如今几乎没人再使用ID3,但是信息增益的概念是重要的。

C4.5算法

划分标准:C4.5算法选用使得信息增益率(gain ratio)最大的那个特征作为决策节点来划分样本。

因为ID3算法中选用信息增益来作为决策树的生成策略,导致了生成过程中倾向于使用属性值多的特征来划分样本,为了克服这一缺点。引进了信息增益率(信息增益比)的概念。

C4.5算法相对于ID3算法主要有以下几个改进:

  • 用信息增益率来选择属性;
  • 引入悲观剪枝策略进行后剪枝;
  • 可以对连续数据进行离散化处理;
  • 能够处理具有缺失值的样本。

CART算法

CART(classification and regression tree),分类回归树,它既可以用来解决分类问题也可以用来解决回归问题。

划分标准:使用使得gini系数最小的那个属性来划分样本。

基尼系数:(Gini不纯度)表示在样本集合中一个随机选中的样本被分错的概率。

注意:Gini系数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高,反之,集合越不纯。当集合中所有样本只有一个类时,基尼系数为0.

CART 在 C4.5 的基础上进行了很多提升:

  • C4.5 为多叉树,运算速度慢,CART 为二叉树,运算速度快;
  • C4.5 只能分类,CART 既可以分类也可以回归;
  • CART 使用 Gini 系数作为变量的不纯度量,减少了大量的对数运算;
  • CART 采用代理测试来估计缺失值,而 C4.5 以不同概率划分到不同节点中;
  • CART 采用“基于代价复杂度剪枝(CPP)”方法进行剪枝,而 C4.5 采用悲观剪枝(PEP)方法。

简单总结一下CART:

  1. CART与C4.5算法是非常相似的,但是CART支持预测连续的值(即回归)。
  2. CART构建二叉树,而C4.5则不一定。显然由于二叉树的原因使得CART5不会出现ID3的问题(倾向于选择属性值多的属性来划分样本)
  3. CART用训练集和交叉验证集不断地评估决策树的性能来修剪决策树,从而使训练误差和测试误差达到一个很好地平衡点。
  4. 此外,CART 的一大优势在于,无论训练数据集有多失衡,它都可以将其子冻消除不需要建模人员采取其他操作。

通过前面的介绍我们知道了,基本树ID3、C4.5、CART都是采用“纯度”来做特征选择。它们的思路都相近,得到的模型性能也比较接近。

那么问题来了:基尼指数与熵模型性能接近,但到底与熵模型的差距有多大呢?

我们知道 ln(x) = -1 + x + o(x),所以:
我们可以将基尼指数理解为熵模型的一阶泰勒展开
我们可以将基尼指数理解为熵模型的一阶泰勒展开,下面放上一张很经典的图。
在这里插入图片描述

剪枝

剪枝是应该决策树过拟合的一种重要方法,主要分为以下两种:

预剪枝:该策略就是在对一个节点进行划分前进行估计,如果不能提升决策树泛化精度,就停止划分,将当前节点设置为叶节点。那么怎么测量泛化精度,就是留出一部分训练数据当做测试集,每次划分前比较划分前后的测试集预测精度。

简单来说预剪枝就是在完全正确分类训练集之前,较早地停止树的生长。 具体在什么时候停止决策树的生长有多种不同的方法:

  1. 一种最为简单的方法就是在决策树到达一定高度的情况下就停止树的生长。
  2. 到达此结点的实例具有相同的特征向量,而不必一定属于同一类, 也可停止生长。
  3. 到达此结点的实例个数小于某一个阈值也可停止树的生长。
  4. 还有一种更为普遍的做法是计算每次扩张对系统性能的增益,如果这个增益值小于某个阈值则不进行扩展。

预剪枝的优缺点:

优点:降低了过拟合风险,降低了训练所需的时间。

缺点:预剪枝是一种贪心操作,可能有些划分暂时无法提升精度,但是后续划分可以提升精度。故产生了欠拟合的风险。

后剪枝:该策略是首先正常建立一个决策树,然后对整个决策树进行剪枝。按照决策树的广度优先搜索的反序,依次对内部节点进行剪枝,如果将某以内部节点为根的子树换成一个叶节点,可以提高泛化性能,就进行剪枝。

优点:降低过拟合风险,降低欠拟合风险,决策树效果提升比预剪枝强

缺点:时间开销大得多

常用的后剪枝方法:

  1. REP-错误率降低剪枝
  2. PEP-悲观剪枝(C4.5决策树)
  3. CCP-代价复杂度剪枝(CART树)
  4. MEP-最小错误剪枝

回归树

CART(Classification and Regression Tree,分类回归树),从名字就可以看出其不仅可以用于分类,也可以应用于回归。其回归树的建立算法上与分类树部分相似,这里简单介绍下不同之处。

所谓回归树,就是用树模型做回归问题,每一片叶子都是一个预测值,预测值一般是叶子节点所含训练集元素输出的均值。

划分标准:使用标准差/方差小的那个特征属性来划分样本。

回归树对连续值的处理:

对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。在回归模型中,我们使用常见的和方差度量方式,对于任意划分特征 A,对应的任意划分点 s 两边划分成的数据集D1 和D2 ,求出使D1 和 D2 各自集合的均方差最小,同时 D1 和D2 的均方差之和最小所对应的特征和特征值划分点。表达式为:
在这里插入图片描述
其中,c1 为 D1 数据集的样本输出均值,c2 为 D2数据集的样本输出均值。

回归树的预测方式:

对于决策树建立后做预测的方式, CART 分类树采用叶子节点里概率最大的类别作为当前节点的预测类别。而回归树输出不是类别,它采用的是用最终叶子的均值或者中位数来预测输出结果。

总结

在这里插入图片描述

参考文献

https://blog.csdn.net/qq_43391414/article/details/109382789
https://zhuanlan.zhihu.com/p/85731206

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/311311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

五分钟了解Consul

Hi,大家好,我叫consul,翻译成中文叫做“领事”,其实我更喜欢叫自己为中介,因为我觉得自己做的事情和房产中介非常像。比如说想要卖房的房东到我这边登记,我将房屋信息登录到我的表格中(服务注册…

决策树可视化保姆级教程

决策树可视化指南 决策树是机器学习的一种经典的模型,因其泛化性能好,可解释性强而被广泛应用到实际商业预测中。通常在我们完成决策树模型搭建后,我们会进一步研究分析我们搭建好的模型,这时候模型的可视化就显得尤为重要。下面…

如何运用领域驱动设计 - 领域事件

开篇距离发布上一篇该系列的文章好像已经过了快一个半月了,好吧,我托更了????。一晃就已经到了3月份,在这樱花????盛开的季节,终于得重新连载该系列了。在停更的期间时不时会收到大家关于DDD的留言和问题,一旦…

滑动窗口最大值-leetcode 239题

给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回滑动窗口中的最大值。 来源:力扣(LeetCode) 链接:htt…

一文读懂 Copyleft 开源许可证

开源组件已改变了我们开发软件的方式。来自开源社区的现成库(ready-made libraries)使忙碌的开发者们能专注于他们的秘密武器,这些秘密武器或将成为未来令人兴奋的新软件产品。而且不需要付费。下载开源组件不需要你提供信用卡号码&#xff0…

常用决策树集成模型Random Forest、Adaboost、GBDT详解

常用的集成学习策略 在之前的文章我有介绍过常用的基本决策树模型ID3、C4.5、CART算法,其中提到了一个关于基本决策树模型的缺点,那就是决策树模型学习一棵最优的决策树被认为是NP-Complete问题。实际中的决策树是基于启发式的贪心算法建立的&#xff0…

开源网站云查杀方案,搭建自己的云杀毒。

最近公司的一个客户被勒索病毒攻击了,可悲的是,客户的文件附件太多而且大,没有做双机热备的功能。当客户发现病毒后,还第一时间格式化了服务器。那叫一个惨!!!!!初步分析…

下一个更大元素 leetcode-496

给你两个 没有重复元素 的数组 nums1 和 nums2 ,其中nums1 是 nums2 的子集。 请你找出 nums1 中每个元素在 nums2 中的下一个比其大的值。 nums1 中数字 x 的下一个更大元素是指 x 在 nums2 中对应位置的右边的第一个比 x 大的元素。如果不存在,对应位…

二叉树的遍历—广度优先(BFS)和深度优先(DFS)python实现

二叉树 二叉树(Binary tree)是树形结构的一个重要类型。对于二叉树的基础知识这里不做过多介绍,下面我们直接介绍二叉树的遍历方式和如何用python代码去实现二叉树的遍历。 二叉树的遍历(重点) “前”、“中”、“后…

五分钟了解数据库事务隔离

前言什么是事务隔离呢?们知道,关系型数据基本都支持事务,事务具备四个特性,分别是:原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、…

数据结构-堆(heap)最大堆、最小堆的相关操作和实战

堆&#xff08;heap&#xff09; 堆的概念&#xff1a; 是完全二叉树&#xff1b;每个节点 > 或 < 孩子节点。 条件二中分别对应&#xff1a;最大堆和最小堆。 最大堆&#xff1a;最大值为堆顶元素&#xff0c;每个节点 > 孩子节点。 最小堆&#xff1a;最小值为堆…

无法载入增效工具_山东省 智能工具箱 智能工具管理 工具管理企业数字化管理...

我们日常工具管理中难免会遇到东西找不到&#xff0c;工具丢失无法落实到人&#xff0c;工具买回来没有及时维护导致生锈等&#xff0c;工具生命周期不细致无法及时送检&#xff0c;导致设备参数不达标等一些细微问题&#xff0c;在工具管理上可能是小问题&#xff0c;但是设备…

Asp.Net Core 中间件应用实战中你不知道的那些事

一、概述这篇文章主要分享Endpoint 终结点路由的中间件的应用场景及实践案例&#xff0c;不讲述其工作原理&#xff0c;如果需要了解工作原理的同学&#xff0c; 可以点击查看以下两篇解读文章&#xff1a;•Asp.Net Core EndPoint 终结点路由工作原理解读•ASP.NET CORE 管道模…

递归算法(一)递归概念与思路

递归的概念 程序调用自身的编程技巧称为递归&#xff08; recursion&#xff09;。递归做为一种算法在程序设计语言中广泛应用。 一个过程或函数在其定义或说明中有直接或间接调用自身的一种方法&#xff0c;它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的…

洛谷 P1706 P1036 -小试牛刀

题目1&#xff1a; 题目描述 输出自然数 1 到 n 所有不重复的排列,即 n 的全排列&#xff0c;要求所产生的任一数字序列中不允许出现重复的数字。 输入格式 一个整数 n。 输出格式 由 1∼n1∼n1∼n 组成的所有不重复的数字序列&#xff0c;每行一个序列。 每个数字保留 5 个…

理解ASP.NET Core中的中间件

中间件是ASP.NET Core的一个重要特点&#xff0c;ASP.NET Core应用程序之所以能够灵活地处理各种各样的请求&#xff0c;完成都是由于中间件&#xff0c;那么它究竟是怎么一回事呢&#xff1f;一、理解中间件ASP.NET Core的一个主要特点是中间件&#xff08;Middleware&#xf…

XGBoost-原理推导(上)

XGBoost简介 XGBoost&#xff08;eXtreme Gradient Boosting&#xff09;是华盛顿大学博士陈天奇创造的一个梯度提升&#xff08;Gradient Boosting&#xff09;的开源框架。至今可以算是各种数据比赛中的大杀器&#xff0c;被大家广泛地运用。 之前的文章我已经介绍了GBDT&a…

redis深度历险_Redis的数据结构(内存具体怎么优化的)

上一篇我们讲解了Redis中SDS的组成以及优势&#xff0c;这一篇我们讨论下Redis中的Hash数据类型是怎么构成的呢&#xff1f;Java中存在HashMap和HashTable的数据类型。而Hash的数据结构可以近似于HashTable&#xff0c;依据数组链表的形式构成。在Redis中&#xff0c;Hash在元素…

.NET Core开发实战(第19课:日志作用域:解决不同请求之间的日志干扰)--学习笔记...

19 | 日志作用域&#xff1a;解决不同请求之间的日志干扰开始之前先看一下上一节的代码// 配置的框架 var configBuilder new ConfigurationBuilder(); configBuilder.AddCommandLine(args); configBuilder.AddJsonFile("appsettings.json", optional: false, reloa…

递归算法(二)-分治法

分治法 分治算法的基本思想是将一个规模为N的问题分解为K个规模较小的子问题&#xff0c;这些子问题相互独立且与原问题性质相同。求出子问题的解&#xff0c;就可得到原问题的解。即一种分目标完成程序算法&#xff0c;简单问题可用二分法完成。 分治法解题的一般步骤&#…