机器学习决策树原理详解

一、引言

在当今蓬勃发展的人工智能与大数据领域,大模型正以前所未有的影响力改变着众多行业的格局。而决策树作为机器学习算法家族中的经典成员,以其简洁直观的特点和广泛的适用性,不仅能独立解决诸多实际问题,更是诸多先进大模型构建的重要基石。深入理解决策树的原理,犹如掌握了开启机器学习大门的一把关键钥匙,对于后续进阶学习和实践应用意义重大。

二、决策树的基本概念

决策树本质上是一种基于树形结构的预测模型,它模拟了人类做决策的过程,通过对输入数据的一系列特征条件进行层层判断,最终得出相应的决策结果。形象地说,它就好比是一个精心绘制的流程图,从根节点出发,沿着不同分支,依据不同的特征取值情况不断进行筛选,直至抵达叶子节点,而叶子节点所代表的便是分类任务中的具体类别或者回归任务中的预测数值。
例如,考虑一个简单的判断动物种类的场景,我们可以依据动物的一些外观特征来构建决策树。假如有特征 “是否有羽毛”“是否会飞”“是否有四条腿” 等,从根节点开始,如果动物 “有羽毛”,就沿着对应的分支继续判断 “是否会飞” 等特征,经过这样一系列的判断后,最终确定动物属于鸟类、哺乳动物或是爬行动物等具体类别。

三、决策树的构建过程

(一)特征选择

特征选择是构建决策树的核心环节,其目的是确定在每个节点上依据哪个特征来对数据集进行划分,以便让决策树能够高效、准确地进行分类或回归。常用的特征选择标准有信息增益、信息增益率以及基尼指数等,下面详细介绍它们的计算方法和应用场景。

以判断水果是苹果还是橙子为例,假设现在有另一个特征 “颜色”,其取值可能为 “红色”“橙色”“黄色”。如果 “颜色” 为 “红色” 的子集里有 50 个苹果和 10 个橙子,“颜色” 为 “橙色” 的子集里有 10 个苹果和 30 个橙子,“颜色” 为 “黄色” 的子集里有 0 个苹果和 0 个橙子。分别计算各子集的熵以及根据上述公式计算基于 “颜色” 特征的信息增益,选择信息增益最大的特征作为当前节点的划分依据。

在使用基尼指数进行特征选择时,会计算每个特征划分后子集的基尼指数,选择使划分后基尼指数最小的特征作为节点划分依据,这样可以使得划分后的数据集更加 “纯净”,即类别更加单一化。

(二)决策树生成

在确定了特征选择的标准后,就可以开始构建决策树了,具体步骤如下:
1、对于根节点,计算所有可用特征的相应指标(如信息增益、信息增益率或基尼指数),然后依据所选用的特征选择标准,选出最优的特征进行节点划分,将整个数据集按照该特征的不同取值分成若干个子集。例如,在判断水果种类的案例中,如果以 “颜色” 作为根节点的划分特征,且 “颜色” 有 “红色”“橙色”“黄色” 三种取值,那么数据集就会被相应地划分为三个子集。
2、针对每个划分出来的子集,重复上述步骤,即再次计算各子集内可用特征的指标,选择最优特征继续划分,只要子集内的样本不满足预先设定的停止条件(下面会详细介绍停止条件),就持续构建子树。
3、当某个子集内的所有样本都属于同一类别(分类任务),或者在回归任务中满足一定的误差要求等停止条件时,该子集就被标记为叶子节点,不再继续进行划分,至此,一棵决策树就逐步生成了。

(三)停止条件

为了防止决策树过度生长,避免出现过拟合问题,需要设置合理的停止条件来终止决策树的构建过程,常见的停止条件如下:
样本数量限制:当节点中的样本个数小于某个设定的阈值时,例如规定一个节点内的样本数不能少于 5 个。如果继续划分,由于样本过少,很可能导致划分后的子集缺乏代表性,无法准确学习到有效的分类或回归规律,所以此时将该节点标记为叶子节点。
类别纯度要求:在分类任务中,若节点中的样本类别纯度已经足够高,比如通过熵、基尼指数等指标衡量,发现样本几乎都属于同一类别了(例如基尼指数小于某个极小值,如 0.05),就意味着该节点已经具有很高的确定性,无需再进行划分,可将其作为叶子节点处理。
树的深度限制:预先设定一个最大深度值,比如限定决策树的深度不能超过 10 层。因为随着树深度的不断增加,模型对训练数据的拟合会越来越精细,但也更容易记住训练数据中的噪声和细节,从而导致在新的测试数据上泛化能力变差,出现过拟合现象,所以限制树的深度有助于保持模型的泛化性能。

四、决策树的剪枝策略

决策树在构建过程中由于不断地对数据进行细分,很容易出现过拟合问题,也就是对训练数据的拟合效果非常好,但在面对未曾见过的新数据时,预测准确性却大打折扣。为了应对这一问题,需要对生成的决策树进行剪枝操作,常见的剪枝策略有预剪枝和后剪枝两种。

(一)预剪枝

预剪枝是在决策树构建的过程中就提前进行剪枝操作,即在节点划分之前,根据当前节点的一些情况以及预先设定的停止条件等,判断是否需要继续划分该节点来生长树。
例如,在构建判断水果种类的决策树时,按照正常的构建流程,可能会根据 “形状” 特征对某个节点进一步划分。但如果采用预剪枝策略,在划分前发现当前节点的样本数量已经很少了(比如小于设定的阈值 5 个),或者通过验证集验证发现继续划分该节点后在验证集上的准确率并没有提升,反而可能下降了,那么就决定不再对该节点进行划分,直接将其标记为叶子节点。
预剪枝的优点在于能够显著减少后续计算量和训练时间,并且在一定程度上有效避免了过拟合现象的发生。然而,它也存在一定的局限性,由于过早地停止了树的生长,可能会导致模型对数据的学习不够充分,出现欠拟合情况,使得模型的泛化能力无法达到最优状态。

(二)后剪枝

后剪枝则是在决策树完全按照正常流程生长完毕之后,再从叶子节点开始,自下而上地对树进行剪枝操作。它通过比较剪枝前后模型在验证集上的性能表现(如准确率、误差等指标)来决定是否要将某个子树替换为一个叶子节点。
比如,对于已经生成的一棵判断水果种类的完整决策树,从最底层的叶子节点开始,考虑将某个叶子节点及其对应的子树替换为一个单一的叶子节点,然后在验证集上对比剪枝前后的准确率。如果发现剪枝后的准确率没有明显下降,甚至还有所提升,那就说明这个子树是可以被剪掉的,通过这样逐步向上的操作,对整棵树进行优化。
后剪枝的优势在于通常能够获得更好的泛化性能,使决策树在新数据上有更稳定、准确的表现。不过,其缺点是计算成本相对较高,毕竟需要先构建出完整的决策树,再花费额外的计算资源去评估和执行剪枝操作。

五、决策树的优缺点

(一)优点

直观可解释性强:决策树模型呈现出清晰的树形结构,其决策过程一目了然,很容易理解和向他人解释。例如在医疗诊断领域,医生可以通过查看决策树了解模型是基于哪些症状特征来判断患者是否患有某种疾病的,这对于模型的可信度和实际应用推广非常重要。
数据适应性广:它能够处理离散型和连续型的数据,不需要对数据进行过于复杂的预处理就能直接应用于模型构建。比如在分析客户购买行为时,客户的年龄(连续型数据)、性别(离散型数据)等不同类型的数据都可以作为特征纳入决策树模型中进行分析。
对异常值和缺失值相对不敏感:相较于一些其他机器学习算法,决策树在数据存在一定的异常值或者部分特征值缺失的情况下,依然能够正常进行训练和预测。例如在分析电商用户的购买数据时,偶尔出现的个别异常购买金额或者部分用户某些信息未填写完整等情况,并不会对决策树的构建和使用造成太大的阻碍。

(二)缺点

易出现过拟合:决策树在构建过程中,如果不加以适当控制,很容易生长得过于复杂,对训练数据过度拟合,导致在新的测试数据上表现不佳。例如在预测股票价格走势时,如果决策树过于追求对历史数据的精确拟合,那么在面对未来新的市场情况时,就很难做出准确的预测。
对类别不平衡数据处理欠佳:当数据集中不同类别样本数量相差悬殊时(如正类样本占比极少,负类样本占比极大),决策树可能会偏向多数类,使得对少数类的预测效果较差。比如在检测网络诈骗行为的场景中,如果正常交易数据远远多于诈骗交易数据,决策树可能会更多地将样本判断为正常交易,而忽略了对诈骗交易的准确识别。
预测精度相对有限:一般情况下,相较于一些复杂的集成模型(如随机森林、梯度提升树等),单棵决策树的预测精度会稍低一些。不过,决策树常常作为这些集成模型的基础组成部分,通过集成多个决策树的方式来提升整体的预测性能。

六、总结

决策树作为一种经典且极具实用价值的机器学习算法,其原理涵盖了从特征选择、树的构建到剪枝等多个方面,每个环节都紧密相连,共同影响着模型的性能和表现。虽然它存在一定的局限性,但通过合理运用其优点,并结合实际案例进行针对性的优化,能够在众多领域有效地解决分类和回归等实际问题,同时也为后续学习和应用更复杂的大模型提供了重要的思路和基础支撑。希望通过本文全面且详细的介绍,读者能对决策树原理及应用有更深入透彻的理解,从而在自己的技术实践中更好地运用这一算法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888732.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day2——需求分析与设计

教师端签到应用软件的需求分析; 产品经理如何写好产品需求文档(附模板) 需求分析是软件开发过程中的关键步骤,它确保了开发的软件能够满足用户的需求。以下是进行需求分析的具体步骤: 1. 确定分析目标 明确教师端签到…

代码随想录训练营打卡第34天|62.不同路径 63.不同路径II

62.不同路径 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 问总共有多少条不同的路径&#…

个人IP建设:简易指南

许多个体创业者面临的一个关键挑战是如何为其企业创造稳定的需求。 作为个体创业者,您无法使用营销团队,因此许多人通过推荐和他们的网络来产生需求。因此,扩大您的网络是发展您的业务和产生持续需求的最佳策略。 这就是个人IP和品牌发挥作…

Leetcode—1539. 第 k 个缺失的正整数【简单】

2024每日刷题&#xff08;206&#xff09; Leetcode—1539. 第 k 个缺失的正整数 C实现代码 class Solution { public:int findKthPositive(vector<int>& arr, int k) {int missing 1;int cur 1;int n arr.size();int missingCnt 0;int ptr 0;for(; missingCn…

STM32串口接收与发送(关于为什么接收不需要中断而发生需要以及HAL_UART_Transmit和HAL_UART_Transmit_IT的区别)

一、HAL_UART_Transmit和HAL_UART_Transmit_IT的区别 1. HAL_UART_Transmit_IT&#xff08;非阻塞模式&#xff09;&#xff1a; HAL_UART_Transmit_IT 是非阻塞的传输函数&#xff0c;也就是说&#xff0c;当你调用 HAL_UART_Transmit_IT 时&#xff0c;它不会等到数据完全发…

2024年华中杯数学建模B题使用行车轨迹估计交通信号灯周期问题解题全过程文档及程序

2024年华中杯数学建模 B题 使用行车轨迹估计交通信号灯周期问题 原题再现 某电子地图服务商希望获取城市路网中所有交通信号灯的红绿周期&#xff0c;以便为司机提供更好的导航服务。由于许多信号灯未接入网络&#xff0c;无法直接从交通管理部门获取所有信号灯的数据&#x…

Flink集群搭建整合Yarn运行

Flink 集群 1. 服务器规划 服务器h1、h4、h5 2. StandAlone 模式&#xff08;不推荐&#xff09; 2.1 会话模式 在h1操作 #1、解压 tar -zxvf flink-1.19.1-bin-scala_2.12.tgz -C /app/#2、修改配置文件 cd /app/flink-1.19.1/conf vim conf.yaml ##内容&#xff1a;## j…

数字图像处理 实验三 数字图像的几何运算

一、实验目的 掌握图像的基本几何变换的方法 1. 图像的平移 2. 图像的旋转 二、实验环境 1. PC计算机 2. MatLab软件/语言包括图像处理工具箱(Image Processing Toolbox) 3. 实验所需要的图片 三、实验原理 提示&#xff1a;图片平移就是实现运算 四、实验图像 图片名称&a…

11.20[JAVAEXP3]重定向细究【DEBUG】

设置了根域名访问为testServlet,让他重定向到首页为test.jsp&#xff0c;事实上也都触发了&#xff0c;但是最后显示的为什么不是test.jsp生成页面&#xff0c;依然还是index.jsp生成的页面&#xff1f;&#xff1f; 重定向是通过Dispatcher进行的&#xff0c;而不是sendRedir…

金融数学在股市交易中的具体应用

### 1. 风险管理 - **VaR&#xff08;在险价值&#xff09;**: VaR是衡量投资组合潜在损失的指标。例如&#xff0c;如果一个投资组合的VaR为100万元&#xff0c;置信水平为95%&#xff0c;这意味着在未来的一个交易日内&#xff0c;有95%的可能性该投资组合的损失不会超过100…

c#中context.SaveChanges()方法

跟踪实体的状态&#xff1a; Entity Framework 使用 Change Tracker 来跟踪上下文中所有实体的状态。实体的状态可以是&#xff1a; Added&#xff1a;新添加的实体&#xff08;即将插入到数据库中&#xff09;。Modified&#xff1a;已修改的实体&#xff08;即将更新数据库中…

大端存储和小端存储究竟是什么

数据存储方式 数据在计算机中表现为是0101的二进制形式,cpu在读取数据的时候需要从低地址向高地址读取 注意: 永远都是从低地址开始读取数据 低地址和高地址 内存地址空间&#xff1a; 计算机的内存被划分为一个连续的地址空间&#xff0c;这个空间从0开始&#xff0c;一直…

ORACLE之DBA常用数据库查询

数据库信息 数据库概要select a.name "DB Name", e.global_name "Global Name", c.host_name "Host Name", c.instance_name "Instance Name" , DECODE(c.logins,RESTRICTED,YES,NO) "Restricted Mo…

8. Debian系统中显示屏免密码自动登录

本文介绍如何在Debian系统上&#xff0c;启动后&#xff0c;自动免密登录&#xff0c;不卡在登录界面。 1. 修改lightDM配置文件 嵌入式Debian系统采用lightDM显示管理器&#xff0c;所以&#xff0c;一般需要修改它的配置文件/etc/lightdm/lightdm.conf&#xff0c;找到[Seat…

docker 架构详解

Docker架构是基于客户端-服务器&#xff08;C/S&#xff09;模式的&#xff0c;包含多个关键组件&#xff0c;以确保容器化应用的高效构建、管理和运行。以下是对Docker架构的详细解析&#xff1a; Docker 架构概述 Docker 架构采用客户端-服务器&#xff08;C/S&#xff09;…

三菱伺服JET产品线(选型说明)

伺服放大器功能提升 伺服放大器MELSERVO-JET系列为进一步优化了独家控制引擎的高性能伺服放大器。 可通过与支持CC-LinK IE TSN的运动控制器的同步通信,进行高 速、高精度的运动控制。 除了旋转型伺服电机以外,还支持线性伺服电机。MR-JET-G-N1支持EtherCAT。 旋转型伺服电机 …

【sqlserver】mssql 批量加载数据文件 bulk copy使用

参考文章&#xff1a; Using bulk copy with the JDBC driver SqlServer数据批量写入 SqlServer批量插入数据方法–SqlBulkCopy sqlserver buld copy需要提供&#xff0c;数据文件的对应表的元数据信息主要的字段的位置、字段的名称、字段的数据类型。 执行bulk load时候不一…

关于Chrome自动同步书签的解决办法

前言 并不一定适用所有用户&#xff0c; 目前我在网上搜集了一些资料&#xff0c;也做了一些尝试。 就我个人总结的经验来讲&#xff0c;分享大家以下几种办法&#xff1a; 1.书签同步插件 点击如下&#x1f517;&#xff1a; Chrome书签同步https://bm.famend.cn/ …

如何选择一款合适的网络变压器

选择合适的网络变压器需要考虑以下几个关键因素&#xff1a; 1. 传输速率&#xff1a;首先&#xff0c;您需要确定所需的传输速率&#xff0c;这通常取决于您的网络应用和设备。例如&#xff0c;如果您正在使用或计划使用10Mbps、100Mbps、1Gbps、10Gbps等不同速率的网络设备&…

基于elementui的远程搜索下拉选择分页组件

在开发一个练手项目的时候&#xff0c;需要一个远程搜索的下拉选择组件&#xff1b; elementui自带的el-select支持远程搜索&#xff1b;但如果一次性查询的数据过多&#xff1b;会导致卡顿。故自己实现一个可分页的远程下拉选择组件 效果&#xff1a; 代码&#xff1a; <…