树模型(三)决策树

决策树是什么?决策树(decision tree)是一种基本的分类与回归方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

长方形代表判断模块 (decision block),椭圆形成代表终止模块(terminating block),表示已经得出结论,可以终止运行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终止模块。我们还可以这样理解,分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node) 和有向边 (directed edge) 组成。结点有两种类型:内部结点 (internal node) 和叶结点(leaf node)。内部结点表示一个特征或属性,叶结点表示一个类。

决策树构建

特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率,如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的标准是信息增益 (information gain) 或信息增益比,为了简单,本文使用信息增益作为选择特征的标准。那么,什么是信息增益?在讲解信息增益之前,让我们看一组实例,贷款申请样本数据表。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在划分数据集之后信息发生的变化称为信息增益,知道如何计算信息增益,我们就可以计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。

比较特征的信息增益,由于特征 A3(有自己的房子) 的信息增益值最大,所以选择 A3 作为最优特征。

它将训练集 D 划分为两个子集 D1(A3 取值为 “是”) 和 D2(A3 取值为 “否”)。由于 D1 只有同一类的样本点,所以它成为一个叶结点,结点的类标记为 “是”。对 D2 则需要从特征 A1(年龄),A2(有工作) 和 A4(信贷情况) 中选择新的特征,计算各个特征的信息增益:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据计算,选择信息增益最大的特征 A2(有工作) 作为结点的特征。由于 A2 有两个可能取值,从这一结点引出两个子结点:一个对应 “是”(有工作) 的子结点,包含 3 个样本,它们属于同一类,所以这是一个叶结点,类标记为 “是”;另一个是对应 “否”(无工作) 的子结点,包含 6 个样本,它们也属于同一类,所以这也是一个叶结点,类标记为 “否”。这样就生成了一个决策树,该决策树只用了两个特征 (有两个内部结点),生成的决策树如下图所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种以信息增益为判断标准来构建决策树的方法为ID3

ID3在面对一个稀疏、有大量结点的特征时会出现问题

C4.5:使用信息增益率,解决ID3问题,考虑自身熵

CART:使用GINI系数来当做衡量标准

预剪枝方法

决策树过拟合风险很大,理论上可以完全分开数据,如果树足够庞大,每个叶子结点就是一个数据

  • 预剪枝

限制深度,叶子结点个数,叶子结点样本数,信息增益量等

  • 后剪枝

建立完决策树后进行剪枝操作

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

samples:当前结点所有样本数

value:不同类别样本的数量

通过一定的衡量标准,叶子结点越多,损失越大

C α ( T ) = C ( T ) + α ⋅ ∣ T l e a f ∣ C_\alpha(T)=C(T)+\alpha\cdot\mid{T_{leaf}}\mid Cα(T)=C(T)+αTleaf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/109685.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大数据 - Doris 实践】数据表的基本使用(三):数据模型

数据表的基本使用(三):数据模型 1.Aggregate 模型1.1 例一:导入数据聚合1.2 例二:保留明细数据1.3 例三:导入数据与已有数据聚合 2.Uniq 模型3.Duplicate 模型4.数据模型的选择建议5.聚合模型的局限性 Dori…

【AI视野·今日CV 计算机视觉论文速览 第268期】Mon, 16 Oct 2023

AI视野今日CS.CV 计算机视觉论文速览 Mon, 16 Oct 2023 Totally 61 papers 👉上期速览✈更多精彩请移步主页 Daily Computer Vision Papers Vision-by-Language for Training-Free Compositional Image Retrieval Authors Shyamgopal Karthik, Karsten Roth, Massi…

OpenCV11-图像的模版匹配

OpenCV11-图像的模版匹配 图像的模版匹配 图像的模版匹配 前面通过图像直方图反向投影的方式在图像中寻找模版图像,由于直方图不能直接反映图像的纹理,因此,如果两幅不同的模版图像具有相同的直方图分布特性,那么在同一幅图中对着…

react-redux的connect函数实现

react-redux对store订阅的实现原理: storeContext.js import { createContext } from "react";export const StoreContext createContext() connect.js import React, { PureComponent } from react // import store from ../../store; import {Stor…

ESP RainMaker 客户案例 #2|PitPat

PitPat 是美国领先的健身品牌,致力于通过游戏化的方式改变人们的锻炼习惯,增强健康。该品牌通过智能设备和相关的移动应用程序为从事家庭锻炼的个人提供虚拟跑步体验。目前,PitPat 针对不同受众群体,开发了Superun,Dee…

程序开发中表示密码时使用 password 还是 passcode?

password 和 passcode 是两个经常在计算机和网络安全中使用的术语,两者都是用于身份验证的机制,但它们之间还是存在一些区别的。 password password 通常是指用户自己设置的一串字符,用于保护自己的账户安全。密码通常是静态的,…

druid的简单使用

文章目录 1.数据准备2.pom.xml文件中引用druid3. 在resource目录下创建druid.properties配置文件4. 编写java代码参考文献 1.数据准备 drop table if exists account; create table if not exists account (id int primary key auto_increment,name varchar(10),money dou…

android 13.0 SystemUI导航栏添加虚拟按键功能(三)

1.概述 在13.0的系统产品开发中,对于在SystemUI的原生系统中默认只有三键导航,想添加其他虚拟按键就需要先在构建导航栏的相关布局 中分析结构,然后添加相关的图标xml就可以了,然后添加对应的点击事件,就可以了,接下来先分析第三步关于导航栏的相关布局情况 然后实现虚拟…

从入门到进阶 之 ElasticSearch 文档、分词器 进阶篇

🌹 以上分享 ElasticSearch 文档、分词器 进阶篇,如有问题请指教写。🌹🌹 如你对技术也感兴趣,欢迎交流。🌹🌹🌹 如有需要,请👍点赞💖收藏&#…

国际站阿里云服务器无法安装程序怎么办?

阿里云服务器是阿里云推出的一种云核算产品,它能够帮助企业和个人快速建立、扩展和管理网络服务。可是,有时候在运用阿里云服务器时,或许会遇到无法装置程序的问题。本文将具体介绍如何处理这个问题。 阿里云服务器无法装置程序或许是由多种原…

【Electron】Not allowed to load local resource

问题描述 使用 audio 标签播放音频文件,控制台报错 Not allowed to load local resource。 原因分析 通常是安全策略所引起的。Electron 默认情况下禁止加载本地资源,以防止潜在的安全风险。 解决方案 在 main.js 中找到创建 BrowserWindow 实例的代码…

latex:使用中文字体

解决方案 我这里使用的是gbsn(其他的字体我不知道,如果有补充请评价),详细说明如下:

Python学习基础笔记七十二——IDE集成开发环境

集成开发环境,英文缩写是IDE。 IDE可以帮你更高效地开发项目代码。因为它提供了非常实用的功能,比如项目文件管理、语法高亮、代码导航、自动补齐代码、语法静态检查、调试、版本控制等等。 两款IDE:Pycharm和VSCode。 pycharm中的代码文件都…

万界星空科技/生产制造执行MES系统/开源MES/免费MES

开源系统概述: 万界星空科技免费MES、开源MES、商业开源MES、市面上最好的开源MES、MES源代码、免费MES、免费智能制造系统、免费排产系统、免费排班系统、免费质检系统、免费生产计划系统、免费数字化大屏。 万界星空开源MES制造执行系统的Java开源版本。开源mes…

Qtday2

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {//窗口设置ui->setupUi(this);this->setWindowTitle("原神");this->setWindowIcon(QIcon(":/picture/genshi…

Pandas 快速入门教程

Pandas 概览 Pandas 是 Pythonopen in new window 的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas 的目标是成为 Python 数据分析实践与实战的必备高级工具,其长远目标是成为最强大、最灵活、可以支持任何语言的开…

【Python第三方包】控制台进度条——让你控制台变的更漂亮(tqdm)

文章目录 前言一、什么是tqdm?二、如何使用tqdm三、tqdm的基础使用3.1 基本使用3.2 使用total参数指定总步数3.3 在列表上使用3.4 使用desc参数为进度条添加描述信息3.5 动态更新进度条3.6 定制化外观和格式自定义进度条外观讲解3.7 使用tqdm的trange函数(生成器)3.8 在文件…

JavaScript作用域的用法

作用域 外部类无法访问内部类 外部类想要访问内部类需要闭包 两个函数可以有相同的变量名 两个函数包含关系,访问被包含的函数,在其该函数的外边可访问 如果外部函数存在这个同名的函数变量,则内部函数会屏蔽外部函数的 规范&#xff1a…

在数组中合并相同id数据,并且数据中某一字段不一致也统一合并进去

封装的合并的函数 function formateArray(data:any){// ts-ignorelet res data.reduce((ac,a) > {// ts-ignorelet index ac.findIndex(x > x.id a.id);index -1 ? ac.push({...a}) : ac[index] {...ac[index],...a};return ac;},[])return res;}使用 allData 原始…

腾讯云国际站服务器如何打开音频设备?

在使用腾讯云服务器进行音频处理或直播等活动时,或许需求翻开服务器的音频设备。本文将详细介绍如安在腾讯云服务器上翻开音频设备。 在腾讯云服务器上翻开音频设备的过程如下: 登录腾讯云服务器办理控制台 1.首先,需求登录腾讯云服务器的办理…