决策树 和 集成学习、随机森林

决策树是非参数学习算法,可以解决分类问题,天然可以解决多分类问题(不同于逻辑回归或者SVM,需要通过OVR,OVO的方法),也可以解决回归问题,甚至是多输出任务,并且决策树有非常好的可解释性。决策树功能强大,能够拟合复杂的数据集。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在线dot转换png
https://onlineconvertfree.com/zh/

在这里插入图片描述

对于二分类:
H = − p ⋅ l o g ( p ) − ( 1 − p ) ⋅ l o g ( 1 − p ) H = -p \cdot log(p) - (1-p) \cdot log(1-p) H=plog(p)(1p)log(1p)

通过信息熵可以看到当前数据的不确定度。对于决策树,在根节点上要找到一个维度和一个阈值,对根节点进行划分,划分之后希望整体信息熵减小,进而对于划分出来的两个子节点重复递归划分的方法,逐步减小整体的信息熵。

在这里插入图片描述
对于二分类:
G = 1 − p 2 − ( 1 − p ) 2 = 1 − p 2 − 1 + 2 p − p 2 = − 2 p 2 + 2 p \begin{aligned} G &= 1 - p^2 - (1-p)^2 \\ &= 1 - p^2 -1 + 2p - p^2 \\ &= -2p^2 + 2p \end{aligned} G=1p2(1p)2=1p21+2pp2=2p2+2p

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

每次都是对半划分,决策树高度:logm
维度:n,样本:m ,遍历:n*m

在这里插入图片描述

在这里插入图片描述
如使用 CART 的方式,在每个叶子节点都包含若干个数据,如果这些数据的输出值是类别的话,则可以在叶子结点中让数据进行投票,归为多的一类的数据的类别。

在这里插入图片描述

在这里插入图片描述

决策树的局限性
1、
在这里插入图片描述
2、
在这里插入图片描述


集成学习

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
虽然分为 A 类只有两票,但是认为是 A 类的概率非常高,而分为 B 类的票数虽然是三票,都是得到的确定性都不太大。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
每个子模型可以用同一个算法,这样子模型之间的数据不同,是存在有一定的差异性。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

和集成学习的不同,不需要使用多种算法,使用一种算法就可以创建差异性
Bagging:使用随机取样的方式,包括在特征空间中随机取特征,创建诸多的子模型,把它们集成在一起。
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
通过 n_jobs 参数控制并行运行的核数

在这里插入图片描述

在这里插入图片描述

在Bagging中,使用的集成学习的方式(基础分类器)是决策树,集成了很多决策树的集成学习,由于采用了随机取样的方式,具有随机性,所以叫做随机森林。

在这里插入图片描述

Extra-Trees:极其随机的随机森林,极其随机的特性表现在决策树节点的划分上。

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/51074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国内NAT服务器docker方式搭建rustdesk服务

前言 如果遇到10054,就不要设置id服务器!!! 由于遇到大带宽,但是又贵,所以就NAT的啦,但是只有ipv4共享和一个ipv6,带宽50MB(活动免费会升130MB~) https://bigchick.xyz/aff.php?aff322 月付-5 循环 :CM-CQ-Monthly-5 年付-60循环:CM-CQ-Annually-60官方…

数据结构第三讲:单链表的实现

数据结构第三讲:单链表的实现 1.什么是单链表2. 节点3.单链表的实现3.1节点的结构3.2打印单链表3.3申请一个新节点3.4单链表尾部插入3.5单链表头部插入3.6单链表的尾部删除3.7单链表头部删除3.8查找3.9在指定位置之前插入数据3.10在指定位置之后插入数据3.11删除pos…

爬虫基本库的使用之使用urllib

在Python的爬虫开发领域,urllib是一个非常重要的基础库。它提供了丰富的接口来发送HTTP请求并处理响应,非常适合初学者以及需要快速实现HTTP请求的开发者。本文将详细介绍如何使用urllib库进行基本的网络爬虫开发。 1、urllib库简介 urllib是Python标准…

安装依赖 npm install idealTree:lib: sill idealTree buildDeps 卡着不动

我一直怀疑是网络问题,因为等了很久也能安装成功,就是时间比较长,直到现在完全受不了了,决定好好整治下这个问题! 1、执行命令 npm config get userconfig 查看配置文件所在位置,将其删除。 2、执行 n…

VS+opencv+环境配置

下载opencv库。 版本 - OpenCV 下载完了是一个exe文件,(可以更换目录)直接双击,也就是压缩。 vs配置: 调试-调试属性 点编辑,加入这两个,路径根据自己的opencv库 3、链接器 测试:…

在Postman中引用JS库

前言 在做接口测试时,出于安全因素,请求参数需要做加密或者加上签名才能正常请求,例如:根据填写的请求参数进行hash计算进行签名。postman作为主流的接口调试工具也是支持请求预处理的,即在请求前使用JavaScript脚本对…

windows SSH免密连接ubuntu

前提windows 和linux系统都安装了openssh服务 Linux(安装OPENSSH服务):sudo apt-get install openssh-server Windows:自己百度吧 1.生成Windows公钥 Windows的CMD中执行:ssh-keygen -t rsa,执行过程中直接…

Linux编程:使用 strip 命令优化 ELF 文件大小

0. 概要 在软件开发过程中,经常需要处理各种各样的可执行文件和共享库。 为了提高系统的性能和减少磁盘占用空间,我们可能会对这些文件进行优化。其中之一就是使用 strip 命令来移除 ELF (Executable and Linkable Format) 文件中的非必要数据。 本文将…

Conda与Docker:打造无缝开发环境

Conda与Docker:打造无缝开发环境 在现代软件开发中,容器化技术已经成为一种趋势,它能够为应用提供一个一致的运行环境,无论在何处部署。Docker是实现容器化的首选工具之一。而Conda,作为Python和其他科学计算软件的包…

Redis:AOF持久化

1. 简介 以日志的形式来记录每个写操作,将redis执行的每个写操作记录下来(读操作不记录),只需追加文件但不可以改写文件,redis启动之初会重新构建数据,即redis重启后会将日志中的所有写指令重新执行一遍以达…

扰动观测器DOB设计及其MATLAB/Simulink实现

扰动观测器(Disturbance Observer, DOB)是一种在控制系统中用于估计和补偿未知扰动的重要工具,以增强系统的鲁棒性和稳定性。其设计过程涉及系统建模、观测器结构设计以及控制律的调整。 扰动观测器设计原理 系统建模: 首先,需要建立被控对象的数学模型,明确系统的状态变…

APP重启 - C#小函数类推荐

此文记录的是一个应用程序重启的函数。 /***应用程序重启动Austin Liu 刘恒辉Project Manager and Software DesignerE-Mail: lzhdim163.comBlog: http://lzhdim.cnblogs.comDate: 2024-01-15 15:18:00使用方法:AppUtil.RestartApplication(Application.Executa…

2024第八届全国职工职业技能大赛“网络与信息安全管理员”赛项技术文件及任务书

2024第八届全国职工职业技能大赛“网络与信息安全管理员”赛项技术文件及任务书 一、赛项概述:二、竞赛形式:三、竞赛规则四、竞赛样题4.1、第一场4.1.2、实操闯关赛4.2、第二场4.3、第三场 需要培训可以私信博主 欢迎交流学习! [X] &#x1…

【深入理解SpringCloud微服务】深入理解nacos

【深入理解SpringCloud微服务】深入理解nacos Nacos服务注册内存注册表内存注册表的更新通知客户端服务变更、服务同步、健康检查2.x版本nacos的变化 Nacos服务注册 spring-cloud-alibaba-nacos-discovery通过实现spring-cloud-commons规范定义的接口,完成nacos接入…

昇思25天学习打卡营第11天|xiaoyushao

今天分享ResNet50迁移学习。 在实际应用场景中,由于训练数据集不足,所以很少有人会从头开始训练整个网络。普遍的做法是,在一个非常大的基础数据集上训练得到一个预训练模型,然后使用该模型来初始化网络的权重参数或作为固定特征提…

IT服务运营过程中的资源要素管理(至简)

在IT服务运营管理过程中,所有资源要投入正式、连续、稳定运行,要保持规范化的管理和标准化的操作,具体包括工具管理、知识管理、服务台管理与评价、备件库管理等内容。 一、工具管理 1、工具的基本运营。见下表: 工具的基本运营…

论文阅读:Deep_Generic_Dynamic_Object_Detection_Based_on_Dynamic_Grid_Maps

目录 概要 Motivation 整体框架流程 技术细节 小结 不足 论文地址:Deep Generic Dynamic Object Detection Based on Dynamic Grid Maps | IEEE Conference Publication | IEEE Xplore 概要 该文章提出了一种基于动态网格图(Dynamic Grid Maps&a…

pyarmor,一个超厉害的 Python 库

在当今的软件开发领域,代码保护是一个不可忽视的重要环节。pyarmor作为一个强大的Python代码保护工具,可以帮助我们轻松地对Python脚本进行加密和授权控制,确保源码的安全。本文将深入介绍pyarmor的特性、安装方法、基本功能以及高级功能&…

操作系统面试知识点总结4

#来自ウルトラマンメビウス(梦比优斯) 1 文件系统基础 1.1 文件的相关概念 文件是以计算机硬盘为载体的存储在计算机上的信息集合,可以是文本文档、图片、程序。 文件的结构:数据项、记录、文件(有结构文件、无结构式…