机器学习实战-决策树

1.概念        

决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。

  2.流程

(1)收集数据

(2)准备数据,输入只能为标称型数据,所以数值型数据必须离散化

(3)分析数据,树构造完成之后,检查图像是否符合预期

(4)训练算法,构造树德数据结构

(5)测试算法,使用经验树计算错误率

(6)使用算法,适用于任何监督学习算法     

3.信息增益

     划分数据集的最大原则是:将无序的数据变得更加有序。通过计算信息增益来判定选择哪个特征。集合信息的度量方式称为香浓熵或者简称为熵。这个名字来源于信息论之父 克劳德-香农。

克劳德-香农 被公认为时二十世纪最聪明的人之一,《财富公式》中说,“贝尔实验室和MIT有很多人将香农和爱因斯坦相提并论,而其他人认为这种对比是不公平的-对香农是不公平的”。

熵:信息的期望值。

符号的定义为:其中是选择该分类的概率。

熵的表示为:

def calcShannonEnt(dataSet) :numEntries = len(dataSet)labelCounts = {}for featVec in dataSet :currentLabel = featVec[-1]if currentLabel not in labelCounts.keys() :labelCounts[currentLabel] = 0labelCounts[currentLabel] += 1shannonEnt = 0.0for key in labelCounts :prob = float(labelCounts[key])/numEntriesshannonEnt -= prob * log(prob,2)return shannonEnt

熵越高,则混合的数据也越多,在数据集中添加更多分类,则熵的值会变大。

4

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/825497.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【MySql】MySQL 中的 INNER JOIN 和 LEFT JOIN 使用指南

像我这样迷茫的人 像我这样寻找的人 像我这样碌碌无为的人 你还见过多少人 像我这样庸俗的人 从不喜欢装深沉 怎么偶尔听到老歌时 忽然也晃了神 像我这样懦弱的人 凡事都要留几分 怎么曾经也会为了谁 想过奋不顾身 🎵 毛不易《像我这样的人》 …

Google DeepMind: Many-Shot vs. Few-Shot

本文介绍了如何通过增大上下文窗口,利用大型语言模型(LLMs)进行多实例上下文学习(Many-Shot In-Context Learning,ICL)的方法。主要描述了现有的几实例上下文学习方法虽然在推理时能够通过少量例子学习&…

详解混合精度训练(Mixed Precision Training)

介绍 混合精度训练(Mixed Precision Training)是一种在深度学习中提高训练速度和减少内存占用的技术。在PyTorch中,通过使用半精度浮点数(16位浮点数,FP16)和单精度浮点数(32位浮点数&#xff…

“全网最全”LLM推理框架集结营 | 看似微不足道,却决定着AIGC项目的成本、效率与性能!

00-前序 随着ChatGPT、GPT-4等大语言模型的出现,彻底点燃了国内外的学者们与企业家们研发LLM的热情。国内外的大语言模型如雨后春笋一般的出现,这些大语言模型有一部分是开源的,有一部分是闭源的。 伴随着大语言模型的出现,国内外…

树莓派驱动RGB灯-rpi-ws281x库安装

1 树莓派的操作系统安装 1.1 操作系统选择 这个选择64位的操作的系统来驱动,一定不要选择32位的操作系统。笔者在这个地方浪费不少时间,具体原因不是很清楚。如果32位的操作系统,后面在rpi-ws281x的库时候会有报错。 1.2 操作系统链接如下…

JavaEE初阶Day 11:多线程(9)

目录 Day 11&#xff1a;多线程&#xff08;9&#xff09;生产者消费者模型1. 阻塞队列实现 线程池1. 标准库线程池&#xff08;ThreadPoolExecutor&#xff09;1.1 corePoolSize & maximumPoolSize1.2 keepAliveTime & unit1.3 BlockingQueue<Runnable> workQue…

windows docker desktop==spark环境搭建

编写文件docker-compose.yml version: 3services:spark-master:image: bde2020/spark-master:3.1.1-hadoop3.2container_name: spark-masterports:- "8080:8080"- "7077:7077"- "2220:22"volumes:- F:\spark-data\m1:/dataenvironment:- INIT_D…

Java框架 --- MyBatisPlus

一&#xff1a; MyBatisPlus 官方文档 MyBatis-Plus 二&#xff1a;

代码随想录算法训练营第四十四天| 完全背包,518. 零钱兑换 II ,377. 组合总和 Ⅳ

题目与题解 完全背包 题目链接&#xff1a;完全背包 代码随想录题解&#xff1a;​​​​​​​完全背包 视频讲解&#xff1a;带你学透完全背包问题&#xff01; 和 01背包有什么差别&#xff1f;遍历顺序上有什么讲究&#xff1f;_哔哩哔哩_bilibili 解题思路&#xff1a; 看…

云轴科技ZStack助力上银基金余额宝TA系统快速上线

上银基金管理有限公司&#xff08;上银基金&#xff09;通过ZStack Cloud云平台ZStack分布式存储融合架构构建关键余额宝TA系统&#xff08;开放式基金登记过户系统 &#xff09;实现业务快速如期上线。上银基金不仅可以借助ZStack云平台实现VMware纳管迁移&#xff0c;支持双机…

[C++11] 基础类型扩展解读(long long、char16_t char32_t)

说明&#xff1a; long long是一种基本数据类型&#xff0c;它通常是一种至少64位的有符号整数类型。在C中&#xff0c;long long类型能够存储的数值范围远远超过int或long类型&#xff0c;这使得它非常适合存储非常大的整数。 char16_t和char32_t是C11标准引入的两种新的数据…

【华为OD机试】高效货运【C卷|200分】

【华为OD机试】-真题 !!点这里&#xff01;&#xff01; 【华为OD机试】真题考点分类 !!点这里 !! 题目描述 老李是货运公司承运人&#xff0c;老李的货车额定载货重量为 wt。 现有两种货物&#xff1a; 货物 A 单件重量为 wa&#xff0c;单件运费利润为 pa 货物 B 单件重量为…

Spring学习(三)——AOP

AOP是在不改原有代码的前提下对其进行增强 AOP(Aspect Oriented Programming)面向切面编程&#xff0c;在不惊动原始设计的基础上为其进行功能增强&#xff0c;前面咱们有技术就可以实现这样的功能即代理模式。Java设计模式——代理模式-CSDN博客 基础概念 连接点&#xff08…

2024经常用且免费的10个网盘对比,看看哪个比较好用!

网盘在我们的工作和学习中经常会用到&#xff0c;也是存储资料的必备工具&#xff0c;有了它&#xff0c;我们就不用走到哪都带着移动硬盘了&#xff0c;而目前市场上的主流网盘还有数十款&#xff0c;其中有免费的也有付费的&#xff0c;各家不一&#xff0c;今天小编就来为您…

Linux 安装 GHCup,GHC, cabal 以及通过 cabal 安装 pandoc

文章目录 安装 GHCUP1. 指定国内镜像2. 执行安装3. 安装检查 安装 pandoc1. 初始化包列表2. 安装命令3. Trouble ShootingFailure to build cryptonMemory Exhausted 内存不足 安装 GHCUP 1. 指定国内镜像 在 GHCup 官方网站 上面提供了安装方式&#xff1a; curl --proto h…

[Android]模拟器登录Google Play失败

问题&#xff1a; 模拟器登录Google Play失败&#xff0c;提示couldnt sign in there was a problem communicating with google servers. try again later. 原因&#xff1a; 原因是模拟器没有连接到互联网&#xff0c;打开模拟器中Google浏览器进行搜索一样不行。 解决&am…

移动硬盘(PSSD)中文件占用空间远大于文件大小

定义 文件的大小&#xff1a;文件内容实际具有的字节数&#xff0c;它以Byte为衡量单位&#xff0c;只要文件内容和格式不发生变化&#xff0c;文件大小就不会发生变化。 文件占用空间&#xff1a;文件在磁盘上的所占空间&#xff0c;它最小的计量单位是“簇(Cluster)”。 为…

C语言基础--数组和指针

数组和指针 数组与指针的关系与运用 在C语言中&#xff0c;数组和指针是两个重要的概念&#xff0c;它们之间有着密切的联系。本文将介绍如何通过指针操作数组元素&#xff0c;探讨指针数组的概念以及如何将数组名作为函数参数&#xff0c;帮助读者更好地理解和运用数组与指针…

MySQL高负载排查方法最佳实践(15/16)

高负载排查方法 CPU占用率过高问题排查 使用mpstat查看cpu使用情况。 # mpstat 是一款 CPU 性能指标实时展示工具 # 能展示每个 CPU 核的资源视情况&#xff0c;同时还能将资源使用情况进行汇总展示 # 如果CPU0 的 %idle 已经为 0 &#xff0c;说明此核已经非常繁忙# 打印所…

Istio介绍

1.什么是Istio Istio是一个开源的服务网格&#xff08;Service Mesh&#xff09;框架&#xff0c;它提供了一种简单的方式来为部署在Kubernetes等容器编排平台上的微服务应用添加网络功能。Istio的核心功能包括&#xff1a; 服务治理&#xff1a;Istio能够帮助管理服务之间的…