机器学习(二十四):信息增益、独热编码和回归树

一、纯度测量方式——熵

第一步,定义p_{1}:一个子集里,某一类别的数据在子集中的占比

例如,下图这组输入数据,根据耳朵形状划分为两个子集,尖耳朵子集里,有四只猫,1只狗。则p_{1}是4/5

第二步,根据p_{1}计算熵,把熵用来测量纯度。

熵的计算公式:

熵和p_{1}的曲线如下:

熵计算的示例:

二、信息增益

信息增益:节点分裂以后,与分裂前相比,分裂以后熵的减少量。

以下图为例,根节点上,猫占比5/10,熵是1。根节点根据耳朵形状分裂以后,左节点的熵是0.72,右节点的熵是0.72,根据左右节点的权重计算出:分裂后的熵左节点权重*左节点熵+右节点权重*右节点熵=0.72。最后计算出信息增益,即熵减少量为0.28。

然后依次根据脸形状、是否有胡须,分别分裂根节点,计算信息增益,找出信息增益最大的特征。

使用信息增益的一个好处是,如果信息增益太小,就可以停止分裂。

信息增益公式:

w为左节点/右节点的权重。

三、决策树整体学习过程

1、所有训练数据从树的根节点上开始分裂

2、计算所有可能特征的信息增益,然后挑选信息增益最大的特征进行分裂

3、根据所选特征把数据集分裂成两个子集,把子集划分到左分支或右分支

4、在左/右分支上继续分裂过程,直至满足停止标准。停止标准是:

  •  当一个节点上全部是一个种类时,停止分裂。
  • 当继续分裂,会超过树的最大深度时,停止分裂。
  • 当纯度提高率低于阈值时,停止分裂。
  • 当子集的数据量低于阈值时,停止分裂。

四、独热编码

当一个特征有两个以上的可能值,可以使用独热编码。

示例:如果输入特征:耳朵形状具有多个可能值:尖的、软的、椭圆的,这种场景可以把耳朵形状特征拆成是否尖的、是否软的、是否椭圆的。

独热编码:一个特征有k个可能值,创建出k个二进制特征来替换它,值是0或1。

独热编码还可以用于神经网络、逻辑回归、线性回归。

五、连续值特征

当一个特证的可能值是连续的数值时,决策树如何分裂?

连续值特征处理方式:

  1. 把训练集数据范围内,选取不同值作为阈值
  2. 按照阈值分裂
  3. 不同阈值下进行信息增益计算
  4. 选取信息增益高的值作为阈值分裂节点

示例:如果输入特征是体重,体重的可能值是连续的数值。可以选定一个阈值,按照阈值来划分子集(当体重高于阈值、当体重低于阈值)

当分别以8、9、13作为体重阈值分裂,≥阈值时划入子集1,<阈值时划入子集2,分别计算子集1和子集2的纯度,最后计算分裂后的信息增益。

六、回归树

当输出结果不是0或1,而可能是连续数值时,可以使用回归树。

示例:

输入特征是耳朵形状、脸形状、是否有胡子,输出结果是体重,体重的结果不再是0或1

步骤一:训练集按照特征分裂出子集

步骤二:每个子集里的数据按照方差计算出结果

  • 方差计算公式:设有一组数据 X1, X2, ..., Xn,其均值为 μ,方差σ² = ∑(Xi - μ)² / n。

步骤三:按照权重,计算分裂后的方差减少值


 

学习来源:吴恩达机器学习,16.1-16.6节

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/51538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NVIDIA正偷偷复活卡皇泰坦,性能秒杀5090Ti

PC 硬件圈的瓜年年有,但最近似乎格外的多噢! 首先针对 13、14 代酷睿 CPU 不稳定问题,Intel 终于做出了正式回应: 他们在对退回的 CPU 进行大量分析后得出,确认是过高的运行电压和微代码算法错误导致了不稳定情况。 …

2-48 基于matlab的EM算法聚类可视化程序

基于matlab的EM算法聚类可视化程序,通过期望最大化算法(EM)优化类别间距,使得类别间距最大、类内间距最小。输出聚类前后结果及收敛曲线。程序已调通,可直接运行。 2-48 期望最大化算法(EM) 聚类…

微信小程序教程002:代码结构介绍和新建小程序页面

文章目录 代码介绍1、小程序代码构成2、小程序页面组成部分3、JSON配置文件的作用3.1 app.json文件3.2 project.config.json文件3.3 sitemap.json文件3.4 页面的.json文件 新建小程序页面WXML和WXSS介绍1、什么是WXML2、什么是WXSS 小程序的JS文件1、JS文件2、小程序中JS文件分…

使用abpcli创建项目时提示数据库迁移失败

问题描述 使用abpcli创建项目时提示数据库迁移失败! 解决方案: 1、检查数据库连接字符串 {"ConnectionStrings": {"Default": "serverlocalhost;port3306;databaseAcmeBookStore;userroot;passwordyour_password;"} }2、…

MySQL数据库的DQL的高级数据查询语句

目录 非等值联查: 等值联查: eg:5张表联查 连接查询——left/right/inner join on eg: 连接查询——union Eg: 不去重的并集——union all 子查询(内部查询) 1、where型子查询 2、from型子查询&a…

微信小程序之用户登录

用户登录是小程序的一个常用功能,当用户在浏览文章想要收藏时,在线上购买商品时,只有用户登录自己账号以后,才可以进一步使用这些功能。此文论述了小程序用户登录功能的设计流程 一、设计思路 1、界面 小程序界面效果如下所示&…

web后端--Spring事务管理

事务也要日志配置 !!!!debug前面记得加空格 logging:level:org.springframework.jdbc.support.JdbcTransactionManager: debugrollbackFor 默认情况下,只有出现RunTimeException才会回滚事务,rollbackfor属性用于控制出现何种异常类型,回滚…

Linux shell编程笔记0

一、shell概述 shell是一个命令行解释器,它接收应用程序/用户命令,然后调用操作系统内核。 shell还是一个功能强大的编程语言,易编写、易调试、灵活性强。 二、shell脚本入门 1.进入编辑模式进入到目录下 vi 文件名称如果是system下的文件…

电子水尺的工作原理

TH-SC24电子水尺,也被称为感应式防汛水尺或水位在线监测仪,是一种专门用于监测河流水域水位变化的高科技设备。它在防汛工作中发挥着至关重要的作用,能够实时、准确地提供水位数据,为防汛决策和应急响应提供有力支持。   工作原…

连续两年入选!得帆信息强势上榜2024 Gartner ICT技术成熟度曲线

近日,国际权威咨询机构Gartner发布了《Hype Cycle for ICT in China, 2024》(2024年中国ICT技术成熟度曲线)报告。得帆信息连续两年入选低代码应用平台(LCAP)标杆供应商(Sample Vendor)。 每年&…

ABAP 无意义的FORM 规范

发现一个极为奇怪的现象,大多数ABAP程序员会在FORM名称前加前缀frm_。 请问这是规范吗,整齐好看吗,又好看在哪里呢。这是哪个师傅教的,意义是什么?而且大多数人就来个frm_get_data与frm_del_data,然后这两…

基于springboot+vue+uniapp的居民健康监测小程序

开发语言:Java框架:springbootuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包&#…

(CVPR-2024)通过多阶段框架和定制的多解码器架构提高扩散模型的训练效率

通过多阶段框架和定制的多解码器架构提高扩散模型的训练效率 Paper Title:Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architecture Paper是密歇根大学发表在CVPR 2024的工作 Paper地址 Code地址 Abstract 扩散…

通过哨兵1号SAR数据获取桂林619洪水内涝情况

目录 1.SAR数据下载 2.SAR数据处理 1、下载轨道数据并进行轨道校正。 2、数据处理 3、转换SAR单位并创建彩色合成影像 3.查看彩色合成SAR数据 4.水体提取方法探讨 方法1:阈值提取法 方法2:深度学习提取水域 5.SAR与DEM数据获取 2024年6月19日&a…

MobaXterm 软件安装及使用

MobaXterm 软件安装及使用 1. 引言 MobaXterm是一款功能强大的终端软件,支持SSH、Telnet、RDP、VNC、FTP、SFTP、X11转发和串口等远程会话功能。它使得在Windows系统上进行Linux系统的远程管理和文件传输变得简单便捷。 2. MobaXterm 软件下载 下载链接&#xff…

蚓链数字化生态平台:构建城市智能商业,引领协同发展新潮流

​在当今数字化飞速发展的时代,城市商业的运行模式正在经历着数字化变革。蚓链数字化生态平台应运而生,以其强大的功能和创新的理念,成为构建城市智能商业枢纽中心的关键力量,推动着平台互通、业务贯通、管理协同的全新发展格局。…

五个优秀的免费 Ollama WebUI 客户端推荐

认识 Ollama 本地模型框架,并简单了解它的优势和不足,以及推荐了 5 款开源免费的 Ollama WebUI 客户端,以提高使用体验。 什么是 Ollama? Ollama 是一款强大的本地运行大型语言模型(LLM)的框架&#xff0c…

opencascade AIS_ManipulatorOwner AIS_MediaPlayer源码学习

前言 AIS_ManipulatorOwner是OpenCascade中的一个类,主要用于操纵对象的交互控制。AIS_ManipulatorOwner结合AIS_Manipulator类,允许用户通过可视化工具(如旋转、平移、缩放等)来操纵几何对象。 以下是AIS_ManipulatorOwner的基…

深度强化学习 ②(DRL)

参考视频:📺王树森教授深度强化学习 前言: 最近在学习深度强化学习,学的一知半解😢😢😢,这是我的笔记,欢迎和我一起学习交流~ 这篇博客目前还相对比较乱,后面…

angular入门基础教程(一)环境配置与新建项目

ng已经更新到v18了,我对他的印象还停留在v1,v2的版本,最近研究了下,与react和vue是越来越像了,所以准备正式上手了。 新官网地址:https://angular.cn/ 准备条件 nodejs > 18.0vscodeng版本18.x(最新的版本) {"name&qu…