随机森林1(了解整体知识架构)

很多人想学习或者了解随机森林,查到的资料都是先讲熵,再讲决策树,然后再讲随机森林,前面坚持不下来或者一个地方没理解透彻,导致无法向下学习,而且公式讲解不够清晰,例子不够详细,很难让小白彻底搞清楚到底是怎么回事。这里呢就先讲整体知识架构,然后再学习公式,最后和大家手把手计算一遍,体会其中的奥妙。

一、随机森林宏观介绍

随机森林,顾名思义,用随机的的方式构建森林,森林是由树组成的,而随机森林的树就是决策树。为什么认为多个决策树结果比一个决策树结果好呢?大家可以理解为三个臭皮匠顶上一个诸葛亮。这里还要说其他只讲公式博客中忽略的地方,有四点增加大家对随机森林的理解:

1、从样本中选出一份数据集只能画一棵树;

2 、要花多棵树就要选多次数据集,随机森林中的随机指的就是这里;

3 、最终结果由所有决策树投票决定,没涉及到权重;

4 、建树的数量是由多中因素决定的,比如数据集大小、计算资源等,一般来说在几十到 一千之间;

二、决策树宏观介绍

决策树很好理解,就是根据判断条件形成一个树状结构,对结果进行判断,比如下面就是顾客是否会买裤子的决策树模型。构建决策树的重点在于如何选择根节点和内部节点,根节点对应下图中的材料,内部节点对应下图中的裤型、尺寸、价钱。

决策树的发展主要经过了三个阶段,这三个阶段本质区别就是如何选择下一个内部节点。这三个阶段分别是:

1 、用信息增益选择下一个内部节点,代表算法是 ID3;

2 、用信息增益率选择下一个内部节点,代表算法是 C4.5;

3 、用基尼指数选择下一个内部节点,代表算法是 CART;

目前,随进森林中的决策树都是根据基尼指数来构建的。

三、随机森林四种实现方法

随机森林是常用的机器学习算法,既可以用于分类问题,也可用于回归问题。本文对 scikit-learn、Spark MLlib、DolphinDB、XGBoost 四个平台的随机森林算法实现进行对比测试。评价指标包括内存占用、运行速度和分类准确性。

测试结果如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/223889.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

弧形导轨的安装注意事项

随着弧形导轨的应用日渐普遍,在日常使用中总会遇到很多各种各样的问题,原因很多是安装不正确或者使用不恰当。不合理的使用不但不能充分发挥其价值还会导致使用寿命大打折扣,使企业造成不必要的损失,因此大伙有必要了解一些安装的…

【Spring Boot】视图渲染技术之Freemarker

一、引言 1、什么是Freemarker FreeMarker是一款模板引擎,基于模板和要改变的数据,并用来生成输出文本(HTML网页、电子邮件、配置文件、源代码等)的通用工具。它不是面向最终用户的,而是一个Java类库,是一款…

SAP 特殊采购类40--库存转储

我们今天测试一下特殊采购类型40----库存转储 特殊采购类40是我们在系统中进行跨工厂需求传递与跨工厂库存转移的主要手段之一,其核心目的在于将某个工厂中的物料需求传递到另外一个工厂 从PP的角度在去看到话就是有个需求的专递,从MM角度去看这个库存转…

使用Axure RP结合内网穿透工具制作本地静态web页面并实现公网访问

作者简介: 懒大王敲代码,正在学习嵌入式方向有关课程stm32,网络编程,数据结构C/C等 今天给大家讲解使用Axure RP结合内网穿透工具制作本地静态web页面并实现公网访问,希望大家能觉得实用! 欢迎大家点赞 &am…

ML流程标准规范汇总

1. 机器学习简介 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。它是一个流程性很强的工作,包括数据采集、数据清洗、数据预处理、特征工程、模型调优、模型融合、模型验证、模型持久化、在线服务等模块。 而在这些基本的步…

北斗三号短报文+4G的低功耗太阳能船载报位监控方案

国内海洋船舶群体长期在海上航行,多数海员由于海面无信号覆盖、个人卫星通信费用昂贵、无法自由使用船载公用卫星通信设备等原因,无法与家人和朋友保持联系,甚至在遇到危险的时候也无法及时向外界发出求救信号,管理单位难以掌握船…

docker-harbor的私有仓库

目录 harbor的特性 harbor的组件 docker-harbor部署 Docker1 页面访问 ​编辑 上传镜像 创建项目 创建用户 给项目创建成员 上传私有仓库 docker2(远程主机上传) 如何实现仓库之间进行同步 docker3 实现远程仓库同步 仓库 保存镜像 私有,自定义用户…

WPF仿网易云搭建笔记(1):项目搭建

文章目录 前言项目地址动态样式组合样式批量样式覆盖Prism新建UserControler修改Material Design 笔刷收放列表可以滚动的StackPanel列表点击展开或折叠 实现效果 前言 今天接着继续细化代码,把整体框架写出来 项目地址 WPF仿网易云 Gitee仓库 动态样式 【WPF】C#…

企业微信模板卡片消息

投票选择型和多项选择型卡片仅企业微信3.1.12及以上版本支持 文本通知型、图文展示型和按钮交互型三种卡片仅企业微信3.1.6及以上版本支持(但附件下载功能仍需更新至3.1.12) 微工作台(原企业号)不支持展示模板卡片消息 文本通知型…

知识库SEO:提升网站内容质量与搜索引擎排名的策略

随着搜索引擎算法的不断更新和优化,单纯依靠关键词堆砌和外部链接的时代已经过去。现在的SEO(搜索引擎优化)已经转向了以提供高质量、有价值内容为核心的阶段。知识库SEO便是这个新阶段的重要策略之一。 | 一、知识库SEO的概念与意义 1.定义…

【隐私计算】tf-encrypted隐私计算框架/库基础

tf-encrypted介绍 TF Encrypted是TensorFlow中一个用于加密机器学习的框架,它看起来和感觉上都很像TensorFlow,利用了Keras API 的易用性,同时通过安全多方计算和同态加密实现了对加密数据的训练和预测。TF Encrypted的目标是使保护隐私的机器…

关东升老师从小白到大牛系列丛书(由清华大学出版社出版)

助力技术成长,成就大牛之路 在这个科技日新月异的时代,掌握一门编程语言或专业技能已是必备,不再是奢侈。清华大学出版社出版的“从小白到大牛”的系列丛书,涵盖Python、Java、Kotlin、Android和SQL,助你快速在技术之…

严世芸龟法养生经

文章目录 严世芸理念荤素搭配,不偏嗜动静结合心平气和 龟息法 严世芸 严世芸,出生于1940年,现任上海中医药大学的主任医师,教授。他父亲是近代上海有名的中医,他又是著名医家张伯臾的亲传弟子。 从小就在父亲诊室里长…

PO 对象被锁定

问题描述 在创建PO对象的时候,由于上次电脑断网导致PO连接中断,但服务器中登录用户还在占用PO对象,需要手动在POD中删除锁对象才可编辑 解决方案 登录到POD页面,点击右上角Administration 点击Lock Overview,查看…

营销投放下半场,游戏行业如何寻觅进化空间?

摘要:微博,游戏行业突围市场新利器 游戏行业,格局永远在变。 从2017年互联网大厂集体盯上游戏大蛋糕,到2021年行业收缩,再到今年上半年实际销售收入继去年首次出现同比下滑…几经过山车式行情的游戏行业,…

加密友好不意味容易!亚洲地区实施了世界上最严格的加密规定!

2023年的一大主题是亚洲作为加密货币世界中至关重要的地区的持续崛起。这在很大程度上要归功于新加坡等著名的数字资产中心,以及香港和日本的重新崛起。 虽然这些司法管辖区确实欢迎数字资产,但围绕它们的炒作可能会有些误导,加密友好并非意味…

【AI】如何准备mac开发vue项目的环境

为了在Mac上开发Vue项目,你需要准备一些工具和环境。以下是主要的步骤: 安装Node.js和npm: Vue.js是一个基于JavaScript的框架,因此你需要Node.js环境。访问Node.js官网下载并安装Node.js,这也会自动安装npm&#xff0…

玩转大数据18:大规模数据处理与分布式任务调度

引言 在数字化时代,数据成为了一种宝贵的资源,对于企业和组织来说,如何有效地处理和分析这些数据成为了关键的竞争力。大规模数据处理与分布式任务调度作为大数据处理的核心技术,为解决这一问题提供了有效的解决方案。 随着数据…

赛宁网安多领域亮相第三届网络空间内生安全发展大会

2023年12月8日,第三届网络空间内生安全发展大会在宁开幕。两院院士、杰出专家学者和知名企业家相聚南京,围绕数字经济新生态、网络安全新范式进行广泛研讨,为筑牢数字安全底座贡献智慧和力量。 大会围绕“一会、一赛、一展”举办了丰富多彩的…

vue实现滑动验证

效果图: 源码地址:github文档地址: https://github.com/monoplasty/vue-monoplasty-slide-verify 使用步骤:1,安装插件: npm install --save vue-monoplasty-slide-verify 在main.js中使用一下&#xff…