机器学习9-随机森林

随机森林(Random Forest)是一种集成学习方法,用于改善单一决策树的性能,通过在数据集上构建多个决策树并组合它们的预测结果。它属于一种被称为“集成学习”或“集成学习器”的机器学习范畴。

以下是随机森林的主要特点和原理:

1. 决策树的集成:随机森林通过构建多个决策树来解决问题。每个决策树都是一种分类器,通过对输入数据进行一系列的决策来进行分类。

2. 随机抽样:在构建每个决策树时,随机森林从原始数据集中进行有放回的随机抽样。这意味着每个决策树的训练数据都是从原始数据集中随机选择的,并且每个样本有可能在一个树中被多次选择,而在另一个树中可能一次都没有被选择。

3. 特征随机性:随机森林还引入了特征的随机性。在每个节点上,算法仅考虑一个随机子集的特征来进行分裂。这有助于确保每个决策树都不会过于依赖于某些具体特征。

4. 投票机制:随机森林中的每个决策树都对新样本进行分类,最终的分类结果是通过投票机制确定的。即,每个树投票给某一类别,最终选择得票最多的类别作为随机森林的最终预测结果。

优点:

  • 对于大量特征和样本的高维数据集,随机森林通常表现出色。
  • 对于缺失值和不平衡数据的处理较为鲁棒。
  • 通过对多个树的组合,降低了过拟合风险。

随机森林在实践中广泛应用于分类和回归问题,并且由于其性能和鲁棒性而成为许多机器学习任务的首选算法之一。

需求:

还是同样,预测哪些人具有购买SUV的可能性。

代码:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd### Importing the dataset
dataset = pd.read_csv('Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values### Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)### Feature Scaling
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)### Fitting Random Forest to the Training set
from sklearn.ensemble import RandomForestClassifier
classifier = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0)
classifier.fit(X_train, y_train)### Predicting the Test set results
y_pred = classifier.predict(X_test)### Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)### Visualising the Training set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_train, y_train
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest Classification (Training set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()### Visualising the Test set results
from matplotlib.colors import ListedColormap
X_set, y_set = X_test, y_test
X1, X2 = np.meshgrid(np.arange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),np.arange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01))
plt.contourf(X1, X2, classifier.predict(np.array([X1.ravel(), X2.ravel()]).T).reshape(X1.shape),alpha = 0.75, cmap = ListedColormap(('red', 'green')))
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
for i, j in enumerate(np.unique(y_set)):plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1],c = ListedColormap(('red', 'green'))(i), label = j)
plt.title('Random Forest Classification (Test set)')
plt.xlabel('Age')
plt.ylabel('Estimated Salary')
plt.legend()
plt.show()

关键解释:

  1. 特征缩放:
  • 使用StandardScaler进行特征缩放,将特征数据进行标准化处理,使其具有零均值和单位方差。
  • 均值为零(Zero Mean): 通过减去特征的均值,可以使特征分布的中心位于零点。这样做有助于消除不同特征之间的偏差,确保模型不会在某些特征上过度拟合。如果某个特征的均值远离零,模型可能会更关注那些数值较大的特征。
  • 单位方差(Unit Variance): 通过除以特征的标准差,可以将特征的尺度统一为相似的范围。这是因为不同特征可能具有不同的数值范围,如果某个特征的值较大,它可能会在模型中占据主导地位,而忽略其他特征。通过保持单位方差,确保了所有特征对模型的贡献相对均衡。

2. 随机森林分类器:

    • 使用RandomForestClassifier创建一个随机森林分类器,设置树的数量(n_estimators)为10,划分标准(criterion)为'entropy',并指定随机种子(random_state)为0。
    • criterion: 这是用于衡量分裂质量的标准。在决策树的每个节点上,都需要选择一个特征进行分裂。criterion 参数定义了用于评估分裂质量的准则。在这里,设置为 'entropy',表示使用信息熵来度量不纯度。信息熵越低,表示节点的纯度越高,也就是说,样本越趋向于属于同一类别。

结果:

结论:

用随机森林预测的效果是很好的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/679905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IT行业含金量高的证书-软考

软考全称计算机技术与软件专业技术资格(水平)考试,软考既是职业资格考试,又是职称资格考试。2021年12月2号发布新版的国家职业资格目录,软考是在计算机技术领域中的唯一的国家职业资格。 一、好处 软考是一个神奇又特…

【数据结构】14 队列(带头结点的链式存储和顺序存储实现)

定义 队列是一个有序线性表,但是队列的插入、删除操作是分别在线性表的两个不同端点进行的。 设一个队列 Q ( a 1 , a 2 , . . . , a n ) Q (a_1, a_2,...,a_n) Q(a1​,a2​,...,an​),那么 a 1 a_1 a1​被称为队头元素, a n a_n an​为队…

金融科技力

金融科技 区块链二级目录三级目录 区块链 区块链安全:保密性、完整性、可用性 最重要的点:保密性零知识证明: 1、完整性(真的假不了) 2、可靠性(假的真不了) 3、零知识性(知道真的&…

手把手教你开发Python桌面应用-PyQt6图书管理系统-图书信息修改实现

锋哥原创的PyQt6图书管理系统视频教程: PyQt6图书管理系统视频教程 Python桌面开发 Python入门级项目实战 (无废话版) 火爆连载更新中~_哔哩哔哩_bilibiliPyQt6图书管理系统视频教程 Python桌面开发 Python入门级项目实战 (无废话版) 火爆连载更新中~共计24条视频&…

从互联网的公开信息中,找到属于你的赚钱思路

一、教程描述 人们在互联网上的每一次搜索、每一次关注、每一次点击、每一次点赞、每一次评论、每一次付费,都生成了大量的数据和信息,暴露着人们的真实想法、欲望、恐惧和需求。这些数据和信息,就是我们身边的一座“金矿”,而大…

项目中的一些疑难杂记

疑难杂记 1. 关于正则表达式对象的匹配状态问题发现查找原因解决方法done 喜大普奔 1. 关于正则表达式对象的匹配状态 问题发现 因页面中多个函数使用到同一个正则表达式,想着定义个变量 export 出去然后在对应的函数中引用,一切正常中… 直到有一天&a…

1【算法】——最大子数组问题(maximum subarray)

一.问题描述 假如我们有一个数组,数组中的元素有正数和负数,如何在数组中找到一段连续的子数组,使得子数组各个元素之和最大。 二.问题分析 分治法求解: 初始状态: low0;highA.length-1;mid&am…

CGAL::2D Arrangements-2

2.3.2 遍历Arrangement Halfedge Arrangement的一条Halfedge是和一个 X_monotone_curve_2对象绑定,这个curve可以通过e->curve()获取。 e->source()得到源点,e->target()得到目标点,e->twin()得到半边的对边, 第个半…

最新的 Ivanti SSRF 零日漏洞正在被大规模利用

Bleeping Computer 网站消息,安全研究员发现 Ivanti Connect Secure 和 Ivanti Policy Secure 服务器端请求伪造 (SSRF) 漏洞(CVE-2024-21893 )正在被多个威胁攻击者大规模利用。 2024 年 1 月 31 日,Ivanti 首次就网关 SAML 组件…

Java设计模式——策略

前言 策略模式是平时Java开发中常用的一种,虽然已有很多讲解设计模式的文章,但是这里还是写篇文章来从自己理解的角度讲解一下。 使用场景 我们不妨进行场景假设,要对我们的软件进行授权管理:在启动我们的软件之前先要校验是否…

万维网的文档

目录 1 万维网的文档 动态万维网文档 CGI CGI 网关程序 活动万维网文档 用 Java 语言创建活动文档 1 万维网的文档 分为: 静态万维网文档。内容不会改变。简单。(html、xml、css) 动态万维网文档。文档的内容由应用程序动态创建。 活动万维网文档。由浏览器端…

SpringBoot3整合Knife4j

前置&#xff1a; 官网&#xff1a;快速开始 | Knife4j gitee&#xff1a;swagger-bootstrap-ui-demo: knife4j 以及swagger-bootstrap-ui 集成框架示例项目 - Gitee.com 1.依赖引入&#xff1a; ps&#xff1a;json处理需要引入相关包 <dependency><groupId>c…

作业 2.12

封装strlen #include <stdio.h> #include <string.h> int main(int argc, const char *argv[]) { char arr[30]; gets(arr); char *paarr; int i0; int sum0; for(i0;arr[i]!\0;i) { sum; } printf("%d",s…

基于语义解析的知识图谱问答系统

目录 前言1 背景介绍2 语义解析的核心技术2.1 自然语言处理&#xff08;NLP&#xff09;2.2 语义表示学习2.3 实体关系抽取 3 语义解析的基本步骤3.1 短语检测3.2 资源映射3.3 语义组合3.4 逻辑表达式生成 4 处理与知识图谱无关的问句4.1 Bridging技术4.2 确定谓词4.3 Paraphra…

【新书推荐】7.4节 寄存器间接和相对寻址方式

本节内容&#xff1a;当指令操作数为内存操作数&#xff0c;且内存操作数的地址使用指针寄存器表示时&#xff0c;称为寄存器间接寻址方式。 ■寄存器间接寻址方式&#xff1a;在地址表达式中&#xff0c;只能使用BX、SI、DI、BP四个指针寄存器用来寻址。 7.4.1 寄存器间接寻…

猫头虎分享已解决Bug || API限制超额(API Rate Limiting):RateLimitExceeded, APILimitReached

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

mysql入门到精通006-基础篇-多表查询

1、多表关系介绍 1.1 概念 项目开发中&#xff0c;在进行数据库表结构设计时&#xff0c;会根据业务需求和业务模块之间的关系&#xff0c;分析并设计表结构&#xff0c;由于业务之间相互关联&#xff0c;所以各个表结构之间也存在各种联系&#xff0c;基本上分为3种&#xf…

MongoDB聚合:$unwind

使用$unwind可以对输入文档数组字段进行结构&#xff0c;为每个数组元素输出一个文档&#xff0c;并且每个输出文档都是输入文档数组字段的值。相当于将内嵌的数组文档提升到了顶层。 语法 可以通过字段路径或文档操作符来展开数组字段。 通过字段操作符展开 可以将数组字段…

如何用 docker 部署程序?

如何用 docker 部署程序&#xff1f;这个问题有点笼统。 如果是MySQL、Redis这些&#xff0c;只需要拉取镜像&#xff0c;然后设置必要的配置&#xff0c;最终创建并运行实例即可。 如果你的应用是一个Java应用程序&#xff0c;使用Docker来部署它会涉及到Java特有的一些考虑…

c# Config 配置文件帮助类

public class ConfigHelper { #region 获取指定目录 AppSettings 配置文件值 /// <summary> /// 获取指定目录 AppSettings 配置文件值 /// </summary> /// <param name"key"></param> /// <…