从 AdaBoost 到随机森林:深入解析集成学习方法【集成学习】

集成学习的思想

集成学习是一种通过组合多个基学习器(弱学习器)来提高模型预测性能的机器学习方法。集成学习的思想类似于谚语“三个臭皮匠,顶个诸葛亮”,即通过集成多个表现较差的学习器,可以获得一个强大的整体模型。

什么是学习器?

  1. 强学习器:如神经网络等,通常具有较高的预测准确性,但需要大量的数据和计算资源来训练。
  2. 弱学习器:如逻辑回归等,个体性能较差,但计算代价低,容易训练。

集成学习的优点

  • 提高准确性:通过组合多个弱学习器,能显著提高模型的预测准确性。
  • 适应性强:适用于各种类型的数据和问题,应用范围广泛。

集成学习的核心问题

  1. 如何获得个体学习器

    • 个体学习器需要有所差异,这可以通过改变训练数据的 权值概率分布 来实现。例如,增大某类数据的权值,使其在训练中占据更重要的位置。
  2. 如何组合个体学习器

    • 最常见的组合方式是 线性相加 ,但也有其他方式,如投票法等。

Boosting 和 Bagging 的定义与机制

基于上述两个核心问题,Boosting和Bagging应运而生,它们分别采用不同的方法来解决这些问题。

Boosting

定义:Boosting意为“增强”,通过逐步调整弱学习器来提高模型的性能。

工作机制

  1. 获得个体学习器

    • Boosting按顺序(串行)训练多个弱学习器,每个学习器都试图修正前一个学习器的错误。
    • 每次训练后,样本的权重会根据前一个学习器的表现进行调整。错误分类的样本权重会增加,而正确分类的样本权重会减少。这样,后续的学习器会更加关注难以分类的样本。
  2. 组合个体学习器

    • 最终模型是多个弱学习器的加权组合(加法模型),这些学习器共同决定预测结果。

代表方法:AdaBoost、GBDT(梯度提升决策树)、XGBoost、LightGBM。

  1. AdaBoost:最经典的Boosting方法,通过不断调整样本权重,聚焦于被前一轮分类错误的样本。

    • 权重调整:初始时,每个样本的权重相同。每一轮训练后,错误分类的样本权重增加,正确分类的样本权重减少。
    • 组合策略:通过加权投票来决定最终分类结果。
  2. GBDT:利用梯度提升的思想,逐步减小预测误差,通过多个决策树的累加来逼近真实值。

    • 误差减少:每一轮训练基学习器时,GBDT会拟合前一轮的残差,即真实值与预测值之间的差距。
    • 组合策略:通过累加所有基学习器的预测结果来做最终预测。
  3. XGBoost:在GBDT的基础上进行了改进,提供了更高效的计算和更强的正则化功能。

    • 改进点:采用二阶导数信息、并行计算、正则化处理等,提升了训练速度和模型性能。
    • 组合策略:与GBDT类似,通过 累加 各基学习器的预测结果。
  4. LightGBM:优化了XGBoost的算法,能够处理更大规模的数据集,训练速度更快。

    • 特征分裂:采用基于直方图的决策树算法,减少了数据扫描次数,提升了训练速度。
    • 组合策略:与XGBoost相似,通过累加预测结果。

示例:以AdaBoost为例,它通过不断调整样本权重,聚焦于被前一轮分类错误的样本。每个学习器的输出通过加权投票来决定最终分类结果。

Bagging

定义:Bagging是“Bootstrap Aggregating”的缩写,通过并行训练多个弱学习器来提高模型的稳定性和准确性。

工作机制

  1. 获得个体学习器

    • Bagging从原始数据集中随机抽取多个子集(通常是有放回的抽样),每个子集用于训练一个独立的弱学习器。
  2. 组合个体学习器

    • 分类问题中通过投票决定最终结果,回归问题中通过计算平均值决定最终预测。

代表方法:随机森林(Random Forest)。

  1. 随机森林:Bagging的经典应用,通过随机抽样生成多个决策树,同时对特征进行随机选择,提高了模型的多样性和鲁棒性。
    • 抽样策略:采用放回抽样方法,从原始数据集中随机抽取子集,每个子集训练一个决策树。
    • 特征随机性:每个决策树在节点分裂时,随机选择部分特征进行最佳分裂,提高了模型的多样性。
    • 组合策略:分类问题通过多数 投票 决定最终结果,回归问题通过 取均值 得到最终预测。

示例:随机森林通过随机抽样生成多个决策树,同时对特征进行随机选择,提高了模型的多样性和鲁棒性。最终结果通过多数投票(分类)或取均值(回归)得出。

总结

集成学习方法通过组合多个基学习器,提高了模型的预测能力和鲁棒性。Boosting和Bagging作为集成学习的两种主要策略,通过不同的机制和策略来提升模型的性能。Boosting通过 串行训练 和加权调整样本权重,重点关注难分类的样本,而Bagging通过 并行训练 和随机抽样生成多样化的训练集,提升模型的稳定性和准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/21084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0开发一个Chrome插件:测试项目效果

前言 这是《从0开发一个Chrome插件》系列的第五篇文章,本系列教你如何从0去开发一个Chrome插件,每篇文章都会好好打磨,写清楚我在开发过程遇到的问题,还有开发经验和技巧。 专栏: 从0开发一个Chrome插件:什么是Chrome插件?从0开发一个Chrome插件:开发Chrome插件的必要…

Glow模型【图解版加代码】

论文:Glow: Generative Flow with Invertible 1x1 Convolutions 代码:pytorch版本:rosinality/glow-pytorch: PyTorch implementation of Glow (github.com) 正版是TensorFlow版本 openai的 参考csdn文章:Glow-pytorch复现gith…

Cobalt_Strike(CS)渗透工具安装使用到免杀上线

Cobalt_Strike(CS)安装到免杀上线 原文链接: cs免杀上线 点我 https://mp.weixin.qq.com/s?__bizMzkxNDY5NzMxNw&mid2247483862&idx1&snc6b4da3ce5772a075431098227397baa&chksmc16b3cdcf61cb5ca06f61513…

以sqlilabs靶场为例,讲解SQL注入攻击原理【18-24关】

【less-18】 打开时,获取了自己的IP地址。,通过分析源码知道,会将用户的user-agent作为参数记录到数据库中。 提交的是信息有user-Agent、IP、uname信息。 此时可以借助Burp Suite 工具,修改user_agent,实现sql注入。…

力扣14. 最长公共前缀

编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 ""。 示例 1: 输入:strs ["flower","flow","flight"] 输出:"fl"示例 2: 输…

数字水印 | 盲水印嵌入:量化索引机制 QIM

目录 1 什么是量化索引调制?1.1 为什么使用 QIM?1.2 QIM 的算法思想1.3 什么是量化操作?1.4 论文中对 QIM 的介绍 2 盲水印论文中的实际应用2.1 均匀量化器2.2 对论文的分析 😇前言:不知道为什么,Q…

Windows下如何把Oracle从C盘整体迁移到D盘?

(一)写这篇文章的起因 这篇文章适合刚接触的技术小白follow操作,整理文章不易,大家多多点赞转发 起因是昨天有会员在群里发问,客户要把Oracle整个目录从C盘挪到D盘怎么弄 客户那边的人把Oracle整个程序数据文件都安装…

【C++】vector的模拟实现

💗个人主页💗 ⭐个人专栏——C学习⭐ 💫点击关注🤩一起学习C语言💯💫 目录 导读 1. vector的核心框架接口 2. 构造函数 2.1 基本构造 2.2 拷贝构造(传统写法) 2.3 析构函数 2…

《python》poetry install下载缓慢,网络问题断开连接--poetry换源镜像下载

在使用打包工具poetry进行打包的是出现了一个问题就是,在使用poetry进行打包的时候出现了,连接断开这样的问题,这个问题是可以通过换源,通过国内的镜像来解决这个问题就可以了。 找到项目中的pyoroject。toml文件这个文件中写了一…

02-2.3.2_2 单链表的查找

喜欢《数据结构》部分笔记的小伙伴可以订阅专栏,今后还会不断更新。 此外,《程序员必备技能》专栏和《程序员必备工具》专栏(该专栏暂未开设)日后会逐步更新,感兴趣的小伙伴可以点一下订阅、收藏、关注! 谢…

FJSP:蛇鹫优化算法(SBOA)求解柔性作业车间调度问题(FJSP),提供MATLAB代码

详细介绍 FJSP:蛇鹫优化算法(Secretary bird optimization algorithm,SBOA)求解柔性作业车间调度问题(FJSP),提供MATLAB代码-CSDN博客 完整MATLAB代码 FJSP:蛇鹫优化算法&#xff…

设计模式(十三)行为型模式---命令模式(command)

文章目录 命令模式简介结构UML图具体实现UML图代码实现 命令模式简介 命令模式(command pattern)也叫动作模式或者事务模式。它是将请求(命令)封装成对象,使得可以用不同的请求对客户端进行参数化,具体的请…

梯度下降: 01.原理与代码实操

1. 简介 梯度下降法(GradientDescent) 算法,不像多元线性回归那样是一个具体做回归任务的算法,而是一个非常通用的优化算法来帮助一些机器学习算法(都是无约束最优化问题)求解出最优解,所谓的通用就是很多机器学习算法都是用梯度下降,甚至深度学习也是用它来求解最优解。…

区块链--Ubuntu上搭建以太坊私有链

1、搭建私链所需环境 操作系统:ubuntu16.04,开虚拟机的话要至少4G,否则会影响测试挖矿时的速度 软件: geth客户端 Mist和Ethereum Wallet:Releases ethereum/mist GitHub 2、安装geth客户端 sudo apt-get update …

Java——常见进制

在计算机领域有四种比较常见的进制,分别是二进制、八进制、十进制和十六进制。 一、二进制(Binary) 二进制(Binary)是一种基数为2的数值系统,仅使用两个符号:0和1。所以它的进位规则就是逢二进…

MYSQL一、MYSQL的了解

一、MySQL概述 1、数据库相关概念 为了方便,我们一般把mysql数据库管理系统简称位mysql数据库 通过可以操作数据库管理系统,然后再通过数据库管理系统操作(数据库)和(数据库里面的数据) 2、当前主流的关系…

第二站:Java——集合框架的深邃海洋(续)

### Java——集合框架的深邃海洋(续) 在我们的Java集合框架探索之旅中,我们已经涉足了基本操作、高级特性,现在让我们深入探讨一些特定场景下的应用和进阶技巧,比如集合的分区操作、分组、并行流的性能考量&#xff0…

视频汇聚EasyCVR平台视图库GA/T 1400协议与GB/T 28181协议的区别

在公安和公共安全领域,视频图像信息的应用日益广泛,尤其是在监控、安防和应急指挥等方面。为了实现视频信息的有效传输、接收和处理,GA/T 1400和GB/T 28181这两个协议被广泛应用。虽然两者都服务于视频信息处理的目的,但它们在实际…

Llama(一):Mac M1芯片运行Llama3

目录 安装Ollama for Mac 下载Llama 3模型 运行Llama3 试用Llama3 在命令行中使用Llama3 背景 本地环境:Mac M1,16GB内存 安装Ollama for Mac 官方地址 https://ollama.com/download/Ollama-darwin.zip 链接: 百度网盘 提取码: 8wqx 下载Llama 3模型 oll…

从国产低代码龙头企业零赛云看零(低)代码在软件开发行业和工业企业的应用趋势

从国产低代码龙头企业零赛云看零(低)代码在软件开发行业和工业企业的应用趋势 --- 什么是零(低)代码?零(低)代码开发完整指南 一、什么是零(低)代码? 零&am…