机器学习-面经(part6、集成学习)

机器学习-面经(part6、集成学习)

news/2025/7/6 23:36:31/文章来源:https://blog.csdn.net/qq_40102160/article/details/136492146

10 集成学习

定义：通过结合多个学习器(例如同种算法但是参数不同，或者不同算法)，一般会获得比任意单个学习器都要好的性能，尤其是在这些学习器都是"弱学习器"的时候提升效果会很明显。

10.1 Boosting（提升法）

可以用于回归和分类问题，它每一步产生一个弱预测模型（如决策树），并加权累加到总模型中加权累加到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升。

梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合；提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值。

提升的理论意义：如果一个问题存在弱分类器，则可以通过提升的办法得到强分类器。

基本思想：一个接一个的(串行)训练基学习器，每一个基学习器主要用来修正前面学习器的偏差。

10.1.1 梯度提升(GBDT)

DT表示使用决策树作为基学习器，使用的CART树。GBDT是迭代，但GBDT每一次的计算是都为了减少上一次的残差，进而在残差减少（负梯度）的方向上建立一个新的模型，其弱学习器限定了只能使用CART回归树模型。残差=（实际值-预测值）

10.1.1.1 GBDT是训练过程如何选择特征？

GBDT使用基学习器是CART树，CART树是二叉树，每次使用yes or no进行特征选择，数值连续特征使用的最小均方误差，离散值使用的gini指数。在每次划分特征的时候会遍历所有可能的划分点找到最有的特征分裂点，这是用为什么gbdt会比rf慢的主要原因之一。

10.1.1.2 GBDT如何防止过拟合？

一般使用缩减因子对每棵树进行降权，可以使用带有dropout的GBDT算法，dart树，随机丢弃生成的决策树，然后再从剩下的决策树集中迭代优化提升树。

GBDT与Boosting区别较大，它的每一次计算都是为了减少上一次的残差，而为了消除残差，可以在残差减小的梯度方向上建立模型;

在GradientBoost中，每个新的模型的建立是为了使得之前的模型的残差往梯度下降的方法。

10.1.1.3 梯度提升的如何调参？‍

1. 首先我们从步长(learning rate)和迭代次数(n_estimators)入手。

开始选择一个较小的步长来网格搜索最好的迭代次数。将步长初始值设置为0.1；

2. 找到了一个合适的迭代次数，对决策树进行调参。首先对决策树最大深度max_depth和内部节点再划分所需最小样本数(min_samples_split)进行网格搜索。

再对min_samples_split和叶子节点最少样本数(min_samples_leaf)一起调参。

得出： {'min_samples_leaf': 60, 'min_samples_split': 1200},

3.对比最开始完全不调参的拟合效果，可见精确度稍有下降，主要原理是我们使用了0.8的子采样，20%的数据没有参与拟合。

需要再对最大特征数(max_features)进行网格搜索。

10.1.1.4 GBDT对标量特征要不要one-hot编码？

从效果的角度来讲，使用category特征和one-hot是等价的，所不同的是category特征的feature空间更小。微软在lightGBM的文档里也说了，category特征可以直接输入，不需要one-hot编码，准确度差不多，速度快8倍。而sklearn的tree方法在接口上不支持category输入，所以只能用one-hot编码。

10.1.1.5 为什么GBDT用负梯度当做残差？

1. 负梯度的方向可证，模型优化下去一定会收敛

2. 对于一些损失函数来说最大的残差方向，并不是梯度下降最好的方向，倒是损失函数最小与残差最小两者目标不统一

10.1.2 自适应提升(AdaBoost)

定义: 是一种提升方法，将多个弱分类器，组合成强分类器。

Adaboost既可以用作分类，也可以用作回归。

算法实现：

1.提高上一轮被错误分类的样本的权值，降低被正确分类的样本的权值；

2.线性加权求和。误差率小的基学习器拥有较大的权值，误差率大的基学习器拥有较小的权值。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/723436.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Jenkins的安装和helloworld Pipeline

Jenkins的安装和helloworld Pipeline

文章目录环境安装下载安装启动初始化 PipelineUISCM（Source Control Management）准备pipeline 参考环境 RHEL 9.3Jenkins 2.44.0.1 安装参考 https://www.jenkins.io/doc/book/installing/linux/#red-hat-centos 。下载安装 [ding192 ~]$ sudo …

阅读更多...

Elasticsearch搜索引擎

Elasticsearch搜索引擎

目录初识elasticsearch 了解ES 什么是elasticsearch elasticsearch的发展搜索引擎技术排名： 总结倒排索引正向索引和倒排索引正向索引倒排索引总结 es的一些概念文档索引概念对比架构总结安装es，kibana 安装es 安装kiba…

阅读更多...

中医舌苔笔记

中医舌苔笔记

舌诊时按照舌尖-舌中-舌根-舌侧的顺序进行观察。先看舌体再看舌苔，30秒左右。如果一次望舌判断不清，可令病人休息3~5分钟后，重新观察一次舌诊脏腑部位分属图舌体胖嫩而边有齿痕为气虚、阳虚。薄白而润为风寒； 薄白而燥…

阅读更多...

顶顶通呼叫中心中间件-机器人话术如何实现在放音期间不接收按键信息

顶顶通呼叫中心中间件-机器人话术如何实现在放音期间不接收按键信息

文章目录前言联系我们实现方法前言场景：进入机器人话术时，在话术放音期间不接收用户的按键信息，等话术放音完成后才允许接收用户的按钮信息，然后根据用户的按钮信息执行相应的机器人话术流程。联系我们有意向了解呼叫中心中…

阅读更多...

Codeforces Round 932 (Div. 2)-----＞A. Entertainment in MAC

Codeforces Round 932 (Div. 2)-----＞A. Entertainment in MAC

一，思路： 简单的字符串处理，当反转字符串后如果字典序减小了，那么肯定不会再执行反转操作，而是执行操作2，将反转后的字符串拼接（这样必定构造一个回文串），那么之后的操作…

阅读更多...

ubuntu配置系统时钟的方法

ubuntu配置系统时钟的方法

使用 date 命令设置时间首先，你需要知道正确的日期和时间格式，格式为 MMDDhhmmYYYY，分别代表月份、日期、小时、分钟和年份。比如你想要设置日期为 2024 年 3 月 6 日，时间为 1 点 17 分，你可以这么做&#xff1a…

阅读更多...

图解 TCP 拥塞控制

图解 TCP 拥塞控制

文章目录什么是拥塞控制拥塞控制算法慢启动拥塞避免快速恢复 TCP拥塞控制状态机什么是拥塞控制拥塞控制是一种确保网络中的数据包以可持续的速率传输的机制，避免因为数据包太多而超过网络当前的承载能力，导致网络性能下降，甚至产生大量…

阅读更多...

（四）关系模型之关系代数

（四）关系模型之关系代数

4.1关系代数概述基于集合，提供了一系列的关系代数操作：并、差、笛卡尔积(广义积)、选择、投影和更名等基本操作以及交、连接和关系除等扩展操作，是一种集合思维的操作语言。关系代数操作以一个或多个关系为输入，结果是一个新的…

阅读更多...

单片机为什么需要时钟？2种时钟电路对比？

单片机为什么需要时钟？2种时钟电路对比？

目录一、晶体振荡器（Crystal Oscillator）的核心知识二、单片机为什么需要时钟电路？ 三、单片机的时钟电路方案 01、外部晶振方案 02、内部晶振方案四、总结单片机研发设计的项目中，它的最小电路系统包含电源电路复位…

阅读更多...

电源PCB设计：确保稳定高效的电源供应

电源PCB设计：确保稳定高效的电源供应

作为电子设备的心脏，电源的设计与布局布线质量，将直接关系到整个系统的稳定性和效率，那么电子工程师该如何惊喜打造电源PCB，确保电源供应的稳定、高效安全？ 1、电源PCB设计的核心要素①板层与铜厚选择：根据…

阅读更多...

算法46：动态规划专练(力扣198: 打家劫舍力扣740：删除并获取点数)

算法46：动态规划专练(力扣198: 打家劫舍力扣740：删除并获取点数)

打家劫舍问题： 你是一个专业的小偷，计划偷窃沿街的房屋。每间房内都藏有一定的现金，影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统，如果两间相邻的房屋在同一晚上被小偷闯入，系统会自动报警。给定…

阅读更多...

Windows Server 2003 搭建邮件服务器实现自建邮箱域名及账户并连接外网

Windows Server 2003 搭建邮件服务器实现自建邮箱域名及账户并连接外网

前言 2008 之后的版本微软删除了 POP 服务导致只能安装 SMTP 服务，所以这里只写了关于 2003 版本的教程点击左下角开始➡管理工具➡管理您的服务器，点击添加或删除角色点击下一步选择自定义配置，点击下一步选择邮件服务器&#xff0c…

阅读更多...

c++打印log宏定义

c++打印log宏定义

c语言demo，简单日志实现： 仿android 自动添加系统时间，进程号，线程号。记录，以备不时之需. #define LOG_D(...) do {printf("[%s %d %ld D ]",getCurtimeMsStr().c_str(),getpid(),gettid());printf(__V…

阅读更多...

vue3中压缩图片的大小

vue3中压缩图片的大小

效果上传一张图片，看看文件的大小。我们会发现小了很多思路图片太大也是因为宽高太大，进行宽高的缩放就可以了实现过程 const onUpload async ({ file }) > {console.log(file);if (file.size / 1024 / 1024 > 100) {message.error(大小不…

阅读更多...

uniapp模仿下拉框实现文字联想功能 - uniapp输入联想（官方样式-附源码）

uniapp模仿下拉框实现文字联想功能 - uniapp输入联想（官方样式-附源码）

一、效果废话不多说，上效果图： 在下方的： 在上方的： 二、源码一般是个输入框，输入关键词，下拉一个搜索列表。 ElementUI有提供<el-autocomplete>，但uniapp官网没提供这么细&#x…

阅读更多...

备考2024年北京高考数学：20114~2023十年选择题练习和解析

备考2024年北京高考数学：20114~2023十年选择题练习和解析

距离2024年高考还有三个月的时间，如何用三个月的时间再提高北京数学高考的成绩？吃透历年真题以及背后的知识点是行之有效的方法之一。今天我们来看一下2014-2023年的北京市高考数学的选择题，从过去十年（2014-2023）的…

阅读更多...

Redis--不可不知的热门面试题

Redis--不可不知的热门面试题

redis在使用过程中明明内存充足但是插入数据失败怎么排查? 是否是网络问题：客户端使用脚本定时ping Redis服务器，未有丢包情况，排除网络问题。是否是连接池满了：客户端连接池满了，检查客户端连接最大限制maxActive是…

阅读更多...

深入浅出解析SSL：保障网络安全的加密技术

深入浅出解析SSL：保障网络安全的加密技术

在数字信息时代，网络安全已成为人们关注的重点。为了在网络传输过程中保护数据的完整性和机密性，我们需要一种强大的安全协议——SSL（安全套接层）。今天德迅云安全就带大家来简单了解下SSL是什么，它的工作原理以及为何…

阅读更多...

SpringCloudGateway理论与实践

SpringCloudGateway理论与实践

文章目录网关介绍为什么需要网关Gateway 使用gateway pom依赖yml 配置重启测试总结断言过滤器工厂路由过滤器的种类请求头过滤器默认过滤器总结网关介绍 Spring Cloud Gateway 是一个基于Spring Framework 5，由Spring Cloud团队开发的全新的API网关服务。它旨在…

阅读更多...

qtvs2022工程cmakelist.txt添加QCharts模块

qtvs2022工程cmakelist.txt添加QCharts模块

find_package(QT NAMES Qt5 COMPONENTS Core Gui Widgets OpenGL Concurrent Charts Sql Network REQUIRED) find_package(Qt${QT_VERSION_MAJOR} COMPONENTS Core Gui Widgets OpenGL Charts Concurrent Sql Network REQUIRED)这里find_package只是设置搜索路径，为…

阅读更多...

最新文章