机器学习_10、集成学习-AdaBoost

AdaBoost

AdaBoost(Adaptive Boosting的简称)是一种集成学习方法,它的核心思想在于将多个弱学习器组合起来,形成一个强学习器。通过这种方式,AdaBoost能够显著提高分类性能。下面详细介绍AdaBoost的主要概念和工作原理:

1. 弱学习器(Weak Learner)

  • 弱学习器指的是那些仅比随机猜测略好的模型,例如决策树、小神经网络等。在AdaBoost中,通常使用深度非常浅的决策树(如单层决策树,也称为决策树桩)作为弱学习器。

2. 自适应(Adaptive)

  • AdaBoost之所以称为自适应增强,是因为它能够根据前一个学习器的表现调整数据的权重分布,使得之前被错误分类的数据在后续的学习器中获得更多的关注。这种自适应的过程使得模型能够专注于那些难以正确分类的样本。

3. 工作原理

  • 初始化权重:开始时,每个训练样本被赋予相同的权重。
  • 循环训练弱学习器:AdaBoost算法会进行多轮迭代,每一轮都会训练一个新的弱学习器。在每一轮中:
    • 基于当前的权重分布,从训练集中训练出一个弱学习器。
    • 计算该弱学习器的错误率。
    • 根据错误率计算该弱学习器的权重(即该学习器对最终结果的贡献)。错误率越低的学习器权重越大。
    • 更新训练样本的权重,增加被当前学习器错误分类样本的权重,减少正确分类样本的权重。
    • 进入下一轮迭代。
  • 组合弱学习器:所有的弱学习器根据各自的权重组合成最终的模型。分类决策通常是通过对所有学习器的加权投票来实现的。

4. 特点和优势

  • 准确率高:通过组合多个弱学习器,AdaBoost能够达到很高的准确率。
  • 易于编码:AdaBoost算法相对简单,易于实现。
  • 自动处理特征选择:AdaBoost在训练过程中会自动选择有用的特征,从而简化了模型的复杂度和提高了模型的泛化能力。
  • 不太容易过拟合:在弱学习器的选择和数量控制得当的情况下,AdaBoost不太容易过拟合。

5. 应用

AdaBoost被广泛应用于各种分类问题,包括二分类和多分类问题,如人脸识别、客户流失预测、文本分类等领域。

#coding=utf-8
#AdaBoostClassifier.py
import pandas as pd
from sklearn.model_selection import train_test_split
#from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import AdaBoostClassifier# 加载数据
filename="./glass.data"
glass_data = pd.read_csv(filename,index_col=0,header=None)
# 先从DataFrame中取出数组值(.value)
X,y = glass_data.iloc[:,:-1].values, glass_data.iloc[:,-1].values
#X,y = glass_data.iloc[:,:-1], glass_data.iloc[:,-1]
# 划分训练集与测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, stratify=y, random_state=1)# 创建基本分类器对象
#base_clf = GaussianNB()
base_clf = DecisionTreeClassifier(max_depth=2,random_state=0)
# 创建AdaBoostingClassifier对象
ada_clf = AdaBoostClassifier(base_estimator=base_clf,random_state=0,n_estimators=1000)for clf in (base_clf, ada_clf):clf.fit(X_train, y_train)print(clf.__class__.__name__,"训练集准确率:",clf.score(X_train, y_train), sep="")print(clf.__class__.__name__,"测试集准确率:",clf.score(X_test, y_test), sep="") print(clf.__class__.__name__,"对测试集前2个样本预测的分类标签:\n",clf.predict(X_test[:2]), sep="")print(clf.__class__.__name__,"对测试集前2个样本预测的分类概率:\n",clf.predict_proba(X_test[:2]), sep="") print("分类器中的标签排列:",clf.classes_)# 概率预测转化为标签预测print("根据预测概率推算预测标签:",end="")for i in clf.predict_proba(X_test[:2]).argmax(axis=1):print(clf.classes_[i], end="  ")print()print("测试集前2个样本的真实标签:",y_test[:2],sep="")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714235.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查看网络连接的netstat

netstat是一个监控TCP/IP网络的非常有用的工具,可以显示路由表、实际的网络连接,以及每一个网络接口设备的状态信息,可以让用户得知目前都有哪些网络连接正在运作。netstat用户显示与IP、TCP、UDP和ICMP协议相关的统计数据,一般用…

【Vue3】PostCss 适配

px 固定的单位,不会进行自适应。rem r root font-size16px 1rem16px,但是需要手动进行单位的换算vw vh 相对于视口的尺寸,不同于百分比(相对于父元素的尺寸)375屏幕 1vw 3.75px 利用插件进行 px(设计稿&…

算法复习之二分【备战蓝桥杯】

二分模板一共有两个,分别适用于不同情况。 算法思路:假设目标值在闭区间[l, r]中, 每次将区间长度缩小一半,当l r时,我们就找到了目标值。 版本一 当我们将区间[l, r]划分成[l, mid]和[mid 1, r]时,其更…

Docker自定义JDK镜像并拉取至阿里云镜像仓库全攻略

前言 随着容器技术的日益成熟,Docker已经成为现代软件开发和部署的标配工具。其中,自定义Docker镜像是满足特定项目需求的关键步骤。特别是在Java开发环境中,我们可能需要为不同的项目配置不同版本的JDK。这时,通过Docker自定义J…

临时笔记2

临时笔记2 数据库设计 有哪些表 表里有哪些字段 表和表之间是什么关系 JDBC(全称:JAVA DATABASE CONNECTIVITY) 本质是官方定义的一套操作所有关系型数据库的规则,即接口。每个数据库厂商去实现这一接口,写出实现类,即驱动&…

List<Object>集合对象属性拷贝工具类

目录 问题现象: 问题分析: 解决方法: 问题现象: 最近在项目中经常会使用到BeanUtils工具类来作对象的属性字段拷贝,但如果应用到List集合的话就需要遍历去操作了,如下: 打印结果: …

Cocos Creator 3.8.x 后效处理(前向渲染)

关于怎么开启后效效果我这里不再赘述,可以前往Cocos官方文档查看具体细节:后效处理官网 下面讲一下怎么自己定义一个后处理效果,想添加自己的后效处理的话只需要在postProcess节点下添加一个BlitScreen 组件即可,然后自己去添加自…

第三方集成站点带token访问SpringSecurity应用站点自动登录方案

近期有个WEB项目需要改造。业主找第三方搞了一个集成站点,将多个应用站点的链接集中放在一个导航页面。由于进入集成站点时已经登录过了,业主要求点击这些应用站点的链接时就不必再登录。 以前做过类似项目,用的是单点登录。大家都用同一个登…

关于python数据可视化的学习(多维数组)

import numpy as np # 通过这个语句可以知道其是否存在nmpy这个包 创建数据 H np.array([[[94,26],[11,11]],[[22,22],[23,23]],[[33,33],[33,34]]]) # 理解其中的逻辑结构然后开始运行 # 一个基础维度逻辑数据结构中包含一个一个二维数据,二维数组之后再次进行升…

Selenium基础:自动化你的网页交互!

在构建Python爬虫的过程中,你可能会遇到需要与网页进行交互的情况,比如填充表单、点击按钮等。这时,Selenium库就成了你的有力工具。Selenium是一个强大的工具,能够模拟用户在网页上的各种操作。本篇博客将向你介绍Selenium的基础…

EdgeX Foundry 设备服务

文章目录 1.设备服务2.设备配置文件3.设备资源4.资源属性(Attributes)5.资源属性(Properties)6.设备命令7.资源操作8.REST 命令端点9.推送事件 EdgeX Foundry # EdgeX Foundryhttps://iothub.org.cn/docs/edgex/ https://iothub.…

好用的AI模型集合

AI-Chat 这个网站提供的AI-Chat 3.5和AI-Chat 4.0聊天机器人,每天都可以免费使用。 不管是学习、工作还是日常生活,都能给我们带来很大的帮助,效率真的可以说是翻倍了。我觉得,如果你想让自己的生活更加高效、更加有序&#xff0…

WEB漏洞 SSRF简单入门实践

一、漏洞原理 SSRF 服务端请求伪造 原理:在某些网站中提供了从其他服务器获取数据的功能,攻击者能通过构造恶意的URL参数,恶意利用后可作为代理攻击远程或本地的服务器。 二、SSRF的利用 1.对目标外网、内网进行端口扫描。 2.攻击内网或本地的…

Selenium 4.0+ 版本的“正确使用”以及“驱动程序的正确安装”

前言 本文是该专栏的第18篇,后面会持续分享python爬虫干货知识,记得关注。 你是否还在使用selenium 3.0+版本呢?如果还是在使用selenium的旧版本,那就好好看完这篇文章,让你立刻使用上最新的selenium版本——selenium 4.0+版本。 我们都知道selenium是一个开源的Web自动…

python+Selenium以IE模式打开edge浏览器

一、修改ie的注册表 计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\Zones 下边5个文件夹下的2500的值改成3 计算机\HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Internet Settings\Zones 下边5个文件夹下的2…

全量知识系统问题及SmartChat给出的答复 之12 知识图表设计

Q32. 画一个图表 今天,我们开始设计图表,以便能直观表示前面各种概念名相及其位置关系,发现其中的问题和错误。 先画出一个3*3的表格,还有一根对角线(左上到右下),上面有列名,分别…

戏说c第二十六篇: 测试完备性衡量(代码覆盖率)

前言 师弟:“师兄,我又被鄙视了。说我的系统太差,测试不过关。” 我:“怎么说?” 师弟:“每次发布版本给程夏,都被她发现一些bug,太丢人了。师兄,有什么方法来衡量测试的…

css实现背景渐变叠加

线性渐变效果图: .box{width: 100vw;height: 100vh;background:linear-gradient(to bottom,transparent,#fff 30%),linear-gradient(to right,pink,skyblue);}径像渐变效果图: .box{width: 100vw;height: 100vh;background:linear-gradient(to bottom,transparent,#…

【SVN】使用TortoiseGit删除Git分支

使用TortoiseGit删除Git分支 前言 平时我在进行开发的时候,比如需要开发一个新功能,这里以蘑菇博客开发服务网关-gateway功能为例 一般我都会在原来master分支的基础上,然后拉取一个新的分支【gateway】,然后在 gateway分支上进…

MySQL学生成绩管理系统based on C++ and Clion

mysql_free_result()函数的作用是释放结果集的内存,是同步的,也就是要中断一下 该实验使用了MySQL链接数据库的基本使用方法,具体使用了 MYSQL_RES 数据库的mysql_store_result()函数的返回值是一个结果集,该函数的作用是检索比…