机器学习补充学习

1、Adaboost算法

Adaboost算法是一种集成学习方法,通过结合多个弱学习器来构建一个强大的预测模型。核心思想:如果一个简单的分类器在训练数据上犯错误,那么它在测试数据上也可能犯错误。

Adaboost通过迭代地训练一系列的分类器,并为每次训练选择训练数据的子集,从而使得每个分类器在训练数据上的错误率最小化。

算法步骤

1.1 分配每个观测样本X_{i},一个初始权重W_{i}W_{i}=\frac{1}{n},其中n为样本总量数。

1.2 训练一个“弱模型”(常用决策树)

1.3 对于每个目标:

        1.3.1 如果预测错误,W_{i}上涨

        1.3.2 如果预测正确,W_{i}下降

1.4 训练一个新的“弱模型”,其中权重较大的观测样本相应分配较高的优先权

1.5 重复步骤三和四,直到得到样本被完美预测,或是训练处当前规模的决策树

优点:

1、提高准确率:通过集成多个弱分类器,Adaboost可以显著提高预测的准确率,尤其是在处理复杂和非线性问题时。

2、处理不平衡数据:Adaboost能够自动调整每个分类器的权重,以对错误率的类别给予更多的关注,这有助于提高少数类的分类性能。

3、对异常值不敏感:由于Adaboost会根据错误率来调整权重,异常值的影响会被减少。

4、模型透明度高:Adaboost可以提供每个弱分类器的权重,这使得模型易于解释和理解。

缺点:

1、过拟合风险:如果弱分类器的选择不当或者迭代次数过多,Adaboost可能会导致过拟合,尤其是在数据量较小的情况下。

2、计算成本:由于需要训练多个弱分类器,Adaboost的计算成本较高,尤其是在大模型数据集上。

3、弱学习器选择:Adaboost的效果很大程度上取决于所选的弱学习器,如果弱学习器选择不当,Adaboost可能无法达到预测的性能。

4、对噪声敏感:Adaboost可能会对噪声数据敏感,因为噪声数据可能会导致某些分类器权重过高,从而影响最终预测。

5、解释性差:尽管Adaboost提供每个弱分类器的权重,但整个集成模型的解释性仍然不如单个决策树或线性模型。

6、依赖正则化:Adaboost依赖于正则化来防止过拟合,这意味着模型可能会在测试集上表现不佳。

2、拟合度:调整R方

是一个统计量,用于衡量线性回归模型对观测数据的拟合程度,特别是在模型中包含多个自变量时,调整R方考虑了模型中自变量的数量,从而避免了模型过渡拟合的风险。

R^{2}=1-\frac{RSS/\left ( n-d-1 \right )}{TSS/\left ( n-1 \right )}

RSS:残差平方和

TSS:总平方和

n:观测值

d:特征值

R^{2}的取值范围是从0到1,R^{2}只反映了模型解释变异的能力,它并不考虑模型的复杂度。

R^{2}为0时,表示模型没有解释任何因变量的变异,即模型完全不能预测因变量的值

R^{2}为1时,表示模型完全解释了因变量的变异,即模型完美地预测了因变量的值

3、Agglomerative聚类

是一种基于距离的层次聚类算法,在这个算法中,每个数据点最初都被视为一个单独的簇,然后逐步合并这些簇,直到达到某个停止条件。合并的决策是基于簇之间的相似度(通常使用距离度量),即两个簇之间的相似度越高,他们被合并的可能性越大。

4、AIC赤池信息量准则

是一种用于评估统计模型拟合优度的指标,AIC考虑了模型拟合数据的能力和模型的复杂度,旨在找到一个在数据拟合和模型复杂度之间达到平衡的模型。

AIC的基本思想:一个好的模型应该既能够很好地拟合数据,又不会过于复杂。因此,AIC在计算似然函数值的基础上,对模型复杂度进行惩罚,即增加一个与模型参数数量成正比的项。这样,AIC的值越小,表示模型越优秀

AIC=\frac{1}{n\hat{a}^{2}}\left ( RSS+2d\hat{a} ^{2}\right )

n:观测值

\hat{a}^{2}:样本方差

RSS:残差平方和

d:特征值

AIC的缺点:对模型复杂度的惩罚是固定的,即每个参数的惩罚都是2。这可能会导致某些模型在参数数量上略有不同,但整体结构相似时,AIC的值差异较大。为了解决这个问题,出现了贝叶斯信息量准则(BIC)。

5、AUC值

AUC值是机器学习中用于评估分类模型性能的一种指标,全称Area Under the Curve(曲线下面积)。这里的曲线通常指的是接受者操作特征曲线Receiver Operating Characteristic(ROC)。

ROC曲线是一个二维图,横坐标为假阳性率(False Positive Rate,FPR),纵坐标为真阳性率(True Positive Rate,TPR)。

AUC值表示的是ROC曲线下的面积大小,其取值范围为0到1,AUC值越高,表示模型的分类性能越好。AUC值为0.5表示模型的性能与随机猜测相当,而AUC值为1表示模型能够完美地区分正负类。

6、防止过拟合

①简易模型:

简易模型通常具有较少的参数,因此不容易过拟合。例如,线性模型比深度神经网络简单,因此更不容易过拟合。通常选择简易模型,可以减少模型的复杂度,从而防止过拟合。

②交叉验证评估:

交叉验证是一种评估模型性能的方法,它通过将数据集分成多个小组,每次使用一个小组作为测试集,其余小组作为训练集,来评估模型的性能。通过这种方式,可以确保模型在不同的数据子集上都表现良好,从而防止过拟合。

③正则化:

正则化是一种减少模型复杂度的方法,它通过在损失函数中添加一个正则项来惩罚模型的复杂度。常见的正则化方法有L1正则化和L2正则化。正则化可以使模型参数变得更小,从而减少模型的复杂度,防止过拟合。

④获取更多数据:

获得更多的数据可以使模型有更多的样本来学习,从而减少过拟合的风险。当数据量增加时,模型可以更好地泛化到未见过的数据上。

⑤集成学习:

集成学习是一种将多个模型组合起来的学习方法,它通过组合多个模型的预测结果来提高模型的性能。集成学习可以减少模型的方差,从而防止过拟合。常见的集成学习方法有随机森林、梯度提升树等。

7、词袋模型

把文本转化成矩阵。矩阵的每一行都是一个样本,每一个特征都是一个单词。矩阵中的每一个元素都是一个标志这个单词有没有出现的二元分类器,或者是这个单词出现的次数。

词袋模型的构建过程通常包括以下几个步骤:

1、分词:将文本分割成单词或短语

2、构建词汇表:将所有文档中的单词或短语汇总起来,构建一个词汇表

3、计算词频:对于每个文档,计算词汇表中每个单词或短语在该文档中出现的次数

4、构建词频向量:将每个文档表示为一个向量,向量的每个元素对应词汇表中的一个单词或短语,元素的值为该单词或短语在文档中出现的次数

8、Bagging算法

Bagging算法是一种集成学习算法,通过组合多个模型的预测结果来提高整体的预测性能。

Bagging算法的原理:

1、从原始数据集中通常有放回的抽样方式生成多个训练数据集,每个训练数据集的大小与原始数据集形同。

2、对于每个训练数据集,训练一个基模型(如决策树、逻辑回归等)

3、将所有基模型的预测结果进行组合,通常采用多数投票(分类问题)或平均值(回归问题)的方式,得到最终的预测结果

对比bagging和dropout

bagging算法是一种集成学习算法,它通过组合多个模型的预测结果来提高整体的预测性能。Bagging算法的核心思想是减少模型的方差,同时保持模型的偏差不变。Bagging算法通过从原始数据集中通过有放回的抽样方式生成多个训练数据集,然后训练多个基模型,最后将所有基模型的预测结果进行组合,得到最终的预测结果。

Dropout是一种正则化技术,用于防止神经网络中的过拟合,Dropout通过在训练过程随机地丢弃网络中的一些神经元,以及他们的连接,来减少网络的复杂度。这样可以减少网络对训练数据的依赖,提高网络的泛化能力。

9、贝叶斯误差

贝叶斯误差是指在贝叶斯决策理论中,即使使用了最优决策规则,仍然存在的误差。贝叶斯误差是由数据本身的分布决定的,它反映了给定数据分布的情况,最佳决策规则所能达到的最低误差率。

贝叶斯误差的原理如下:

1、贝叶斯决策理论基于贝叶斯定理,它考虑了先验概率、类条件概率和损失函数,以做出最优决策。

2、在贝叶斯决策理论中,最优决策规则是选择具有最小期望能够损失的决策。

3、贝叶斯误差是基于数据本身的分布决定的,它反映了在给定数据分布的情况下,最佳决策规则所能达到的最低误差率。

贝叶斯误差是机器学习中的一个重要概念,它反映了即使使用了最优决策规则,仍然存在误差。贝叶斯误差是由数据本身的分布决定的,它反映了给定数据分布的情况下,最佳决策规则所能达到的最低误差率。

P\left ( A|B \right )=\frac{P\left ( B|A \right )P\left ( A \right )}{P\left ( B \right )}

后验概率=似然度*先验概率/边际似然度

贝叶斯法则说明当不能准确知悉一个事务的本质时,可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。即支持某项属性的时间发生得愈多,则该属性成立的可能性就愈大。

优点:数据量小的情况下也很好用,经常很直观

缺点:大数据下计算消耗很大,必须选择一个先验

10、误差BIAS

误差是一种预期的由使用模型来逼近真实世界函数创建的误差。

Bias\left [ \hat{f}\left ( x \right ) \right ]=E\left [ \hat{f}\left ( x \right )-f\left ( x \right ) \right ]

11、大o算法

表示算法的空间或时间会随着输入规模的增大而增大

大o表示法是计算机科学中用来描述算法复杂度的一种数学符号,它用来表示算法执行时间(或所需空间)的上界,即算法在最坏情况下的性能表现。

大o表示法通常用来描述算法的时间复杂度,即算法执行所需的时间与输入数据量之间的关系。例如,如果一个算法的时间复杂度是O(n),这意味着算法的执行时间与输入数据量n成正比。如果一个算法的时间复杂度是O(n^2),这意味着算法的执行时间与输入数据量n的平方成正比。

大o表示法通常用来描述算法的空间复杂度,即算法执行所需的空间与输入数据量之间的关系。例如,如果一个算法的空间复杂度是O(n),这意味着算法的执行空间与输入数据量n成正比,如果一个算法的空间复杂度是O(n^2),这意味着算法的执行空间与输入数据量n的平方成正比。

12、Boosting算法

Boosting算法是一种集成学习算法,它通过组成多个弱学习器(即性能略好于随机猜测的模型)来构建一个强学习器。Boosting算法的核心思想是通过迭代的方式,逐步提高弱学习器的性能,最终得到一个性能强大的强学习器。

Boosting算法的原理如下:

1、初始化数据集的权重分布,使得所有数据点的权重相等

2、训练第一个弱学习器,并计算器错误率

3、根据第一个弱学习器的错误率,调整数据集的权重分布,使得被第一个弱学习器错误分类的数据点的权重增加,而被正确分类的数据点的权重减少

4、训练第二个弱学习器,并计算其错误率

5、根据第二个弱学习器的错误率,再次调整数据集的权重分布

6、重复上述过程,直到训练出一定数量的弱学习器

7、将所有若学习器组合起来,形成一个强学习器,在组合时,每个弱学习器的权重与其性能相关,性能好的弱学习器权重较大,性能差的弱学习器权重较小

13、布莱尔分数

布莱尔分数表示了所有样本的预测概率值与它们实际结果的均方误差,这个分数范围为0到1,越低代表预测越准确。

BS=\frac{1}{n}\sum_{t=1}^{n}\left ( P_{t}-O_{t} \right )^{2}

n:样本数量

P_{t}:预测概率

O_{t}:实际结果

举例说明,比如预测过去某一天会不会下雨,预测值为100%,真实情况为1(表示下雨),则布莱尔分数为0,最佳的布莱尔分数。如果预测值为30%,真实情况为0,则布莱尔分数为0.09,也是不错的预测值。

14、正则化强度的倒数C

在机器学习中,正则化是一种减少模型过拟合的技术。正则化通过在损失函数中添加一个正则化项来惩罚模型的复杂度,从而使模型更加简单和泛化能力更强。

正则化强度的倒数C是一个超参数,用于控制正则化项的权重。C的值越大,正则化强度越小,模型越容易拟合;C的值越小,正则化强度越大,模型越不容易过拟合。

在支持向量机中,C是一个重要的超参数,用于平衡模型的分类间隔和分类错误。C的值越大,模型越注重分类间隔,可能导致过拟合;C的值越小,模型越注重分类错误,可能导致欠拟合。

在逻辑回归中,C也是一个重要的超参数,用于平衡模型的复杂度和泛化能力。C的值越大,模型越容易过拟合;C的值越小,模型约不容易过拟合。

在实际应用中,通常需要通过交叉验证来选择一个合适的C值,以达到最佳的模型性能。

15、微积分中的链式求导法则

链式法则用于有效计算反向传播算法中的梯度。

若:y=g\left ( x \right )z=f\left ( g\left ( x \right ) \right ),即f\left ( y \right )

\frac{dz}{dx}=\frac{dz}{dy}\frac{dy}{dx}

反向传播算法常常将链法则用于张量的计算,但概念本质上是一样的。

16、特征选择中的卡方应用

 在特征选择中,卡方检验是一种常用的统计方法,用于评估特征与目标变量之间的独立性。卡方检验可以用来是被哪些特征与目标变量相关,从而帮助我们选择最有信息量的特征。

卡方检验的基本思想是计算观察到的特征值和期望的特征值之间的差异,并通过卡方统计来衡量这种差异的显著性。如果卡方统计量的值较大,说明观察到的特征值和期望的特征值之间的差异显著,即特征与目标变量之间存在相关性。

在特征选择中,卡方检验通常用于分类问题,特别是当特征是离散的或经过离散化处理时。卡方检验可以用来评估每个特征与目标变量之间的独立性,并根据卡方统计量的值来选择最有信息量的特征。

卡方检验的步骤:

1、构建卡方统计量:计算每个特征与目标变量之间的卡方统计量

2、计算P值:根据卡方统计量和自由度来计算P值,P值表示在原假设(即特征与目标变量独立)成立的条件下,观察到的卡方统计量值出现的概率

3、选择特征:根据P值来选择特征。通常,我们会选择P值较小的特征,因为这些特征与目标变量之间的相关性较强

4、确定阈值:确定一个阈值,用于选择P值小于该阈值的特征。这个阈值通常是根据经验或业务需求来确定的

x^{2}=\sum_{i=1}^{n}\frac{\left ( O_{i}-E_{i} \right )^{2}}{E_{i}}

想要在特征选择时运用x^{2},我们需要计算特征和目标之间的x^{2},然后按所需数量选择那些x^{2}分数最高的特征。

O_{i}:第i类中样本的数量

E_{i}:特征和目标没有关系的情况下,第I类中期望样本的数量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/18480.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT-demo:0轴分布图表

版本:5.9 第一种: 使用 PyQt5 和 Matplotlib 库 安装所需的库: pip install PyQt5 matplotlib创建和显示图表: import sys import numpy as np import matplotlib.pyplot as plt from PyQt5.QtWidgets import QApplication, QMainWindow f…

【busybox记录】【shell指令】ln

目录 内容来源: 【GUN】【ln】指令介绍 【busybox】【ln】指令介绍 【linux】【ln】指令介绍 使用示例: 创建链接文件 - 链接文件(默认 - 硬链接) 创建链接文件 - 链接文件(软链接) 创建链接文件 -…

JeeSite 4.x and 5.x快速开发平台前端技术探索与实践

一、引言 随着企业信息化建设的不断推进,对于快速、高效、安全的企业级应用需求日益增长。JeeSite作为一款企业级快速开发平台,以其强大的后端功能和灵活的前端架构,为开发者提供了强大的支持。本文旨在探讨JeeSite快速开发平台在前端技术方…

新零售收银解决方案:传统门店超市的数字化-亿发

在数字化浪潮的推动下,零售行业正经历着前所未有的变革。阿里巴巴提出的“新零售”概念,不仅仅是一个商业口号,它代表了一种全新的商业模式和运营理念。随着时代的进步和消费需求的不断升级,新零售的兴起已成为行业发展的必然趋势…

学习笔记之——2D Gaussian Splatting(2DGS)

3DGS在辐射场重建中取得了巨大的成就,实现高质量的新视图合成和快速渲染。最近新出了3DGS的升级版本,2DGS。写下本博文记录本人学习及测试2DGS的过程,本博文仅为本人学习记录用~ Project WebsiteGithub CodeOriginal paper 目录 原理解读 …

企业级OV SSL证书的应用场景和加密手段

为了保护数据传输的安全性与用户隐私,企业级OVSSL(Organization Validation SSL)证书成为众多企业的首选安全解决方案。本文将深入探讨OVSSL证书的应用场景及其实现数据加密的核心手段,为企业构建坚不可摧的在线信任桥梁提供指南。…

YOLOv8+PyQt5车辆类型检测系统完整资源集合(yolov8模型,从图像、视频和摄像头三种路径识别检测,包含登陆页面、注册页面和检测页面)

资源包含可视化的车辆类型检测系统,基于最新的YOLOv8训练的车辆类型检测模型,和基于PyQt5制作的可视化车辆类型检测系统,包含登陆页面、注册页面和检测页面,该系统可自动检测和识别图片或视频当中出现的21种车辆类型,包…

语音控制系统的安全挑战与防御策略(上)

语音控制系统(VCS)提供了便捷的用户界面,涉及智能家居、自动驾驶汽车、智能客服等众多应用场景,已成为现代智能设备不可或缺的一部分。其市场规模预计到2023年达到70亿美元,这种扩张带来了重大的安全挑战,如…

基于ViutualBox+Ubuntu(Linux)的开发环境搭建

实际在选择虚拟机的时候纠结了要用virualbox还是vmware,初步比较结果: 1.virualbox能够使用vmware的硬盘格式,因此可以自由选择。 2.都能够实现主机和宿主机之间的文件夹共享。 3.virualbox是自由软件,vmware是商业软件。 在功能上…

【SCAU操作系统】实验二页面置换算法的模拟实现及命中率对比python源代码及实验报告参考

一、课程设计目的 通过请求页式管理方式中页面置换算法的模拟设计,了解虚拟存储技术的特点,掌握请 求页式存储管理中的页面置换算法。 二、课程设计内容 模拟实现 OPT (最佳置换)、 FIFO 和 LRU 算法,并计算缺页…

JUC从实战到源码:CompletableFuture详细学习

【JUC】- CompletableFuture详细学习 😄生命不息,写作不止 🔥 继续踏上学习之路,学之分享笔记 👊 总有一天我也能像各位大佬一样 🏆 博客首页 怒放吧德德 To记录领地 🌝分享学习心得&#xf…

读人工智能时代与人类未来笔记17_人类未来

1. 人类未来 1.1. 在印刷读物出现之前,中世纪的欧洲人主要通过社区传统获取知识 1.1.1. 通过参与收割和季节轮作积累民间智慧 1.1.2. 在礼拜场所践行信仰并遵守圣礼 1.1.3. 加入行业公会,学习技术&…

补环境——A股市场

补环境 吐环境 1.Proxy对象 Proxy对象由两个部分组成:target、handler target:目标对象 handler:是一个对象,声明了代理target的指定行为,支持的拦截操作,一共13种: get(target,propKey,receiver)&…

Java特性之设计模式【备忘录模式】

一、备忘录模式 概述 备忘录模式(Memento Pattern)保存一个对象的某个状态,以便在适当的时候恢复对象,备忘录模式属于行为型模式 备忘录模式允许在不破坏封装性的前提下,捕获和恢复对象的内部状态 主要解决&#xff…

【硬核测评】猫咪主食冻干测评揭秘SC、希喂、爱立方真实对比测评

主食冻干喂养是否必要? 来自七年经验的铲屎官明确告诉你,这是非常必要的喂养方式! 随着宠物经济的蓬勃发展和科学养宠知识的普及,如今养猫已不仅仅是让猫咪吃饱那么简单。越来越多的养猫人开始重视猫咪的饮食健康。大量实际喂养案…

电脑如何远程访问?

【天联】的使用场景 电脑远程访问在现代科技的发展中扮演了重要的角色。对于企业和个人用户来说,远程访问的便利性提供了许多机会和可能性。作为一种高效的工具,【天联】具有广泛的应用场景,可以实现异地统一管理、协同办公以及远程数据采集…

【数据结构】AVL树——平衡二叉搜索树

个人主页:东洛的克莱斯韦克-CSDN博客 祝福语:愿你拥抱自由的风 目录 二叉搜索树 AVL树概述 平衡因子 旋转情况分类 左单旋 右单旋 左右双旋 右左双旋 AVL树节点设计 AVL树设计 详解单旋 左单旋 右单旋 详解双旋 左右双旋 平衡因子情况如…

阿里开源React应用动效解决方案:ant-motion

ant-motion:简化动效开发,提升用户体验 - 精选真开源,释放新价值。 概览 Ant Motion是由Ant Design团队精心打造,专为React应用设计的动画规范和组件库。它不仅仅是一套动画规范,更是一个完整的解决方案,旨…

C# yolov8 TensorRT Demo

C# yolov8 TensorRT Demo 目录 效果 说明 项目 代码 下载 效果 说明 环境 NVIDIA GeForce RTX 4060 Laptop GPU cuda12.1cudnn 8.8.1TensorRT-8.6.1.6 版本和我不一致的需要重新编译TensorRtExtern.dll,TensorRtExtern源码地址:https://githu…

2024年JAVA、C++、Pyhton学哪种语言更容易进国央企?

对于不同编程语言在进入国有企业的观点大体是正确的,不过在实际选择时还需考虑一些因素。我这里有一套编程入门教程,不仅包含了详细的视频讲解,项目实战。如果你渴望学习编程,不妨点个关注,给个评论222,私信…