特征工程筛选重要变量

特征筛选主要分为3个方法:过滤法、嵌入法(经典的一些树模型比如xgboost)、包裹法(经典的RFECV,RFE递归特征消除法)

过滤法更快速,但更粗糙。
包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。
当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。

在sklearn中,常用三种方法来评判特征与标签之间的相关性:卡方、F检验、互信息。三种方法的适用领域有何不同
t检验和卡方检验、F检验、互信息法是常用的统计分析方法,它们在不同的情况下有不同的应用优先级。

t检验:适用于小样本情况下,用于比较两个样本均值是否有显著差异。

我不懂你们同学为啥会选择t检验(比较特征与target的均值没用呀),然后开头也没有方差过滤?

卡方检验:适用于分析两个及两个以上分类变量之间的关联性。主要用于比较理论频数和实际频数的吻合程度或拟合优度问题。

F检验:适用于比较两个或多个样本方差是否有显著差异。常用于方差分析(ANOVA)中,用于比较多个样本均值是否有显著差异。

互信息法:适用于特征选择和特征相关性分析。通过计算特征与目标变量之间的互信息量,来评估特征对目标变量的重要性。

在选择使用这四种方法时,可以根据具体问题和数据类型来确定优先级:

如果需要比较两个样本均值是否有显著差异,且样本量较小,可以首选t检验。
如果需要分析两个及两个以上分类变量之间的关联性,可以选择卡方检验。
如果需要比较多个样本方差是否有显著差异,可以使用F检验。
如果需要进行特征选择或特征相关性分析,可以考虑使用互信息法。

我的思路,我们应该用fliter中的方差过滤加互信息方法,然后嵌入法中选用xgboost方法

如果老师问为何没有用包裹法,答:我们电脑性能不太好,RFECV需要算力。还有时间不充裕。还有虽然包装法的效果是所有特征选择方法中最利于提升模型表现的,它可以使用很少的特征达到很优秀的效果?(包装法是一种特征选择方法,它通过反复创建模型并保留最佳特征或剔除最差特征的方式来选择特征子集。包装法的效果被认为是所有特征选择方法中最利于提升模型表现的,原因如下

考虑特征之间的相互作用:包装法在每次迭代时都会重新创建模型,这意味着它可以考虑特征之间的相互作用。通过不断调整特征子集,包装法可以更好地捕捉特征之间的关系,从而提高模型的表现。

个性化特征选择:包装法根据保留或剔除特征的顺序进行排名,最终选出一个最佳子集。这意味着包装法可以根据具体问题的需求选择最适合的特征子集,从而提高模型的性能。

可以使用很少的特征:由于包装法是一种贪婪的优化算法,它会在每次迭代中选择最佳特征或剔除最差特征。这意味着包装法可以使用很少的特征来达到很优秀的效果,从而减少了特征的维度,提高了模型的效率。

总之,包装法通过考虑特征之间的相互作用、个性化特征选择和使用很少的特征来达到很优秀的效果,因此被认为是所有特征选择方法中最利于提升模型表现的方法。)但是包装法和嵌入法在特征选择中都是相对精确的方法,它们可以在特征数目相同时达到相似的效果。这是因为它们都是基于算法自身的选择来完成特征选择的,我们已经使用了xgboost算法模型了,没必要再使用一个算法。

包装法通过训练评估器并使用评估器的属性(如coef_或feature_importances_)来获得每个特征的重要性。然后,它会逐步删除最不重要的特征,直到剩下规定数量的特征。这种方法可以更准确地选择特征,因为它考虑了特征之间的相互作用。

嵌入法也是一种基于算法的特征选择方法,它在算法训练过程中直接选择最佳特征。它通过在训练过程中调整特征的权重或系数来选择最佳特征。这种方法可以更准确地选择特征,因为它考虑了特征与目标变量之间的关系。

因此,当特征数目相同时,包装法和嵌入法都可以通过算法自身的选择来达到相似的效果。它们都可以更准确地选择特征,以提高模型的性能和泛化能力。在这里插入图片描述
当特征选择完成后,可以直接训练模型了,但是可能由于特征矩阵过大,导致计算量大,训练时间长的问题,要进行降低特征矩阵维度。(但是我们此项任务没必要降维,特征数量很小)

常见的降维方法除了以上提到的基于L1惩罚项的模型以外,另外还有主成分分析法(PCA)和线性判别分析(LDA),线性判别分析本身也是一个分类模型。

PCA和LDA有很多的相似点,其本质是要将原始的样本映射到维度更低的样本空间中,但是PCA和LDA的映射目标不一样:PCA是为了让映射后的样本具有最大的发散性;而LDA是为了让映射后的样本有最好的分类性能。所以说PCA是一种无监督的降维方法,而LDA是一种有监督的降维方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/601532.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【代码随想录】刷题笔记Day46

前言 刚考完自辩,Chat回答举例什么的真方便。早上做组会PPT去了,火速来刷题! 139. 单词拆分 - 力扣(LeetCode) 单词是物品,字符串s是背包,单词能否组成字符串s,就是问物品能不能把…

SpringBoot学习(五)-Spring Security配置与应用

注:此为笔者学习狂神说SpringBoot的笔记,其中包含个人的笔记和理解,仅做学习笔记之用,更多详细资讯请出门左拐B站:狂神说!!! Spring Security Spring Security是一个基于Java的开源框架,用于在Java应用程…

【深度学习】cv领域中各种loss损失介绍

文章目录 前言一、均方误差二、交叉熵损失三、二元交叉熵损失四、Smooth L1 Loss五、IOU系列的loss 前言 损失函数是度量模型的预测输出与真实标签之间的差异或误差,在深度学习算法中起着重要作用。具体作用: 1、目标优化:损失函数是优化算法…

文件归类妙招:用关键字替换改扩展名方法,文件重命名技巧

在日常工作中,文件的数量会随着时间的推移不断增加。如果文件没有得到适当的归类和整理,就会导致很难找到所需的文件。所以文件归类是非常重要的任务。现在来看云炫文件管理器一些实用的文件归类妙招:用关键字替换修改文件扩展名的方法&#…

Kubernetes复习总结(二):Kubernetes容器网络

2、Kubernetes容器网络 1)、Docker网络原理 Docker默认使用的网络模型是bridge,这里只讲bridge网络模型 1)容器之间通信原理 当安装完docker之后,docker会在宿主机上创建一个名叫docker0的网桥,默认IP是172.17.0.1…

AI动作冒险电影《加勒比海盗:失落的宝藏》(下)

AI动作冒险电影《加勒比海盗:失落的宝藏》(下) 在宝藏岛屿的探险中,杰克船长不断遭遇铁钩胡克的追击,并陷入了一系列生死危机中。然而,当杰克终于找到宝藏所在的洞穴时,却发现了一个令人震惊的事…

HarmonyOS 开发基础(五)Button

HarmonyOS 开发基础(五)Button Entry Component struct Index {build() {Row() {Column() {// Button:ArkUI 的基础组件 按钮组件// label 参数:文字型按钮Button(我是按钮)// width:属性方法,设置组件的宽…

shell编程-分支语句和循环结构

流控制: •在一个shell脚本中的命令执行顺序称作脚本的流。大多数脚本会根据一个或多个条件来改变它们的流。 •流控制命令:能让脚本的流根据条件而改变的命令称为条件流控制命令 •exit语句:退出程序的执行,并返回一个返回码,返回码为0正常退出&#…

基于多反应堆的高并发服务器【C/C++/Reactor】(中)在EventLoop中处理被激活的文件描述符的事件

文件描述符处理与回调函数 一、主要概念 反应堆模型:一种处理系统事件或网络事件的模型,当文件描述符被激活时,可以检测到文件描述符:在操作系统中,用于标识打开的文件、套接字等的一种数据类型 处理激活的文件描述符…

BUUCTF--pwnable_start1

查看保护: 32位程序保护全没开,黑盒测试下效果: 存在栈溢出,那么这题的想法就是直接ret2shellcode了。IDA中看看具体流程: 出奇的少,这题不能看反汇编的代码,直接去看汇编: 主要就2个…

【设计模式之美】面向对象分析方法论与实现(一):需求分析方法论

文章目录 一. 需求举例二. 对案例进行需求分析1. 第一轮基础分析2. 第二轮分析优化3. 第三轮分析优化4. 第四轮分析优化5. 最终确定需求 三. 小结 本文主要描述: 面向对象的需求分析方法论 一. 需求举例 假设,你正在参与开发一个微服务。微服务通过 HTT…

msvcr120.dll丢失怎样修复,三种修复msvcr120.dll丢失的方法

"msvcr120.dll"是一个重要的库文件,用于支持Microsoft Visual C 2013 Redistributable软件包中的应用程序。在本文中,我们将介绍"msvcr120.dll"文件的重要性和作用,并探讨当msvcr120.dll丢失怎样修复的办法。以及msvcr12…

Python基础教程——90行Python代码让微信地球转起来!!(完整版,附源码)

今天我们来一个好玩儿的东西,使用90行Python代码就可以让【微信第地球】转起来,太有意思啦! 1.微信地球 手机重启后打开微信的一瞬间,会看到一幅有名的图片,上面站着一个张小龙。 你可曾想过这样一个问题&#xff0c…

走向云原生 破局数字化

近年来,随着云计算概念和技术的普及,云原生一词也越来越热门,云原生成为云计算领域的新变量。行业内,华为、阿里巴巴、字节跳动等各个大厂都在“抢滩”云原生市场。行业外,云原生也逐渐出圈,出现在大众视野…

GUI设计基础

层次结构 要学GUI,大概先知道它的层次结构,如下图所示,我们要设计的就是下面这个几个东西。 菜单uimenu 建立一级菜单项的函数调用格式: hmuimenu(h_parent,PropertyNamel,valuel,propertyName2,value2,...); hm 是…

修改mariadb的默认存储路径

首先mariadb服务正常启动 安装mariadb: https://blog.csdn.net/qq_50247813/article/details/135402502?spm1001.2014.3001.5502 停止mariadb服务 systemctl stop mariadb创建新的数据存放目录 mkdir /data将mariadb的数据拷贝到/data目录下 mv /var/lib/mysq…

设计模式学习2

代理模式:Proxy 动机 “增加一层间接层”是软件系统中对许多复杂问题的一种常见解决方案。在面向对象系统中,直接食用某些对象会带来很多问题,作为间接层的proxy对象便是解决这一问题的常见手段。 2.伪代码: class ISubject{ pu…

AIGC学习笔记(1)——AI大模型提示词工程师

文章目录 AI大模型提示词工程师1 Prompt工程之原理1.1 AIGC的发展和产业前景前言AIGC时代的到来发展趋势和应用展望 1.2 大模型的类型和特点大模型的对比上手特点 1.3 大模型技术原理和发展成语接龙和暴力穷举ChatGPT如何理解人类语言如何存储数据图像存储电脑存数字如何让电脑…

商智C店H5性能优化实战

前言 商智C店,是依托移动低码能力搭建的一个应用,产品面向B端商家。随着应用体量持续增大,考虑产品定位及用户体验,我们针对性能较差页面做了一次优化,并取得了不错的效果,用户体验值(UEI&…

面部识别技术的突破:IP-Adapter-FaceID实现上传照片秒变多面人生

IP-Adapter-FaceID通过上传个人照片,仅需几分钟即可克隆一个高度真实的个性化面部图像。IP-Adapter-FaceID的独特之处在于,它不仅捕捉到个体的基本外貌特征,更深入地嵌入了面部识别模型的面部ID,使生成的图像在细节上更为准确和逼…