gbm模型做分类

导入相关的包

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from lightgbm import LGBMClassifier
from sklearn.preprocessing import PolynomialFeatures

获取df中的格式类型

object_columns = df.select_dtypes(include='object').columns
for col in object_columns:df[col] = df[col].fillna('0')df[col] = df[col].map(dict(zip(list(set(df[col])), [i for i in range(len(list(set(df[col]))))])))

多项式特征提取方法

from sklearn.preprocessing import PolynomialFeatures
df = df.fillna(0)
poly = PolynomialFeatures(degree=3, include_bias=False, interaction_only=True)
x_train = df.drop('slide', axis=1)
y_train = df['slide']
poly_features = poly.fit_transform(x_train)
feature_names = poly.get_feature_names_out()
poly_df = pd.DataFrame(poly_features, columns=feature_names)
X_df = poly_df

模型训练

train_x, test_x, train_y, test_y = train_test_split(X_df, y_train, test_size=0.2, random_state=42)model = LGBMClassifier(boosting_type='gbdt',  # 基学习器 gbdt:传统的梯度提升决策树; dart:Dropouts多重加性回归树n_estimators=500,  # 迭代次数learning_rate=0.1,  # 步长max_depth=4,  # 树的最大深度min_child_weight=1,  # 决定最小叶子节点样本权重和# min_split_gain=0.1,  # 在树的叶节点上进行进一步分区所需的最小损失减少subsample=1,  # 每个决策树所用的子样本占总样本的比例(作用于样本)colsample_bytree=1,  # 建立树时对特征随机采样的比例(作用于特征)典型值:0.5-1random_state=27,  # 指定随机种子,为了复现结果importance_type='gain',  # 特征重要性的计算方式,split:分隔的总数; gain:总信息增益objective='binary',
)model.fit(train_x, train_y, eval_metric="auc", verbose=50, \eval_set=[(train_x, train_y), (test_x, test_y)], \)
print(classification_report(model.predict(test_x), test_y))

特征重要性

feature_import_df = pd.DataFrame(zip(model.feature_name_, model.feature_importances_))
feature_import_df.columns = ['feature', 'import_values']
feature_import_df = feature_import_df.sort_values('import_values', ascending=False)
feature_import_df 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/800744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java给出一个不多于5位的正整数(1)求出它是几位数(2)分别输出每一位数字(3)按逆序输出各位数字

给出一个不多于5位的正整数 (1)求出它是几位数 (2)分别输出每一位数字 (3)按逆序输出各位数字 public static void main(String[] args) {Scanner scan new Scanner(System.in);System.out.println(&qu…

lottery-攻防世界

题目 flag在这里要用钱买,这是个赌博网站。注册个账号,然后输入七位数字,中奖会得到相应奖励。 githacker获取网站源码 ,但是找到了flag文件但是没用。 bp 抓包发现api.php,并且出现我们的输入数字。 根据题目给的附…

推荐一款很强大的SCADA工业组态软件

可以广泛应用于化工、石化、制药、冶金、建材、市政、环保、电力等几十个行业。 I官网网站:www.hcy-soft.com |体验地址:http://www.byzt.net:60/sm/ 一、产品简介 BY组态是完全自主研发的集实时数据展示、动态交互等一体的全功能可视化平台。帮助物联网、工业互联网、电力能…

怎么防止文件被拷贝,复制别人拷贝电脑文件

怎么防止文件被拷贝,复制别人拷贝电,脑文件 防止文件被拷贝通常是为了保护敏感数据、知识产权或商业秘密不被未经授权的人员获取或传播。以下列出了一系列技术手段和策略,可以帮助您有效地防止文件被拷贝。 1. 终端管理软件: 如安企神、域智…

Node.js创建第一个web服务

如果用PHP来编写后端代码,需要用Apache或者Nginx的服务器,来处理客户的请求响应。对于Node.js时,不仅实现了应用,同时还实现了整个HTTP服务器. 安装 Node Snippets插件(编程自带提示) console.log(你好nodejs); //表…

MySQL高级篇(B-Tree、Btree)

目录 1、Btree(B-Tree) 1.1、B-Trees的特点 二叉树缺点:顺序插入时,会形成一个链表,查询性能大大降低。大数据量情况下,层级较深,检索速度慢。红黑树:大数据量情况下,层…

虚拟主机WordPress网站安装教程

一般的企业官网,简站WordPress小编都推荐使用虚拟主机,用虚拟主机搭建一般的WordPress企业官网足够用了。最主要的好处是使用虚拟主机可以省去了主机维护的成本。 下面是以简站WordPress主题在虚拟主机搭建企业官网为例子,写的一个教程&…

多叉树题目:子树中标签相同的结点数

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:子树中标签相同的结点数 出处:1519. 子树中标签相同的结点数 难度 5 级 题目描述 要求 给你一个树(即一个连通的无向无环图…

JDK下载及安装说明

1.JDK下载 访问oracle官网:http://www.oracle.com 在首页点击Downloads,进入oracle软件下载页。 在下载页面,点击Java。 选择Java (JDK) for Developers,点击。 在 Java SE Downloads 页面,点击中间的DO…

app上架-您的应用存在最近任务列表隐藏风险活动的行为,不符合华为应用市场审核标准。

上架提示 您的应用存在最近任务列表隐藏风险活动的行为,不符合华为应用市场审核标准。 修改建议:请参考测试结果进行修改。 请参考《审核指南》第2.19相关审核要求:https://developer.huawei.com/consumer/cn/doc/app/50104-02 造成原因 …

反转链表(C语言)

反转链表是一种常见的链表操作,可以通过动态图来说明其过程: 假设有一个包含节点 A -> B -> C -> D -> E 的链表,要将其反转成 E -> D -> C -> B -> A。 初始状态: A -> B -> C -> D -> E创…

后端说处理了跨域但没有生效

场景: 常见的跨域报错,一般都是由后端进行setHeader/*什么的。但是现在这种情况就是后端说他们做了处理。但是我这边请求还是报错。 withCredentials: with-credentials用来设置是否发送cookie,如果为true就会在跨域请求时候携带cookie&…

libVLC 提取视频帧

在前面的文章中,我们使用libvlc_media_player_set_hwnd设置了视频的显示的窗口。 libvlc_media_player_set_hwnd(vlc_mediaPlayer, (void *)ui.widgetShow->winId()); 如果我们想要提取每一帧数据,将数据保存到本地,该如何操作呢&#x…

Golang 开发实战day09 - package Scope

🏆个人专栏 🤺 leetcode 🧗 Leetcode Prime 🏇 Golang20天教程 🚴‍♂️ Java问题收集园地 🌴 成长感悟 欢迎大家观看,不执着于追求顶峰,只享受探索过程 Golang 教程09 - package Sc…

算法练习第12天|● 239. 滑动窗口最大值● 347.前 K 个高频元素

239.滑动窗口的最大值 力扣原题 题目描述: 给你一个整数数组 nums,有一个大小为 k 的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的 k 个数字。滑动窗口每次只向右移动一位。 返回 滑动窗口中的最大值 。 示例 1&#xff…

【Nginx 配置详解】:动态文件名设置与正则表达式

Nginx 配置详解:动态文件名设置与正则表达式 Nginx 是一款轻量级的 Web 服务器/反向代理服务器,它的高稳定性、丰富的功能集、简单的配置和低资源消耗使其成为当今最受欢迎的服务器之一。本文将深入探讨 Nginx 配置中的一些关键概念,特别是如…

影响力营销与AI的结合:Kompas.ai在搭桥角色中的独特价值

在数字化营销的新时代,影响力营销已经成为品牌建立信任和提升市场影响力的有效手段。通过与关键意见领袖(KOL)的合作,品牌能够利用KOL的信誉和影响力来扩大其市场覆盖范围和提升品牌认知度。然而,寻找与品牌价值观相契…

MyBatisPlus入门用法

MyBatisPlus&#xff08;简称MP&#xff09;是MyBatis的增强工具&#xff0c;在MyBatis的基础上只做增强不做改变&#xff0c;为简化开发、提高效率而生。 一、安装 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-start…

python实现网络爬虫

网络爬虫是一个自动从互联网上抓取数据的程序。Python有很多库可以帮助我们实现网络爬虫&#xff0c;其中最常用的是requests&#xff08;用于发送HTTP请求&#xff09;和BeautifulSoup&#xff08;用于解析HTML或XML文档&#xff09;。 以下是一个简单的Python网络爬虫示例&a…

学习【Java IO】这一篇就够了

目录 1. 字节流1-1. InputStream1-2. outputStream 2. 字符流2-1. Reader2-2. Wirter 3. 字节缓冲流3-1. BufferedInputStream&#xff08;字节缓冲输入流&#xff09;3-2. BufferedOutputStream&#xff08;字节缓冲输出流&#xff09; 4. 字符缓冲流5. 打印流6. 随机访问流 1…