libsvm回归参数寻优cgp_【lightgbm/xgboost/nn代码整理二】xgboost做二分类,多分类以及回归任务...

46bfc3ea4865a8b40dae0f508243f074.png

1.简介

该部分是代码整理的第二部分,为了方便一些初学者调试代码,作者已将该部分代码打包成一个工程文件,包含简单的数据处理、xgboost配置、五折交叉训练和模型特征重要性打印四个部分。数据处理部分参考:代码整理一,这里只介绍不同的部分。本文主要是介绍一些重点的参数部分,一是方便自己以后再次查询,也希望帮助一些初学者快速的使用该项目,应用到自己的工程或者比赛中。如果只是想要阅读代码,可直接移步到尾部链接。

2. 数据处理

data = pd.concat([train_data, test_data])
cate_feature = ['gender', 'cell_province', 'id_province', 'id_city', 'rate', 'term']
for item in cate_feature:data[item] = LabelEncoder().fit_transform(data[item])item_dummies = pd.get_dummies(data[item])item_dummies.columns = [item + str(i + 1) for i in range(item_dummies.shape[1])]data = pd.concat([data, item_dummies], axis=1)
data.drop(cate_feature,axis=1,inplace=True)

该部分在lightgbm中只进行了labelEncoder编码处理,然后通过categorical_feature变量处理,在lightgbm中使用了类别特征的最优切分进行了处理,具体详情参考:柯国霖大佬的回答。xgboost中没有对类别特征做处理,这里对其进行了onehot编码处理。而在工程中,如果类别过多,我一般会放弃进行onehot,主要是由于进行onehot会导致特征过于稀疏,运算速度变慢,严重影响模型的迭代速度,并且最终对结果提升很有限,我通常只会进行labelEncoder, 也可以对特征进行embeding处理。

3.模型

3.1 参数

和lightgbm一样,xgboost也是使用key-value字典的方式存储参数,下面给出的事二分类的参数

params = {'booster': 'gbtree','objective': 'binary:logistic','eval_metric': 'auc','gamma': 0.1,'max_depth': 8,'alpha': 0,'lambda': 0,'subsample': 0.7,'colsample_bytree': 0.5,'min_child_weight': 3,'silent': 0,'eta': 0.03,'nthread': -1,'seed': 2019,
}
  • objective:目标函数
  • 二分类:常用的是binary:logistic
  • 多分类:multi:softmax,当是多分类任务时需要指定类别数量,eg:'num_class':33;
  • 回归任务:reg:linear
  • eval_metric:评价函数,如果该参数没有指定,缺省值是通过目标函数来做匹配,
  • 二分类:常用auclogloss
  • 多分类:mlogloss
  • 回归任务:均方误差:mse,均方根误差:rmse, 平均绝对值误差:mae
  • gamma:用于控制是否后剪枝的参数,越大越保守,一般0.1、0.2这样子
  • max_depth:树的深度,对结果影响较大,越深越容易过拟合
  • alpha:L1正则,树的深度过大时,可以适大该参数
  • lambda:L2正则
  • subsample:随机采样的比率,通俗理解就是选多少样本做为训练集,选择小于1的比例可以减少方差,即防止过拟合
  • colsample_bytree:这里是选择多少列作为训练集,具体的理解就是选择多少特征
  • min_child_weight:决定最小叶子节点样本权重和。当它的值较大时,可以避免模型学习到局部的特殊样本。但如果这个值过高,会导致欠拟合
  • eta:学习率
  • silent: 是否打印训练过程中的信息,0表示打印,1反之
  • nthread:运行的线程数,-1所有线程,该值需要根据具体情况调整,线程对最终结果有一点影响,曾今测试,线程越多,结果会变差一丢丢
  • seed:这个随机指定一个常数,防止每次结果不一致

3.2 五折交叉

folds = KFold(n_splits=5, shuffle=True, random_state=2019)

采用五折交叉统计实际就是训练多个模型和平均值融合,如果时间允许的情况下10折交叉会好于5折。5折交叉还可以采用StratifiedKFold做切分。

3.3 数据加载

XGBoost可以加载多种数据格式的训练数据:libsvm 格式的文本数据、Numpy 的二维数组、XGBoost 的二进制的缓存文件。加载的数据存储在对象 DMatrix 中,而llightgbm是存储在Dataset中

trn_data = xgb.DMatrix(train_x.iloc[trn_idx], label=train_y[trn_idx])
val_data = xgb.DMatrix(train_x.iloc[val_idx], label=train_y[val_idx])

3.4 训练和预测

##训练部分
watchlist = [(trn_data, 'train'), (val_data, 'valid')]
clf = xgb.train(params, trn_data, num_round, watchlist, verbose_eval=200, early_stopping_rounds=200)##预测部分
test_pred_prob += clf.predict(xgb.DMatrix(test), ntree_limit=clf.best_ntree_limit) / folds.n_splits
  • params:参数字典
  • trn_data :训练的数据
  • num_round:迭代次数
  • watchlist:这是一个列表,用于对训练过程中进行评估列表中的元素。形式是evals =[(dtrain,’train’),(dval,’val’)]或者是evals =[(dtrain,’train’)],对于第一种情况,它使得我们可以在训练过程中观察验证集的效果。
  • verbose_eval: 如果为True ,则对evals中元素的评估结果会输出在结果中;如果输入数字,假设为5,则每隔5个迭代输出一次。
  • ntree_limit:验证集中最好的结果做预测

4.模型重要性

模型重要性是根据树模型中该特征的分裂次数做统计的,可以基于此重要性来判断特种的重要程度,深入的挖掘特征,具体代码如下:

##保存特征重要性
fold_importance_df = pd.DataFrame()
fold_importance_df["Feature"] = clf.get_fscore().keys()
fold_importance_df["importance"] = clf.get_fscore().values()
fold_importance_df["fold"] = fold_ + 1
feature_importance_df = pd.concat([feature_importance_df, fold_importance_df], axis=0)##特征重要性显示
## plot feature importance
cols = (feature_importance_df[["Feature", "importance"]] .groupby("Feature").mean().sort_values(by="importance", ascending=False).index)
best_features = feature_importance_df.loc[feature_importance_df.Feature.isin(cols)].sort_values(by='importance',ascending=False)
plt.figure(figsize=(8, 15))
sns.barplot(y="Feature", x="importance",data=best_features.sort_values(by="importance", ascending=False))
plt.title('LightGBM Features (avg over folds)')
plt.tight_layout()
plt.savefig('../../result/xgb_importances.png')

在lightgbm中对应的事clf.feature_importance()函数,而在xgboost中对应的是clf.get_fscore()函数。如果特征过多无法完成显示,可以只取topN显示,如只显示top5

cols = (feature_importance_df[["Feature", "importance"]].groupby("Feature").mean().sort_values(by="importance", ascending=False)[:5].index)

5.小总结

xgboost和lightgbm对比,它的速度会慢很多,使用也没有lighgbm方便,但是可以将xgboost训练的结果和lightgbm做融合,提升最终的结果。

代码地址:data_mining_models

. 写在最后

欢迎关注作者和专栏,和作者一块成长:ML与DL成长之路,

推荐关注公众号:AI成长社,ML与DL的成长圣地。

同时推荐鱼佬专栏,学习更对竞赛知识,机器学习理论与数据竞赛实战


推荐阅读

【lightgbm/xgboost/nn代码整理一】lightgbm做二分类,多分类以及回归任务

【lightgbm/xgboost/nn代码整理三】keras做二分类,多分类以及回归任务

【lightgbm/xgboost/nn代码整理四】pytorch做二分类,多分类以及回归任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/475397.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hive - 可优化的 10 个地方及详解

1.合理选择排序 排序算法比较耗资源,应根据业务需要选择 order by :全局排序,大数据集会消耗太过漫长的时间sort by:局部排序,只能保证每个reducer的输出数据都是有序的distribute by:分桶不排序,控制map…

[scikit-learn 机器学习] 7. 朴素贝叶斯

文章目录1. 朴素贝叶斯2. NB 与 逻辑回归对比本文为 scikit-learn机器学习(第2版)学习笔记相关知识参考:《统计学习方法》朴素贝叶斯法(Naive Bayes,NB) 1. 朴素贝叶斯 通过最大概率来预测类&#xff1a…

堕落的时候看看——清华大学老师的一席话

一双鞋,耐克的6百多;李宁的4百多;特步的3百多;361的2百多;所以,你毕业于一个什么样的大学很重要。 一双鞋,在地摊不过几十元,到了商场、专卖店,会涨到一百甚至几百。所以…

塔菲克蓝牙适配器驱动_小身材,大功能,biaze毕亚兹USB蓝牙适配器开箱体验

在日常生活中,我们平时使用的台式电脑或是笔记本电脑,想要传输数据或者音频的时候,都是需要借助数据传输线或是U盘等传输设备,使用过程可想而知,有点麻烦。我们都知道,手机是有蓝牙传输功能的,只…

MySQL - cast()函数

日常建表习惯用 create tabel tb_name as select......,这种建表方式的其中一个缺点就是:系统会根据查询出的字段,定义字段类型。有时候会把 %Y-%m-%d 格式的日期字段定义为 varchar 。建模的时候苦不堪言。 那么怎么在建表过程中自己定义每…

HDU1003——MAX SUM

简单DP&#xff0c;状态转移公式&#xff1a;num[j].data max{num[j].data, num[j].datanum[j-1].data}&#xff0c;也就是保证加上前一个数不失自己的值减小。 View Code #include <stdio.h>#define N 100010#define inf 9999999struct _num{int data;int pre;int nex…

[scikit-learn 机器学习] 8. 非线性分类和决策树

文章目录1. 特征选择标准2. 网页广告预测2.1 数量处理2.2 网格搜索模型参数3. 决策树优缺点本文为 scikit-learn机器学习&#xff08;第2版&#xff09;学习笔记相关知识&#xff1a;《统计学习方法》决策树&#xff08;Decision Tree&#xff0c;DT&#xff09; 1. 特征选择…

智慧新泰时空大数据与云平台_智慧警务大数据云平台开发情报研判系统解决方案...

智慧公安作为公安信息化开展到高级阶段的一种警务形态&#xff0c;“智慧公安”主要采用物联网、云计算、无线通讯、智能动态感知分析等新一代信息技术,将公安工作IT根底设备与物理设备、人际环境等高度交融,以提供智能化公安决策与效劳。智慧警务大数据云平台开发情报研判系统…

RGB颜色查询对照表#FFFFFF

大致是下图这样的&#xff0c;有需要的可以点击下面的连接复制使用&#xff1a; https://www.114la.com/other/rgb.htm

ikbc机械键盘打字出现重复_超小无线机械键盘,绝佳移动打字体验

NuType筹资信息产品名称NuType上线平台Kickstarter发起团队NUPHY发起地区中国香港目标金额80,000HKD筹集金额1,301,212HKD完全进度1,627%支持人数1,612最低价格697HKD上线时间2019/11/13-2019/12/28创次方/制表时间&#xff1a;2019年12月28日文/大智笔电键盘的打字体验远不及桌…

英语语法之形容词从句:定语从句

形容词从句:定语从句 限制和非限制性定语从句 ----------------------------------------------------------------------------- 限制和非限制性定语从句: 限制性定语从句是名词词组不可缺少的一个组成部分,去掉了会造成病句或意义不明确; 非限制性定语从句属于补充说明性质…

MySQL - 定时任务(每天凌晨1点、每小时、每分钟、某一时间点)

常用的一定要写在前面 # 从2019-10-11开始&#xff0c;每天的00:30:00执行定时任务 ON SCHEDULE EVERY 1 DAY STARTS 2019-10-11 00:30:00 # 每天的凌晨1点执行定时任务 ON SCHEDULE EVERY 1 DAY STARTS DATE_ADD(DATE_ADD(CURDATE(), INTERVAL 1 DAY), INTERVAL 1 HOUR)# 特…

数据库中的null和c#中的null

再向数据库中插入数据时&#xff0c;如果插入c#中的null会报错&#xff0c;需要转换成SQl中的DBNull.Value public static object ToDbNull(object value) { if (value null || value.ToString() DateTime.MinValue.ToString()) { …

极光无限渗透测试面经_认识工业以太网及线缆测试

工业以太网由于其固有的可靠性、高性能和互操作性&#xff0c;已经渗透到工厂车间&#xff0c;成为自动化和控制系统的首选通信协议。近年&#xff0c;工业以太网的市场份额已经超过了传统的现场总线协议&#xff0c;总线协议通常需要多个独立和专有的布线设施。为了满足工业环…

mysql_根据身份证号识别性别、年龄、所在省份

1.性别&#xff1a; IF(mod(SUBSTR(c.reciver_idcard_num,17,1),2),man,woman) 性别, 2. 年龄&#xff1a; CASE WHEN c.reciver_idcard_num <> THEN (YEAR(CURDATE()) - SUBSTRING(c.reciver_idcard_num,7,4)) ELSE NULL END AS 年龄, 3. 所属省份&#xff1a; CAS…

LeetCode 286. 墙与门(BFS)

文章目录1. 题目2. 解题2.1 BFS 超时解2.2 从门开始逆向BFS1. 题目 你被给定一个 m n 的二维网格&#xff0c;网格中有以下三种可能的初始化值&#xff1a; -1 表示墙或是障碍物0 表示一扇门INF 无限表示一个空的房间。然后&#xff0c;我们用 231 - 1 2147483647 代表 INF…

法斗几个月长鼻筋_路医生说丨脚底板早起一下地特别疼?得了足底筋膜炎,该怎么办?...

老李很奇怪&#xff0c;他压根就没有受过伤&#xff0c;怎么突然就脚底板疼了起来。就是这两天走的稍多了点&#xff0c;也不知道为什么脚底板就开始疼了&#xff0c;走路踩地就疼&#xff0c;尤其是早晨起床脚一踩地&#xff0c;那酸爽简直了&#xff0c;刚下地的前几步走起来…

Power BI连接MySQL 提示错误......未能加载文件或程序集......或它的某一个依赖项

Power BI连接MySQL数据库时报错&#xff1a; 提示错误未能加载文件或程序集“MySql.Data, Version5.1.4.0, Cultureneutral,........”或它的某一个依赖项。找到的程序集清单定义与程序集引用不匹配。 解决办法&#xff1a;下载MySQL.Data.dll(5.1.4)程序集&#xff01; 解压…

LeetCode 346. 数据流中的移动平均值(队列)

文章目录1. 题目2. 解题1. 题目 给定一个整数数据流和一个窗口大小&#xff0c;根据该滑动窗口的大小&#xff0c;计算其所有整数的移动平均值。 示例: MovingAverage m new MovingAverage(3); m.next(1) 1 m.next(10) (1 10) / 2 m.next(3) (1 10 3) / 3 m.next(5) …

SQL 语句还原SQL Server数据库

/* 断开所有用户打开的连接 */ use master--一定要有这个 goif exists (select * from dbo.sysobjects where id object_id(N[dbo].[p_killspid]) and OBJECTPROPERTY(id, NIsProcedure) 1) drop procedure [dbo].[p_killspid] GOcreate proc p_killspid--创建存储过程 dbnam…