贝叶斯优化python包_贝叶斯全局优化(LightGBM调参)

这里结合Kaggle比赛的一个数据集,记录一下使用贝叶斯全局优化和高斯过程来寻找最佳参数的方法步骤。

1.安装贝叶斯全局优化库

从pip安装最新版本

pip install bayesian-optimization

2.加载数据集

import pandas as pd

import numpy as np

from sklearn.model_selection import StratifiedKFold

from scipy.stats import rankdata

from sklearn import metrics

import lightgbm as lgb

import warnings

import gc

pd.set_option('display.max_columns', 200)

train_df = pd.read_csv('../input/train.csv')

test_df = pd.read_csv('../input/test.csv')

目标变量的分布

target = 'target'

predictors = train_df.columns.values.tolist()[2:]

train_df.target.value_counts()

问题是不平衡。这里使用50%分层行作为保持行,以便验证集获得最佳参数。 稍后将在最终模型拟合中使用5折交叉验证。

bayesian_tr_index, bayesian_val_index =

list(StratifiedKFold(n_splits=2,

shuffle=True, random_state=1).split(train_df,

train_df.target.values))[0]

这些bayesian_tr_index和bayesian_val_index索引将用于贝叶斯优化,作为训练和验证数据集的索引。

3.黑盒函数优化(LightGBM)

在加载数据时,为LightGBM创建黑盒函数以查找参数。

def LGB_bayesian(

num_leaves, # int

min_data_in_leaf, # int

learning_rate,

min_sum_hessian_in_leaf, # int

feature_fraction,

lambda_l1,

lambda_l2,

min_gain_to_split,

max_depth):

# LightGBM expects next three parameters need to be integer. So we make

them integer

num_leaves = int(num_leaves)

min_data_in_leaf = int(min_data_in_leaf)

max_depth = int(max_depth)

assert type(num_leaves) == int

assert type(min_data_in_leaf) == int

assert type(max_depth) == int

param = {

'num_leaves': num_leaves,

'max_bin': 63,

'min_data_in_leaf': min_data_in_leaf,

'learning_rate': learning_rate,

'min_sum_hessian_in_leaf': min_sum_hessian_in_leaf,

'bagging_fraction': 1.0,

'bagging_freq': 5,

'feature_fraction': feature_fraction,

'lambda_l1': lambda_l1,

'lambda_l2': lambda_l2,

'min_gain_to_split': min_gain_to_split,

'max_depth': max_depth,

'save_binary': True,

'seed': 1337,

'feature_fraction_seed': 1337,

'bagging_seed': 1337,

'drop_seed': 1337,

'data_random_seed': 1337,

'objective': 'binary',

'boosting_type': 'gbdt',

'verbose': 1,

'metric': 'auc',

'is_unbalance': True,

'boost_from_average': False,

}

xg_train =

lgb.Dataset(train_df.iloc[bayesian_tr_index][predictors].values,

label=train_df.iloc[bayesian_tr_index][target].values,

feature_name=predictors,

free_raw_data = False

)

xg_valid =

lgb.Dataset(train_df.iloc[bayesian_val_index][predictors].values,

label=train_df.iloc[bayesian_val_index][target].values,

feature_name=predictors,

free_raw_data = False

)

num_round = 5000

clf = lgb.train(param, xg_train, num_round, valid_sets = [xg_valid],

verbose_eval=250, early_stopping_rounds = 50)

predictions =

clf.predict(train_df.iloc[bayesian_val_index][predictors].values,

num_iteration=clf.best_iteration)

score =

metrics.roc_auc_score(train_df.iloc[bayesian_val_index][target].values,

predictions)

return score

上面的LGB_bayesian函数将作为贝叶斯优化的黑盒函数。

我已经在LGB_bayesian函数中为LightGBM定义了trainng和validation数据集。

LGB_bayesian函数从贝叶斯优化框架获取num_leaves,min_data_in_leaf,learning_rate,min_sum_hessian_in_leaf,feature_fraction,lambda_l1,lambda_l2,min_gain_to_split,max_depth的值。

请记住,对于LightGBM,num_leaves,min_data_in_leaf和max_depth应该是整数。 但贝叶斯优化会发送连续的函数。

所以我强制它们是整数。 我只会找到它们的最佳参数值。 读者可以增加或减少要优化的参数数量。

现在需要为这些参数提供边界,以便贝叶斯优化仅在边界内搜索。

bounds_LGB = {

'num_leaves': (5, 20),

'min_data_in_leaf': (5, 20),

'learning_rate': (0.01, 0.3),

'min_sum_hessian_in_leaf': (0.00001, 0.01),

'feature_fraction': (0.05, 0.5),

'lambda_l1': (0, 5.0),

'lambda_l2': (0, 5.0),

'min_gain_to_split': (0, 1.0),

'max_depth':(3,15),

}

让我们将它们全部放在BayesianOptimization对象中

from bayes_opt import BayesianOptimization

LGB_BO = BayesianOptimization(LGB_bayesian, bounds_LGB,

random_state=13)

现在,让我们来优化key space (parameters):

print(LGB_BO.space.keys)

我创建了BayesianOptimization对象(LGB_BO),在调用maxime之前它不会工作。在调用之前,解释一下贝叶斯优化对象(LGB_BO)的两个参数,我们可以传递给它们进行最大化:

init_points:我们想要执行的随机探索的初始随机运行次数。 在我们的例子中,LGB_bayesian将被运行n_iter次。

n_iter:运行init_points数后,我们要执行多少次贝叶斯优化运行。

现在,是时候从贝叶斯优化框架调用函数来最大化。 我允许LGB_BO对象运行5个init_points和5个n_iter。

init_points = 5

n_iter = 5

print('-' * 130)

with warnings.catch_warnings():

warnings.filterwarnings('ignore')

LGB_BO.maximize(init_points=init_points, n_iter=n_iter, acq='ucb', xi=0.0,

alpha=1e-6)

优化完成后,让我们看看我们得到的最大值是多少。

LGB_BO.max['target']

参数的验证AUC是0.89, 让我们看看参数:

LGB_BO.max['params']

现在我们可以将这些参数用于我们的最终模型!

BayesianOptimization库中还有一个很酷的选项。

你可以探测LGB_bayesian函数,如果你对最佳参数有所了解,或者您从其他kernel获取参数。 我将在此复制并粘贴其他内核中的参数。

你可以按照以下方式进行探测:

LGB_BO.probe(

params={'feature_fraction': 0.1403,

'lambda_l1': 4.218,

'lambda_l2': 1.734,

'learning_rate': 0.07,

'max_depth': 14,

'min_data_in_leaf': 17,

'min_gain_to_split': 0.1501,

'min_sum_hessian_in_leaf': 0.000446,

'num_leaves': 6},

lazy=True, #

)

好的,默认情况下这些将被懒惰地探索(lazy = True),这意味着只有在你下次调用maxime时才会评估这些点。

让我们对LGB_BO对象进行最大化调用。

LGB_BO.maximize(init_points=0, n_iter=0) # remember no init_points or

n_iter

最后,通过属性LGB_BO.res可以获得探测的所有参数列表及其相应的目标值。

for i, res in enumerate(LGB_BO.res):

print("Iteration {}: \n\t{}".format(i, res))

我们在调查中获得了更好的验证分数!和以前一样,我只运行LGB_BO 10次。在实践中,我将它增加到100。

LGB_BO.max['target']

LGB_BO.max['params']

让我们一起构建一个模型使用这些参数。

4.训练LightGBM模型

param_lgb = {

'num_leaves': int(LGB_BO.max['params']['num_leaves']), # remember to int

here

'max_bin': 63,

'min_data_in_leaf': int(LGB_BO.max['params']['min_data_in_leaf']), #

remember to int here

'learning_rate': LGB_BO.max['params']['learning_rate'],

'min_sum_hessian_in_leaf':

LGB_BO.max['params']['min_sum_hessian_in_leaf'],

'bagging_fraction': 1.0,

'bagging_freq': 5,

'feature_fraction': LGB_BO.max['params']['feature_fraction'],

'lambda_l1': LGB_BO.max['params']['lambda_l1'],

'lambda_l2': LGB_BO.max['params']['lambda_l2'],

'min_gain_to_split': LGB_BO.max['params']['min_gain_to_split'],

'max_depth': int(LGB_BO.max['params']['max_depth']), # remember to int

here

'save_binary': True,

'seed': 1337,

'feature_fraction_seed': 1337,

'bagging_seed': 1337,

'drop_seed': 1337,

'data_random_seed': 1337,

'objective': 'binary',

'boosting_type': 'gbdt',

'verbose': 1,

'metric': 'auc',

'is_unbalance': True,

'boost_from_average': False,

}

如您所见,我将LGB_BO的最佳参数保存到param_lgb字典中,它们将用于训练5折的模型。

Kfolds数量:

无锡妇科检查医院 http://www.87554006.com/

nfold = 5

gc.collect()

skf = StratifiedKFold(n_splits=nfold, shuffle=True, random_state=2019)

oof = np.zeros(len(train_df))

predictions = np.zeros((len(test_df),nfold))

i = 1

for train_index, valid_index in skf.split(train_df,

train_df.target.values):

print("\nfold {}".format(i))

xg_train = lgb.Dataset(train_df.iloc[train_index][predictors].values,

label=train_df.iloc[train_index][target].values,

feature_name=predictors,

free_raw_data = False

)

xg_valid = lgb.Dataset(train_df.iloc[valid_index][predictors].values,

label=train_df.iloc[valid_index][target].values,

feature_name=predictors,

free_raw_data = False

)

clf = lgb.train(param_lgb, xg_train, 5000, valid_sets = [xg_valid],

verbose_eval=250, early_stopping_rounds = 50)

oof[valid_index] =

clf.predict(train_df.iloc[valid_index][predictors].values,

num_iteration=clf.best_iteration)

predictions[:,i-1] += clf.predict(test_df[predictors],

num_iteration=clf.best_iteration)

i = i + 1

print("\n\nCV AUC:

{:<0.2f}".format(metrics.roc_auc_score(train_df.target.values, oof)))

所以我们在5折交叉验证中获得了0.90 AUC。

让我们对5折预测进行排名平均。

5.排名平均值

print("Rank averaging on", nfold, "fold predictions")

rank_predictions = np.zeros((predictions.shape[0],1))

for i in range(nfold):

rank_predictions[:, 0] = np.add(rank_predictions[:, 0],

rankdata(predictions[:, i].reshape(-1,1))/rank_predictions.shape[0])

rank_predictions /= nfold

6.提交

sub_df = pd.DataFrame({"ID_code": test_df.ID_code.values})

sub_df["target"] = rank_predictions

sub_df.to_csv("Customer_Transaction_rank_predictions.csv", index=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257709.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PL/SQL 语言 一

Declarea Varchar2(20);b Number(10);c Number(10);m Number(5);sname Varchar2(20);nozero Exception;Begina : 小明;Dbms_Output.Put_Line(a);b : 3;c : 0;/* 循环 */ /* m :50;Loop Exit When m<0;dbms_output.put_line(m);m : m-1;End Loop; *//* While m>0Loop…

OpenCV人脸检测

由于光照、遮挡和倾斜等原因&#xff0c;部分人脸和眼睛并不能正确检测。。 // 简单的人脸检测#include <iostream> #include <vector> #include <opencv2\opencv.hpp> #include "opencv2/objdetect/objdetect.hpp" #include "opencv2/highgu…

分离圆环图显示百分比_Tableau制作圆环图

Tableau圆环图制作 声明&#xff1a;本文内容来源拉勾教育数据分析训练营&#xff0c; 封面图片来源pexels网站圆环图制作过程如下&#xff1a;建立饼图2. 设置记录平均值3. 在第二个字段的下拉菜单中选择双轴4. 点击右侧坐标轴&#xff0c;右键选择同步轴&#xff08;同步轴指…

FLEX 布局

网页布局&#xff08;layout&#xff09;是CSS的一个重点应用。 布局的传统解决方案&#xff0c;基于盒状模型&#xff0c;依赖 display属性 position属性 float属性。它对于那些特殊布局非常不方便&#xff0c;比如&#xff0c;垂直居中就不容易实现。 2009年&#xff0c;W3…

SpiderMonkey-让你的C++程序支持JavaScript脚本

译序 有些网友对为什么D2JSP能执行JavaScript脚本程序感到奇怪&#xff0c;因此我翻译了这篇文章&#xff0c;原文在这里。这篇教程手把手教你怎样利用SpiderMonkey创建一个能执行JavaScript脚本的C程序&#xff0c;并让JavaScript脚本操纵你的C程序的内部数据、操作。从这篇教…

Android 虚拟机学习总结Dalvik虚拟机介绍

1、Dalvik虚拟机与Java虚拟机的最显著差别是它们分别具有不同的类文件格式以及指令集。Dalvik虚拟机使用的是dex&#xff08;Dalvik Executable&#xff09;格式的类文件&#xff0c;而Java虚拟机使用的是class格式的类文件。一个dex文件能够包括若干个类。而一个class文件仅仅…

des vue 加密解密_vue DES 加密

ECB模式import cryptoJs from crypto-js// DES加密export const encryptDes (message, key) > {var keyHex cryptoJs.enc.Utf8.parse(key)var option { mode: cryptoJs.mode.ECB, padding: cryptoJs.pad.Pkcs7 }var encrypted cryptoJs.DES.encrypt(message, keyHex, op…

使用jQuery清空表单

$(#theform)[0].reset(); reset()这个函数的作用是将表单的值重置&#xff0c;变为默认值&#xff0c; 例&#xff1a; <input type"text" value"姓名"> 这个标签的默认值就是”姓名“&#xff0c;如果使用上面的方法&#xff0c;就会重置为“姓名”…

MobX快速入门教程(重要概念讲解)

转载请注明原文地址&#xff1a;http://www.cnblogs.com/ygj0930/p/7372119.html 一&#xff1a;Mobx工作流程图 二&#xff1a;MobX涉及到的概念 1:状态state 组件中的数据。 2:被观察observable 被observable修饰的state数据将会暴露给整个app&#xff0c;各观察者组件都可以…

CentOS工作内容(七)禁用IPV6

CentOS工作内容&#xff08;七&#xff09;禁用IPV6 用到的快捷键 tab 自动补齐(有不知道的吗) ctrla 移动到当前行的开头(a ahead) ctrle 移动到当前行的开头(e end) ctrlu 删除(剪切)此处至开始所有内容 复制进来&#xff1a;按一下鼠标右键粘贴到SercureCRT 复制出去&#x…

循环结束后变回去 设置一个值_VBA掌握循环结构,包你效率提高500倍

这是系列免费教程《Excel VBA&#xff1a;办公自动化》&#xff0c;还是老规矩&#xff0c;看看我们走到哪里了。1.认识VBA&#xff1a;什么是VBA&#xff1f;2.这些掌握了&#xff0c;你才敢说自己懂VBA3.VBA变量5年踩坑吐血精华总结4.VBA中重要的强制申明&#xff0c;谁看谁明…

连接到kali linux服务器上的MySQL服务器错误

前言&#xff1a;想把数据库什么的都放在虚拟机kali Linux里&#xff0c;但无奈出了好多错误。 首先&#xff1a;可以参照上一篇文章开启kali服务器端的远程连接功能&#xff0c;上一篇文章 然后&#xff1a;使用window端的sqlyog&#xff08;MySQL图形化连接工具&#xff09;连…

dedecms后台怎么添加发布软件?织梦后台软件内容管理

使用织梦cms有很多的功能&#xff0c;其中有一个是在dedecms后台添加发布软件&#xff0c;然后在前台大家可以直接下载软件&#xff0c;在织梦cms后台怎么添加发布软件呢&#xff1f;下面是织梦软件内容管理的主要操作步骤。使用织梦cms有很多的功能&#xff0c;其中有一个是在…

301 302区别_如何正确理解301,302和canonial标签

今天我们来学习一下几个比较容易混淆的页面跳转标签&#xff0c;301&#xff0c;302&#xff0c;relcanonial。在谷歌SEO里面&#xff0c;我们比较容易常见的是第一个301&#xff0c;302和canonial出现的比较少&#xff0c;但是不代表不存在&#xff0c;我会尝试从以下价格方面…

ffmpeg文档08-表达式计算/求值

8 表达式计算/求值 在计算表达式时&#xff0c;ffmpeg通过libavutil/eval.h接口调用内部计算器进行计算。 表达式可以包含一元运算符、运算符、常数和函数 两个表达式expr1和expr2可以组合起来成为"expr1;expr2" &#xff0c;两个表达式都会被计算&#xff0c;但是新…

为什么手机游戏手柄没有流行起来?

问答社区知乎上有人提了一个问题&#xff0c;“为什么手机用游戏手柄没有流行&#xff1f;” Ta找了不少论证&#xff1a;1&#xff09;手机用户数量很大&#xff1b;2&#xff09;大量用户在手机上花费最多时间的是玩游戏&#xff1b;3&#xff09;游戏机平台&#xff08;的游…

c++排序算法ppt_C/C++学习教程:C语言排序算法—插入排序算法

前言&#xff1a;插入排序算法是所有排序方法中最简单的一种算法&#xff0c;其主要的实现思想是将数据按照一定的顺序一个一个的插入到有序的表中&#xff0c;最终得到的序列就是已经排序好的数据。直接插入排序是插入排序算法中的一种&#xff0c;采用的方法是&#xff1a;在…

python函数参数

1.位置参数 2.默认参数 指向参数为不可变对象 3.可变参数 **args 一个列表list或是元组tuple 4.关键字参数 **kw,是一个字典dict 5.命名关键字参数 *, 转载于:https://www.cnblogs.com/aliy-pan/p/5198025.html

Python 常用函数 configparser模块

使用ConfigParser模块读写ini文件 ConfigParserPython的ConfigParser Module中定义了3个类对INI文件进行操作。分别是RawConfigParser、ConfigParser、SafeConfigParser。模块所解析的ini配置文件是由多个section构成&#xff0c;每个section名用中括号‘[]’包含&#xff0c;每…

自制Unity小游戏TankHero-2D(3)开始玩起来

自制Unity小游戏TankHero-2D(3)开始玩起来 我在做这样一个坦克游戏&#xff0c;是仿照&#xff08;http://game.kid.qq.com/a/20140221/028931.htm&#xff09;这个游戏制作的。仅为学习Unity之用。图片大部分是自己画的&#xff0c;少数是从网上搜来的。您可以到我的github页…