kaggle比赛数据_表格数据二进制分类:来自5个Kaggle比赛的所有技巧和窍门

kaggle比赛数据

This article was originally written by Shahul ES and posted on the Neptune blog.

本文最初由 Shahul ES 撰写, 并发布在 Neptune博客上。

In this article, I will discuss some great tips and tricks to improve the performance of your structured data binary classification model. These tricks are obtained from solutions of some of Kaggle’s top tabular data competitions. Without much lag, let’s begin.

在本文中,我将讨论一些很棒的技巧和窍门,以提高结构化数据二进制分类模型的性能。 这些技巧是从Kaggle的一些顶级表格数据竞赛的解决方案中获得的。 没有太多的滞后,让我们开始吧。

These are the five competitions that I have gone through to create this article:

以下是我撰写本文时经历的五项比赛:

  • Home credit default risk

    房屋信贷违约风险

  • Santander Customer Transaction Prediction

    桑坦德银行客户交易预测

  • VSB Power Line Fault Detection

    VSB电源线故障检测

  • Microsoft Malware Prediction

    Microsoft恶意软件预测

  • IEEE-CIS Fraud Detection

    IEEE-CIS欺诈检测

处理更大的数据集 (Dealing with larger datasets)

One issue you might face in any machine learning competition is the size of your data set. If the size of your data is large, that is 3GB + for kaggle kernels and more basic laptops you could find it difficult to load and process with limited resources. Here is the link to some of the articles and kernels that I have found useful in such situations.

在任何机器学习竞赛中,您可能面临的一个问题是数据集的大小。 如果数据量很大,那么kaggle内核和更基本的笔记本电脑需要3GB以上的内存,您可能会发现很难用有限的资源来加载和处理数据。 这里是我发现在这种情况下有用的一些文章和内核的链接。

  • Faster data loading with pandas.

    使用熊猫更快地加载数据。

  • Data compression techniques to reduce the size of data by 70%.

    数据压缩技术可将数据大小减少70% 。

  • Optimize the memory by reducing the size of some attributes.

    通过减小某些属性的大小来优化内存。

  • Use open-source libraries such as Dask to read and manipulate the data, it performs parallel computing and saves up memory space.

    使用诸如Dask之类的开源库来读取和处理数据 ,它可以执行并行计算并节省内存空间。

  • Use cudf.

    使用cudf 。

  • Convert data to parquet format.

    将数据转换为镶木地板格式。

  • Converting data to feather format.

    将数据转换为羽毛格式。

  • Reducing memory usage for optimizing RAM.

    减少内存使用以优化RAM 。

数据探索 (Data exploration)

Data exploration always helps to better understand the data and gain insights from it. Before starting to develop machine learning models, top competitors always read/do a lot of exploratory data analysis for the data. This helps in feature engineering and cleaning of the data.

数据探索始终有助于更好地理解数据并从中获得见解。 在开始开发机器学习模型之前,顶级竞争者总是会读取/进行大量探索性数据分析。 这有助于功能设计和数据清理。

  • EDA for microsoft malware detection.

    用于Microsoft 恶意软件检测的 EDA 。

  • Time Series EDA for malware detection.

    用于检测恶意软件的时间序列EDA。

  • Complete EDA for home credit loan prediction.

    完整的EDA用于房屋信用贷款预测 。

  • Complete EDA for Santader prediction.

    完成用于Santader预测的EDA。

  • EDA for VSB Power Line Fault Detection.

    用于VSB电源线故障检测的 EDA 。

资料准备 (Data preparation)

After data exploration, the first thing to do is to use those insights to prepare the data. To tackle issues like class imbalance, encoding categorical data, etc. Let’s see the methods used to do it.

在进行数据探索之后,要做的第一件事就是利用这些见解来准备数据。 为了解决类不平衡,对分类数据进行编码等问题,让我们看看用于实现此目的的方法。

  • Methods to tackle class imbalance.

    解决班级失衡的方法 。

  • Data augmentation by Synthetic Minority Oversampling Technique.

    综合少数民族过采样技术的数据扩充。

  • Fast inplace shuffle for augmentation.

    快速就地洗牌以增强效果 。

  • Finding synthetic samples in the dataset.

    在数据集中查找合成样本。

  • Signal denoising used in signal processing competitions.

    信号处理比赛中使用的信号降噪 。

  • Finding patterns of missing data.

    查找丢失数据的模式 。

  • Methods to handle missing data.

    处理丢失数据的方法。

  • An overview of various encoding techniques for categorical data.

    用于分类数据的各种编码技术的概述。

  • Building model to predict missing values.

    建立模型以预测缺失值。

  • Random shuffling of data to create new synthetic training set.

    随机对数据进行改组以创建新的综合训练集。

特征工程 (Feature engineering)

Next, you can check the most popular feature and feature engineering techniques used in these top kaggle competitions. The feature engineering part varies from problem to problem depending on the domain.

接下来,您可以查看在这些热门kaggle比赛中使用的最受欢迎的功能和功能工程技术。 功能工程部分的问题因域而异。

  • Target encoding cross validation for better encoding.

    目标编码交叉验证可实现更好的编码。

  • Entity embedding to handle categories.

    实体嵌入处理类别 。

  • Encoding cyclic features for deep learning.

    编码循环功能以进行深度学习。

  • Manual feature engineering methods.

    手动特征工程方法 。

  • Automated feature engineering techniques using featuretools.

    使用featuretools的自动化特征工程技术。

  • Top hard crafted features used in microsoft malware detection.

    Microsoft恶意软件检测中使用的顶级精选功能。

  • Denoising NN for feature extraction.

    神经网络去噪特征提取 。

  • Feature engineering using RAPIDS framework.

    使用RAPIDS框架进行功能工程。

  • Things to remember while processing features using LGBM.

    使用LGBM处理功能时要记住的事情。

  • Lag features and moving averages.

    滞后特征和移动平均线。

  • Principal component analysis for dimensionality reduction.

    用于降维的主成分分析 。

  • LDA for dimensionality reduction.

    LDA用于降维 。

  • Best hand crafted LGBM features for microsoft malware detection.

    用于Microsoft恶意软件检测的最佳手工LGBM功能。

  • Generating frequency features.

    生成频率特征。

  • Dropping variables with different train and test distribution.

    丢弃具有不同训练和测试分布的变量。

  • Aggregate time series features for home credit competition.

    汇总家庭信用竞争的时间序列特征 。

  • Time Series features used in home credit default risk.

    家庭信用违约风险中使用的时间序列功能 。

  • Scale,Standardize and normalize with sklearn.

    使用sklearn进行缩放,标准化和标准化 。

  • Handcrafted features for Home default risk competition.

    本地默认风险竞争的手工功能。

  • Handcrafted features used in Santander Transaction Prediction.

    桑坦德交易预测中使用的手工功能。

功能选择 (Feature selection)

After generating many features from your data, you need to decide which all features to use in your model to get the maximum performance out of your model. This step also includes identifying the impact each feature is having on your model. Let’s see some of the most popular feature selection methods.

从数据中生成许多功能之后,您需要决定在模型中使用哪些所有功能,以使模型获得最大性能。 此步骤还包括确定每个功能对模型的影响。 让我们看一些最受欢迎的功能选择方法。

  • Six ways to do features selection using sklearn.

    使用sklearn选择功能的六种方法 。

  • Permutation feature importance.

    排列特征的重要性 。

  • Adversarial feature validation.

    对抗特征验证 。

  • Feature selection using null importances.

    使用空重要性的特征选择。

  • Tree explainer using SHAP.

    使用SHAP的树解释器。

  • DeepNN explainer using SHAP.

    使用SHAP的 DeepNN解释器。

造型 (Modeling)

After handcrafting and selecting your features, you should choose the right Machine learning algorithm to make your prediction. These are the collection of some of the most used ML models in structured data classification challenges.

手工制作并选择了特征之后,您应该选择正确的机器学习算法来进行预测。 这些是在结构化数据分类挑战中一些最常用的机器学习模型的集合。

  • Random forest classifier.

    随机森林分类器。

  • XGBoost : Gradient boosted decision trees.

    XGBoost: 梯度增强决策树。

  • LightGBM for distributed and faster training.

    LightGBM可进行分布式和更快的培训。

  • CatBoost to handle categorical data.

    CatBoost处理分类数据。

  • Naive bayes classifier.

    天真的贝叶斯分类器。

  • Gaussian naive bayes model.

    高斯朴素贝叶斯模型。

  • LGBM + CNN model used in 3rd place solution of Santander Customer Transaction Prediction

    LGBM + CNN模型用于桑坦德银行客户交易预测的第三名解决方案

  • Knowledge distillation in Neural Network.

    神经网络中的知识提炼 。

  • Follow the regularized leader method.

    遵循正则化领导方法。

  • Comparison between LGB boosting methods (goss, gbdt and dart).

    LGB增强方法 (goss,gbdt和dart)之间的比较。

  • NN + focal loss experiment.

    NN +焦点损失实验。

  • Keras NN with timeseries splitter.

    Keras NN与时间序列分割器。

  • 5th place NN architecture with code for Santander Transaction prediction.

    第五名NN体系结构,带有用于桑坦德交易预测的代码 。

超参数调整 (Hyperparameter tuning)

  • LGBM hyperparameter tuning methods.

    LGBM 超参数调整方法。

  • Automated model tuning methods.

    自动化的模型调整方法。

  • Parameter tuning with hyperopt.

    使用hyperopt进行参数调整。

  • Bayesian optimization for hyperparameter tuning.

    贝叶斯优化超参数调整。

  • Gpyopt Hyperparameter Optimisation.

    Gpyopt超参数优化 。

评价 (Evaluation)

Choosing a suitable validation strategy is very important to avoid huge shake-ups or poor performance of the model in the private test set.

选择合适的验证策略对于避免在私人测试集中出现巨大的波动或模型的不良性能非常重要。

The traditional 80:20 split wouldn’t work for many cases. Cross-validation works in most cases over the traditional single train-validation split to estimate the model performance.

传统的80:20分割在很多情况下都不起作用。 在大多数情况下,交叉验证都可以通过传统的单列火车验证拆分来估计模型性能。

There are different variations of KFold cross-validation such as group k-fold that should be chosen accordingly.

KFold交叉验证有不同的变体,例如应相应选择组k倍。

  • K-fold cross-validation.

    K折交叉验证 。

  • Stratified KFold cross-validation.

    分层KFold交叉验证 。

  • Group KFold

    KFold组

  • Adversarial validation to check if train and test distributions are similar or not.

    对抗性验证,以检查训练和测试分布是否相似。

  • Time Series split validation.

    时间序列分割验证。

  • Extensive time series splitter.

    广泛的时间序列分割器。

Note:

注意:

There are various metrics that you can use to evaluate the performance of your tabular models. A bunch of useful classification metrics are listed and explained here.

您可以使用多种指标来评估表格模型的性能。 这里列出并解释了 许多有用的 分类指标

其他训练技巧 (Other training tricks)

  • GPU acceleration for LGBM.

    LGBM的GPU加速 。

  • Use the GPU efficiently.

    有效地使用GPU 。

  • Free keras memory.

    免费的keras记忆 。

  • Save and load models to save runtime and memory.

    保存和加载模型以节省运行时间和内存。

合奏 (Ensemble)

If you’re in the competing environment one won’t get to the top of the leaderboard without ensembling. Selecting the appropriate ensembling/stacking method is very important to get the maximum performance out of your models.

如果您在竞争激烈的环境中,那么如果不进行整合,就不会登上排行榜的首位。 选择合适的组装/堆叠方法对于使模型发挥最大性能非常重要。

Let’s see some of the popular ensembling techniques used in kaggle competitions:

让我们看看kaggle比赛中使用的一些流行合奏技术:

  • Weighted average ensemble.

    加权平均合奏 。

  • Stacked generalization ensemble.

    堆叠泛化合奏。

  • Out of folds predictions.

    出人意料的预测 。

  • Blending with linear regression.

    与线性回归融合 。

  • Use optuna to determine blending weights.

    使用optuna确定混合权重。

  • Power average ensemble.

    平均功率合奏 。

  • Power 3.5 blending strategy.

    Power 3.5混合策略。

  • Blending diverse models.

    融合多种模式 。

  • Different stacking approaches.

    不同的堆叠方法。

  • AUC weight optimization.

    AUC权重优化。

  • Geometric mean for low correlation predictions.

    低相关性预测的几何平均值 。

  • Weighted rank average.

    加权排名平均 。

最后的想法 (Final thoughts)

In this article, you saw many popular and effective ways to improve the performance of your tabular data binary classification model. Hopefully, you will find them useful in your projects.

在本文中,您看到了许多流行和有效的方法来改善表格数据二进制分类模型的性能。 希望您会发现它们在您的项目中很有用。

This article was originally written by Shahul ES and posted on the Neptune blog. You can find more in-depth articles for machine learning practitioners there.

本文最初由 Shahul ES 撰写, 并发布在 Neptune博客上 您可以在此处找到针对机器学习从业人员的更多深入文章。

翻译自: https://medium.com/neptune-ai/tabular-data-binary-classification-all-tips-and-tricks-from-5-kaggle-competitions-51667b21876e

kaggle比赛数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/392236.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode 1579. 保证图可完全遍历(并查集)

Alice 和 Bob 共有一个无向图,其中包含 n 个节点和 3 种类型的边: 类型 1:只能由 Alice 遍历。 类型 2:只能由 Bob 遍历。 类型 3:Alice 和 Bob 都可以遍历。 给你一个数组 edges ,其中 edges[i] [typei,…

别把“运气”当“实力”

成功是两分靠努力,八分靠天命–何英圻何英圻先生,大家口中的Steven,是台湾网路创业圈的传奇人物。他先后创办力传(Ubid)与兴奇(Monday)两家公司,最后都以高价出售给北美网路巨人—Ubid在2002年以美金950万卖给eBay,而M…

品牌推广前期要进行哪些针对性的步骤?

企业在品牌推广前需要制订一系列有针对性和连续性的步骤,这些步骤定睛于长期策略,而且要适应目标客户的使用方式和习惯。在企业内部导入品牌VI是前提,外部的宣传则是强调品牌所宣扬的内涵和精神实质,总体来说,这只是一…

php的set 容器,关于STL中set容器的一些总结

1.关于setC STL 之所以得到广泛的赞誉,也被很多人使用,不只是提供了像vector, string, list等方便的容器,更重要的是STL封装了许多复杂的数据结构算法和大量常用数据结构操作。vector封装数组,list封装了链表,map和set…

强化学习应用于组合优化问题_如何将强化学习应用于现实生活中的计划问题

强化学习应用于组合优化问题by Sterling Osborne, PhD Researcher作者:斯特林奥斯本(Sterling Osborne),博士研究员 如何将强化学习应用于现实生活中的计划问题 (How to apply Reinforcement Learning to real life planning problems) Recently, I hav…

导入导出报错

导入导出报错:另:右键--共享:停止共享;可能无效。此时,可以通过修改文件夹的权限,来达到停止共享的目的;转载于:https://www.cnblogs.com/chenjx/p/7107336.html

leetcode 724. 寻找数组的中心索引

给定一个整数类型的数组 nums,请编写一个能够返回数组 “中心索引” 的方法。 我们是这样定义数组 中心索引 的:数组中心索引的左侧所有元素相加的和等于右侧所有元素相加的和。 如果数组不存在中心索引,那么我们应该返回 -1。如果数组有多…

基于mosquitto的MQTT服务器---SSL/TLS 单向认证+双向认证

配置单/双向认证 1.生成证书 使用如下shell 来生成证书: # * Redistributions in binary form must reproduce the above copyright# notice, this list of conditions and the following disclaimer in the# documentation and/or other materials provided wi…

mysql复制的工作原理及主从复制的实现

mysql的复制功能主要有3个步骤主服务器将改变记录到二进制日志中,(这些记录叫做二进制日志事件)从服务器将主服务器的二进制日志事件拷贝到它的中继日志中从服务器重做中继日志中的事件。该过程的第一部分就是主服务器记录二进制日志&#xf…

33条C#、.Net经典面试题目及答案

1, 请你说说.NET中类和结构的区别? 答:结构和类具有大体的语法,但是结构受到的限制比类要多。结构不能申明有默认的构造函数,为结构的副本是又编译器创建和销毁的,所以不需要默认的构造函数和析构函数。结构是值类型&…

pb 放弃数据窗口所做修改_为什么我放弃在线数据课程进行基于项目的学习

pb 放弃数据窗口所做修改by Josh Temple通过乔什坦普尔 为什么我放弃在线数据课程进行基于项目的学习 (Why I abandoned online data courses for project-based learning) 如何通过处理有趣的项目来发展基本数据技能 (How to develop essential data skills by tackling inte…

数字滤波器的matlab 与fpga实现,1 数字滤波器的MATLAB与FPGA实现——杜勇(配套光盘) 程序源码 - 下载 - 搜珍网...

压缩包 : f3d09239c2bf5ce6f06578c866ff06.rar 列表Chapter_3/E3_1/incremental_db/compiled_partitions/SymbExam.db_infoChapter_3/E3_1/incremental_db/READMEChapter_3/E3_1/simulation/modelsim/modelsim.iniChapter_3/E3_1/simulation/modelsim/msim_transcriptChapter_3…

Office 365 系列之九:配置和体验 Exchange 和 Lync

在之前的篇章中,我们已经安装好 Office 365 Pro Plus 和通过 O365 订阅激活了。接下来我们来看看具体怎么配置和使用 Exchange 和 Skype, 这部分内容对于学习过 Exchange Server 2016 和 Skype For Business 2015 的同学来说就很简单了。通过 OWA 访问 Exchange 对于…

leetcode 1631. 最小体力消耗路径(并查集)

你准备参加一场远足活动。给你一个二维 rows x columns 的地图 heights ,其中 heights[row][col] 表示格子 (row, col) 的高度。一开始你在最左上角的格子 (0, 0) ,且你希望去最右下角的格子 (rows-1, columns-1) (注意下标从 0 开始编号&…

netflix_Netflix的Polynote

netflixNetflix open source Polynote is a new notebook environment and was born out of the necessity to accelerate data science experimentation at Netflix.Netflix开源Polynote是一种新的笔记本环境,其诞生是出于加速Netflix数据科学实验的需要。 Over t…

Django-内置用户系统

Django自带的用户认证 我们在开发一个网站的时候,无可避免的需要设计实现网站的用户系统。此时我们需要实现包括 1.用户注册 2.用户登录 3.用户认证 4.注销 5.修改密码 Django作为一个完美主义者的终极框架,当然也会想到用户的这些痛点。它内置了强大的用…

React 与 可视化

一般会想到 canvas 和 svg ; svg更适合画图, 但由于cavans在移动端的良好兼容性, 使用的更广; 什么是svg, scalable vector graphics 全称 可缩放矢量图形, 是一种来描述二维矢量图形的xml语言 canvas 能做的 svg基本都可以做, 字体图标, icon, logo 也能作 在ie上也是从ie9开…

css 跳动的心_如何用纯CSS为您的情人打造一颗跳动的心

css 跳动的心Each year on February 14th, many people exchange cards, candies, gifts or flowers with their special “valentine”. The day of romance we call Valentine’s Day is named for a Christian martyr and dates back to the 5th century, but has origins i…

oracle怎么获取行,在oracle中如何实现SELECT TOP N取得前几行记录

在sql server中可以通过SELECT TOP N来取得想要结果的前几行的信息。但是在oracle中必须借助伪列rownum来完成一个查询语句在取得结果集后,伪列rownum就会从1开始,从上往下依次递增。rownum是对结果集的编序排列。例如下表:SQL> select id…

图片管理程序(Java)

图片管理程序 gitee完整代码下载 github完整代码下载 华南农业大学课程设计作品(99分) 问题描述 题目目的是编写一个能够对数字像片进行管理的应用程序。 程序能够显示的图片格式包括,.JPG、.JPEG、.GIF、.PNG、和.BMP。 图像文件尺寸,要求能够处理从…