1.比赛调研
1.1 比赛链接
American Express - Default Prediction | Kaggle
1.2 比赛周期
8.24截止
1.3 比赛的快速介绍
无论是在餐厅外出还是购买音乐会门票,现代生活都依靠信用卡的便利进行日常购物。它使我们免于携带大量现金,还可以提前全额购买,并且可以随着时间的推移支付。发卡机构如何知道我们会偿还我们收取的费用?这是许多现有解决方案的复杂问题,甚至更多潜在的改进,有待在本次比赛中进行探索。
信用违约预测是管理消费贷款业务风险的核心。信用违约预测允许贷方优化贷款决策,从而带来更好的客户体验和稳健的商业经济。当前的模型可以帮助管理风险。但是有可能创建更好的模型,这些模型的性能优于当前使用的模型。
美国运通是一家全球综合支付公司。作为世界上最大的支付卡发行商,他们为客户提供丰富生活和建立商业成功的产品、见解和体验。
在本次比赛中,您将应用您的机器学习技能来预测信用违约。具体来说,您将利用工业规模的数据集来构建机器学习模型,以挑战生产中的当前模型。训练、验证和测试数据集包括时间序列行为数据和匿名客户档案信息。您可以自由探索任何技术来创建最强大的模型,从创建特征到在模型中以更有机的方式使用数据。
如果成功,您将更容易获得信用卡批准,从而帮助为持卡人创造更好的客户体验。顶级解决方案可能会挑战世界上最大的支付卡发行商使用的信用违约预测模型——为您赢得现金奖励、接受美国运通公司采访的机会,以及可能获得回报的新职业。
总结,构建机器学习模型,预测客户的贷款是否会违约,违约为1,反之为0
1.4 数据描述
分析:
如果按照业务意义来分,可以分成5类,拖欠的变量,支出的变量,付款的变量,平衡的变量,以及风险变量。
如果按照变量属性来分,可以分成三类,ID类型(1个),数值型(178),类别型(11个), 总共190个特征。对于ID类型的特征,无法训练模型,数值型特征可以做一些聚合特征,或者特征衍生,类别型特征需要做label encoding。
1.5 评价指标
1.6 比赛思路
首先这个比赛的数据量比较大,训练集16.39G,测试集33.82G。所以需要做一些内存压缩的操作,就是根据数据的范围,对每个特征采取不同的对操作,比如对某个特征进行操作,从float64到float32。接着就是EDA以及特征工程,构造一些金融方面的特征,并进行一些特征筛选。最后是使用一些比较好的模型进行二分类的任务,比如lightgbm,tabnet。最后一步进行模型融合,从而提升最后的效果。
LightGBM详解_zhong_ddbb的博客-CSDN博客_lightgbm
深入了解 TabNet :架构详解和分类代码实现_数据派THU的博客-CSDN博客