Python基于逻辑回归分类模型、决策树分类模型、LightGBM分类模型和XGBoost分类模型实现车辆贷款违约预测项目实战

说明:这是一个机器学习实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取。

1.项目背景

随着经济的发展和人民生活水平的提高,汽车消费在居民消费中所占比例逐渐增加,汽车金融公司也因此得到了快速发展。然而,在这个过程中,车贷违约风险的问题也逐渐凸显。如何有效识别和预测车贷违约风险,成为汽车金融公司急需解决的问题。

金融机构因车辆贷款违约而蒙受重大损失。这导致汽车贷款承保收紧,汽车贷款拒绝率上升。通过分析汽车贷款违约情况,利用多种机器学习模型进行预测。

本项目通过逻辑回归模型、决策树模型、LightGBM模型和XGBoost模型进行车辆贷款违约预测。      

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

编号 

变量名称

描述

1

UniqueID

客户标识符

2

loan_default

到期日第一次的付款违约

3

disbursed_amount

已发放贷款

4

asset_cost

资产成本

5

ltv

资产贷款价值比

6

branch_id

发放贷款的分行

7

supplier_id

发放贷款的车辆经销商

8

manufacturer_id

汽车制造商(英雄、本田、TVS等)

9

Current_pincode

客户的当前密码

10

Date.of.Birth

客户的出生日期

11

Employment.Type

客户的就业类型(带薪/自雇)

12

DisbursalDate

支付日期

13

State_ID

付款状态

14

Employee_code_ID

记录支出的组织的员工

15

MobileNo_Avl_Flag

如果客户共享手机号码,则标记为1

16

Aadhar_flag

如果客户共享了aadhar,则将其标记为1

17

PAN_flag

如果pan由客户共享,则标记为1

18

VoterID_flag

如果投票者由客户共享,则标记为1

19

Driving_flag

如果DL由客户共享,则标记为1

20

Passport_flag

如果客户共享护照,则标记为1

21

PERFORM_CNS.SCORE

局分数

22

PERFORM_CNS.SCORE.DESCRIPTION

局分数说明

23

PRI.NO.OF.ACCTS

客户在支付时获得的贷款总额

24

PRI.ACTIVE.ACCTS

客户在支付时获得的活跃贷款数

25

PRI.OVERDUE.ACCTS

支付时的违约账户数

26

PRI.CURRENT.BALANCE

发放时活跃贷款的未偿本金总额

27

PRI.SANCTIONED.AMOUNT

发放时所有贷款的批准总额

28

PRI.DISBURSED.AMOUNT

发放时为所有贷款发放的总金额

29

SEC.NO.OF.ACCTS

客户在支付时获得的贷款总额

30

SEC.ACTIVE.ACCTS

客户在支付时获得的活跃贷款数

31

SEC.OVERDUE.ACCTS

支付时的违约账户数

32

SEC.CURRENT.BALANCE

发放时活跃贷款的未偿本金总额

33

SEC.SANCTIONED.AMOUNT

发放时所有贷款的批准总额

34

SEC.DISBURSED.AMOUNT

发放时为所有贷款发放的总金额

35

PRIMARY.INSTAL.AMT

主要贷款金额

36

SEC.INSTAL.AMT

二次贷款金额

37

NEW.ACCTS.IN.LAST.SIX.MONTHS

客户在支出前的最后6个月内获得的新贷款

38

DELINQUENT.ACCTS.IN.LAST.SIX.MONTHS

最近6个月内拖欠的贷款

39

AVERAGE.ACCT.AGE

平均贷款期限

40

CREDIT.HISTORY.LENGTH

自首次贷款以来的时间

41

NO.OF_INQUIRIES

客户办理的贷款手续

数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据

使用Pandas工具的head()方法查看前五行数据: 

关键代码:

3.2数据缺失查看

使用Pandas工具的info()方法查看数据信息:

从上图可以看到,总共有41个变量,数据中无缺失值,共233154条数据。

关键代码: 

3.3数据描述性统计

通过Pandas工具的describe()方法来查看数据的平均值、标准差、最小值、分位数、最大值。

关键代码如下:  

4.探索性数据分析

4.1 loan_default变量柱状图

用Matplotlib工具的plot()方法绘制柱状图:

4.2 数据项空值统计

从上图可以看到,Employment_Type变量有空值,数量为7661。

4.3 相关性分析

从上图中可以看到,对部分特征进行了相关性分析,数值越大相关性越强,正值是正相关、负值是负相关。

4.4 绘制直方图

用Matplotlib工具的hist()方法绘制直方图:

从上图可以看出,对部分特征进行直方图绘制。

4.5 绘制折线图

如下是两个变量和因变量的折线图:

4.6 绘制柱状图

4.7 绘制散点图

5.特征工程

5.1 建立特征数据和标签数据

关键代码如下:

5.2 数据均衡化

如下所示,为数据均衡化后的数据:

5.3 数据标准化

数据标准化关键代码如下:

5.4 数据集拆分

通过train_test_split()方法按照90%训练集、10%测试集进行划分,关键代码如下:

6.构建分类模型 

主要使用逻辑回归分类算法、决策树分类算法、LightGBM分类算法和XGBoost分类算法,用于目标分类。  

6.1 构建模型 

编号

模型名称

参数

1

逻辑回归分类模型

默认参数值

2

决策树分类模型

默认参数值

3

random_state=123

4

LightGBM分类模型

默认参数值

5

random_state=42

6

XGBoost分类模型

默认参数值

7

random_state=42

7.模型评估

7.1评估指标及结果 

评估指标主要包括准确率、查准率、查全率、F1分值等等。

模型名称

指标名称

指标值

测试集

逻辑回归分类模型 

准确率

0.6642

查准率

0.6592

查全率

0.6807

F1分值

0.6698

决策树分类模型

准确率

0.7693

查准率

 0.7641

查全率

0.7795

F1分值

0.7717

LightGBM分类模型

准确率

0.8498

查准率

0.9925

查全率

 0.705

F1分值

0.8244

XGBoost分类模型

准确率

 0.8512

查准率

 0.9879

查全率

 0.7112

F1分值

0.827

从上表可以看出,LightGBM分类模型和XGBoost分类模型 F1分值分别为0.8244和0.827,说明这2个模型效果较好。   

7.2 分类报告

逻辑回归分类模型:

从上图可以看出,分类为0的F1分值为0.66;分类为1的F1分值为0.67。

  

决策树分类模型:

从上图可以看出,分类为0的F1分值为0.77;分类为1的F1分值为0.77。

LightGBM分类模型:

从上图可以看出,分类为0的F1分值为0.87;分类为1的F1分值为0.82。

XGBoost分类模型:

从上图可以看出,分类为0的F1分值为0.87;分类为1的F1分值为0.83。

7.3 混淆矩阵

逻辑回归分类模型:

从上图可以看出,实际为0预测不为0的 有6327个样本;实际为1预测不为1的 有5971个样本。  

决策树分类模型:

从上图可以看出,实际为0预测不为0的 有4395个样本;实际为1预测不为1的 有4027个样本。  

LightGBM分类模型:

从上图可以看出,实际为0预测不为0的 有101个样本;实际为1预测不为1的 有5375个样本。

XGBoost分类模型:

从上图可以看出,实际为0预测不为0的 有146个样本;实际为1预测不为1的 有5271个样本。

7.4 ROC曲线

逻辑回归分类模型:

从上图可以看出,逻辑回归分类模型的AUC值为0.73。

决策树分类模型:

从上图可以看出,决策树分类模型的AUC值为0.77。

LightGBM分类模型:

从上图可以看出,LightGBM分类模型的AUC值为0.89。

XGBoost分类模型:

从上图可以看出,XGBoost分类模型的AUC值为0.89。

8.结论与展望

综上所述,本文采用了逻辑回归、决策树、LightGBM和XGBoost算法来构建分类模型,最终证明了LightGBM和XGBoost模型效果良好。此模型可用于日常产品的预测。 

# 本次机器学习项目实战所需的资料,项目资源如下:# 项目说明:# 获取方式一:# 项目实战合集导航:https://docs.qq.com/sheet/DTVd0Y2NNQUlWcmd6?tab=BB08J2# 获取方式二:链接:https://pan.baidu.com/s/1SKKxNs2aWQyqe5Yrvp-gdw 
提取码:tlvp

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36846.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

克服指标管理痛点,实现数据价值最大化

在当下的企业管理中,由于数据量的激增,管理方式逐渐从基于经验转向基于数据。在此过程中,我们能够通过数据探查业务情况、分析数据,从而获取更优的决策支持数据。这通常通过数据报表或分析平台来实现,对于临时性场景&a…

护眼大路灯哪个牌子好用?五款好用的护眼灯分享

护眼大路灯哪个牌子好用?现在的孩子从幼儿园开始就开始学习,面临的用眼压力就很大,但想要孩子视力不受影响,大路灯是得好好安排起来,但动辄大几千的护眼灯真是让我们这些普通家庭的家长望而却步,有没有好用…

控制系统稳定性常见策略

提升控制系统稳定性是确保系统可靠运行的关键,以下是一些常见策略: 1. 控制算法优化 优化控制算法是提升系统稳定性的核心方法之一。常见的控制算法包括PID控制、模糊控制、自适应控制等。通过调整和优化这些算法的参数,可以显著提高系统的…

填报高考志愿时,学校、专业和城市怎么选择呢?

我的观点是: 专业>城市>学校 专业是兴趣导向,符合自己的价值观,失去了这种驱动力的专业学习,会变得非常艰难的,而且没有竞争力,所以我的排序第一位是专业。 其次是城市,最好是一线城市&…

划重点!炒伦敦金看k线图的要点

对于刚刚开始参与伦敦金交易,还在学习如何看K线的投资者来说,掌握一些看k线图的要点,对于更好地分析市场的行情走势,找到有利的入场机很有帮助,以下是一些关键的建议,希望能够供大家参考。 K线有阳线和阴线…

Coze搭建《测测你的本命宠物》

前言 本文讲解如何从零开始,使用扣子平台去搭建《测测你的本命宠物》 《测测你的本命宠物》:测测你的本命宠物 - 扣子 AI Bot (coze.cn) 欢迎大家去体验一下!!! 正文 接下来我们开始讲解制作这个bot的流程吧&#…

rclone 上传资料到 onedrive 遇到限速问题解决

原因分析 可能和脚本参数设置有关系,我的参数是: rclone copy "F:\阿里云盘\6666\局域网" "od:影视" --ignore-existing -u -v -P --transfers20 --ignore-errors --buffer-size128M --check-first --checkers10 --drive-acknowledge-abuse差不多8G大小的…

如何使得Macos的剪切板感知fileURL并当fileURL被执行paste 动作时 回调到某个监听的函数 从而来填充file content

问题及尝试: 我在做一个跨平台文件拷贝的功能,文件可能是从其他操作系统比如Linux 或者Windows 拷贝到Macos上, 但是我试过所有可以hook NSPasteboard的方法,确实没有找到可以监听macos 剪切板的方法,因为fileURL 确实…

邮件接口代码案例中的SMTP服务器配置详解!

邮件接口代码案例的编写技巧?如何集成邮件服务API? 对于开发者来说,邮件接口代码案例提供了丰富的参考和实践机会,其中SMTP服务器配置是不可或缺的一环。AoKSend将详细讲解如何配置SMTP服务器,并解析其中的重要参数和…

【自动化测试】Selenium自动化测试框架 | 相关介绍 | Selenium + Java环境搭建 | 常用API的使用

文章目录 自动化测试一、selenium1.相关介绍1.Selenium IDE2.Webdriverwebdriver的工作原理: 3.selenium Grid 2.Selenium Java环境搭建3.常用API的使用1.定位元素2.操作测试对象3.添加等待4.打印信息5.浏览器的操作6.键盘事件7.鼠标事件8.定位一组元素9.多层框架定…

2024年6月京东睡眠呼吸暂停和低通气事件检测赛题-baseline

赛题地址:DC竞赛-大数据竞赛平台 (datacastle.cn) 一、数据集介绍 train_x训练数据集特征描述,其样本分布不均匀,0样本29808,1样本3221,2样本4520,共计37549条样本 第一维度:60 位受试样本数总…

一个多智能体AI搜索工具

brainstorm.cool 是最近刚留意到的一个小工具,因为好奇去体验了一把,简单写一下使用体验。 初体验 界面比较清爽,检索结果包括Status、多Agent回答、Relates和右侧的Sources。从Status可以大致了解检索过程:Web Search - Decisio…

pythons工具——裁剪labelme的json不规则多边形标签保存成矩形图像

原图labelme标注 使用以下程序,裁剪labelme的json不规则多边形标签保存成矩形图像 import os import cv2 import math import json import numpy as np from PIL import Image, ImageDrawdef calculate_bounding_box(points):"""计算多边形的最小外…

二次封装 el-dialog 实现 全屏和最小化 功能

效果 封装后的组件 <template><el-dialog v-model"dialogVisible" :show-close"false" :fullscreen"fullscreen" draggable overflow><template #header"{ close }"><div><span style"font-weight: b…

图像增强及运算篇之图像掩膜直方图和HS直方图

一.图像掩膜直方图 如果要统计图像的某一部分直方图&#xff0c;就需要使用掩码&#xff08;蒙板&#xff09;来进行计算。假设将要统计的部分设置为白色&#xff0c;其余部分设置为黑色&#xff0c;然后使用该掩膜进行直方图绘制&#xff0c;其完整代码如下所示。 # -*- codi…

OurBMC运营委员会2024年上半年度例会顺利召开

6 月 27 日&#xff0c;OurBMC 社区运营委员会 2024 年上半年度例会顺利召开。本次会议采用线上线下结合的方式&#xff0c;各委员在会上听取了 2024 年上半年社区运营委员会的工作总结汇报&#xff0c;并规划了下半年运营重点工作&#xff0c;同时针对社区活动改进、运营规划开…

【OpenSSH】关于操作系统中的自带的SSH你知道怎么用吗

希望文章能给到你启发和灵感&#xff5e; 如果觉得文章对你有帮助的话&#xff0c;点赞 关注 收藏 支持一下博主吧&#xff5e; 阅读指南 开篇说明一、基础环境说明1.1 硬件环境1.2 软件环境 二、如何开启SSH服务2.1 什么是OpenSSH2.2 对于Windows 10, Windows 11系统2.2.1 如…

车载测试工程师在行业中有哪些挑战需要面对?

车载测试工程师在行业中面临着多方面的挑战&#xff0c;这些挑战涵盖了技术、安全、法规以及市场环境等多个层面。 1. 技术挑战&#xff1a; 复杂性与集成性&#xff1a;现代汽车系统由众多模块和子系统组成&#xff0c;包括发动机控制、安全系统、娱乐系统、导航系统等。这些系…

【C++】————类和对象(上)

作者主页&#xff1a; 作者主页 本篇博客专栏&#xff1a;C 创作时间 &#xff1a;2024年6月21日 一、类与对象的初步认识 1、类其实就是对对象的抽象&#xff0c;而对象就是对类的具体实例 类不占用内存&#xff0c;而对象占用内存。 2、面向对象与面向过程 C语言是面…

【03】从0到1构建AI生成思维导图应用 -- Agent 搭建

【03】从0到1构建AI生成思维导图应用 – Agent 搭建 大家好&#xff01;最近自己做了一个完全免费的AI生成思维导图的网站&#xff0c;支持下载&#xff0c;编辑和对接微信公众号&#xff0c;可以在这里体验&#xff1a;https://lt2mind.zeabur.app/ 上一章&#xff1a;https…