R语言数据分析案例33-基于logistic回归下的信用卡违约情况分析

一、选题背景

随着互联网产业的蓬勃发展,传统金融行业开始向着金融互联网化和互联网金融快速转型。网络信贷、信用卡等凭借门槛低、快速便捷、高收益等特点,借助互联网平台存在的优势,迅速成长。然而高收益的背后也存在着高风险,由于其降低了借贷的门槛衍生出一系列包括非法集资、携款潜逃、电信诈骗等问题。如何防范用户欺诈和控制信用风险是近几年一直亟待解决的问题。为此,引入机器学习算法 来优化信贷风控系统,促进信贷业务市场健康发展,不失为一条有效途径。.。。

二、文献综述

杨亿坤(2022)参考国内外先进金融机构对违约风险的预测方法,基于XGBoost模型构建农商银行客户信用卡的违约风险预测模型,为完善农商银行信用卡违约风险的控制提供参考借鉴。本文对农商银行信用卡违约风险进行研究。首先,基于行为金融、信息不对称等理论对影响信用卡持卡人违约行为的因素进行理论分析。其次,基于理论分析,构建信用卡违约风险预测的指标体系。第三,基于XGBoost模型构建农商银行信用卡违约风险预测模型。第四,搜集某农商银行信用卡中心数据,对基于XGBoost的农商银行信用卡违约风险预测模型进行实证分析,并与常用的模型进行对比分析[1]。。。。

三、理论方法

在信用卡违约风险的预测中,逻辑回归模型是一种常用模型。逻辑回归模型的形式简洁,如下所示:

其中,𝑥表示用于判断信用卡违约的各类指标,比如持卡人的性别、收入 水平等。e表示不同指标对信用卡违约风险判断的权重分布,用来表示不同 指标的重要性。𝐹(t)取值为0到1之间,可用来表示发生信用卡违约风险的概率。

如上式所示,逻辑回归主要根据各类信用卡违约风险指标的情况通 过线性组合等方式,将指标值映射到[0,1]之间,以求取客户信用卡违风险的概率,由于其线性累加性,导致该模型的预测性能较为一般,但是可以作为基准模型用于对比其他模型。。。。

四、实证分析

本研究针对台湾客户信用卡违约支付的数据。这项研究使用了一个二进制变量,默认付款(default payment next month)(是 = 1,否 = 0)作为响应变量。本研究回顾了文献,并使用以下23个变量作为解释变量:

X1:给定信贷的金额(新台币):它包括个人消费信贷和他/她的家庭(补充)信贷。

X2:性别(1 = 男性;2 = 女性)。

X3:教育(1 = 研究生院;2 = 大学;3 = 高中;4 = 其他)。

X4:婚姻状况(1 = 已婚;2 = 单身;3 = 其他)。

X5:年龄(年)

变量名称

变量解释

default payment next month

默认付款

X1

给定信贷的金额

X2

性别

X3

教育

X4

婚姻状况

X5

年龄(年)

X6 - X11

过去付款的历史记录

X12-X17

账单对账单金额

X18-X23

先前付款的金额

代码和数据

报告代码数据

展示数据前5行,看看基本情况,如图

在预处理数据之前,发现x12-17,x18-23分别为账单对账单金额(新台币)和先前付款的金额(新台币),对整体数据产生影响不大,故在数据处理时删除相关变量,最终特征变量为11个,接下来对整体数据进行描述性统计分析。

###读取数据
dataset<- read.xlsx("credit.xlsx", sheet = 1)
dataset
#展示数据前五行
head(dataset,5)###查看数据统计特征
summary(dataset)

具体描述性统计如上,其中包括了各个变量的最大值、最小值、中位数、1/4分位数和3/4分位数等。其中可以看到‘ID’这个变量对整体数据分析并无太大作用,可以忽略。。。。

下来画出每个特征变量的箱线图,查看每个特征的分布情况。

###分别画出其特征的箱线图
par(mfrow = c(2, 5)) #让图片以2行5列的形式排列在一张图上
boxplot(dataset$LIMIT_BAL, main = "LIMIT_BAL")
boxplot(dataset$SEX, main = "SEX")
boxplot(dataset$EDUCATION, main = "EDUCATION")
boxplot(dataset$MARRIAGE,main = "MARRIAGE")
boxplot(dataset$AGE, main = "AGE")
boxplot(dataset$PAY_1, main = "PAY_1")
boxplot(dataset$PAY_2, main = "PAY_2")
boxplot(dataset$PAY_3, main = "PAY_3")
boxplot(dataset$PAY_4, main = "PAY_4")
boxplot(dataset$PAY_5, main = "PAY_5")
boxplot(dataset$PAY_6, main = "PAY_6")

从上图特征变量的分布可以看出,变量给定信贷的金额(新台币)特征的离群点较多,SEX和MARRIAGE的分布较稳定,剩余特征由于是分类型数值变量,故其变量的箱线图才会呈现出这个样子。

从相关系数热力图可以看出,针对响应变量default payment next month,变量PAY_1、PAY_2、PAY_3、PAY_4、PAY_5、PAY_6对响应变量影响相当于其他变量较大,而且是呈现正相关关系,给定信贷的金额特征对响应变量呈现负相关关系。

在数据和特征处理完成之后,接下来便进行logsitic回归,结果如下:

###logistic回归
fit.full <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE + AGE + PAY_1 + PAY_2 + PAY_3 + PAY_4 + PAY_5 + PAY_6,data=dataset,family=binomial())
summary(fit.full)

从回归系数的p值(最后一列)可以看到,给定信贷的金额、性别、教育程度、婚姻状况、年龄、过去付款的历史记录,其中包括2005年9月的还款情况、2005年8月的还款情况和2005年7月的还款情况对方程的贡献都很显著,但是2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况对方程的贡献都不显著(无法拒绝参数为0的假设)。这便可以去除这些变量重新拟合模型,检验新模型是否拟合的好,结果如下:

fit.reduced <- glm(default.payment.next.month ~ LIMIT_BAL  + SEX + EDUCATION + MARRIAGE +AGE + PAY_1 + PAY_2 + PAY_3

模型卡方检验

最终结果表明卡方值不显著(p_value=0.1766),表明八个预测变量的新模型与九个完整预测变量的模型拟合程度一样好,这也表明2005年6月的还款情况、2005年5月的还款情况和2005年4月的还款情况变量不会显著提高方程的预测精度。

五、结论与启示

本文对银行信用卡违约行为及风险进行研究。首先,以行为金融为基础, 分析信用卡违约行为发生的理论机制。其次,基于信用卡违约行为发生的理论分析。第三,以logistic模型为基础,通过对模型的适用性分析以及理论分析,构建对信用卡违约行为进行分析,最终得出相应的结论。。。。

参考文献

  1. 杨亿坤. 基于XGBoost模型的农商银行信用卡违约风险预测研究[D].西南财经大学,2022.DOI:10.27412/d.cnki.gxncu.2022.001532.
  2. 周芄,王勇.基于集成学习的用户信用卡违约预测模型研究[J].井冈山大学学报(自然科学版),2022,43(04):51-56.

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32358.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年,业绩大爆发的企业,都做对了一件事

作为新质生产力之一的AI技术&#xff0c;已经完成了从实验室到场景应用的“惊险一跃”&#xff0c;这背后离不开云计算、大数据技术的日趋成熟。与此同时&#xff0c;大模型、柔性计算等创新的云基础设施解决方案&#xff0c;为企业降本增效、快速高质量地发展&#xff0c;提供…

Python面向对象编程:类和对象的奥秘

更多Python学习内容&#xff1a;ipengtao.com 在Python的世界中&#xff0c;面向对象编程&#xff08;OOP&#xff09;是构建强大应用程序的基石。本文将带你从零开始&#xff0c;一步步探索类和对象的奥秘&#xff0c;让你的代码更加模块化和可重用。面向对象编程是一种编程范…

【CT】LeetCode手撕—46. 全排列

目录 题目1- 思路2- 实现⭐46. 全排列——题解思路 3- ACM实现 题目 原题连接&#xff1a;46. 全排列 1- 思路 模式识别 模式1&#xff1a;不含重复数字的数组 nums ——> 任意顺序 可能的全排列 ——> 回溯模式2&#xff1a;全排列 ——> 排列问题&#xff0c;不同…

用VPS部署聊天机器人有哪些优势?

VPS足以帮助您将人工智能 (AI) 的功能无缝融入聊天机器人并增强客户支持。聊天机器人已迅速成为改善用户体验的首选解决方案&#xff0c;因为它们全天候在线且可编程回答各种问题。 聊天机器人在客户支持方面的作用不容置疑。但所有出色的解决方案都需要出色的网络托管。 VPS…

高性能并行计算华为云实验二:WordCount算法实验

目录 一、实验目的 二、实验说明 三、实验过程 3.1 创建wordcount源码 3.1.1 实验说明 3.1.2 文件创建 3.2 Makefile文件创建与编译 3.3 主机配置文件建立与运行监测 3.3.1 主机配置文件建立 3.3.2 运行监测 三、实验结果与分析 4.1 实验结果 4.2 结果分析 4.2.1 …

Nature | 解锁大脑运动控制机理!哈佛大学与DeepMind实现「AI大脑」控制虚拟老鼠

近日&#xff0c;哈佛大学的研究人员与谷歌DeepMind AI 实验室合作&#xff0c;开发出了一种虚拟大鼠模型&#xff0c;以研究大脑如何控制真实老鼠的运动。这个创新的模型准确地模拟了在真实大鼠身上观察到的神经活动&#xff0c;可以用于探讨大脑是如何控制动物的运动行为。 …

杀疯了!PerfXCloud-AI大模型夏日狂欢来袭,向基石用户赠送 ∞ 亿Token!

【澎峰科技重磅消息】 在全球范围内大模型正逐渐成为强大的创新驱动力。在这个充满激情的夏日&#xff0c;PerfXCloud为开发者和企业带来了前所未有的福利&#xff1a; 1. 零成本亲密、深度体验大模型&#xff0c;提供大量示范案例。 2. 向基石用户赠送∞亿Token的激励计划。…

HTML静态网页成品作业(HTML+CSS+JS)——家乡莆田介绍网页(5个页面)

&#x1f389;不定期分享源码&#xff0c;关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 &#x1f3f7;️本套采用HTMLCSS&#xff0c;使用Javacsript代码实现图片轮播&#xff0c;共有5个页面。 二、作品…

基于SpringBoot+协同过滤算法的家政服务平台设计和实现(源码+LW+调试文档+讲解等)

&#x1f497;博主介绍&#xff1a;✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者&#xff0c;博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌&#x1f497; &#x1f31f;文末获取源码数据库&#x1f31f; 感兴趣的可以先收藏起来&#xff0c;…

matlab入门基础笔记

1、绘制简单三角函数&#xff1a; 绘制正弦曲线和余弦曲线。x[0:0.5:360]*pi/180; plot(x,sin(x),x,cos(x)); &#xff08;1&#xff09;明确x轴与y轴变量&#xff1a; 要求为绘制三角函数&#xff1a; X轴&#xff1a;角度对应的弧度数组 Y轴&#xff1a;对应sin(x)的值 求…

电商平台生活用品销售数据分析与应用

摘 要 在当前互联网飞速发展的时代&#xff0c;计算机应用给我们的工作生活带来了极大的便利。如今我们的生活离不开电商平台&#xff0c;其随之而来的是各种各样的销售数据与消费者信息&#xff0c;这些数据和信息的分析应用成为了当前互联网领域研究的重要部分。 本论文以基…

python自动化办公工具:自动批量生成奖状的工具(可视化)

&#x1f446;点击关注 获取更多编程干货&#x1f446; 不知道大家有没有注意到一种趋势&#xff0c;现在即便是那些非程序员&#xff0c;甚至对计算机一窍不通的人&#xff0c;也开始学习Python了&#xff0c;其“普及程度”实在让人感到有些惊讶。 那么&#xff0c;对于那些…

如何通过防泄密U盘,实现数据传输的安全性及可控性?

随着信息技术的发展&#xff0c;U盘作为重要的数据存储和传输工具&#xff0c;其安全性越来越受到关注。在日常办公中&#xff0c;经常会遇到这类情况&#xff1a;员工为了方便&#xff0c;随意使用U盘拷贝公司的机密资料。一旦U盘丢失或者被窃取&#xff0c;公司的机密资料就有…

警惕!最新17本期刊(含2本Top)被“镇压”,无影响因子无分区,这是被踢了吗?

本周投稿推荐 SSCI • 中科院2区&#xff0c;6.0-7.0&#xff08;录用友好&#xff09; EI • 各领域沾边均可&#xff08;2天录用&#xff09; CNKI • 7天录用-检索&#xff08;急录友好&#xff09; SCI&EI • 4区生物医学类&#xff0c;0.5-1.0&#xff08;录用…

【金】02Y90-60 大数据-HivetoMysQL

1、安装 Java 程序&#xff08;jdk&#xff09; 2、添加以下JAR包 3、确认配置成自己的数据库 ....

【数据结构与算法】线索二叉树 详解

为什么可在不增加指针域的情况下&#xff0c;对二叉树进行线索化&#xff1f; 不增加指针域&#xff1a;因为可以利用n1个空链域。 在线索二叉树中&#xff0c;为每个节点添加两个标志位&#xff0c;分别表示左指针和右指针是普通的孩子指针还是线索&#xff08;前驱或后继&a…

禅道身份认证绕过漏洞(QVD-2024-15263)复现

禅道项目管理系统在开源版、企业版、旗舰版的部分版本中都存在此安全漏洞。攻击者可利用该漏洞创建任意账号实现未授权登录。 1.漏洞级别 高危 2.漏洞搜索 fofa: title"禅道"3.影响范围 v16.x < 禅道 < v18.12 &#xff08;开源版&#xff09; v6.x <…

《STM32 HAL库》CAN通信系列函数详尽解析——HAL_CAN_Init()

食用指南&#xff1a;本文主要内容为梳理CAN初始化函数主要运行逻辑及重点功能实现代码的详尽解析。函数源码在文末&#xff0c;建议在阅读源码之后观看。 CAN相关寄存器图&#xff1a; 主要逻辑分析&#xff1a; 下面分点梳理函数的主要逻辑&#xff08;注意逻辑序号&#xf…

function包装器和bind包装器

function包装器和bind包装器 包装器function包装器为什么需要functionfunction包装器function包装器的应用场景逆波兰表达式求值 bind包装器bind包装器的应用场景 包装器 包装器是用于给其他编程接口提供更一致或更合适的接口 由于函数调用可以使用函数名、函数指针、函数对象…

【React】极客园--04.发布文章模块

实现基础文章发布 创建基础结构 import {Card,Breadcrumb,Form,Button,Radio,Input,Upload,Space,Select } from antd import { PlusOutlined } from ant-design/icons import { Link } from react-router-dom import ./index.scssconst { Option } Selectconst Publish () …