实验结果啊

所提出的框架已应用于智利一家银行的两个信用评分数据集。本节的组织结构如下:第4.1节对实施的项目进行了说明。实验设置如所示第4.2节,包括用于基准测试的替代方法的说明。随后,第4.3节总结了主要结果,包括从这些实验中获得的主要管理见解。

本研究中使用的两个数据集由发放给智利新申请人和回国申请人的贷款组成,他们都是微型企业家。他们可以获得的信息包括贷款特征、借款人、他们在银行的财务历史(仅适用于回头客)以及他们所代表的小型或微型公司的信息。违约者被定义为在贷款的第一年内拖欠一期或多期贷款超过90天的借款人,这是巴塞尔协议II/III的标准定义[4]。
以下策略用于在建模过程之前丢弃不相关的协变量。首先,删除缺失值超过30%或高度集中在单个值(99%浓度)的变量。随后,通过应用两个样本独立性检验来研究相关性,将每个属性与目标变量联系起来。
Kolmogorov–Smirnov(KS)和χ2分别用于数值变量和名义变量,考虑到α=5%的显著性水平,丢弃那些在统计学上不相关的变量。关于缺失值输入,我们用数值(标称)变量的平均值(模式)代替缺失信息。
新客户(NC)和退货客户(RC)数据集中分别有1510笔和5799笔贷款,分别由94个和46个变量描述。NC和RC数据集的默认值分别为629和872。我们为被纳入信用评估组的回头客构建了几个指标,总结了他们过去的贷款历史,甚至为新客户提供了更多信息。原因有两个。一方面,在数据收集过程的每个阶段,都会为新客户收集更多的信息,因为金融机构知道这一细分市场比回头客的风险更大。另一方面,目前针对回头客的发放政策主要关注申请人过去的贷款历史,而用于为新客户建立记分卡的一些信息并没有为回头客再次收集。因此,由于预处理步骤中缺少值,从返回客户的数据集中删除了几个变量。
新客户(NC)和退货客户(RC)数据集中分别有1510笔和5799笔贷款,分别由94个和46个变量描述。NC和RC数据集的默认值分别为629和872。我们为被纳入信用评估组的回头客构建了几个指标,总结了他们过去的贷款历史,甚至为新客户提供了更多信息。原因有两个。一方面,在数据收集过程的每个阶段,都会为新客户收集更多的信息,因为金融机构知道这一细分市场比回头客的风险更大。另一方面,目前针对回头客的发放政策主要关注申请人过去的贷款历史,而用于为新客户建立记分卡的一些信息并没有为回头客再次收集。因此,由于预处理步骤中缺少值,从返回客户的数据集中删除了几个变量。
根据信息来源确定了五组不同的变量。信用评估是借款人与银行之间的第一次接触。申请人必须填写一份表格才能被录取,这些信息构成了第一个来源。然后,银行在访问借款人的工作场所时进行深入采访,以收集其公司的财务数据。一旦进行了这次采访,分析师就会利用采访中收集的信息创建财务比率来估计公司的现金流。此外,银行购买与借款人在金融系统中的长期债务相关的变量。最后,财务分析也可以使用系统级信息进行,从而获得新的数据源。

表1总结了五个数据源,其中列出了变量组的来源(内部-I或外部-E来源)、两个数据集可用的属性数量,以及基于信贷官员或分析师收集信息所需时间及其月薪的每个借款人的估计成本。
在本案例研究中,假设每个来源的可变收购成本对于新客户和回头客来说是相似的。无论借款人的性质如何,每个人都应该经过相同的风险评估过程,高管所做的努力对任何申请人来说都大致相同。由于他们有更多的数据源,使用所有这些数据源意味着回头客可以降低成本。
请注意,我们的方法并没有假设每个来源的可变收购成本对新客户和回头客来说是相似的。我们的模型可以应用于任何可变采购成本的输入。在我们的案例研究中,这是一个有效的假设。
4.2
以下验证策略用于基准测试:在两个数据集上进行了10倍交叉验证。所提出的利润指标包括可变收购成本、准确性和曲线下面积(AUC),作为绩效指标。选择以下机器学习方法作为替代方法:
4.3
表2和表3分别针对NC和RC数据集对所提出的方法和备选方法的最佳配置进行了比较。对于每个数据集,利润方面的最佳性能以粗体突出显示。请注意,所有备选方法都不会执行特征选择。
从表2中可以看出,就AUC而言,2-SVM和所提出的1-PSOCP实现了最佳性能,但除了k-NN和Naïve Bayes明显低于平均值外,大多数方法都实现了相对相似的AUC。如果改为研究平均利润,则只有所提出的方法才能获得正利润,并且2PSOCP以最佳性能领先。造成这些重要差异的原因是,使用所有变量来源的收集成本太高,而分类性能无法弥补这一成本。
可以观察到,当将最佳性能与所有变量(AUC=70.7,2-SVM)和仅与一个源(AUC=69.7,2-PSOCP)进行比较时,就AUC而言,用所有源构建模型的增益约为0.01。显然,额外的变量无法补偿获得它们的努力。
在表3中,我们观察到相对相似的结果,因为就利润而言,这些建议明显优于所有替代方法。在这种情况下,所有三种来源的最佳性能方法与只有一种来源的方法之间的差异为3.1(AUC=67.9,1-SVM和AUC=64.8,1-PSOCP),与新客户相比,这些额外来源的影响更大。与第一个数据集相比,所有方法的平均利润都是正的。
从前面的表格可以得出结论,当使用昂贵的流程来收集信息时,在利润的定义中包括可变购置成本是至关重要的;它可以区分盈利模式和非盈利模式。另一个需要强调的重要方面是,基于AUC或准确性的指导决策可能会产生误导,因为当使用这些指标时,即使是最好的模型也可能导致负平均利润。
接下来,我们通过在组级别对所有方法进行顺序选择来探索不同组的效果。
在这个过程中监测利润和AUC,对于替代方法,包括按照第4.1节中描述的优先顺序,用一到五个NC数据源和一到三个RC数据源训练每个方法。对于我们的建议,我们执行基于组的向后消除,但保持原始权重。这些实验的目的是证明,即使不需要对不同组的模型进行重新训练,我们提出的方法也能获得优异的性能,并且能够自动找到最优数量的变量源。
图1-4显示了小组级绩效分析的结果。只有在利润方面最好的SVM和PSOCP配置才被提出,以便于图形的可视化。图1和图2分别显示了新客户的AUC和利润,而图3和图4显示了返回客户的相同信息。
从之前提供的图中可以看出,在本研究中报道的各种特征子集的预测方法中,所提出的PSOCP实现了最大的利润。在最坏的情况下,PSOCP的行为与性能最好的替代方法(SVM和logit,具有4-5个变量源的NC数据集)相似。就对于AUC,我们的提案对新客户的表现与这些方法类似,对RC客户的表现稍差。
对于后一个数据集,值得注意的是,利润的直接优化可能有利于在每个类召回之间实现所需的平衡;即使可变收购成本相似,大的AUC也不一定能带来最大利润。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/139405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法专题】双指针—三数之和

力扣题目链接:三数之和 一、题目解析 二、算法原理 解法一:排序暴力枚举利用set去重 代码就不写了,你们可以试着写一下 解法二:排序双指针 这题和上一篇文章的两数字和方法类似 排序固定一个数a在这个数的后面区间&#xff0…

《詩經别解》——國風·周南·雎鳩​​​​​​​

一、关于古文的一个认识 目前可以阅读的古文经典,大多是经历了几千年的传承。期间的武力战争、文化纷争、宗教侵袭、官僚介入及文人的私人恩怨与流派桎梏,印刷与制作技术,导致这些古文全部都已经面目全非。简单地说,你读到的都是…

2022最新版-李宏毅机器学习深度学习课程-P46 自监督学习Self-supervised Learning(BERT)

一、概述:自监督学习模型与芝麻街 参数量 ELMO:94MBERT:340MGPT-2:1542MMegatron:8BT5:11BTuring NLG:17BGPT-3:175BSwitch Transformer:1.6T 二、Self-supervised Lear…

算法--- 每日温度

题目 给定一个整数数组 temperatures ,表示每天的温度,返回一个数组 answer ,其中 answer[i] 是指对于第 i 天,下一个更高温度出现在几天后。如果气温在这之后都不会升高,请在该位置用 0 来代替。 示例 1: 输入: te…

[HXPCTF 2021]includer‘s revenge

文章目录 方法一前置知识Nginx 在后端 Fastcgi 响应过大产生临时文件竞争包含绕过include_once限制 解题过程 方法二前置知识Base64 Filter 宽松解析iconv filter 解题过程 方法一 NginxFastCGI临时文件 前置知识 Nginx 在后端 Fastcgi 响应过大产生临时文件 www-data用户在n…

SharePoint 页面中插入自定义代码

我们都知道 SharePoint 是对页面进行编辑的。 对于一些有编程基础的人来说,可能需要对页面中插入代码,这样才能更好的对页面进行配置。 但是在新版本的 SharePoint modern 页面来说,虽然我们可以插入 Embed 组件。 但是 Embed 组件中是不允…

【C++基础 】类和对象(上)

C基础 类和对象(上) 1.面向过程和面向对象初步认识2.类的引入3.类的定义4.类的访问限定符及封装4.1 访问限定符4.2 封装 5.类的作用域6.类的实例化7.类对象模型7.1 如何计算类对象的大小7.2 类对象的存储方式猜测7.3 结构体内存对齐规则 8.this指针8.1 t…

Kubernetes实战(四)-部署docker harbor私有仓库

1 Docker原生私有仓库Registry 1.1 原生私有仓库Registry概述 Docker的仓库主要分两类: 私有仓库公有仓库 共有仓库只要在官方注册用户,登录即可使用。但对于仓库的使用,企业还是会有自己的专属镜像,所以私有库的搭建也是很有…

分享vmware和Oracle VM VirtualBox虚拟机的区别,简述哪一个更适合我?

VMware和Oracle VM VirtualBox虚拟机的区别主要体现在以下几个方面: 首先两种软件的安装使用教程如下: 1:VMware ESXI 安装使用教程 2:Oracle VM VirtualBox安装使用教程 商业模式:VMware是一家商业公司,而…

HTTP和HTTPS详解

一)什么是HTTP协议 1)HTTP协议是倾向于相遇业务层次上面的一种协议,传输层协议主要考虑的是端对端之间的一个传输过程,TCP重点进行关注的是可靠传输;咱们的HTTP/1,HTTP/2是基于TCP的,但是咱们的HTTP/3是基于UDP的&…

uniapp H5预览PDF支持手势缩放、分页、添加水印、懒加载、PDF下载

效果预览 项目说明 uniapp vue2 node:v14.18.3 npm: 6.14.15 安装pdfh5.js插件 pdfh5 - npm (npmjs.com)pdfh5.js 基于pdf.js和jQuery pdfh5 - npm (npmjs.com) npm install pdfh5 由于我安装最新的pdfh5.js后运行时报错 所以我选择降低版本,可能是node…

Wireshark学习 与 TCP/IP协议分析

Wireshark简介和工具应用 如何开始抓包? 打开wireshark,显示如下网络连接。选择你正在使用的,(比如我正在使用无线网上网),双击 可以先看下自己的ip地址和网关ip地址(看抓包数据时候会用到&…

索尼RSV文件怎么恢复为MP4视频

索尼相机RSV是什么文件? 如果您的相机是索尼SONY A7S3,A7M4,FX3,FX3,FX6,或FX9等,有时录像会产生一个RSV文件,而没有MP4视频文件。RSV其实是MP4的前期文件,经我对RSV文件…

代码之美:探索C和Python中的排序艺术

前言 在软件开发领域,了解和掌握多种排序算法是至关重要的。排序不仅是解决许多计算问题的基本步骤,而且在实际应用中,选择适当的排序算法可以显著提高程序的性能。本文将深入探讨使用 C 语言和 Python 实现不同类型数据排序的技术&#xff…

头哥实践平台之MapReduce基础实战

一. 第1关:成绩统计 编程要求 使用MapReduce计算班级每个学生的最好成绩,输入文件路径为/user/test/input,请将计算后的结果输出到/user/test/output/目录下。 先写命令行,如下: 一行就是一个命令 touch file01 echo Hello World Bye Wor…

[Android]_[初级]_[配置gradle的环境变量设置安装位置]

场景 在开发Android项目的时候, gradle是官方指定的构建工具。不同项目通过wrapper指定不同版本的gradle。随着项目越来越多,使用的gradle版本也增多,导致它以来的各种库也增加,系统盘空间不足,怎么解决? 说明 grad…

JAVA基础语法编程详解

2. JAVA中和,差,积,商,模的简单运算 描述 输入两个正整数a和b,输出这两个正整数的和,差,积,商,模(若a>b则输出a-b,a/b,a%b的值反之…

数据处理 `.txt`, `.json`, `.csv`, `.excel`, `.pkl` 相互转化

数据处理 这里主要整理的是.txt, .json, .csv, .excel, .pkl 文件之间的数据存储和转化 1. txt部分 import jsondef save_json_list_txt(json_data, target_path):""" 保存json列表到txt文件中"""with open(target_path, "w", enco…

C/C++调试工具 - gdb详解

C/C调试工具 -gdb详解 1 简介 2 常用的命令 3 使用的条件 4 程序调试 4.1 直接运行程序 4.2 断点调试(在某一行) 4.3 断点调试(在函数入口处打断点) 5 调试core文件 5.1 生成core文件的方法 5.2 调试core文件 1 简介 GDB是Linux下非常好用且强大的调试工具。GD…

一种ADC采样算法,中位值平均滤波+递推平均滤波

前言 在实际AD采集场景中,会出现周期性变化和偶然脉冲波动干扰对AD采集的影响 这里使用中位值平均滤波递推平均滤波的结合 参考前人写好的代码框架,也参考博主GuYH_下面这篇博客,在此基础上稍作修改,写出这篇博客,能…