常用特征分箱算法

特征分箱是构建信用评分过程中最重要的一个环节。特征分箱是对连续变量离散化的一种简称,对于连续型变量,需要对其连续值进行拆分,并进行后续的分箱调整工作;

对于离散型变量,通常要根据每个离散值计算其坏样本占比或者好坏比,通过坏样本占比或好坏比对离散信息进行编码,将离散值转换为连续型变量,再进行后续的分箱操作。

特征分箱算法即是在特征分箱过程中采用的方法,对于同一特征而言,不同的分箱算法所得到的分箱结果差异较大,这也直接影响最终的特征预测能力以及模型效果。

常用的特征分箱算法

特征分箱算法有很多种,不同的建模师在不同的业务场景下,根据现有的数据基础,所选择的特征分箱算法均可能不同。

1) 经验分箱法

传统上,建模工程师在进行分箱操作时通常会结合自身的业务经验,根据业务上积累的数据经验对分箱进行主观划分。

比如年龄这一字段,业务上的数据感觉可能会告诉建模工程师,当客户年龄在18岁以上30岁以下时,风险水平较为相似,应当划分到同一个分箱中去;而当客户年龄在30岁以上45岁以下时,客户收入水平在整个生命周期中处于较高的水平,风险水平相对较低;而当客户年龄在45岁以上时,收入水平下降,风险水平相对有所提高。

建模工程师根据经验可能会将年龄字段划分为3个分箱,分别是[18,30]、[30,45]、[45,65]三个区间,再分别计算这三个分箱对应的好坏比及WOE值。

这种根据业务经验对特征进行分箱的方法,当建模人员业务经验较为丰富时,通常分箱及建模会有较好的效果。但在建模人员经验较为不足时,分箱结果的主观性较强。

这种方法会受到很多主观因素的干扰,分箱结果也不能很好的反映特征变量在数据意义上的真实表现。

2) 统计分箱法

除了根据业务经验分箱外,业界还有一种使用无监督统计方法进行分箱的做法,常见有的等频分箱法、等距分箱法和聚类分箱法。

等频分箱法是指在将需要分箱的特征按从小到大或从大到小进行排序后,按照等频的统计原则对变量进行分箱。

比如同样假设年龄这个字段,取值区间在18-65岁,样本总量10000人,假设取每2500人一个分箱,可能得到[18,28]、[29,40]、[41,53]、[54,65]共计4个分箱,每个分箱2500个样本。这样得到的分箱即根据等频分箱法取得。

等频分箱法中的分箱个数通常也是根据业务经验得到,或者根据某些特征条件限制取得。

等频分箱法的优点在于样本分布均匀,每个分箱中样本量较为充足,所体现的样本好坏规律较为稳定。但等频分箱法可能出现不同分箱中坏样本占比或好坏比趋势非单调或者不完全符合业务经验的情形,这是等频分箱法的不足之处。

等距分箱法是指在将需要分箱的特征按从小到大或从大到小进行排序后,按照等距的统计原则对变量进行分箱。

比如假设年龄这一字段,取值区间同样在18-65岁,样本总量还是10000人,假设每12岁间隔为一个分箱,可以得到[18,30]、[31,43]、[44,56]、[57,65]共计4个分箱。除最后一箱外,其余每箱间距均为12岁,这样得到的分箱即根据等距分箱法取得。

与等频分箱法一样,等距分箱法的分箱个数,也是根据业务经验或主观选取。等距分箱法的最大优点是直观易理解,每箱距离一致,从数学上看形式较为美观。

但由于借款真实客户的分布可能各种各样,因此等距分箱法不同分箱中的样本个数可能差异较大,有可能导致部分分箱中样本量较少,以至于分箱坏样本占比或好坏比出现极端值的情形,导致分箱不具有代表性。

聚类分箱法是一种新型的统计分箱法,这种方法的特异之处在于它利用了相对较为高深的聚类分析方法,通过聚类分析,将特征的取值聚到不同的类中,并将聚得的每个类作为一个分箱。这样得到的每一个分箱的样本取值较为相似,不同分箱的样本取值差异较大。

聚类分箱法的优点是使得分箱之间的区分度能够显著提高,同一分箱较为相似,不同分箱又能保持一定差异,符合特征分箱对分箱差异性的要求。

然而,聚类分析中的类个数依然取决于建模人员的主观判断,并没有一个明确可量化的衡量标准。另外,由于是对单一特征进行聚类,计算欧氏距离指标所依据的信息量有限,经常可能会导致分箱结果与业务经济含义不符,难以理解的情况出现。

如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,顺便转发分享~

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/810136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创新实训2024.04.11日志:self-instruct生成指令

1. 参考文献 代码:https://github.com/yizhongw/self-instruct论文:https://arxiv.org/abs/2212.10560 2. 前沿论文阅读 2.1. self-instruct技术的优势 作者在文章中提到: The recent NLP literature has witnessed a tremendous amount …

时光清浅,百事从欢

裙身主图案采用寓意丰富的石榴印花石榴花开红火,枝叶茂盛恰好契合“时来运转”的主题希望宝贝们都能如石榴般坚韧生长,好运连连裙型设计深蕴国风美学,融合现代剪裁工艺将古典韵味与时尚元素完美交融领口处巧妙运用中式立领设计既保留了传统服…

SketchBook2014 下载地址及安装教程

SketchBook是一款专业级别的绘图与绘画软件。它提供了丰富的绘画工具和创意功能,适用于艺术家、插画师、设计师和数字艺术爱好者。SketchBook具有直观的用户界面,简单而强大的绘制工具,能够帮助用户在数字平台上创造出精美的艺术作品。 Sket…

【软件测试之因果图法】

【软件测试之判断表法】(蓝桥课学习笔记) 1、因果图法的概念 因果图法是一种利用图解法分析输入的各种组合情况,从而设计测试用例的方法,它适合于检查程序输入条件的各种情况的组合。因果图(Cause-Effect-Graphing)提供了把规则转…

水电智能远程抄表系统

水电智能远程抄表系统是一种应用先进技术实现水电抄表的智能化管理系统,通过远程抄表、数据传输和智能分析,实现了对水电使用情况的实时监测和管理。本文将从系统特点、构成以及带来的效益三个方面展开介绍。 系统特点 1.远程抄表:系统能够…

Day37:LeedCode 738.单调递增的数字 968.监控二叉树 蓝桥杯 翻转

738. 单调递增的数字 当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。 给定一个整数 n &#xff0c;返回 小于或等于 n 的最大数字&#xff0c;且数字呈 单调递增 。 示例 1: 输入: n 10 输出: 9 思路: 假设这个数是98,…

HCIP-Datacom H12-831 题库补充(4/12)

2024年 HCIP-Datacom&#xff08;H12-831&#xff09;最新题库&#xff0c;完整题库请扫描上方二维码&#xff0c;持续更新。 以下关于OSPF Sham Link的描述&#xff0c;错误的是哪一项&#xff1f; A&#xff1a;为了使VPN流量通过MPLS VPN骨干网转发&#xff0c;Sham Link的路…

docker 安装初体验

文章目录 前言简介一、准备工作1.1 安装docker1.2 查看版本1.3 启停docker 二、docker命令介绍2.1 查看doeker容器2.2 查看doeker镜像2.3 docker基本命令 三、下载镜像、创建容器3.1 下载centos镜像3.2 测试运行镜像3.3 将宿主机的文件拷贝到容器上3.4 将容器内的文件拷贝到宿主…

RA4000CE为汽车动力传动系统提供解决方案

目前汽车电气化的水平越来越高&#xff0c;其中比较显著的一个发展方向就是将发动机管理系统和自动变速器控制系统&#xff0c;集成为动力传动系统的综合控制(PCM)。作为汽车动力的核心部件&#xff0c;通过电子系统的运用&#xff0c;将外部多个传感器和执行环节的数据进行统一…

深度学习pytorch实战第P3周--实现天气识别

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊](https://mtyjkh.blog.csdn.net/)** 引言 1.复习上周 深度学习pytorch实战-第…

一文了解HTTPS的加密原理

HTTPS是一种安全的网络通信协议&#xff0c;用于在互联网上提供端到端的加密通信&#xff0c;确保数据在客户端&#xff08;如Web浏览器&#xff09;与服务器之间传输时的机密性、完整性和身份验证。HTTPS的加密原理主要基于SSL/TLS协议&#xff0c;以下详细阐述其工作过程&…

常见程序故障排查及程序配置

文章目录 故障排查基础关机/重启/注销系统信息和性能查看磁盘和分区⽤户和⽤户组⽹络和进程管理常⻅系统服务命令⽂件和⽬录操作⽂件查看和处理打包和解压RPM包管理命令YUM包管理命令DPKG包管理命令APT软件⼯具 分析工具JDK自带分析工具jpsjstatjinfojmapjhatjstackjcmd GUI分析…

QT:QMainWindow、ui界面、资源文件的添加、信号和槽

1.练习&#xff1a;使用手动连接&#xff0c;将登录框中的取消按钮使用qt4版本的连接到自定义的槽函数中&#xff0c;在自定义的槽函数中调用关闭函数 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(…

第6章 6.3.1 正则表达式的语法(MATLAB入门课程)

讲解视频&#xff1a;可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇&#xff08;数学建模清风主讲&#xff0c;适合零基础同学观看&#xff09;_哔哩哔哩_bilibili 正则表达式可以由一般的字符、转义字符、元字符、限定符等元素组…

算法题解记录8+++爬楼梯(百日筑基)

题目描述&#xff1a; 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢&#xff1f; 示例 1&#xff1a; 输入&#xff1a;n 2 输出&#xff1a;2 解释&#xff1a;有两种方法可以爬到楼顶。 1. 1 阶…

KVM虚拟机

文章目录 QEMU-KVM介绍虚拟网卡流程网卡透访流程 QEMU-KVM介绍 QEMU ● QEMU是一个主机上的VMM (Virtual machine monitor), 通过动态二进制模拟CPU&#xff0c;并提供一系列的硬件模型&#xff0c;使Guest OS能够与Host硬件交互。 ● QEMU的代码中有完整的虚拟机实现&#xf…

【C++】1.从C语言转向C++

目录 一.对C的认识 二.C的关键字 三.命名空间 3.1命名空间的定义 3.2命名空间的使用 四.C的输入与输出 五.缺省参数 5.1全缺省参数 5.2半缺省参数 六.函数重载 七.引用 7.1引用的特性 7.2引用和指针的区别 八.内联函数 九.auto关键字&#xff08;C1…

WEB漏洞——XXE

文章目录 前言一、XXE简述及XML基础XXE简述XML基础xml简介文档格式xml树结构xml其它xml语法1、格式良好的xml2、编写第一段XML代码DTD介绍内部文档声明(即DTD在XML源文件中)外部文档声明(DTD位于XML源文件的外部)XML文档构建模块Elements(元素)数量词的用法Attributes(属…

CISA :恶意软件分析平台Malware Next-Gen全新升级

本周三&#xff0c;美国网络安全和基础设施安全局&#xff08;CISA&#xff09;发布了新版恶意软件分析平台Malware Next-Gen&#xff0c;现在公众可以提交任意恶意软件样本供 CISA 分析。 据悉&#xff0c;Malware Next-Gen 可用于检查恶意软件样本中是否存在可疑项目。它最初…

数据生成 | Matlab实现基于SNN浅层神经网络的数据生成

数据生成 | Matlab实现基于SNN浅层神经网络的数据生成 目录 数据生成 | Matlab实现基于SNN浅层神经网络的数据生成生成效果基本描述模型描述程序设计参考资料 生成效果 基本描述 1.Matlab实现基于SNN浅层神经网络的数据生成&#xff0c;运行环境Matlab2021b及以上&#xff1b; …