常用特征分箱算法

特征分箱是构建信用评分过程中最重要的一个环节。特征分箱是对连续变量离散化的一种简称,对于连续型变量,需要对其连续值进行拆分,并进行后续的分箱调整工作;

对于离散型变量,通常要根据每个离散值计算其坏样本占比或者好坏比,通过坏样本占比或好坏比对离散信息进行编码,将离散值转换为连续型变量,再进行后续的分箱操作。

特征分箱算法即是在特征分箱过程中采用的方法,对于同一特征而言,不同的分箱算法所得到的分箱结果差异较大,这也直接影响最终的特征预测能力以及模型效果。

常用的特征分箱算法

特征分箱算法有很多种,不同的建模师在不同的业务场景下,根据现有的数据基础,所选择的特征分箱算法均可能不同。

1) 经验分箱法

传统上,建模工程师在进行分箱操作时通常会结合自身的业务经验,根据业务上积累的数据经验对分箱进行主观划分。

比如年龄这一字段,业务上的数据感觉可能会告诉建模工程师,当客户年龄在18岁以上30岁以下时,风险水平较为相似,应当划分到同一个分箱中去;而当客户年龄在30岁以上45岁以下时,客户收入水平在整个生命周期中处于较高的水平,风险水平相对较低;而当客户年龄在45岁以上时,收入水平下降,风险水平相对有所提高。

建模工程师根据经验可能会将年龄字段划分为3个分箱,分别是[18,30]、[30,45]、[45,65]三个区间,再分别计算这三个分箱对应的好坏比及WOE值。

这种根据业务经验对特征进行分箱的方法,当建模人员业务经验较为丰富时,通常分箱及建模会有较好的效果。但在建模人员经验较为不足时,分箱结果的主观性较强。

这种方法会受到很多主观因素的干扰,分箱结果也不能很好的反映特征变量在数据意义上的真实表现。

2) 统计分箱法

除了根据业务经验分箱外,业界还有一种使用无监督统计方法进行分箱的做法,常见有的等频分箱法、等距分箱法和聚类分箱法。

等频分箱法是指在将需要分箱的特征按从小到大或从大到小进行排序后,按照等频的统计原则对变量进行分箱。

比如同样假设年龄这个字段,取值区间在18-65岁,样本总量10000人,假设取每2500人一个分箱,可能得到[18,28]、[29,40]、[41,53]、[54,65]共计4个分箱,每个分箱2500个样本。这样得到的分箱即根据等频分箱法取得。

等频分箱法中的分箱个数通常也是根据业务经验得到,或者根据某些特征条件限制取得。

等频分箱法的优点在于样本分布均匀,每个分箱中样本量较为充足,所体现的样本好坏规律较为稳定。但等频分箱法可能出现不同分箱中坏样本占比或好坏比趋势非单调或者不完全符合业务经验的情形,这是等频分箱法的不足之处。

等距分箱法是指在将需要分箱的特征按从小到大或从大到小进行排序后,按照等距的统计原则对变量进行分箱。

比如假设年龄这一字段,取值区间同样在18-65岁,样本总量还是10000人,假设每12岁间隔为一个分箱,可以得到[18,30]、[31,43]、[44,56]、[57,65]共计4个分箱。除最后一箱外,其余每箱间距均为12岁,这样得到的分箱即根据等距分箱法取得。

与等频分箱法一样,等距分箱法的分箱个数,也是根据业务经验或主观选取。等距分箱法的最大优点是直观易理解,每箱距离一致,从数学上看形式较为美观。

但由于借款真实客户的分布可能各种各样,因此等距分箱法不同分箱中的样本个数可能差异较大,有可能导致部分分箱中样本量较少,以至于分箱坏样本占比或好坏比出现极端值的情形,导致分箱不具有代表性。

聚类分箱法是一种新型的统计分箱法,这种方法的特异之处在于它利用了相对较为高深的聚类分析方法,通过聚类分析,将特征的取值聚到不同的类中,并将聚得的每个类作为一个分箱。这样得到的每一个分箱的样本取值较为相似,不同分箱的样本取值差异较大。

聚类分箱法的优点是使得分箱之间的区分度能够显著提高,同一分箱较为相似,不同分箱又能保持一定差异,符合特征分箱对分箱差异性的要求。

然而,聚类分析中的类个数依然取决于建模人员的主观判断,并没有一个明确可量化的衡量标准。另外,由于是对单一特征进行聚类,计算欧氏距离指标所依据的信息量有限,经常可能会导致分箱结果与业务经济含义不符,难以理解的情况出现。

如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,顺便转发分享~

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/810136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创新实训2024.04.11日志:self-instruct生成指令

1. 参考文献 代码:https://github.com/yizhongw/self-instruct论文:https://arxiv.org/abs/2212.10560 2. 前沿论文阅读 2.1. self-instruct技术的优势 作者在文章中提到: The recent NLP literature has witnessed a tremendous amount …

flex吃干抹净

Flex 布局是什么? Flex 是 Flexible Box 的缩写,意为"弹性布局",用来为盒状模型提供最大的灵活性。 .box{display: flex;//行内元素也可以使用flex布局//display: inline-flex; }display: flex; 使元素呈现为块级元素,…

nvm设置淘宝镜像

前端安装完 node 后,最好设置下淘宝的镜像源,不建议使用 cnpm(可能会出现奇怪的问题) npm config set registry https://registry.npmmirror.com 旧版不能用:npm config set registry https://registry.npm.taobao.org…

CentOS版本不同大小的各个版本区别

Everything版:这个版本包含了CentOS的所有软件组件,因此其体积相对较大,高达7G,甚至10G。它为用户提供了全面的软件包选择,无需再额外下载其他组件。DVD版:这个版本是CentOS的常用版本,也被称为…

时光清浅,百事从欢

裙身主图案采用寓意丰富的石榴印花石榴花开红火,枝叶茂盛恰好契合“时来运转”的主题希望宝贝们都能如石榴般坚韧生长,好运连连裙型设计深蕴国风美学,融合现代剪裁工艺将古典韵味与时尚元素完美交融领口处巧妙运用中式立领设计既保留了传统服…

SketchBook2014 下载地址及安装教程

SketchBook是一款专业级别的绘图与绘画软件。它提供了丰富的绘画工具和创意功能,适用于艺术家、插画师、设计师和数字艺术爱好者。SketchBook具有直观的用户界面,简单而强大的绘制工具,能够帮助用户在数字平台上创造出精美的艺术作品。 Sket…

【软件测试之因果图法】

【软件测试之判断表法】(蓝桥课学习笔记) 1、因果图法的概念 因果图法是一种利用图解法分析输入的各种组合情况,从而设计测试用例的方法,它适合于检查程序输入条件的各种情况的组合。因果图(Cause-Effect-Graphing)提供了把规则转…

水电智能远程抄表系统

水电智能远程抄表系统是一种应用先进技术实现水电抄表的智能化管理系统,通过远程抄表、数据传输和智能分析,实现了对水电使用情况的实时监测和管理。本文将从系统特点、构成以及带来的效益三个方面展开介绍。 系统特点 1.远程抄表:系统能够…

详解Qt元对象系统

Qt库作为一款流行的跨平台C应用程序开发框架,其中的元对象系统是其核心特性之一。Qt元对象系统不仅提供了诸如信号槽(Signals & Slots)、属性系统(Property System)等功能,还实现了对C对象的运行时类型…

Day37:LeedCode 738.单调递增的数字 968.监控二叉树 蓝桥杯 翻转

738. 单调递增的数字 当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。 给定一个整数 n &#xff0c;返回 小于或等于 n 的最大数字&#xff0c;且数字呈 单调递增 。 示例 1: 输入: n 10 输出: 9 思路: 假设这个数是98,…

【LeetCode热题100】238. 除自身以外数组的乘积(数组)

一.题目要求 给你一个整数数组 nums&#xff0c;返回 数组 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 **不要使用除法&#xff0c;**且在…

HCIP-Datacom H12-831 题库补充(4/12)

2024年 HCIP-Datacom&#xff08;H12-831&#xff09;最新题库&#xff0c;完整题库请扫描上方二维码&#xff0c;持续更新。 以下关于OSPF Sham Link的描述&#xff0c;错误的是哪一项&#xff1f; A&#xff1a;为了使VPN流量通过MPLS VPN骨干网转发&#xff0c;Sham Link的路…

docker 安装初体验

文章目录 前言简介一、准备工作1.1 安装docker1.2 查看版本1.3 启停docker 二、docker命令介绍2.1 查看doeker容器2.2 查看doeker镜像2.3 docker基本命令 三、下载镜像、创建容器3.1 下载centos镜像3.2 测试运行镜像3.3 将宿主机的文件拷贝到容器上3.4 将容器内的文件拷贝到宿主…

Photoshop小记

ps使用小记 我用的是22版ps。 1. 软件下载和基本使用 新建自定义项目。 放大缩小&#xff1a;alt滚轮。 抓手工具&#xff1a;空格鼠标拖动。 2. 图层&#xff0c;蒙版&#xff0c;自由变换 右下小框可以将背景拖到垃圾桶标志来删除&#xff0c;可以点击加号新建图层。 c…

RA4000CE为汽车动力传动系统提供解决方案

目前汽车电气化的水平越来越高&#xff0c;其中比较显著的一个发展方向就是将发动机管理系统和自动变速器控制系统&#xff0c;集成为动力传动系统的综合控制(PCM)。作为汽车动力的核心部件&#xff0c;通过电子系统的运用&#xff0c;将外部多个传感器和执行环节的数据进行统一…

深度学习pytorch实战第P3周--实现天气识别

>- **&#x1f368; 本文为[&#x1f517;365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客** >- **&#x1f356; 原作者&#xff1a;[K同学啊](https://mtyjkh.blog.csdn.net/)** 引言 1.复习上周 深度学习pytorch实战-第…

vue3组件TS类型声明实例代码

为 props 标注类型 当使用 <script setup lang"ts">const props defineProps({foo: { type: String, required: true },bar: Number})props.foo // stringprops.bar // number | undefined</script> 这被称为 运行时声明 &#xff0c;因为传递给 defi…

一文了解HTTPS的加密原理

HTTPS是一种安全的网络通信协议&#xff0c;用于在互联网上提供端到端的加密通信&#xff0c;确保数据在客户端&#xff08;如Web浏览器&#xff09;与服务器之间传输时的机密性、完整性和身份验证。HTTPS的加密原理主要基于SSL/TLS协议&#xff0c;以下详细阐述其工作过程&…

欧盟EDPS发布2023年度报告,强调数据安全的重要性

文章目录 前言一、EDPS在政策制定中发挥的作用1、人工智能方面。2、数字货币(欧元)方面。3、《通用数据保护条例》(GDPR)方面。4、打击跨国犯罪。5、飞机旅客的个人数据保护。二、EDPS科技与隐私小组(T&P)的下属部门1、技术监测与预测部门。2、数字化转型部门。3、系…

常见程序故障排查及程序配置

文章目录 故障排查基础关机/重启/注销系统信息和性能查看磁盘和分区⽤户和⽤户组⽹络和进程管理常⻅系统服务命令⽂件和⽬录操作⽂件查看和处理打包和解压RPM包管理命令YUM包管理命令DPKG包管理命令APT软件⼯具 分析工具JDK自带分析工具jpsjstatjinfojmapjhatjstackjcmd GUI分析…