可视化数据科学平台在信贷领域应用系列四:决策树策略挖掘

信贷行业的风控策略挖掘是一个综合过程,需要综合考虑风控规则分析结果、效果评估、线上实时监测和业务管理需求等多个方面,以发现和制定有效的信贷风险管理策略。这些策略可能涉及贷款审批标准的调整、贷款利率的制定、贷款额度的设定等,在贷款违约风险可控的前提下最大程度地提升银行的收益规模,确保银行的贷款业务能够稳健运营。

在信贷风控策略挖掘工作中,风控策略专家通常基于业务需求和业务经验,设计组合特征规则,该过程非常依赖策略专家对业务的理解和经验,过程往往非常耗时。逐渐地,基于决策树算法的策略挖掘方法体现出了其优越性。在面对高维度特征集时,基于决策树的自动化规则集策略挖掘的性能明显优于人工分析和设计,如此一来,策略专家只需要对自动挖掘得到的规则集进行检视和优化即可。

那么,如何实现自动化的决策树生成?拥有10余年经验的国内某互联网银行的风控模型主管给出答案。他在对数据的清洗、探索和特征组合加工后,这位模型专家又继续信贷风控策略的挖掘,这一期,他和小编雀跃的分享到“我只通过两个参数设置的步骤就完成了自动化的决策树生成,这对日常工作的提效是神助力”!让我们来看看他是如何实现的吧。

图片

01什么是“信贷风控策略挖掘”?

信贷风控策略挖掘是指通过对申请客户的信贷数据和行为数据进行深入分析和挖掘,以发现有效的信贷风险管理策略的过程。这些策略旨在识别和降低贷款违约和信用风险,确保银行的贷款业务能够健康稳健运营,并取得良好的收益率。

具体来讲,信贷风控策略挖掘通常包括以下主要环节:

1)数据收集和准备:首先,需要收集和整理与客户信贷业务相关的各类数据,包括个人基本信息、人行征信报告、消费支付信息、信贷历史行为等,这些数据将被用于后续的策略分析和挖掘。在完成数据收集之后,按照我们前序文章《数据清洗》所介绍的方法,对数据集进行预处理。

2)数据分析和特征工程:在完成数据清洗之后,需要对数据进行分析和处理。如前序文章《数据探索》和《特征组合》所介绍的内容,对数据集进行探索性数据分析、特征组合挖掘等步骤,提取有用的特征并准备用于策略挖掘的数据集。

3)规则集挖掘分析:需要选择适当的挖掘分析方法,得到的规则集需要在历史数据上进行验证和测试。

4)规则集部署与线上监测:挖掘得到的规则集在历史数据上取得了良好的表现,就需要将其部署至生产环境,进行无决策运行,即在实际业务中运行并观测效果。

5)风控策略制定:经过一定时间的线上运行,规则集的效果得到实际验证,并且积累了足够量的生产测试数据,策略人员根据业务要求,综合考量对业务规模和贷后风险水平的把控,将规则集制定为有效的风控策略。

02运用决策树算法进行策略挖掘

决策树算法在诸多分类算法中,作为决策模型其整体分类性能并不出色,但是决策树的叶子节点的分类准确率却可以很高。我们应当利用好决策树的这个特点,提取决策树的叶子节点的分支规则,筛选识别准确率较高的叶子节点并结合节点判断逻辑的业务含义进行选定并使用。

深入分析,决策树算法为什么适合用于风控策略挖掘呢,其主要原因包括:

1)可解释性强:决策树算法生成的组合规则易于理解和解释,可以清晰地展示出影响决策的因素和决策逻辑,有助于业务人员和决策者理解规则的逻辑和预期。

2)灵活处理混合类型数据:决策树算法能够处理包含类别型特征和数值型特征的混合类型数据,不需要对数据进行特殊的编码或转换。

3)能够处理高维度特征数据:决策树算法具有较高的计算效率,能够处理大规模特征数据集,在实际应用中具有较好的可扩展性。

4)对异常值和缺失值具有鲁棒性:决策树算法对于异常值和缺失值具有较好的鲁棒性,不会对异常值和缺失值过于敏感,在一定程度上可处理异常缺失数据。

5)可量化评估特征重要性:通过决策树算法,可以计算各个特征在决策过程中的重要性,帮助策略人员了解哪些特征对于决策树预测的量化贡献最大,从而更好地理解业务特征数据。

6)易于调优和优化:决策树模型具有较多的参数可以调整,如树的深度、分裂节点的最小样本数和比例、节点分裂策略等,通过调整这些参数可以优化决策树的性能,使其更好地适应不同的业务场景和数据特点。

综上所述:决策树模型在风控策略挖掘中具有较好的可解释性、适用性和效率,因此被广泛应用于风控领域。

RapidMiner 的决策树策略挖掘功能非常好的提升用户的效率,其中,Interactive Analysis 模块的“交互式分析”功能尤为适合所有的用户利用这个工具提效。

03RapidMiner 中的 Interactive Analysis 模块

Interactive Analysis 模块的“交互式分析”简明的步骤式引导大大提升了使用者的挖掘效率。

1)加载数据集 Load Data

如图1,为进入Interactive Analysis模块后的交互界面,选择数据集后,界面右侧会展示数据集概况,包括样本数、变量数、目标变量信息、字段名等。

图片

图1 Interactive Analysis 模块数据加载

2)模型设置 Model Settings

图片

图2 Interactive Analysis 模块模型参数设置

完成数据集加载之后,就来到决策树模型的参数设置步骤,Interactive Analysis 模块模型参数设置界面如图2所示。RapidMiner Interactive Analysis 支持多种分裂搜索方法,支持分裂增益度量方式设置。

RapidMiner Interactive Analysis 支持灵活的变量选择,并且可以直观展示候选变量在相关性 Correlation、ID 属性程度 ID-ness、集中度 Stability、缺失率 Missing、文本属性 Text-ness 共5个维度的程度,并综合给予可用性评价,十分方便策略人员进行特征筛选。

3)决策树生长参数设置

图片

图3 Interactive Analysis 模块决策树生长参数设置

完成决策树模型参数设置,就来到决策树生长参数设置步骤,Interactive Analysis 模块模型参数设置界面如图3所示。我们将叶子节点的最小样本比例设置为1%,非叶子节点的最小样本比例设置为3%,一旦不满足以上规则,决策树则停止生长。

在执行完上述步骤后,即可开启自动化组合规则挖掘。

04Interactive Analysis 模块实操决策树策略挖掘

下面我们使用 RapidMiner Interactive Analysis 模块在UCI 台湾信用卡数据集上来实操一下决策树策略挖掘工作。按照 RapidMiner 的操作指引,一次完成数据加载、模型参数设置、决策树生长参数设置,软件即可自动开启挖掘分析。

图片

图4 树深度为2时的挖掘结果

我们首先讲决策树的深度设定为2,即仅通过一个变量对数据集进行划分,得到结果如图4。可见模型选择了变量 PAY_0(2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款),且“PAY_0 = 2”和“PAY_0 >= 3”两个分支节点的目标变量占比要远远高于整体水平。

下一步我们再将决策树的深度设定为3,即通过最多两个变量组合的方式对数据集进行划分。如图5,RM挖掘得到了一个目标变量占比更高的分组组合规则1 :

“PAY_0=2 且 PAY_6 ∈ [2:8]”(业务含义为,客户在6个月前发生延迟2个月以上还款 且 上个月发生延迟2个月还款)

如图6,RM 亦挖掘得到了一个目标变量占比远低于全局的分组组合规则2:

 “PAY_0 = -2 且 PAY_AMT1 >= 5000”(业务含义为,上个月客户未消费且还账单金额和存入信用卡金额大于等于5000元)

图片

图5 树深度为3时的挖掘结果1

图片

图6 树深度为3时的挖掘结果2

在策略应用层面,上述两个组合规则均具有较好的业务应用价值,且业务解释性较。组合规则1可设定为拒绝策略,组合规则2可作为优质客户筛选规则,为其设置利率优惠或额度提升策略

05RapidMiner 在决策树策略挖掘中的优势与特点

使用体验下来,我总结了 RapidMiner 在决策树策略挖掘中三个特点:

第一,智能化、自动化。RapidMiner 的 Interactive Analysis 模块高度自动化,仅通过两个参数设置的步骤即可完成自动化的决策树生成。

第二,提高效率。在面对高维数据时,交互式决策树分析的性能明显优于人工策略设计挖掘,策略专家可将精力放在对规则集进行审查优化和筛选上。

第三,交互体验好,应用技术门槛低。RapidMiner 的Interactive Analysis 模块通过简易的操作步骤大大降低了策略挖掘的技术门槛,没有算法技术背景的产品专家或业务专家在 RapidMiner 的赋能下,亦可快速完成决策树策略分析挖掘工作。

本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~


 如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/23128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++简略实现共享智能指针Shared_Ptr<T>

重点: 1.引用计数在堆上(原本应为原子变量) 2.引用计数增加减少需要加锁保证线程安全。 3.内部实现Release函数用于释放资源 4.未实现,增加自定义删除器可以将Release修改为模板函数,传入可调用参数。对于shared_p…

java分布式的ACP是什么

ACP 1、ACP是什么 一致性(Consistency):在分布式系统中,当更新操作完成之后,所有节点在同一时间看到的数据是一致的。换句话说,对于任何数据的读取,都会得到最后写入的数据。可用性&#xff0…

工商注册代理记账——打造专业服务的专业机构

在当今竞争激烈的商业环境中,注册和运营一家公司成为了每一个企业家的重要步骤,这并不是一件容易的事,涉及到的不仅是法律法规的学习,还有各种手续的办理、税务筹划等问题,这个时候,就需要专业的工商注册代…

Flask 学习笔记 总结

python基础 服务端开发编程 第一个是赋值运算,第二是乘法,最后是一个是幂(即a2) a 2 a * 2 a ** 2 Python支持多重赋值: a, b, c 2, 3, 4 这句命令相当于: a 2 b 3 c 4 Python支持对字符串的灵活…

redis常用设计模式

Redis常用的设计模式分为读,写,读写三种 一、概要说明 读操作 Read Through Pattern 读穿透 写操作 以Redis统一视图为准:先更新缓存,后更新数据库。 Write Through Pattern 直写模式(首先将数据写入缓存&#xf…

51建模网3D编辑器:一键为3D模型设置特殊材质

3D设计师要对3D模型设置玻璃或者钻石材质时,操作比较复杂,但是利用51建模网的3D编辑器,不用下载安装软件,在线通过浏览器即可编辑,具有一键设置特殊材质的功能。目前,它支持钻石材质、玻璃材质和水波纹材质…

Java——基础快速过

1.注释,标识符,关键字 1.1注释 单行注释:// 注释内容(用的最多) 多行注释:/* 注释内容*/(不推荐) 文档注释: /** 文档注释 */(常见于方法和类之上描述方法和…

分布式任务队列系统 celery 进阶

通过前面的入门,我们大概了解了celery的工作原理及简单的入门代码示例(传送门),下面进行一些稍微复杂的任务调度学习 多目录结构异步执行 在实际项目中,使用Celery进行异步任务处理时,经常需要将代码组织…

【面试题】创建两个线程交替打印100以内数字(一个打印偶数一个打印奇数)

阅读导航 一、问题概述二、解决思路三、代码实现四、代码优化 一、问题概述 面试官:C多线程了解吗?你给我写一下,起两个线程交替打印0~100的奇偶数。就是有两个线程,一个线程打印奇数另一个打印偶数,它们交替输出&…

Aws EC2,kubeadm方式安装kubernetes(k8s)

版本 docker版本:20.10.25 k8s版本(kubeadm,kubelet和kubectl):1.20.10-0 初始化 # 禁用 SELinux sudo setenforce 0 sudo sed -i s/^SELINUXenforcing$/SELINUXpermissive/ /etc/selinux/config# 关闭防火墙 sudo …

MySQL的联合索引及案例分析

1. 联合索引 关于联合索引的详解参考博客【Mysql-----联合索引和最左匹配】,包含讲解 最左匹配 联合索引失效的情况 不遵循最左匹配原则范围查询右边失效原理like索引失效原理 比较关注的点在于: 对A、B、C三个字段创建一个联合索引(A, …

在线建站流程分析

建站流程是指通过互联网创建一个个人或企业网站的过程。随着互联网的发展,越来越多的人和机构开始意识到网络的重要性,建站成为一种常见的行为。在线建站的流程一般包括以下几个步骤。 首先,选择一个合适的建站平台。目前,有很多在…

前端逆向之查看接口调用栈

一、来源 再分析前端请求接口数据的时候,其中有一个sid不知道是前端如何获取的,一般情况下只需要全局搜搜sid这个字符串或者请求接口的名称就可以了,基本都能找到sid的来源,但是今天这个不一样,搜什么都搜不到 接口地…

面试题------>MySQL!!!

一、连接查询 ①:左连接left join (小表在左,大表在右) ②:右连接right join(小表在右,大表在左) 二、聚合函数 SQL 中提供的聚合函数可以用来统计、求和、求最值等等 COUNT&…

AI论文工具推荐

AI 在学术界的使用情况也比较疯狂,特别是一些美国大学,用 AI 来辅助阅读文献以及辅助写论文的越来越多,毕竟确实可以提高写作效率,特别是在文献综述和初稿生成方面。 但在科研界其实,发现看论文的速度已经赶不上发论文…

“粘土风格”轻松拿捏,基于函数计算部署 ComfyUI实现AI生图

阿里云函数计算 FC 一键部署火爆全球工作流 AI 生图平台—— ComfyUI ,实现更高质量的图像生成,三步轻松完成“黏土”创意AI画作,晒图赢眼部按摩器等好礼! 活动地址: https://developer.aliyun.com/topic/june/fcspma…

编写备份MySQL 脚本

目录 环境准备 增量备份 增量备份和差异备份 完整代码如下 测试脚本是否正常 星期天运行脚本(完全备份) 星期一运备份脚本(增量备份) 星期二备份数据(其他天--增量备份) 星期三备份数据(差异备…

【强烈推荐】四元数与三维旋转

目录 1 强烈推荐讲解四元数与三维旋转的这篇文章,深入浅出2 笔记2.1 复数2.1.1 复数的定义2.1.2 复数的乘法与二维旋转 2.2 三维空间中的旋转2.2.1 角轴2.2.2 旋转的分解 2.3 四元数2.3.1 四元数的定义2.3.2 四元数的乘法2.3.3 四元数与三维旋转2.3.4 三维旋转的矩阵…

数字影像产业园的三大赋能:科技、创新与无限可能

数字影像产业园作为文创产业的重要载体,以科技为核心驱动力,不断推动产业的技术革新和升级。 园区内汇聚了最前沿的数字技术资源,高清摄影设备、虚拟现实技术、人工智能应用等尖端科技在这里得到广泛应用,不仅提升了生产效率&…

能源SCI期刊,中科院4区,审稿快,IF=3.858

一、期刊名称 Frontiers in Energy Research 二、期刊简介概况 期刊类型:SCI 学科领域:能源 影响因子:3.858 中科院分区:4区 三、期刊征稿范围 能源研究前沿出版了整个领域的严格同行评审研究,重点是可持续和环境…