可视化数据科学平台在信贷领域应用系列三:特征组合

现代各企业都提倡“降本增效”,所以越来越多优秀的工具诞生了。若想在特征加工这块工作上提升效率,建模人员也能有更多时间“偷懒”,都 “Sora”时代了,为啥不巧用工具呢?RapidMiner在信贷风控特征加工组合中是一把利器!

第一,从银行信贷风控建模工作角度看,这个工具的可应用场景比较广泛,解决了日常的业务需求工作的标准化问题。比如,通过RapidMiner的GENERATE模块,可在多个业务场景中辅助信贷风控从业人员解决实际应用问题,RapidMiner可在如下几个涉及特征加工和特征组合的业务应用场景提升工作效能:

1. 构建客群细分变量,辅助精细化客群分析;

2. 构建组合决策变量,形成策略规则;

3. 非结构化数据转换挖掘,尤其是文本类和日期类数据;

4. 特征组合挖掘,融合业务理解,挖掘衍生特征。

第二,RM非常简洁的界面,让操作无比高效,新手上手操作无负担。比如,特征加工组合工作中,由于RapidMiner将丰富的算子进行了科学归类,使用者可快速找到所需算子,拖拉式操作更是简明易上手,公式区域语法高亮也方便使用者阅读验证等。市面上这么多建模工具,能做到保持功能完整符合日常需求,同时又保证操作界面简洁、逻辑不复杂的产品少之又少,Altair RapidMiner是其中一款。

—— 国内知名互联网银行   信贷风险建模专家

欢迎继续关注 Altair 的金融信贷风控算法模型系列文章第三篇。在前两篇中,国内知名互联网银行零售信贷风险建模专家分享了他在数据探索和数据清洗的十多年心得经验,收到诸多业内同仁的好评。今天,这位建模专家再次和大家分享他在数据的特征加工心得。

01什么是“特征加工组合”?

特征加工组合涵盖了特征加工与特征组合。在机器学习中,特征加工组合是指基于数据集中现有的一个、两个或多个原始特征来创建新的特征。这有助于模型一方面更好地捕捉特征之间的关系,另一方面挖掘更丰富的信息,从而提高模型的性能。特征加工组合通常分为三类:特征变换、特征交叉组合和多项式特征组合。

特征变换通常是指针对单个原始特征进行变换或计算。例如,判断一列地址文本数据中是否包含“村、屯、组、庄”等字符,加工得到乡村倾向地址特征。

特征交叉组合是将两个或多个特征的取值进行组合。例如,如果有两个特征分别是“性别”和“婚姻状态”,通过将它们交叉,可以创建一个新的特征,表示“性别-婚姻状态”的细分变量。

多项式特征组合是对原始特征进行幂的组合。例如,对于特征χ,通过创建χ、χ等,可以引入非线性关系。

特征加工组合的目的是增加模型的表达能力,使其能够更好地适应数据。它在处理非线性关系、交互效应等方面非常有用。然而,需要小心选择合适的加工和组合方式,因为过于复杂的组合可能导致过拟合。

在进行特征组合时,通常需要结合领域知识和模型的反馈,以确保创建的新特征对于模型的性能提升是有效的。在信贷风控领域,进行特征加工和特征组合时,会兼顾加工和组合特征的区分度效果和稳定性,并关注其业务解释性。

02RapidMiner中Turbo Prep看板下的GENERATE模块

图片

图1 GENERATE模块函数库支持的函数算子

如图1,为进入GENERATE模块后的交互界面,各功能区域分布清晰合理。左侧边栏为原有数据列,右侧部分是函数算子和常量对象,中部上方为加工生成区域,中部下方为可实时更新的数据预览区域。

(1)函数库Functions

图片

图2 GENERATE模块函数库支持的函数算子

我们首先来看一下RapidMiner的GENERATE模块强大函数库所支持的丰富算子。如图2,我根据函数算子的功能将全部函数算子进行了分类:基础函数、数学函数、文本函数以及其他函数。整体函数库可以用“全面、丰富、特色”来评价,“全面”是指函数类别全面、“丰富”是指函数算子功能丰富、“特色”则是指如表达式转换的算子。

基础函数涵盖了基础运算算子、逻辑运算算子、比较算子、位运算算子、舍入函数算子和转换函数算子。其中,Conversion Functions-转换函数算子包含了面向不同格式数据的转换算子,包括普通数值列与字符串格式数值的相互转换、日期格式数据与字符串格式日期数据的双向格式化解析转换。

数学函数包括数学函数算子、统计函数算子和三角函数算子。数学函数算子可实现开方、幂次方、对数、取绝对值基本数学运算,统计函数算子涵盖了均值、最值、求和等聚合函数。

文本类函数主要包括文本信息算子和文本变换算子。对于非结构化的文本数据,RapidMiner提供了优秀的解决方案。文本信息算子为针对文本数据的基础函数算子,诸如字符串比对、字符转匹配、字符串逻辑判断、字符串查找等均为数据科学从业者们实现。文本变换算子则侧重对文本数据进行操作和修改,如文本截断、文本替换、文本拼接、字符提取、文本清洗等功能算子。

其他函数中的日期计算算子实现了对日期数据的相关功能,如日期推移、日期差分、时间单位换算等。

(2)常量值Constants

Constants为RapidMiner提供的数据科学领域的常用常量对象,方便设计开发新特征时直接引用使用。

02GENERATE 模块实操特征加工和组合

下面我们使用GENERATE模块在UCI台湾信用卡数据集上来实操一下特征加工和组合工作。

如《可视化数据科学平台在信贷领域应用系列一:数据探索》所介绍,BILL_AMT1 ~ BILL _ AMT6分别为2005年9月至2005年4月每月的账单金额,PAY _ AMT1~PAY _ AMT6 分别为2005年9月至2005年4月每月的付款金额。于是我们便可加工以上每个月份的账单还款比例特征,即“付款金额”除以“账单金额”。如图3所示,填写新生成特征列名称“PAY _ Rate1”,将对应的数据列拖至 Formula 操作区,将基础运算算子中的“除号”也拖至操作区,形成公式“[PAY _ AMT1] / [BILL _ AMT1]”,更新数据预览后则显示了加工后的特征的预览结果。确认无误后,则可将新生成特征列提交(COMMIT)正式添加进数据集中。

图片

图3 账单还款比例加工逻辑

综合 BILL _ AMT1~BILL_AMT6,定义公式:

[BILL _ AMT6]([BILL _ AMT1]+[BILL _ AMT2]+[BILL _ AMT3]+[BILL _ AMT4]+[BILL _ AMT5]+[BILL _ AMT6])”,则加工得到了特征“最近一月账单金额占最近六月账单金额总和比例”,表征了用户的近期信用卡消费趋势。类似的可加工得到特征“最近一月还款金额占最近六月还款金额总和比例”,这两类趋势特征均与目标变量还款违约有较强的相关性。

又如我希望加工一个客群细分变量“大龄(35岁以上)未婚男性”,定义公式“ ( [AGE] > 35) && ( [ MARRIAGE ] == 2 ) && ( [SEX] == 1 )”,则加工得到了标签。

此外,对于UCI台湾信用卡数据集中存在时间序列型数据,如多个月份的账单金额和付款金额数据,还可以通过计算标准差来描述客户对应指标的波动率,进而评估客户的稳定性。

综上,借助RapidMiner的GENERATE模块,可加工得到更加丰富的数据特征,扩大数据维度,提升模型精准度,同时丰富的特征好标签指标也为策略设计提供了便利。

本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~


 如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848776.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

17 - 项目员工 I(高频 SQL 50 题基础版)

17 - 项目员工 I select-- round(sum(e.experience_years)/count(*),2) p.project_id,round(avg(e.experience_years),2) average_years from Project p left join Employee e on p.employee_ide.employee_id group by p.project_id;

智能座舱车载数字人解决方案,低资源占用

随着智能汽车的快速发展,人们对汽车的需求已经超越了单纯的交通工具定义,而是更加追求个性化、智能化的出行体验。在这样的背景下,美摄科技凭借其卓越的技术实力和创新能力,推出了面向企业的智能座舱车载数字人解决方案&#xff0…

Qt Creator常用的快捷键和常用功能

常用快捷键 新建项目,ctrl n 运行项目,ctrl r 构建项目,ctrl b 改变编辑器界面字体显示比例大小,ctrl 鼠标滚轮 对齐代码,ctrl a; ctrl i 跳转到上一行,ctrl shift enter 跳转到下一行,…

PhpStorm 2024 激活码 - JetBrains 高效智能PHP IDE

各位程序员,每天敲代码真的需要一款好用的 IDE,大名鼎鼎的 JetBrains 值得信赖!PHP 开发看过来,PhpStorm 个人版首年订阅 618 限时特惠 7.1 折,有需要的朋友一定不要错过! PhpStorm 汇集了众多效率功能和集…

Kaggle——Deep Learning(使用 TensorFlow 和 Keras 为结构化数据构建和训练神经网络)

1.单个神经元 创建一个具有1个线性单元的网络 #线性单元 from tensorflow import keras from tensorflow.keras import layers #创建一个具有1个线性单元的网络 modelkeras.Sequential([layers.Dense(units1,input_shape[3]) ]) 2.深度神经网络 构建序列模型 #构建序列模型 …

Windows系统的——终端命令行进入文件夹、打开程序或文件、返回路径、切换磁盘、查看路径包含的所有内容和配置环境变量操作

一、Windows系统的一些基础操作 Windows系统的一些基础操作(通过运行命令方式打开)https://blog.csdn.net/xiaochenXIHUA/article/details/122782021?ops_

Shell脚本文本处理三剑客(grep、awk、sed)和正则表达式

一、正则表达式 1.正则表达式基础 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串,将匹配的子串替换或者从某个串中取出符号某个条件的子串等&…

青否数字人直播源码超级管理后台操作步骤!

青否数字人直播源码超级管理后台,我们将详细介绍一下数字人的管理后台的详细操作步骤! 1.管理端入口 2.管理后台预览 账号管理,模特管理,声音管理,任务管理,卡类管理,代理商,克隆端 …

七月份大理站、ACM独立出版、高录用稳检索,2024年云计算与大数据国际学术会议(ICCBD 2024)

【ACM独立出版 | 高录用 | EI核心检索稳定】 2024年云计算与大数据国际学术会议(ICCBD 2024) 2024 International Conference on Cloud Computing and Big Data (ICCBD 2024) 一、重要信息 大会官网:www.iccbd.net (点击投稿/参会/了解会…

小程序 UI 风格,独具匠心

小程序 UI 风格,独具匠心

docker 下载镜像发现超时,加速加速方法

报错原因有可能旧的不能用了!!!换下面的!!! cat /etc/docker/daemon.json "registry-mirrors": ["https://bhu1x6ya.mirror.aliyuncs.com"] 编辑完成后执行以下命令重启docker即可&a…

Linux.小技巧快捷键

1. ctrl c 强制停止 终止某些程序的运行 也可以取消某行命令 2. ctrl d 退出或登出 进入python环境中,使用ctrl d 退出 3.history 查看历史使用了哪些命令 4. ! 历史最近使用的命令的开头 5.使用ctrl r 搜索历史使用的命令 按下 ctrl r 会进入 reverse -…

19 - 查询结果的质量和占比(高频 SQL 50 题基础版)

19 - 查询结果的质量和占比 -- round(avg(rating<3)*100,2)round(avg(if(rating<3,1,0))*100,2) select query_name,round(avg(rating/position),2) quality,round(avg(if(rating<3,1,0))*100,2) poor_query_percentage fromQueries group byquery_name;

vue 响应拦截器,针对某个接口的返回值做特殊处理

1、service.interceptors.response.use 接收两个参数&#xff1a; &#xff08;1&#xff09;参数一&#xff1a;接口成功的回调函数 &#xff08;2&#xff09;参数二&#xff1a;接口失败的回调函数 如要实现以下需求&#xff1a;匹配路径中包含 /api-special 的接口&…

企业微信hook接口协议,ipad协议http,一个用户多个标签

一个用户多个标签 参数名必选类型说明uuid是String每个实例的唯一标识&#xff0c;根据uuid操作具体企业微信 请求示例 {"uuid": "168885xxx599424","userid":0,//用户id"labelid_list":[ //标签id数组0] } 返回示例 {"data…

基于python的网上挂号预约系统-计算机毕业设计源码35796

摘 要 随着科学技术的飞速发展&#xff0c;社会的方方面面、各行各业都在努力与现代的先进技术接轨&#xff0c;通过科技手段来提高自身的优势&#xff0c;医院当然也不例外。网上挂号预约系统是以实际运用为开发背景&#xff0c;运用软件工程原理和开发方法&#xff0c;采用Py…

nesting in wrf

Choices for Nesting are:0 no nesting (only available for serial and smpar) 0. no nesting (only available for serial and smpar)1. basic2. preset moves preset moves3. vortex following • default is option 0 for serial/smpar, 1 for dmpar • smpar Shared Mem…

VS code上创建Vue项目详细化教程2-配置并创建Vue项目

目录 1. 环境准备 1.1 Node.js环境配置 1.1.1 安装Node.js 1.1.2 Node配置全局安装目录&#xff1a; 1.2 安装Vue-cli 2. 工程化Vue项目创建 2.1 命令行形式 2.2 UI 界面&#xff08;我们此处采用UI模式&#xff09; 2.2.1 在文件目录下终端输入 2.2.2 创建新项目 2…

源码文章上传无忧,论坛小程序支持

前言 在数字化时代&#xff0c;知识的分享与传播显得愈发重要。为了满足广大创作者和求知者的需求&#xff0c;我们推出了全新的论坛小程序&#xff0c;不仅支持文章、源码、链接等多样化内容的上传&#xff0c;还实现了付费观看功能&#xff0c;为创作者们提供了一个展示才华…

快速自定义表单开发的优势介绍

进行高效率的办公是很多职场人的梦想。借助什么样的软件平台可以提质增效&#xff1f;低代码技术平台是当前较为流行的办公软件平台产品&#xff0c;具有灵活性、易操作、好维护等多个优势特点&#xff0c;操作人员只需要像搭积木似地操作&#xff0c;就可以搭建属于客户的个性…