可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)

在当今金融科技迅速发展的时代,自动机器学习(AutoML)逐步成为了信贷风控领域的重要工具。随着大数据和人工智能技术的进步以及信贷风险环境的快速变化,传统人工建模模式的时效性已经难以应对复杂多变的挑战。自动机器学习框架将数据预处理、特征工程、模型选择、模型训练、模型评估与模型部署等环节自动化,极大地提升了模型开发迭代的效率,并在一定程度上规避了人工操作风险。

在《可视化数据科学平台在信贷领域应用系列六:自动机器学习(上篇)》中,我们对自动机器学习(AutoML)的概念、优势以及在信贷风控中的应用进行了详细介绍。在本篇《可视化数据科学平台在信贷领域应用系列七:自动机器学习(下篇)》中,我们将聚焦于RapidMiner(AI Studio)这款领先的数据科学和机器学习平台深入探讨其自动机器学习方面的特色功能,并通过实验数据实操演示RapidMiner(AI Studio)强大的自动机器学习特色功能。

1、RapidMiner(AI Studio)支持了哪些自动机器学习模块?

RapidMiner(AI Studio)作为一款功能强大的数据科学和机器学习平台,在AutoML方面的功能尤为突出。如我们前序文章所介绍,RapidMiner(AI Studio)在多个机器学习建模分析环节展示了其自动化和智能化的优势:

  • 《系列一:数据探索》中介绍了RapidMiner(AI Studio)在数据探索环节的自动化特性。在选定待分析数据后,用户仅需设定必要的标签字段,RapidMiner(AI Studio)便可自动化地完成数据探索过程,包括缺失率、极限值占比等数据质量分析指标,最值、标准差等数理统计信息,以及变量分布图,自动化程度高、统计维度全面。
     

  • 《系列二:数据清洗》中介绍的自动清洗(AUTO CLEANSING)模块可以自动对数据集执行数据清理操作,自动化地完成数据清洗工作,为机器学习建模做好数据准备。
     

  • 《系列四:决策树策略挖掘》中介绍的RapidMiner(AI Studio)的Interactive Analysis模块具备高度自动化,仅通过两个参数设置步骤即可完成决策树自动化生成,高效助力组合规则策略发现。

RapidMiner(AI Studio)全面的自动化功能不仅覆盖了数据收集与预处理、数据探索分析、数据清洗等数据分析与模型开发前序准备环节,对模型开发全周期流程的自动化支持更是堪称强大,下面让我们来见识一下RapidMiner(AI Studio)强大的自动机器学习模块——Auto Model。

图片

图1 Auto Model

2、RapidMiner(AI Studio)自动机器学习模块Auto Model

如图2,我们启动Auto Model模块后所见,用户可以直观了解到Auto Model模块的自动机器学习主要流程环节,加载数据、选择任务、设置目标变量、筛选入模特征、选择算法类型,最终得到整个自动机器学习全过程的分析报告和模型评估结果。

图片

图2 Auto Model主要流程

首个环节,“Load Data”加载数据集,我们依然加载UCI台湾信用卡数据集进行实验。

第二个环节,“Select Task”选择本次学习任务的类型。如图3,RapidMiner(AI Studio)支持丰富的学习任务类型,包括预测(Predict)、聚类(Clusters)和异常检测(Outliers),这些任务在信贷风控、市场分析、欺诈检测等领域都有广泛的应用。

图片

图3 选择学习任务类型

  • 预测(Predict),预测任务主要涉及对特定目标进行预测,RapidMiner(AI Studio)在预测任务中提供了丰富的工具和算法,支持回归和分类两种预测类型。常见应用场景包括收入评估预测、违约概率预测和高价值客户分类等。
     

  • 聚类(Clusters),聚类任务旨在将样本聚合为若干组,使得组内样本相似度高,组间样本相似度低。聚类在市场细分、客户群体分析等方面有重要应用。
     

  • 异常检测(Outliers),异常检测用于识别数据中的异常或离群点,广泛应用于信贷反欺诈检测以及客户行为预警监测等场景。

回到我们的UCI台湾信用卡数据集,其学习目标是预测客户下个月的还款违约情况,所以这里我们选择“Predict预测”任务,随后设定要预测的目标变量,即“default.payment.next.month”,下一步就进入到“Prepare Target”环节,对目标变量进行设置。

图片

图4 Prepare Target

如图4,RapidMiner(AI Studio)会为我们统计并展示出我们所设定目标变量的统计分布图,RapidMiner(AI Studio)支持更多分类任务的参数设定,包括类别数量、类别划分方式(等距、等频)、配置类别误判权重、最关注类别等设置,为模型目标变量设置提供了极大灵活性,用户在分类任务尤其是多分类任务的目标变量设置中的体验十分友好。

在信贷风控模型开发场景,通常我们还会获取到目标变量的原始参考字段为客户的逾期天数(如首期逾期天数或历史最大逾期天数),通过RapidMiner(AI Studio)自动机器学习的目标变量设置模块即可灵活加工二分类或多分类模型预测标签。

图片

图5 Select Inputs

如图5,“Select Inputs”入模特征筛选环节较好的集成了Turbo Prep模块的良好使用体验。

图片

图6 Model Types

完成特入模征筛选后,则进入到“Model Types”模型选择环节。如图6,用户可以按照所要完成的机器学习任务场景和模型算法的特点,自主选择模型类型,接下来自动执行模型训练和对比过程。支持的算法包括朴素贝叶斯、逻辑回归、决策树、随机森林、梯度提升树、支持向量机、深度学习等算法。如图7,RapidMiner(AI Studio)同样具备日期类型和文本类型字段的特征衍生、自动化特征筛选和自动化特征生成等功能。

图片

图7 Data Preparation

自动学习训练的过程,任务进度、模型结果和评估结果可实时更新交互,用户可以随时查看和分析最新结果,用户体验显著提升。在自动机器学习过程执行完成以后,让我们来看一下自动机器学习全过程的分析报告和模型评估结果。

图片

图8 自动机器学习模型训练结果概览

如图8,最直观的感受即是全面且直观的横向对比,用户可以以较短的时间掌握不同模型在不同评价指标下的预测性能和执行时效及排序,快速便捷地做出决策。

RapidMiner(AI Studio)对入模特征间的相关性、树模型的分支结构、特征重要性排序、也有强大的统计分析、可视化展示和交互性体验:

  • 详细报告:生成详细的模型报告,包括各类评估指标、特征重要性和预测结果等。
     

  • 图表展示:多种可视化图表,如ROC曲线、混淆矩阵、特征重要性表、提升度曲线、特征影响模拟图等,帮助用户直观理解模型效果。
     

  • 交互式的可视化分析:交互式的可视化分析工具,让用户能够深入探索数据和模型运行逻辑,增强了互动体验。

3、RapidMiner(AI Studio) - Auto Model的优势与特色

  • 支持多种机器学习任务,包括但不限于分类、回归、聚类和异常检测。这些任务在不同领域中有广泛应用,能够满足用户多样化的需求。
     

  • 灵活的预测任务目标变量设置,便捷操作实现回归、二分类、多分类任务的目标变量加工,对多分类目标变量的加工更具特色,满足用户的个性化需求。
     

  • 提供了丰富的机器学习算法,涵盖了从传统统计方法到先进的深度学习技术,包括传统统计学习算法、集成学习算法、深度学习算法及无监督学习算法等。
     

  • 在保证高效率的自动化执行效率的前提下,用户仍保留必要的干预和控制空间,确保自动学习任务在用户的指引下进行。
     

  • 提供全面、直观的实验结果展示,帮助用户深入理解掌握模型性能。

随着数据的复杂性和多样性提高,外部经济环境不断变化,给模型开发工作带来了巨大挑战,对风险模型专家及策略分析专家提出了更高要求。RapidMiner(AI Studio)提供的智能化和自动化的功能模块,有效地简化和标准化了模型开发流程。

本篇文章就到这里啦,欢迎大家关注我们,查看往期内容~ 我们下期内容再见!


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎关注公众号:Altair RapidMiner

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/31702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

海外版coze前端代码助手

定位 解决前端同事的开发问题 参数配置 测试 支持 最屌的大模型及语音播报。 体验地址 海外版前端代码助手 需要魔法才能体验油

2024.6最最新版MySQL数据库安装(保姆级教程,不懂你捶我)

1.MySQL数据库下载 1.打开MySQL官网 如下页面 2.下翻网页到最底部,找到Download,点击第一个MySQL Community Server 3.选择自己需要的版本以及系统的MySQL: 4.跳转页面会有一个登录/注册页面,这里我们不鸟他,直接开始下载 2.MySQL数据库安装 1.双击我们刚刚下载的安装包 2.勾…

编码RNA Terc-53和透明质酸受体Hmmr可调节小鼠的衰老

近期,厦门大学王耿教授团队在Protein & Cell(IF21.1)上发表题为“Noncoding RNA Terc-53 and hyaluronan receptor Hmmr regulate ageing in mice.”的研究。研究团队构建了一系列Terc-53小鼠模型,发现Terc-53小鼠表现出与年龄…

艾尔登法环攻略教程 教你怎么达成怎么进入DLC的前置条件

《艾尔登法环》是一款黑暗幻想风开放世界角色扮演动作游戏,该游戏让玩家走进辽阔的场景与地下迷宫探索未知,挑战困难重重的险境,同时体验登场角色之间的利害关系谱成的群像剧。其广阔的开放世界、深邃的剧情探索、极具挑战性的战斗系统&#…

stable diffusion 模型融合

【抛砖引玉】GhostMixV2.0的制作过程及关于Checkpoint模型融合的一点经验 - 知乎大家好,我是Ghost_Shell,也是GhostMix的作者。本来想写一篇文章整体介绍一下模型,一些你们可能没察觉到,但我非常固执的理念,也算是模型的特性。结果发现写太长了,就分开两部分,第一部分是…

【C++ | 重载运算符】一文弄懂C++运算符重载,怎样声明、定义运算符,重载为友元函数

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰:2024-06-21 2…

银河麒麟V10安装docker和docker-compose

1. 说明 系统镜像使用的是Kylin-Server-V10-SP3-2403-Release-20240426-x86_64.iso如果是在VMware中安装这个系统,需选择Ubuntu,如果选Centos会有问题。 尝试使用在线方式安装docker,报了很多错误,比较麻烦,建议使用离…

xss初识(xss-lab)

XSS跨站脚本 XSS漏洞概述 XSS被称为跨站脚本攻击(Cross-site scripting),由于和CSS(Cascading Style Sheets) 重名,所以改为XSS。 XSS主要基于javascript语言完成恶意的攻击行为,因为javascri…

前端代码打包教程

一、 首先解压并进入源码包中,源码文件是下载的完整版安装包的 view/ 目录下,平台后台是 admin.zip ,商户后台是 mer.zip , H5/公众号/小程序是 uniapp.zip ,2.0级以上版本还有客服的源码包; 二、 打包,移动端和后台的打包方式不同 平台后台…

echarts+vue2实战(一)

目录 一、项目准备 二、(横向分页)柱状图 2.1、动态刷新 2.2、UI调整 2.3、分辨率适配 三、(竖向平移)柱状图 3.1、平移动画 3.2、不同数值显示不同颜色 四、(下拉切换)折线图 4.1、切换图表和分辨率适配 4.2、UI调整 五、(三级分类)饼图 5.1、数据切换 六、圆环…

使用Tkinter创建带查找功能的文本编辑器

使用Tkinter创建带查找功能的文本编辑器 介绍效果代码解析创建主窗口添加菜单栏实现文件操作实现查找 完整代码 介绍 在这篇博客中,我将分享如何使用Python的Tkinter库创建一个带有查找功能的简单文本编辑器。 效果 代码解析 创建主窗口 import tkinter as tkcl…

Offset Explorer 连接SASL PLAIN鉴权的Kafka

1、填写Kafka信息 2、配置鉴权信息 Security 选择 SASL PLAINTEXT JAAS Config 配置账号密码 org.apache.kafka.common.security.plain.PlainLoginModule required username"账号"password"密码";

[Vulnhub] Troll FTP匿名登录+定时任务权限提升

信息收集 IP AddressPorts Opening192.168.8.104TCP:21,22,80 $ nmap -sC -sV 192.168.8.104 -p- --min-rate 1000 Nmap scan report for 192.168.8.104 (192.168.8.104) Host is up (0.0042s latency). Not shown: 65532 closed tcp ports (conn-refused) PORT STATE SER…

openh264 宏块级码率控制源码分析

openh264 宏块级码率控制函数关系 宏块级核心函数分析 WelsRcMbInitGom函数 功能:openh264 码率控制框架中宏块级码率控制函数,根据是否启用GOM QP来决定如何设置宏块的QP值,以控制编码的质量和比特率。原理过程: 函数参数&…

“打造智能售货机系统,基于ruoyi微服务版本开源项目“

目录 # 开篇 售货机术语 1. 表设计说明 2. 页面展示 2.1 区域管理页面 2.2 合作商管理页面 2.3 点位管理页面 3. 建表资源 3.1 创建表的 SQL 语句(包含字段备注) 1. Region 表 2. Node 表 3. Partner 表 4. 创建 tb_vending_machine 表的 S…

【启明智显产品介绍】Model3C工业级HMI芯片详解专题(一)芯片性能

【启明智显产品介绍】工业级HMI芯片Model3C详解(一)芯片性能 Model3C 是一款基于 RISC-V 的高性能、国产自主、工业级高清显示与智能控制 MCU,配置平头哥E907,主频400MHz,强大的 2D 图形加速处理器、PNG/JPEG 解码引擎…

【Conda】修改 Conda 默认的虚拟环境位置

文章目录 问题描述分析与解决查看默认安装位置修改 .condarc 文件修改权限 参考资料 问题描述 Conda 的虚拟环境默认安装在 C 盘。时间久了,C 盘上的内存会被大量占用,影响电脑性能。于是想到修改虚拟环境的默认存放位置,改到自定义的位置。…

找不到d3dx9_43.dll无法继续执行代码的几种解决方法

在工作或生活使用电脑都会遇到丢失dll文件应用无法启动的情况,比如你安装完一款你最喜欢的游戏在启动的时候提示系统缺少d3dx9_39.dll、d3dx9_40.dll、d3dx9_41.dll、d3dx9_42.dll、d3dx9_43.dll、xinput1_3.dll 文件而无法正常游戏,或你在工作的时候安装…

分享HTML显示2D/3D时间

效果截图 实现代码 <!DOCTYPE html> <head> <title>three.jscannon.js Web 3D</title><meta charset"utf-8"><meta name"viewport" content"widthdevice-width,initial-scale1,maximum-scale1"><meta n…

图神经网络学习笔记

文章目录 一、图神经网络应用领域分析二、图基本模块定义三、邻接矩阵的定义四、GNN中常见任务五、消息传递计算方法六、多层GCN的作用七、GCN基本模型概述八、图卷积的基本计算方法九、邻接的矩阵的变换十、GCN变换原理解读 本笔记参考自b站up主小巴只爱学习的图神经网络教程 …