金融反欺诈模型----项目实战--机器学习

机器学习:从源数据清洗到特征工程建立谈金融反欺诈模型训练

本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习,会比较多的困惑,希望通过借助这个实战的例子,可以帮助大家对机器学习了一个初步的认识。
本文旨在通过一个完整的实战例子,演示从源数据清洗到特征工程建立,再到模型训练,以及模型验证和评估的一个机器学习的完整流程。由于初识机器学习,会比较多的困惑,希望通过借助这个实战的例子,可以帮助大家对机器学习了一个初步的认识。

【数据来源】

本文的数据来源于Lending Club网站的公开数据,数据集为自LendingClub平台发放的2016年Q3的总计99122条贷款记录。

Lending Club是美国最大的P2P网贷交易平台,利用网络技术直接连接了个人投资者和个人借贷者,缩短资金流通的细节,绕过传统的大银行等金融机构,使得投资者和借贷者都能得到更多实惠。对于投资者来说,可以获得更好的回报;对于借贷者来说,则可以获得相对较低的贷款利率。

在借贷行业中,投资者向借贷者提供贷款以获取利息。如果借贷者顺利偿还贷款,投资者则获得利息收益。如果借贷者无法偿还贷款,投资者则损失贷款本金。因此,对于投资者来说,需要预测借贷者无法偿还贷款的风险,最大程度地避免投资损失,最大程度地实现投资回报。

【实施步骤】

一、 总体流程说明

数据分析的开始是从了解你要分析的数据以及了解你本次机器学习的目标开始的。需要分清是分类问题,还是回归问题,同时需要了解数据的构造,哪些是自变量(特征),哪个是因变量(目标变量)。就本次目标来看,因为目标变量是loan_statas(还款状态),它是一个标称值,因此本次是一个分类问题。

进入数据清洗阶段,主要是去除一些缺失严重的样式或者特征,同时去除一些跟业务无关的特征,以及方差比较小的特征。建立特征工程时,主要是对里面字符特征进行处理,将其转成数值型,以及对一些数据值特征进行归一化等处理;模型训练时,主要是选择合适的算法以及选择合适的超参数;模型评估就是将在训练集上运行好的模型,在测试集上进行验证评估。

二、了解数据集

使用pandas读取数据集,然后查看数据信息

 

 

 

 

可以看出一共包含了99122条记录,一共有121个特征和一个目标变量,这些列的类型分布:float64有97个,字符型有25个。

三、 数据清洗

▲取出特征X以及目标变量y

 

 

其中load_data是自己封装的一个函数,用于根据targetCol来分割原来的df。

▲根据业务去掉不需要的列

目前主要包含:无关的标识字段以及贷后字段

 

 

▲调用自定义函数进行清理

 

 

主要包含的以下操作:

▪ 去除所有行以及所有的列均为nan的数据
▪ 去除缺失率高的特征,这里超过0.9则不考虑
▪ 去除特征中包含实例类别太多的特征,默认包含1000个实例则不考虑
▪ 对于数值型,如果标准差太小的,则不考虑该特征

可以从打印出的日志上看出,经过上一步的清洗步骤,已经从原来的121个特征变量,降成75个特征变量。

再看一下清洗完后,目前的特征中样本缺失度情况:

 

 

由图可以目前缺失最高的mths_since_last_record在80%左右,在预设范围内,整体情况还相对理想。

▲查看特征的相关程度

如果特征之间相关度比较高的话,那就会影响分析结果,这里对这些特征的相关度进行排序:

 

 

从上述的相关系数的关联情况可以看出:funded_amnt,loan_amnt,funded_amnt_inv这几个特征的关联比较强,仅保留funded_amnt,去除其它两个特征,经过清洗后只剩下了73个特征。

四、特征工程

▲对目标变量的处理

查看目标变量y的值的分布情况

 

 

根据业务来理解,Current和Fully Paid用户是属于信用良好的样本,用1表示,Late (31-120 days)和Late (16-30 days)逾期的用户就归于信用不好的样本,用0表示,其它的几类就暂时用np.nan来代替,本次暂时不分析,先删除这些空的3912个样本。

处理完后,目标变量的分布如下:

 

 

▲对字符型特征的处理

查看当前特征中字符型的特征主要包含:

 

 

通过数据的分布可以看出特征pymnt_plan,application_type分布很不均衡,暂时不考虑这两个特征。

同时将init_rate转成float类型,将emp_length处理成int类型,对剩下的三个home_ownership,verification_status,initial_list_status类型变量做独热编码,使用pd.get_dummies函数,同时去除原始的那三个字段。

经过如上的处理,将其全部字符型的特征转成了数值型。

▲对整体数值型特征的处理

这里主要对缺失值处理,使用每个特征的中位数进行缺失值填充。

 

 

到此已全部完成了特征工程的建立,最终特征工程包含95210个样本以及 77特征,建好的特征工程进入下一阶段的模型训练。

五、 模型训练

因为考虑到样本的不均衡性,交叉验证的方法使用StratifiedShuffleSplit方式来划分样本,同时学习器使用GBRT算法,同时RandomizedSearchCV进行最优参数选择。目前只是设置了基本的参数:

 

 

通过训练集的充分训练后,得到目前GBRT最优的参数如下:

 

 

然后使用这个最优的模型来对测试集进行预测:

 

 

这样我们就得到了测试集在这个模型中跑出来的结果y_predicted数组,然后将它与y_test进行比对就可以对该模型进行评估,具体的可以查看2.6小结的结果。

六、模型评估

▲查看分类报告

 

 

可以看出整体平均的精确度和召回率和F1值还是可以的,不过对于样本0的召回率和F1值为0,可能需要进一步优化。

▲查看学习曲线

 

 

学习曲线是一条关于样本个数和经验损失函数之间的曲线,通过学习曲线可以看到关于偏差、方差用于改善机器学习算法的决策提供依据;从目前的曲线可以看出,训练得分和测试得分基本稳定在0.972这个点,相对来说比较理想。

【结论与展望】

本文只是简单的演示了一个完整的机器学习的流程,重点在于突出机器学习的各个实施步骤,对于整体的模型可能还有以下几点可以优化与完善:

▪ 如何更好的处理样本的不平衡性
▪ 是否考虑其它的算法进行比对效果,比如xgboost
▪ 算法的超参数调优可以增加几个变量调优
▪ 特征工程的建立还是稍微粗糙了些,还是可以再细化(比如特征的组合,特征的重要性排序,数值型特征的归一化处理等)

转载于:https://www.cnblogs.com/ldt-/p/10236889.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387632.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快餐文化短视频源码行业竞争激烈,短视频发展任重道远

随着移动互联技术的兴起,形式多样的短视频源码软件为受众开辟了短视频时代,赋予视频以新的时代内涵。梨视频、美拍、快手、抖音等APP充斥了人们的生活,因此不少人群对视频软件产生了依赖感。短视频源码APP行业发展至今,产品和营运…

Win7下如何挂载NFS共享目录

NFS是Unix中广泛使用的文件共享协议,在Linux下得到了传承,使用简单,读写性能强大。过去Windows与Linux共享文件夹需要使用Samba(CIFS)协议,虽然定制性更高,但设置和使用都比较繁琐。Windows 7加…

使用Chrome浏览器自动下载文件并保存到指定的文件路径(使用Selenium更改Chrome默认下载存储路径)...

https://blog.csdn.net/zbj18314469395/article/details/81207268转载于:https://www.cnblogs.com/person008/p/10980964.html

vue 源码学习(一) 目录结构和构建过程简介

Flow vue框架使用了Flow作为类型检查,来保证项目的可读性和维护性。vue.js的主目录下有Flow的配置.flowconfig文件,还有flow目录,指定了各种自定义类型。 在学习源码前可以先看下Flow的语法 官方文档 目录结构 vue.js源码主要在src下 src ├─…

count慢的问题解决

SELECT count(*) FROM (SELECT DISTINCT DMPNN.ID AS NEED_ID, V2 VDMPSX, DMPNN.DMP_NUM AS DMPNN_NUM, DTT.TASK_ID AS TASK_ID, /*任务ID*/ (SELECT NVL(TO_CHAR(workload),) FROM DMP_ALLOCATION_NEED_RESULT dnr WHERE dnr.anr_id DTT.Anr_Id ) GUIBANWORKLOAD, …

SpringBoot + MyBatis(注解版),常用的SQL方法

一、新建项目及配置 1.1 新建一个SpringBoot项目&#xff0c;并在pom.xml下加入以下代码 <dependency>    <groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>2.0.1</vers…

项目进行JVM调优 Jconsole

最近对公司的项目进行JVM调优&#xff0c;使用了JDK自带的jconsole查看Tomcat运行情况&#xff0c;记录下配置以便以后参考&#xff1a; 首先&#xff0c;修改Tomcat的bin目录下的catalina.bat文件&#xff0c;在JAVA_OPTS变量中添加下面四行&#xff0c;即可 set JAVA_OPTS %J…

ECharts 点击非图表区域的点击事件不触发问题

1. 通过 myChart.getZr().on(click, fn) 监听整个图表的点击事件&#xff0c;注册回调 myChart.getZr().on(click, () > {//拿到index即可取出被点击数据的所有信息console.log(clickIndex) }) 2. 在 tooltip 的 formatter 函数中&#xff0c;每次调用都记录下需要的参数&am…

强大的django-debug-toolbar,django项目性能分析工具

强大的django-debug-toolbar,django项目性能分析工具 给大家介绍一个用于django中debug模式下查看网站性能等其他信息的插件django-debug-toolbar 首先安装 pip install django-debug-toolbar 接下来在自己django项目中的settings中添加配置 INSTALLED_APPS [debug_toolbar,]M…

个人作业——软件工程实践总结

一、请回望暑假时的第一次作业&#xff0c;你对于软件工程课程的想象 1&#xff09;对比开篇博客你对课程目标和期待&#xff0c;“希望通过实践锻炼&#xff0c;增强计算机专业的能力和就业竞争力”&#xff0c;对比目前的所学所练所得&#xff0c;在哪些方面达到了你的期待和…

利用jdk自带的运行监控工具JConsole观察分析Java程序的运行 Jtop

利用jdk自带的运行监控工具JConsole观察分析Java程序的运行 原文链接 一、JConsole是什么 从Java 5开始 引入了 JConsole。JConsole 是一个内置 Java 性能分析器&#xff0c;可以从命令行或在 GUI shell 中运行。您可以轻松地使用 JConsole&#xff08;或者&#xff0c;它更高端…

java版电子商务spring cloud分布式微服务b2b2c社交电商:服务容错保护(Hystrix断路器)...

断路器断路器模式源于Martin Fowler的Circuit Breaker一文。“断路器”本身是一种开关装置&#xff0c;用于在电路上保护线路过载&#xff0c;当线路中有电器发生短路时&#xff0c;“断路器”能够及时的切断故障电路&#xff0c;防止发生过载、发热、甚至起火等严重后果。在分…

微信小程序页面跳转、逻辑层模块化

一、页面的跳转 微信小程序的页面跳转函数方法有两个&#xff0c;另外还有两种模块跳转方式。 函数跳转&#xff1a; 1.wx.navigateTo(OBJECT)&#xff1a; wx.navigateTo({url: test?id1})//保留当前页面&#xff0c;跳转到应用内的某个页面&#xff0c;使用wx.navigateBack可…

java内存溢出分析工具:jmap使用实战

java内存溢出分析工具&#xff1a;jmap使用实战 在一次解决系统tomcat老是内存撑到头&#xff0c;然后崩溃的问题时&#xff0c;使用到了jmap。 1 使用命令 在环境是linuxjdk1.5以上&#xff0c;这个工具是自带的&#xff0c;路径在JDK_HOME/bin/下 jmap -histo pid>a.log…

Oracle加密解密

Oracle内部有专门的加密包&#xff0c;可以很方便的对内部数据进行加密&#xff08;encrypt&#xff09;和解密&#xff08;decrypt&#xff09;. 介绍加密包之前&#xff0c;先简单说一下Oracle基本数据类型——RAW类型。 RAW&#xff0c;用于保存位串的数据类型&#xff0c;类…

条件变量 sync.Cond

sync.Cond 条件变量是基于互斥锁的&#xff0c;它必须有互斥锁的支撑才能发挥作用。 sync.Cond 条件变量用来协调想要访问共享资源的那些线程&#xff0c;当共享资源的状态发生变化的时候&#xff0c;它可以用来通知被互斥锁阻塞的线程条件变量的初始化离不开互斥锁&#xff0c…

JDK内置工具使用

JDK内置工具使用 一、javah命令(C Header and Stub File Generator) 二、jps命令(Java Virtual Machine Process Status Tool) 三、jstack命令(Java Stack Trace) 四、jstat命令(Java Virtual Machine Statistics Monitoring Tool) 五、jmap命令(Java Memory Map) 六、jinfo命令…

mall整合RabbitMQ实现延迟消息

摘要 本文主要讲解mall整合RabbitMQ实现延迟消息的过程&#xff0c;以发送延迟消息取消超时订单为例。RabbitMQ是一个被广泛使用的开源消息队列。它是轻量级且易于部署的&#xff0c;它能支持多种消息协议。RabbitMQ可以部署在分布式和联合配置中&#xff0c;以满足高规模、高可…

竞价打板的关键点

竞价打板&#xff0c;主要是速度&#xff0c;其他不重要的&#xff0c;如果为了当天盈利大&#xff0c;失去竞价打板的本质含义&#xff0c;因为竞价可以买到&#xff0c;盘中买不到&#xff0c;才是竞价打板的目的&#xff0c;也就是从竞价打板的角度看&#xff0c;主要是看习…

Java常见的几种内存溢出及解决方法

Java常见的几种内存溢出及解决方法【情况一】&#xff1a;java.lang.OutOfMemoryError:Javaheapspace&#xff1a;这种是java堆内存不够&#xff0c;一个原因是真不够&#xff08;如递归的层数太多等&#xff09;&#xff0c;另一个原因是程序中有死循环&#xff1b;如果是java…