申请评分卡(A卡)的开发过程(1)

前言:

本篇文章上接《申请评分卡简介》,有需要的童鞋可以参考下:https://blog.csdn.net/qq_16633405/article/details/107744921

下面介绍下A卡的开发步骤。

开发过程

1、评分卡模型开发步骤:

1、立项:场景(营销、信贷领域)、对象(个人、账户、公司)、目的(程度决策、流失预警、反欺诈等等)
2、数据的准备与预处理(账户,客户,内部外部数据)
3、建模的构建(逻辑回归VS机器学习,单一模型VS 集成模型)
4、模型评估(区分度,预测性,稳定性)
5、验证(是否有计算错误,逻辑错误,业务错误)
6、部署(从开发环境到生产环境、容量、并发度)
7、监控(性能是否减弱,是否需要重新训练等)

2、申请评分卡常用的模型

逻辑回归
优点:简单,稳定,可解释,技术成熟,易于监测和部署
缺点:准确度不高
决策树
优点:对数据质量要求低,易解释
缺点:准确度不高
其他元模型
组合模型
优点:准确度高,不易过拟合
缺点:不易解释;部署困难;计算量大

3、贷款申请环节的数据介绍和描述

申请评分卡常用的特征
1、个人信息 :学历(核查学历) 性别 收入(流水、社保、公积金来侧面查看)
2、负债信息 :在本金融机构或者其他金融机构负债情况 (在房贷、信用卡领域应用较多)
3、消费能力 :商品购买纪录,出境游,奢侈品消费 ()
4、历史信用记录 :历史逾期行为 (第三方接口查看)
5、新兴数据: 人际社交 网络足迹 出行 个人财务(人际社交:通过与老赖的关系来判断他的人品(即还款意愿);出行:通过看这个人的出行交通工具判断这个人的经济能力(还款能力))
1、4可以看出还款意愿;2、3可以看出还款能力。还款意愿*还款能力=评分卡分数等级

4、A卡用到的字段介绍

字段名称
member_idID
loan_amnt申请额度
term产品期限
int_rate利率
emp_length工作期限
home_ownership是否有自有住宅
annual_inc年收入
verification_status收入核验状态
desc描述
purpose贷款目的
title贷款目的描述
zip_code联系地址邮政编码
addr_state联系地址所属州
delinq_2yrs申贷日期前2年逾期次数
inq_last_6mths申请日前6个月咨询次数
mths_since_last_delinq上次逾期距今月份数
mths_since_last_record上次登记公众记录距今的月份数
open_acc征信局中记录的信用产品数
pub_rec公众不良记录数
total_acc正在使用的信用产品数
pub_rec_bankruptcies公众破产记录数
earliest_cr_line第一次借贷时间
loan_status贷款状态—目标变量

5、非平衡样本问题的定义和解决方法

非平衡样本的定义
在分类问题中,每种类别的出现概率未必均衡
例:

  • 信用风险: 正常用户远多于逾期/违约用户
  • 流失风险: 留存客户多于流失客户

非平衡样本的隐患

  • 降低对少类样本的灵敏性

非平衡样本的解决方案
过采样(对数据采集过多)

  • 优点: 简单,对数据质量要求不高 (注意总结下各个算法对数据的要求)
  • 缺点: 过拟合

欠采样 (对数据采集过少)

  • 优点: 简单,对数据质量要求不高
  • 缺点: 丢失重要信息

SMOTE(合成少数过采样技术)

  • 优点: 不易过拟合,保留信息
  • 缺点: 不能对有缺失值和类别变量做处理

6、数据预处理

数据格式的处理原始数据带有一定的格式,需要转换成正确的格式。
例如:
利率

  • 带%的百分比,需要转化成浮点数

日期

  • Nov-17,需要转化为python的时间

工作年限

  • “<1 year”转化成0,“>10years”转化成11

文本类的数据的处理方式

主题提取(NPL)
优点:提取准确、详细的信息,对风险的评估非帝有效
缺点:NPL的模型较为复杂,且需要足够多的训练样本
编码
优点:简单
简单缺点:信息丢失很高

缺失值的处理
缺失在数据分析的工作是频繁出现的。
缺失的种类

  • 完全随机缺失
  • 随机缺失
  • 完全非随机缺失

处理的方法

  • 补缺(平均值、或依据变量间的关系补充)
  • 作为一种状态
  • 删除记录或变量

7、构建特征

常用的特征衍生

  • 计数:过去1年内申请贷款的总次数(手机联系人数量、通话记录来推断这个人的一些信息:如通话记录多联系人多则证明这个人搞业务的)
  • 求和:过去1年内的网店消费总额
  • 比例:贷款申请额度与年收入的占比
  • 时间差:第一次开户距今时长
  • 波动率:过去3年内每份工作的时间的标准差

8、特征分箱(是对每一个特征进行分箱)

特征的分箱(为什么要分箱)
分箱的定义
将连续变量离散化(将连续的变量分为多个离散的类别将特征分类别即收入1000-5000之间为一箱即一个类别)
将多状态的离散变量合并成少状态(尽可能的减小类别的数量)
分箱的重要性

  • 稳定性:避免特征中无意义的波动对评分带来的波动(如工资的浮动增减)
  • 健壮性:避免了极端值的影响

分箱的优势

  • 可以将缺失作为独立的一个箱带入模型中
  • 将所有变量变换到相似的尺度上

分箱的限制

  • 计算量大
  • 分箱后需要编码
    在这里插入图片描述

总结

后续会详细的介绍各种分箱的方法对应的原理,以及特征筛选对应的方法及原理等相关内容。争取把数据挖掘流程中常用的方法做一个统一的整理。
对应的代码详见:
https://github.com/645187919/financial_score_card

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

E: 无法获得锁 /var/lib/dpkg/lock-frontend - open (11: 资源暂时不可用) E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-front

解决&#xff1a; E: 无法获得锁 /var/lib/dpkg/lock-frontend - open (11: 资源暂时不可用) E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-frontend)&#xff0c;是否有其他进程正占用它&#xff1f; 方法&#xff1a; 重新启动虚拟机服务器 再在黑屏终端中重新尝试输入su…

聚类效果评估指标总结

前言 实际工作中经常会用到一些聚类算法对一些数据进行聚类处理&#xff0c;如何评估每次聚类效果的好坏&#xff1f;可选的方法有1、根据一些聚类效果的指标来评估&#xff1b;2、直接打点。今天就主要总结下这段时间了解的聚类效果评估指标。废话少说&#xff0c;直接上干货…

{%extends bootstrap/base.html%}的添加,使得其他block无法继承

仙说{%extends "bootstrap/base.html"%}用法&#xff1a; 在base.html中调用一次即可&#xff0c;并且 {%extends "bootstrap/base.html"%} 要放在 最后头&#xff01;&#xff01;最后头&#xff01;最后头&#xff01; base中不用再添加 {% block cont…

运用Nginx代理和UWSGI将Flask项目部署在Linux中 详细步骤

nginx: 安装可以参照的路径: http://nginx.org/en/linux_packages.html#Ubuntu 启动Nginx nginx [ -c configpath] 默认配置目录&#xff1a;/etc/nginx/nginx.conf 查看进程&#xff1a; ps -ef |grep nginx 控制Nginx nginx -s xxxstop 快速关闭quit …

机器学习算法之KNN

前言 KNN一般用于有监督的分类场景&#xff0c;除此之外&#xff0c;KNN在异常检测场景中也有应用&#xff0c;下面主要介绍下KNN在这两面的应用原理。 KNN做分类的原理 计算步骤如下&#xff1a; 1&#xff09;算距离&#xff1a;给定测试对象&#xff0c;计算它与训练集中…

Supermap 组合单值专题图与标签专题图演示样例

效果图例如以下&#xff1a;单值专题图并显示每一个区域的相关文字信息 代码&#xff1a; <!DOCTYPE> <html> <head> <meta http-equiv"Content-Type" content"text/html; charsetutf-8" /> <title>单值专题图</title>…

[剑指Offer] 25.复杂链表的复制

1 /*2 struct RandomListNode {3 int label;4 struct RandomListNode *next, *random;5 RandomListNode(int x) :6 label(x), next(NULL), random(NULL) {7 }8 };9 */ 10 class Solution 11 { 12 public: 13 //在旧链表中创建新链表&#xff0…

Flask项目中应用七牛云存储

七牛云存储&#xff1a; https://developer.qiniu.com/kodo/sdk/1242/python 点击注册开通七牛开发者帐号 如果已有账号&#xff0c;直接登录七牛开发者后台&#xff0c;点击这里查看 Access Key 和 Secret Key pip install qiniu q Auth(Access Key,Secret Key) b…

异常检测算法之IForest

前言 IForest即孤立森林&#xff0c;可以用于做异常检测。一句话总结IForest做异常检测的原理&#xff1a;异常点密度小&#xff0c;基于树模型容易被一下切割出来&#xff0c;正常值密度大&#xff0c;需要切割多次才能得到目标值。 原理 iForest算法得益于随机森林的思想&…

用c#编写爬虫在marinetraffic下载船仅仅图片

近期在做船仅仅识别方面的事情&#xff0c;须要大量的正样本来训练adaboost分类器。于是到marinetraffic这个站点上下载船仅仅图片。写个爬虫来自己主动下载显然非常方便。 站点特点 在介绍爬虫之前首先了解一下marinetraffic这个站点的一些特点&#xff1a; 1. 会定期检測爬虫…

异常检测算法之LOF

前言&#xff1a; LOF&#xff1a;Local outlier factor&#xff0c;即局部异常因子。LOF主要是通过比较每个点p和其邻域点的密度来判断该点是否为异常点&#xff0c;如果点p的密度越低&#xff0c;越可能被认定是异常点。至于密度&#xff0c;是通过点之间的距离来计算的&…

Android属性动画进阶用法

2019独角兽企业重金招聘Python工程师标准>>> 在上周二文章中介绍补间动画缺点的时候有提到过&#xff0c;补间动画是只能对View对象进行动画操作的。而属性动画就不再受这个限制&#xff0c;它可以对任意对象进行动画操作。那么大家应该还记得之前我举的一个例子&am…

5.3linux下C语言socket网络编程简例

原创文章&#xff0c;转载请注明转载字样和出处&#xff0c;谢谢&#xff01; 这里给出在Linux下的简单socket网络编程的实例&#xff0c;使用tcp协议进行通信&#xff0c;服务端进行监听&#xff0c;在收到客户端的连接后&#xff0c;发送数据给客户端&#xff1b;客户端在接受…

异常检测算法之HBOS

前言 HBOS&#xff08;Histogram-based Outlier Score&#xff09;核心思想&#xff1a;将样本按照特征分成多个区间&#xff0c;样本数少的区间是异常值的概率大。 原理 该方法为每一个样本进行异常评分&#xff0c;评分越高越可能是异常点。评分模型为&#xff1a; 假设样…

字典和json 的区别 和转换

前言&#xff1a;字典和json非常像。接下来比较一下两者的异同 先看一下字典的写法&#xff1a; a {a:1,b:2,c:3} 再看一下json的写法&#xff1a; {"studentInfo":{"id":123456,"stu_name":"Dorra"} } 从形式上看&#xff0c;都是…

easyui动态显示和隐藏表头

为什么80%的码农都做不了架构师&#xff1f;>>> var _bt{date:日期,subtime:填写时间,xz:小组,uname:操作人,qdbh:渠道编号,mt:媒体,zh:账户,sjd:时间段,tfwz:投放位置,tfh:投放号,td:团队,sjje:实际金额,jxs:进线数,cb:成本,yxzyjx:有效资源进线,yxzyl:有效资源率…

物联网

如果要说未来什么技术正在或将彻底改变人类生活、工作和娱乐的方式&#xff0c;那必须是物联网。小到各种可穿戴产品&#xff0c;大到汽车、工厂和楼宇&#xff0c;物联网能使一切设备互联并具备智慧。物联网也正改变着产业的格局&#xff0c;索尼、夏普、东芝等日本传统电子设…

Postico —— OS X 上的免费 PostgreSQL 客户端

Postico 是 OS X 下的一个 PostgreSQL 客户端管理工具。要求 OS X 10.8 或者更新版本。 文章转载自 开源中国社区 [http://www.oschina.net]

hdu 1760 A New Tetris Game(搜索博弈)

题目链接&#xff1a;hdu 1760 A New Tetris Game 题意&#xff1a; 给你一个矩阵&#xff0c;0表示可以放格子&#xff0c;现在给你2*2的格子&#xff0c;lele先放&#xff0c;问是否能赢。 题解&#xff1a; 爆搜。具体看代码 1 #include<bits/stdc.h>2 #define F(i,a,…

flask-restful接口

同flask一样&#xff0c;flask-restful同样支持返回任一迭代器&#xff0c;它将会被转换成一个包含原始 Flask 响应对象的响应&#xff1a; class ArticleApi(Resource):def get(self):return {"hello":"world"},201&#xff0c;{"course":&quo…