数据挖掘技术在信用卡业务中的应用及实例分析

信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。我国自1985年发行第一张信用卡以来,信用卡业务得到了长足的发展,积累了巨量的数据,数据挖掘在信用卡业务中的重要性日益显现。

 

一、数据挖掘技术在信用卡业务中的应用

 

数据挖掘技术在信用卡业务中的应用主要有分析型客户关系管理、风险管理和运营管理。

 

1.分析型CRM

 

分析型CRM应用包括市场细分、客户获取、交叉销售和客户流失。信用卡分析人员搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,分析某个客户群体的特性、消费习惯、消费倾向和消费需求,进而推断出相应消费群体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定产品的主动营销。这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而能为银行带来更多的利润。对客户采用何种营销方式是根据响应模型预测得出的客户购买概率做出的,对响应概率高的客户采用更为主动、人性化的营销方式,如电话营销、上门营销;对响应概率较低的客户可选用成本较低的电子邮件和信件营销方式。除获取新客户外,维护已有优质客户的忠诚度也很重要,因为留住一个原有客户的成本要远远低于开发一个新客户的成本。在客户关系管理中,通过数据挖掘技术,找到流失客户的特征,并发现其流失规律,就可以在那些具有相似特征的持卡人还未流失之前,对其进行有针对性的弥补,使得优质客户能为银行持续创造价值。

 

2.风险管理

 

数据挖掘在信用卡业务中的另一个重要应用就是风险管理。在风险管理中运用数据挖掘技术可建立各类信用评分模型。模型类型主要有三种:申请信用卡评分卡、行为信用评分卡和催收信用评分卡,分别为信用卡业务提供事前、事中、和事后的信用风险控制。

 

申请评分模型专门用于对新申请客户的信用评估,它应用于信用卡征信审核阶段,通过申请人填写的有关个人信息,即可有效、快速地辨别和划分客户质量,决定是否审批通过并对审批通过的申请人核定初始信用额度,帮助发卡行从源头上控制风险。申请评分模型不依赖于人们的主观判断或经验,有利于发卡行推行统一规范的授信政策。行为评分模型是针对已有持卡人,通过对持卡客户的行为进行监控和预测,从而评估持卡客户的信用风险,并根据模型结果,智能化地决定是否调整客户信用额度,在授权时决定是否授权通过,到期换卡时是否进行续卡操作,对可能出现的使其提前进行预警。催收评分模型是申请评分模型和行为评分模型的补充,是在持卡人产生了逾期或坏账的情况下建立的。催收评分卡被用于预测和评估对某一笔坏账所采取措施的有效性,诸如客户对警告信件反应的可能性。这样,发卡行就可以根据模型的预测,对不同程度的逾期客户采取相应措施进行处理。以上三种评分模型在建立时,所利用的数据主要是人口统计学数据和行为数据。人口统计学数据包括年龄、性别、婚姻状况、教育背景、家庭成员特点、住房情况、职业、职称、收入状况等。行为数据包括持卡人在过去使用信用卡的表现信息,如使用频率、金额、还款情况等。由此可见,数据挖掘技术的使用,可以使银行有效地建立起事前、事中到事后的信用风险控制体系。

 

3.运营管理

 

虽然数据挖掘在信用卡运营管理领域的应用不是最重要的,但它已为国外多家发卡公司在提高生产效率、优化流程、预测资金和服务需求、提供服务次序等问题的分析上取得了较大成绩。

 

 

二、常用的数据挖掘方法

 

上述数据挖掘技术在信用卡领域的应用中,有很多工具可用于开发预测和描述模型。有些用统计方法,如线性回归和逻辑回归;有些有非统计或混合方法,如神经网络、遗传算法、决策树及回归树。这里仅讨论几种常见的典型方法。

 

1.线性回归

 

简单线性回归分析是量化两个连续变量之间关系的一种统计技术。这两个变量分别是因变量(预测变量)。使用这一方法,可以发现一条穿过数据的线,线上的点使对应数据点的方差最小。为市场营销、风险和客户关系管理建立模型时,通常有多个自变量,用多个独立自变量来预测一个连续变量称为多元线性回归,用线性回归方法建立的模型通常具有鲁棒性。

 

2.逻辑回归

 

逻辑回归是使用最广泛的建模技术,与线性回归很相似。两者的主要区别在于逻辑回归的因变量(想预测变量)不是连续的,而是离散的或者类型变量。如申请评分模型可运用逻辑回归方法,选取关键变量确定回归系数。以申请者的关键变量x1,x2,…xm为自变量,以y=[1 申请者是坏客户;0 申请者是好客户,为因变量,则对于二分类因变量,一般假设客户变坏的概率为 p(y=1)=eβ0+β1x1+…+βmxm/1+eβ0+β1x1+…+βmxm式中,β0β1…βm是常数,即1n(p/1-p)=β0+β1x1+…+βmxm

 

3.神经网络

 

神经网络处理和回归处理大不相同,它不依照任何概率分布,而是模仿人脑功能,可以认为它是从每一次经验中提取并学习信息。神经网络系统由一系列类似于人脑神经元一样的节点组成,这些节点通过网络彼此互连。如果有数据输入,它们便可以进行确定数据模式的工作。神经网络由相互连接的输入层、中间层(或隐藏层)、输出层组成。中间层由多个节点组成,完成大部分网络工作。输出层输出数据分析的执行结果。

 

4.遗传算法

 

与神经元网络类似,遗传算法也不遵循任何概率分布,是源自“适者生存”的进化过程。它首先将问题的可能解按某种形式进行编码,编码后的解称为染色体。随机选取n个染色体作为初始种群,再根据预定的评价函数对每个染色体计算适应值,性能较好的染色体有较高的适应值。选择适应值较高的染色体进行复制,并通过遗传算子产生一群新的更适应环境的染色体,形成新的种群,直至最后收敛到一个最适应环境的个体,得到问题的最优化解。

 

5.决策树

 

决策树的目标是逐步将数据分类到不同的组或分支中,在因变量的值上建立最强划分。由于分类规则比较直观,所以易于理解。图1为客户响应的决策树,从中很容易识别出响应率最高的组。

 

 

三、实例分析

以下以逻辑回归方法建立信用卡申请评分模型为例,说明数据挖掘技术在信用卡业务中的应用。申请评分模型设计可分为7个基本步骤。

 

1.定义好客户和坏客户的标准

 

好客户和坏客户的标准根据适合管理的需要定义。按照国外的经验,建立一个预测客户好坏的风险模型所需的好、坏样本至少各要有1000个左右。为了规避风险,同时考虑到信用卡市场初期,银行的效益来源主要是销售商的佣金、信用卡利息、手续费收入和资金的运作利差。因此,一般银行把降低客户的逾期率作为一个主要的管理目标。比如,将坏客户定义为出现过逾期60天以上的客户;将坏客户定义为出现过逾期60天以上的客户;将好客户定义为没有30天以上逾期且当前没有逾期的客户。

 

一般来讲,在同一样本空间内,好客户的数量要远远大于坏客户的数量。为了保证模型具有较高的识别坏客户的能力,取好、坏客户样本数比率为11

 

2.确定样本空间

 

样本空间的确定要考虑样本是否具有代表性。一个客户是好客户,表明持卡人在一段观察期内用卡表现良好;而一个客户只要出现过“坏”的记录,就把他认定为坏客户。所以,一般好客户的观察期要比坏客户长一些、好、坏客户可以选择在不同的时间段,即不同的样本空间内。比如,好客户的样本空间为200311-200312月的申请人,坏客户的样本空间为200311-20045月的申请人,这样既能保证好客户的表现期较长,又能保证有足够数量的坏客户样本。当然,抽样的好、坏客户都应具有代表性。

 

3.数据来源

 

在美国,有统一的信用局对个人信用进行评分,通常被称为“FICO评分”。美国的银行、信用卡公司和金融机构在对客户进行信用风险分析时,可以利用信用局对个人的数据报告。在我国,由于征信系统还不完善,建模数据主要来自申请表。随着我国全国性征信系统的逐步完善,未来建模的一部分数据可以从征信机构收集到。

 

4.数据整理

 

大量取样的数据要真正最后进入模型,必须经过数据整理。在数据处理时应注意检查数据的逻辑性、区分“数据缺失”和“0”、根据逻辑推断某些值、寻找反常数据、评估是否真实。可以通过求最小值、最大值和平均值的方法,初步验证抽样数据是否随机、是否具有代表性。

 

5.变量选择

 

变量选择要同时具有数学统计的正确性和信用卡实际业务的解释力。Logistic回归方法是尽可能准确找到能够预测因变量的自变量,并给予各自变量一定权重。若自变量数量太少,拟合的效果不好,不能很好地预测因变量的情况;若自变量太多,会形成过分拟合,预测因变量的效果同样不好。所以应减少一些自变量,如用虚拟变量表示不能量化的变量、用单变量和决策树分析筛选变量。与因变量相关性差不多的自变量可以归为一类,如地区对客户变坏概率的影响,假设广东和福建两省对坏客户的相关性分别为-0.381-0.380,可将这两个地区归为一类,另外,可以根据申请表上的信息构造一些自变量,比如结合申请表上“婚姻状况”和“抚养子女”,根据经验和常识结合这两个字段,构造新变量“已婚有子女”,进入模型分析这个变量是不真正具有统计预测性。

 

6.模型建立

 

借助SAS9软件,用逐步回归法对变量进行筛选。这里设计了一种算法,分为6个步骤。

 

步骤1:求得多变量相关矩阵(若是虚拟变量,则>0.5属于比较相关;若是一般变量,则>0.7-0.8属于比较相关)

 

步骤2:旋转主成分分析(一般变量要求>0.8属于比较相关;虚拟变量要求>0.6-0.7属于比较相关)

 

步骤3:在第一主成分和第二主成分分别找出15个变量,共30个变量。

 

步骤4:计算所有30个变量对好/坏的相关性,找出相关性大的变量加入步骤3得出的变量。

 

步骤5:计算VIF。若VIF数值比较大,查看步骤1中的相关矩阵,并分别分析这两个变量对模型的作用,剔除相关性较小的一个。

 

步骤6:循环步骤4和步骤5,直到找到所有变量,且达到多变量相关矩阵相关性很而单个变量对模型贡献作用大。

 

7.模型验证

 

在收集数据时,把所有整理好的数据分为用于建立模型的建模样本和用于模型验证的对照样本。对照样本用于对模型总体预测性、稳定性进行验证。申请评分模型的模型检验指标包括K-S值、ROCAR等指标。虽然受到数据不干净等客观因素的影响,本例申请评分模型的K-S值已经超过0.4,达到了可以使用的水平。

 

 

 

四、数据挖掘在国内信用卡市场的发展前景

 

在国外,信用卡业务信息化程度较高,数据库中保留了大量的数量资源,运用数据技术建立的各类模型在信用卡业务中的实施非常成功。目前国内信用卡发卡银行首先利用数据挖掘建立申请评分模型,作为在信用卡业务中应用的第一步,不少发卡银行已经用自己的历史数据建立了客户化的申请评分模型。总体而言,数据挖掘在我国信用卡业务中的应用处于数据质量问题,难于构建业务模型。

 

随着国内各家发卡银行已经建立或着手建立数据仓库,将不同操作源的数据存放到一个集中的环境中,并且进行适当的清洗和转换。这为数据挖掘提供了一个很好的操作平台,将给数据挖掘带来各种便利和功能。人民银行的个人征信系统也已上线,在全国范围内形成了个人信用数据的集中。在内部环境和外部环境不断改善的基础上,数据挖掘技术在信用卡业务中将具有越来越广阔的应用前景。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/293583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu之find方法

linux 下的find 命令 小总结..谢谢大家赏光!通用格式:find pathname -options [-print -exec -ok]例子:find / -name filename 再根目录里面搜索文件名为filename的文件find /etc -name *s*在目录里面搜索带有s的文件find /etc -name *S 在目录里面搜索以s结尾的文件find /etc …

CentOS7安装PHP5.6.23

为什么80%的码农都做不了架构师?>>> 美国时间2014年11月13日,PHP开发团队,在「PHP 5.6.3 is available|PHP: Hypertext Preprocessor」上公布了PHP5.6系的最新版本「PHP 5.6.3」。 在最新的版本5.6.3不仅修改了多个Bu…

使用 Apache Pig 处理数据5

使用 Apache Pig 从大数据集中获得所需的信息 Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言&…

为什么接吻需要闭眼睛?

1 你用上5G了吗?它已经用上了▼2 戴口罩的好处又增加了▼3 原来如此...▼4 哈哈哈哈▼5 露脐装的正确打开方式(素材源于网络,侵删)▼6 火鸡面到底有多辣▼7 孩子你要完了(素材来源网络,侵删&#xff0…

最近要出绩效了

上周我们公司的绩效面谈全部结束了,每年到这个时间点就是打绩效的时候了,对于职场打工人来说绩效绝对是最重要的事情之一,原因也很简单:奖金、晋升、涨薪都和它有关系。比如下面这个美团员工在脉脉上的自曝就很凄凉:互…

C++类和new、delete操作符和堆和栈内存的分配

如果你是Java、C#、PHP程序员,那么会对 new 非常熟悉,在这些编程语言中,只能通过 new 来创建对象。在C中,你可以像定义变量一样来创建对象,如: Student stu; //对象已被实例化,已分配内存空间&…

从B 树、B+ 树、B* 树谈到R 树

作者:July、weedge、Frankie。编程艺术室出品。 说明:本文从B树开始谈起,然后论述B树、B*树,最后谈到R 树。其中B树、B树及B*树部分由weedge完成,R 树部分由Frankie完成,全文最终由July统稿修订完成。 出…

在CentOS中安装gcc配置c语言开发环境(转)

From:http://hsl46346.blog.163.com/blog/static/17764050201062074955358/ From: CentOS 5.4 下gcc和gcc-c的光盘 rpm 安装方式 From: centos 安装 java CentOs是linux系统的一种,只要该操作系统安装了gcc软件包,就可以在linux操作系统中进行C语言程序设…

纯IPv6环境App适配的坑

来源:伯乐在线专栏作者 - MrPeak 链接:http://ios.jobbole.com/86580/ 苹果从2016年6月1号开始,强制所有app必须支持纯IPv6的网络环境。这项举措将对IPv6的普及起到一定的推动作用,也体现了Apple作为国际大厂的担当。 大部分App由…

使用Visual Studio 创建新的Web Part项目

使用Visual Studio 创建新的Web Part项目 Web Part是你将为SharePoint创建的最常见的对象之一。它是平台构建的核心基块。1. 管理员身份打开Visual Studio,新建空白SharePoint项目。命名WroxSPProject,点击确定。部署为场解决方案,点击完成。…

聊一聊Yarp结合Nacos完成服务发现

背景 Yarp 这个反向代理出来后,相信还是有不少人在关注的。在 Yarp 中,反向代理的配置默认也是基于配置文件的,也有不少大佬已经把这个配置做成了数据库配置可视化界面。仔细想了想,做成数据库配置,好像只是便于配置的…

相亲对象能有多油腻......

1 冰起来再烧(素材来源网络,侵删)▼2 还没从年假清醒的我(素材来源网络,侵删)▼3 孙悟空为啥没被人收去当坐骑(素材来源网络,侵删)▼4 成年人的潜台词(素材…

C++之char*,const char*和string的相互转换

1. string转const char*string s "abc";const char* c_s s.c_str(); 2. const char*转string直接赋值即可const char* c_s "abc";string s(c_s); 3. string转char*string s "abc";char* c;const int len s.length();c new char[len1];strc…

教你如何迅速秒杀掉:99%的海量数据处理面试题

教你如何迅速秒杀掉:99%的海量数据处理面试题 作者:July 出处:结构之法算法之道blog 前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲…

poj 1986 Distance Queries

LCA 题意:LCA模板题,输入n和m,表示n个点m条边,下面m行是边的信息,两端点和权,后面的那个字母无视掉,没用的。接着k,下面k个询问lca,输出即可 有人说要考虑不连通的情况&a…

【.NET 遇上 GraphQL】 ChilliCream 平台介绍

ChilliCreamhttps://chillicream.com/https://github.com/ChilliCream/hotchocolateChilliCream 平台包含了四个产品, Hot Chocolate, Banana Cake Pop, Strawberry Shake, 平台提供开发人员工具和服务以加快整个开发过程。Hot ChocolateHot Chocolate 是 .NET 平台下的一个开源…

.NET 的 WebSocket 开发包比较

编者按 本文出现在第三方产品评论部分中。在这一部分的文章只提供给会员,不允许工具供应商用来以任何方式和形式来促销或宣传产品。请会员报告任何垃圾信息或广告。 Web项目常常需要将数据尽可能快地推送给客户,必要时无需等待客户端请求。对于与用户之间…

《CMake实践》笔记二:INSTALL/CMAKE_INSTALL_PREFIX

《CMake实践》笔记一:PROJECT/MESSAGE/ADD_EXECUTABLE 《CMake实践》笔记二:INSTALL/CMAKE_INSTALL_PREFIX 《CMake实践》笔记三:构建静态库与动态库 及 如何使用外部共享库和头文件 四、更好一点的Hello World 没有最好,只有更好…

14年前,林国强院士发现自己学生论文无法重复后,是这样处理的

全世界只有3.14 % 的人关注了爆炸吧知识本文转自:iNature让我们把时间拨回至 2007 年 3 月,当年,一封以林国强院士的名义发表的公开信,在网络上流传。信中披露,林院士发现自己的一名博士生发表在权威期刊《美国化学会志…

C++ char[] 与 string 转换

处理档案资料,最常使用 char[] 或 string 来储存字串,前者是 字元阵列 ,为C所拥有,当然C也可以使用;而后者是C独有的 字串类别 ,可以产生字串物件。在使用C处理字串时,时常会char[]和string互转…