拒绝推断问题(转)

拒绝推断(Reject Inference)是金融领域信用评分中的一个术语。对于要向银行借钱的人,我们需要考虑他们赖账的可能性。这样就需要根据他们的各种行为信息和人口统计学特征作为输入,来建立一个信用评分模型,这个建模过程与机器学习中训练一个模型类似。机器学习算法能够成功应用的一个条件是训练样本和测试样本有相同的分布,但在信用评分中,这个条件很难保证。信用评分的训练样本均来自于以前申请贷款被接受的那些人,而评分模型则是要应用到所以来申请贷款的人,并帮助做出接受/拒绝的决定。因此,模型不光要针对被接受的那些人,也要在被拒绝的那部分上面表现得好。可以想见,这两种人在输入空间上的分布是完全不同的,这就导致使用了部分数据,但是为估计总体而建立的信用评分模型存在参数估计的偏差。拒绝推断就是要把被拒掉那部分用户能够识别出来到底是好客户还是坏客户,然后加入到模型训练中,使得模型的样本尽量接近总体的分布。这就是拒绝推断要解决的。

 


在其他更加“机器学习化”的领域,例如计算广告,也会有被称为selection bias的类似问题存在。一般来说,网络广告点击率模型是根据广告本身、所出现的场景以及用户信息三者建立的,期望是能挑出那些被点击概率高的广告展示出来以改善用户体验并获得更高的广告提成。显然,建这样的模型需要广告的"被点击/不被点击"的信息作为模型的目标变量。只有那些历史上出现过的"广告-场景-用户"三元组,才会有被或不被点击的信息;从来没有出现过的三元组不会出现在训练数据中——它们是被已存在的点击率模型筛选过的。而优化点击率模型时,总是要面对新广告和新用户,并且尝试新的广告/场景匹配会不会更好,因此测试数据的分布不会和训练数据一致。
对于计算广告来说,这个问题好解决一些。我们可以把一小部分流量做成不经过模型筛选的"自然流量“,采用简单的诸如竞价排名之类的策略。这样用户体验的影响不大,而利润几乎也没什么损失。这部分流量累积下来的数据可以在模型训练中赋予更高的权重,因为某种意义下它们和测试数据"更加接近"。但在金融行业,要说服管理层开放这样的"自然流量"绝非易事。并且相对互联网广告,信贷的样本要少得多,即使有一些这样的"自然流量"样本,它们能起的作用也有限。所以有必要从另外的角度考虑问题的解决方法。
下面我首先会总结一些信用评分中常用的拒绝推断的方法。这些方法往往是比较ad-hoc的思路,或者有少许的统计学理论作为支撑。即使是经常在使用这些方法的信用评分建模专家,往往也对它们并不信服。然后我会看看机器学习的相关文献中对付selection bias的方法——这些方法一般是基于半监督学习(semi-supervised learning)这一理念的——并且检查它们是否能用到信用评分的拒绝推断中。

 常用方法:

来源:https://www.douban.com/note/410573602/?type=like

转载于:https://www.cnblogs.com/gczr/p/10084252.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/570075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查看CentOS系统运行了多久使用uptime命令

对于一些人来说系统运行了多久是无关紧要的,但是对于服务器管理员来说,这是相当重要的信息。 服务器在运行重要应用的时候,必须尽量保证长时间的稳定运行,有时候甚至要求零宕机。 那么我们怎么才能知道服务器运行了多久呢&#xf…

python学习day26 封装 property 类方法 静态方法 反射

封装 广义上面向对象的封装 :代码的保护,面向对象的思想本身就是一种只让自己的对象能调用自己类中的方法 狭义上的封装 —— 面向对象的三大特性之一属性 和 方法都藏起来 不让你看见 私有属性 class Person:__key 123 # 私有静态属性def __init__(se…

CentOS统的7个运行级别的含义

CentOS系统有7个运行级别(runlevel) 运行级别就是操作系统当前正在运行的功能级别。级别是从0到6,具有不同的功能。这些级别定义在/ect/inittab文件中。这个文件是init程序寻找的主要文件,最先运行的服务是那些放在/etc/rc.d目录下的文件。 #查看系统运行…

noip2004普及组第2题 花生采摘

题目描述 鲁宾逊先生有一只宠物猴,名叫多多。这天,他们两个正沿着乡间小路散步,突然发现路边的告示牌上贴着一张小小的纸条:“欢迎免费品尝我种的花生!――熊字”。 鲁宾逊先生和多多都很开心,因为花生正是…

命令补全

yum install -y bash-completion转载于:https://www.cnblogs.com/tony3154/p/10095259.html

Centos查看用户登陆记录

首先简单介绍一下Centos中记录登陆信息的日志文件。 有关当前登录用户的信息记录在文件utmp中;登录进入和退出纪录在文件wtmp中;最后一次登录文件可以用lastlog命令察看。 数据交换、关机和重起也记录在wtmp文件中。所有的纪录都包含时间戳。 每次有一个…

针对科技文章的多标签分类

0. 起 最近没有更新。暑假之后学的东西也比较杂,看了一下基于DL的智能美颜,感觉入了个大坑。前前后后看了传统的轮廓提取算法和FCN等等,调代码巴拉巴拉几个星期就这么过了。前几天看ACM的best paper也觉得很有意思,两个步骤&#…

Centos服务器查看当前的并发数

作为运维人员我们经常需要看下Centos服务器的当前并发数,来了解下服务器当前是否达到并发瓶颈。 那么如何查看呢?使用下面的命令可以分组查看各种连接状态。 netstat -n | awk /^tcp/ {S[$NF]} END {for(a in S) print a, S[a]}返回结果: SYN…

Rest_Framework之频率组件部分

一、RestFramework之频率组件源码部分 频率组件的源码部分和权限组件流程一模一样的,这里就不多说了,直接上源码的主要逻辑部分: def check_throttles(self, request):"""Check if request should be throttled.Raises an app…

CentOS服务器下对mysql的优化

一、mysql的优化思路 mysql的优化分为两方面: 1. 服务器使用前的优化 2. 服务使用中的优化 二、mysql的基础优化步骤 1. 硬件级优化 (1). 最好mysql自己使用一台物理服务器 (2). 内存和CPU方面,根据需求给予…

【使用指南】WijmoJS 前端开发工具包

为方便广大前端开发人员更好的使用 WijmoJS 前端开发工具包,葡萄城专门推出了 WijmoJS 使用指南,该指南详细地介绍了如何把 WijmoJS 各种强大的功能应用到您自己的 Web 项目中,助您轻松掌握产品使用技巧,快速完成产品选型。 本指南…

phpMyAdmin4.4.10安装

1.下载地址: phpMyAdmin4.4.10 https://files.phpmyadmin.net/phpMyAdmin/4.4.10/phpMyAdmin-4.4.10-all-languages.zip Apache 2.4.12(VC9) http://www.apachehaus.com/cgi-bin/download.plx php-5.4.42(VC9&#xff09…

汇编实验九

20171308171 胡欣怡 一、实验目的1. 掌握十进制两位数输出的方法2. 理解 8025 彩色字符模式显示原理3. 综合应用寻址方式和汇编指令完成应用编程二、实验准备1. 复习数值和数字字符之间的转换方法,div 指令用法2. 学习 P187-189 支撑材料及「实验 9 提示」&#xff…

Tensorflow取消占用全部GPU

参考:https://www.cnblogs.com/jiu0821/p/9501665.html Tensorflow默认是会占用全部的GPU,而有时候你根本不需要那么占用那么多GPU资源,这时候就可以采用如下三种方法进行解决: 1、在构造tf.Session()时候通过传递tf.GPUOptions作…

mysql5.7.12安装问题

mysql5.7.6之后不再有data数据目录,需手动初始化数据目录。 在Windows上,使用这些命令之一: C:\> bin\mysqld --initialize C:\> bin\mysqld --initialize-insecure 使用 --initialize为 “缺省安全”安装(会生成一个随机的初始 root密码)。不过密码会被标记为…

P5068 [Ynoi2015]我回来了

传送门 解锁成就:ynoi的题目都做到过原题 因为\(n\)很小,我们可以用\(sss[u][i]\)表示到点\(u\)的距离不超过\(i\)的点的集合,这个可以用bitset存,然后先一遍bfs,再做一个前缀和就可以处理好了 询问的话,把…

U盘安装centos 7 提示 “Warning: /dev/root does not exist, could not boot” 解决办法

安装centos 7时提示 “Warning: /dev/root does not exist, could not boot” 这个问题是没有找到你的U盘,这个配置是需要在上一步需要完成的,但在上一步我们并不知道U盘的文件名,所以索性在这一步查看一下U盘的设备名,然后再回到…

bzoj 3585 mex

Written with StackEdit. 题目描述 有一个长度为\(n\)的数组\({a_1,a_2,...,a_n}\)。\(m\)次询问,每次询问一个区间内最小没有出现过的自然数。 Input 第一行\(n,m\)。 第二行为\(n\)个数。 从第三行开始,每行一个询问\(l,r\)。 Output 一行一个数&#…

ffmpeg转mp4格式

FFMPEG -i uploadfile/video/test.wmv -c:v libx264 -strict -2 uploadfile/mp4/test.mp4FFMPEG -i uploadfile/video/test.wmv -c:v libx264 -strict -2 -s 1280x720 -b 1000k uploadfile/mp4/test.mp4

(笔记)网络技术学习交流会

1、网络工程师发展历程 (1)网络管理员阶段 ①计算机硬件的维护 ②计算机系统的维护 ③局域网的维护 ④打印服务的维护 ⑤业务数据的管理(更新、备份) ⑥网站的维护(在网站上进行更新) ⑦在网络上对公司进行…