阿里云天池 金融风控训练营Task1 广东工业站

Task1  赛题理解

一、学习知识点概要

本次学习先是介绍了赛题的背景和概况,题目以金融风控中的个人信贷为背景,给所给的47列特征中,根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过贷款。随后介绍了比赛中的评价指标,出现的相关知识点有:

1.混淆矩阵(Confuse Matrix)

2.准确率(Accuracy)

3.精确率(Precision)

4.召回率(Recall)

5.F1 Score

6.P-R曲线(Precision-Recall Curve)

7.ROC(Receiver Operating Characteristic)

8.AUC(Area Under Curve)

9.KS(Kolmogorov-Smirnov)

二、学习内容

1.混淆矩阵(Confuse Matrix)

混淆矩阵是什么呢?混淆矩阵是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表,以矩阵的形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。这个名字来源于它可以非常容易的表明多个类别是否有混淆。用于得出分类正确和错误的样本数量。一般的混淆矩阵是n×n的。

在我们要解的二元分类问题(即判断一个东西是不是我们所认为的东西)中,混淆矩阵通常是2×2的。我们可以将分类的结果归为正类和负类(或阳性和阴性),先用我们构建出来的预测模型将样本进行分类,然后再查看样本的真实分类,将对比结果放入矩阵中。判断结果归类如下:

  • (1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
  • (2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
  • (3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
  • (4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

矩阵中数据的填写可看下图

矩阵中的数据便为被判断为该种结果的样本个数。

2.混淆矩阵的延伸概念

单用一个混淆矩阵无法对模型进行准确全面的评价,由此延伸出与混淆矩阵相关的概念,有:准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 Score、P-R曲线

其计算公式如下:

注意:准确率并不适用于样本不均衡的情况

关于F1 Score的作用,精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾二者,就需要精确率、召回率的结合F1 Score

P-R曲线:P-R曲线是描述精确率和召回率变化的曲线,召回率为横轴,精确率为纵轴。模型在为样本分类时会有一个置信度,即表示该样本是正样本的概率。通过置信度就可以对所有样本进行排序,再逐个样本的选择一个阈值,在该样本之前的都属于正例,该样本之后的都属于负例。每一个样本作为划分阈值时,都可以计算对应的precision和recall,那么就可以以此绘制曲线。

3.ROC(Receiver Operating Characteristic)

ROC为一种曲线,以两种新出现的指标分别作为横轴和纵轴。ROC将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。

FPR:在所有实际为阴性的样本中,被错误地判断为阳性之比率 。

 FPR=\frac{FP}{FP+TN}

TPR:在所有实际为阳性的样本中,被正确地判断为阳性之比率。

TPR=\frac{TP}{TP+FN}

ROC曲线的作用:

I.ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。

II.有助于选择最佳的阈值(如何选择本次不做描述)。ROC曲线越靠近左上角,模型的准确性就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。

III.可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。

4.AUC(Area Under Curve)

AUC(Area Under Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准是因为很多时候ROC曲线并不能清晰的说明哪个预测模型的效果更好,而作为一个数值,对应AUC更大的预测模型效果更好。

AUC就是曲线下面积,在比较不同的分类模型时,可以将每个模型的ROC曲线都画出来,比较曲线下面积做为模型优劣的指标。ROC 曲线下方的面积(Area under the Curve),其意义是:

(1)因为是在1x1的方格里求面积,AUC必在0~1之间。

(2)假设阈值以上是阳性,以下是阴性;

(3)若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本的概率 = AUC 。

(4)简单说:AUC值越大的分类器,正确率越高。

从AUC 判断分类器(预测模型)优劣的标准:

  • AUC = 1,是完美分类器。

  • AUC = [0.85, 0.95], 效果很好

  • AUC = [0.7, 0.85], 效果一般

  • AUC = [0.5, 0.7],效果较低,但用于预测股票已经很不错了

  • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值

5.KS(Kolmogorov-Smirnov)

在数理统计中,可用于检验数据是否符合某种分布。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。 公式为:KS=max(TPR-FPR)

一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常。一般的评判标准如下:

KS区分能力
0.2以下基本无区分能力
[0.2,0.4]一般
(0.4,0.5]良好
(0.5,0.6]较强
(0.6,0.75]非常强
0.75以上过高,存疑

 

三、学习问题与解答

初次看Task1的时候,一下子冒出很多没见过的知识和名词感觉头都晕乎乎的。虽然里面已经列出了好一些概念,但是它的定义、用来干什么、怎么用都还需要自己在去查,去学习。比如一开始看到混淆矩阵,TP、TN、FN、FP到底是什么意思单看是Task1很难看明白,在百度上搜了之后也还是迷迷糊糊,最后还是查找了各种文章学习之后才知道混淆矩阵的作用以及混淆矩阵该怎么样写。

现在出现的问题还有很多,比如后面的Python代码还没看明白,P-R曲线的阈值怎么选取,以及选取阈值出来的作用是什么都不是很明白,对这些知识还没有系统的了解。

四、学习思考与总结

思考下来就是需要学习的东西还有很多,虽说是金融风控0基础的训练营,但是对我这种在Task1里出现的知识和Python真正0基础的人来说挑战还是蛮大的。了解到的这些知识也不系统,而且也是一知半解,以后还需要多多与别人交流和学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387417.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何将.crt的ssl证书文件转换成.pem格式

如何将.crt的ssl证书文件转换成.pem格式摘自:https://www.landui.com/help/show-8127 2018-07-04 14:55:41 2158次 准备:有一台安装了php的linux操作系统执行下面的openssl命令即可:openssl x509 -in www.xx.com.crt -out www.xx.com.pem转载于:https://…

SpringMVC学习记录--Validator验证分析

一.基于Validator接口的验证. 首先创建User实例,并加入几个属性 ?12345678910111213141516171819202122232425262728293031323334<code class"hljs cs">public class User {private String username;private String password;private String nickname;public …

C# 获取句柄程序

这个小程序需要用到系统API&#xff0c;也就是需要用到user32中的三个函数。 第一个&#xff1a;WindowFromPoint 返回一个窗口句柄 第二个&#xff1a;GetWindowText 获取窗口标题 第三个&#xff1a;GetClassName 获取类名 当然&#xff0c;最重要的一点就是要引用命名空间…

centos7安装oracle12c 一

本文 基本参考了下面这篇文章http://blog.csdn.net/gq5251/article/details/42004035 和http://www.linuxidc.com/Linux/2017-08/146528.htm 但是改正了一些错误操作系统:CentOS Linux release 7.2.1511 (Core) oracle: oarcle (12.1.0.2.0) - Standard Edition (SE2)几点要注…

阿里云天池 Python训练营Task4: Python数据分析:从0完成一个数据分析实战 学习笔记

本学习笔记为阿里云天池龙珠计划Python训练营的学习内容&#xff0c;学习链接为&#xff1a;https://tianchi.aliyun.com/specials/promotion/aicamppython?spm5176.22758685.J_6770933040.1.6f103da1tESyzu 一、学习知识点概要 本次主要通过阿里云天池的赛题【Python入门系…

JMETER从JSON响应中提取数据

如果你在这里&#xff0c;可能是因为你需要使用JMeter从Json响应中提取变量。 好消息&#xff01;您正在掌握掌握JMeter Json Extractor的权威指南。作为Rest API测试指南的补充&#xff0c;您将学习掌握Json Path Expressions 所需的一切。 我们走吧&#xff01;并且不要惊慌&…

centos7安装oracle12c 二

环境&#xff1a;CentOS7VMware12&#xff0c;分配资源&#xff1a;CPU&#xff1a;2颗&#xff0c;内存&#xff1a;4GB&#xff0c;硬盘空间&#xff1a;30GB Oracle 12C企业版64位 下载地址&#xff1a;http://www.oracle.com/technetwork/database/enterprise-edition/down…

阿里云天池 Python训练营Task5:Python训练营测试 学习笔记

一、学习知识点概要 本次是Python训练营的测试&#xff0c;在45分钟内完成25题&#xff0c;满分100分及格80分。题目主要考察Task1到Task3里面的Python基础知识。在我随到的25道题里&#xff0c;知识点有&#xff1a; 变量&#xff08;包括数据类型和容器类型&#xff09;运算…

centos7安装oracle12c 三

场景描述&#xff1a;我在自己电脑的虚拟机上linux环境下安装oracle11g数据库。 Linux版本为&#xff1a;CentOS release 6.8 (Final)&#xff0c;Oracle版本为&#xff1a;linux.x64_11gR2 问题描述&#xff1a;在oracle安装到Prerequisite Checks这一步的时候&#xff0c;出现…

《属性数据分析引论》 部分课后习题R语言实践(第三章、第四章)

目录 前言 第三章 广义线性模型 习题3.18 a小题 b小题 c小题 d小题 习题3.19 a小题 b小题 c小题 第四章 Logistic回归 习题4.1 a小题 b小题 c小题 d小题 e小题 习题4.2 a小题 b小题 c小题 d小题 小结 前言 习题选自高等教育出版社译制&#xff0c;Alan A…

Linux下SVN搭建

在Linux系统中搭建svn服务所需要用到的软件叫做subversion&#xff0c;可以通过yum来进行安装&#xff0c;如图 安装好软件后第一件事就是创建一个仓库目录 [rootserver1 ~]# mkdir /svn 使用svn自带命令建立仓库 [rootserver1 ~]# svnadmin create /svn 进入该仓库&#xff0c…

可用于 线性判别、聚类分析 的R语言函数总结

一、判别分析 判别分析是一种分类技术&#xff0c;其通过一个已知类别的“训练样本”来建立判别准则&#xff0c;并通过预测变量来为未知类别的数据进行分类。根据判别的模型分为线性判别和非线性判别&#xff0c;线性判别中根据判别准则又分为Fisher判别&#xff0c;Bayes判别…

Android APK 打包过程 MD

Markdown版本笔记我的GitHub首页我的博客我的微信我的邮箱MyAndroidBlogsbaiqiantaobaiqiantaobqt20094baiqiantaosina.comAndroid APK 打包流程 MD 目录 目录APK 的打包流程整体流程资源的编译和打包资源ID资源索引概况具体打包过程aapt阶段aidl阶段Java Compiler阶段dex阶段a…

可用于 主成分分析、R型因子分析、简单相应分析 的R语言函数总结

一、主成分分析 主成分分析是多元统计分析的一种常用的降维方法&#xff0c;它以尽量少的信息损失&#xff0c;最大程度将变量个数减少&#xff0c;且彼此间互不相关。提取出来的新变量成为主成分&#xff0c;主成分是原始变量的线性组合。 1.1 KMO检验和Bartlett球形检验 在…

持续集成之Jenkins安装部署

安装JDKJenkins是Java编写的&#xff0c;所以需要先安装JDK&#xff0c;这里采用yum安装&#xff0c;如果对版本有需求&#xff0c;可以直接在Oracle官网下载JDK。 [rootlinux-node1 ~]# yum install -y java-1.8.0 安装Jekins [rootlinux-node1 ~]# cd /etc/yum.repos.d/ […

jenkins svn tomcat ant自动部署

Jenkins Jenkins是基于Java开发的一种持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;功能包括&#xff1a; 1、持续的软件版本发布/测试项目。 2、监控外部调用执行的工作。 跟其他持续集成相比&#xff0c;它的主要优点有&#xff1a; 开源&#xff0c;即免…

553 mail from must equal authorized user解决方法

在配置发送邮件通知&#xff0c;验证其正确性时&#xff0c;出现"553 mail from must equal authorized user"提示的错误&#xff1b; 原因在于没有在"系统管理&#xff08;Manage Jenkins&#xff09;"的"系统设置&#xff08;Configure system&…

[Apple开发者帐户帮助]八、管理档案(2)创建临时配置文件(iOS,tvOS,watchOS)...

创建临时配置文件以在设备上运行您的应用程序而无需Xcode。在开始之前&#xff0c;您需要一个App ID&#xff0c;一个分发证书和多个注册设备。 有关完整的临时配置文件工作流程&#xff0c;请转到Xcode帮助中的分发到已注册设备&#xff08;iOS&#xff0c;tvOS&#xff0c;wa…

解决做好一个机器学习项目的3个问题

机器学习是目前人工智能最令人激动的研究方向之一。我们可能更关注机器学习算法的实现细节&#xff0c;沉浸于机器学习所需要的数学功底&#xff0c;但对于机器学习从业者来说&#xff0c;如何更好更快速的实现一个机器学习项目更值得关注。 正如吴恩达在《机器学习》这门课中所…

[币严区块链]以太坊(ETH)Dapp开发入门教程之宠物商店领养游戏

阅读本文前&#xff0c;你应该对以太坊、智能合约有所了解&#xff0c;如果你还不了解&#xff0c;建议你先看以太坊是什么 除此之外&#xff0c;你最好还了解一些HTML及JavaScript知识。 本文通过实例教大家来开发去中心化应用&#xff0c;应用效果如图: 项目背景 Pete有一个…