【40分钟速成智能风控14】数据处理和特征工程

目录

智能模型数据处理

重复值处理

一致性检验

数据交叉验证

线上线下验证

有效性检验

业务经验

数据分析

特征工程和特征筛选

探索性数据分析

字符型特征

缺失率过高

类别过少

异常值处理


智能模型数据处理

重复值处理

保证数据的唯一性也是数据清洗过程中需要关注的问题,过多重复数据会导致存储冗余,并且在表与表关联过程中,可能出现笛卡儿积造成内存溢出。去除重复数据的前提是确定该表对应的唯一主键,基于唯一主键再去做重复值的处理。通常金融机构内部大多数的表都是以客户ID作为主键,所有的数据都汇总到人的维度,但是对于信贷数据,一个客户可以多次申请,一次成功申请可以多次支用,一次成功支用可以多次还款,一次逾期还款可以对应多个催收阶段,不同环节数据源的主键都不相同,如果把这些表都汇总到人的维度显然是不合理的,因此只有弄清楚了唯一主键,才能够做到有效的去重。

一致性检验

数据不一致是大数据建模过程中经常面临的问题,无论是字段之间的不一致,还是相同字段线上线下的不一致,都可能导致线上模型的不可用,因此尽可能在建模初期的数据清洗阶段,就定位并解决这些不一致的问题。

数据交叉验证

在多个数据源中,可能存在多个字段具备相似的含义,这个时候就需要进行数据之间的交叉验证,来找出最权威的字段。例如客户年龄,可能存在平台业务(电商、出行)中填写的年龄、金融业务中填写的年龄、身份证号中解析的年龄这三类,从权威性的角度来说,应该是身份证年龄高于金融年龄高于平台年龄,因为首先身份证信息一定是真实的,其次对于信贷客户来说,他们更愿意在金融业务中填写自已的真实信息。在实际数据清洗过程中,可以结合这三个数据来源构建一个新的年龄字段,对于实名客户选取身份证年龄,对于未实名客户优先选取金融年龄,这个新构建的年龄字段可以最大限度地保证数据的权威性。

线上线下验证

对于需要上线的模型,上线前的数据验证是一件让建模人员很头疼的事情,由于线上线下可能采用不同的数据源或者更新频率,会导致线上模型结果和离线模型结果对不齐。在数据清洗环节,如果线上数据已经落库,建议事先评估线上线下数据之间的差异性。在积累时间足够长的情况下,优先利用线上落库的数据分析建模;对于刚开始积累的线上数据,如果发现线上线下差异性过大,建议在本期建模项目中暂时不使用这些数据,以免导致模型上线前的返工.

有效性检验

数据清洗本身也是一个数据摸底阶段,在处理完缺失值、异常值、重复值、致性这些问题后,最后也可以从有效性的角度,对原始字段做一次初筛,进而从业务经验和数据分析这两个角度选择最有效的字段。

业务经验

业务经验在风控建模过程中会起一定的作用。经验丰富的业务专家可以从海量数据中挑选出符合业务认知的字段,这些字段能够合理地评估客户的信用和欺诈风险,并且不容易受到外部环境的影响,从而保证模型的解释性和稳定性。

数据分析

对于机构以外的第三方数据,在数据接入阶段可以利用少量样本进行数据分析,评估这些数据对于建模目标的区分能力,选取部分有效字段进入特征池建立最终的模型。这种有选择性的接入,能够保证机构在数据成本方面的投入产出比最优,并且不会因为太多的外部数据接口导致线上服务的时效性降低。

特征工程和特征筛选

有了较为干净的原始数据,我们就可以开始特征工程的工作了。由于头部的互联网金融机构很早就开始了模型搭建的工作,基本都沉淀了一套内部的特征平台,这样建模人员在每个建模项目中就不需要重复造轮子,只构建一些定制化的特征就可以了。

经过特征工程这一步,我们已经将原始数据转化为成百上千维的大宽表,但是直接将这个大宽表丢到模型里面去训练是不合适的,因为这些特征中存在很多冗余信息,会导致模型训练过程中时间和空间资源的浪费,并且特征本身的不稳定性,特征之间的强相关性,也都会响最终模型的效果。这些问题都需要在特征筛选环节中解决。通常特征筛选可以通过探索性数据分析、稳定性、重要性、相关性、解释性这几个方面来进行。

探索性数据分析

探索性数据分析(Exploratory Data Analysis,EDA)是生成特征大宽表后应该做的第一步工作,主要是通过统计分布或者做图的方式,初步了解所有特征。通常计算的统计量有字段类型、缺失率、异常率、非重复值数量、标准差、最小值、最大值、平均值、分位点等。

字符型特征

字符型特征在计算机中是无法进行数值计算的,经过特征工程之后字符型特征理应都转化成了数值型特征,如果发现大宽表中还有遗留的字符型特征,这里可以剔除。

缺失率过高

在原始数据中虽然做过缺失值处理的工作,但是不排除由于特征匹配或者加工逻辑,导致特征中依然存在缺失率过高的情况。一般我们会把缺失率过高(例如大于0.9)的特征筛除,因为这类特征对于整体建模样本而言不具有通用性。

类别过少

有些特征会存在只有一种取值或者标准差为0的情况,这说明这类特征本身并没有太多的信息,对于这种类别过少的特征可以剔除。

异常值处理

对于特征大宽表中的异常值,我们可以利用3sigma原理来界定,也就是说距离平均值3个标准差以上的特征值认为是异常值

print('要天天开心')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/815739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

金融机构与金融市场监管

金融机构与金融市场监管 中国的金融监管机构银行业监管的必要性银行业监管的基本目标银行业监管的基本内容商业银行的设立审批制度银行业日常监督管理流动性要求资产质量监管合理的内部控制制度风险集中和风险暴漏的监管银行资本风险资本的计算资本充足率的计算 中国的金融监管…

Hadoop+Spark大数据技术(微课版)曾国荪、曹洁版思维导图第四次作业 (第4章 HBase分布式DB)

1.简述Hbase的特点及与传统关系数据库的区别 HBase与传统关系数据库的区别 (1)数据类型 关系数据库具有丰富的数据类型,如字符串型、数值型、日期型、二进制型等。HBase只有字符串数据类型,数据的实际类型都是交由用户自己编写程序…

【JSON2WEB】14 基于Amis的CRUD开发30分钟速成

【JSON2WEB】系列目录 【JSON2WEB】01 WEB管理信息系统架构设计 【JSON2WEB】02 JSON2WEB初步UI设计 【JSON2WEB】03 go的模板包html/template的使用 【JSON2WEB】04 amis低代码前端框架介绍 【JSON2WEB】05 前端开发三件套 HTML CSS JavaScript 速成 【JSON2WEB】06 JSO…

【springCloud】版本学习

Spring Cloud介绍 官网地址:https://spring.io/projects/spring-cloud Spring Cloud 是一个基于 Spring Boot 的微服务架构解决方案,它提供了一系列工具和模式来帮助开发者构建分布式系统。Spring Cloud 的组件和模式包括配置管理、服务发现、断路器、…

1028: 特定字符序列的判断

解法&#xff1a; #include<iostream> #include<stack> using namespace std; int main() {stack<char> sk;char c;bool flag false;while (cin >> c) {if (c #) break;if (c ) {flag true;continue;}if (flag) {if (sk.top() c) {sk.pop();cont…

JavaScript知识点 --javaweb学习笔记

什么是Javascript? JavaScript(简称:JS)是一门跨平台、面向对象的脚本语言。是用来控制网页行为的&#xff0c;它能使网页可交互JavaScript 和Java 是完全不同的语言&#xff0c;不论是概念还是设计。但是基础语法类似JavaScript在1995 年由 Brendan Eich 发明&#xff0c;并…

【Spring Boot】深入解密Spring Boot日志:最佳实践与策略解析

&#x1f493; 博客主页&#xff1a;从零开始的-CodeNinja之路 ⏩ 收录文章&#xff1a;【Spring Boot】深入解密Spring Boot日志&#xff1a;最佳实践与策略解析 &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章 目录 Spring Boot 日志一. 日志的概念?…

OpenHarmony实战开发-FaultLoggerd组件。

简介 Faultloggerd部件是OpenHarmony中C/C运行时崩溃临时日志的生成及管理模块。面向基于 Rust 开发的部件&#xff0c;Faultloggerd 提供了Rust Panic故障日志生成能力。系统开发者可以在预设的路径下找到故障日志&#xff0c;定位相关问题。 架构 Native InnerKits 接口Sig…

汇舟问卷:国外问卷调查适合哪些人?

在这个快节奏的时代&#xff0c;朝九晚五的工作模式似乎已经成为许多人的固定生活模式。然而&#xff0c;这种日复一日的工作方式往往让人感到疲惫和厌倦&#xff0c;我们渴望找到一种既能赚钱又能兼顾生活的方式。 海外问卷调查作为一种适合在家做的赚钱方式&#xff0c;这两…

【Golang学习笔记】从零开始搭建一个Web框架(二)

文章目录 模块化路由前缀树路由 前情提示&#xff1a; 【Golang学习笔记】从零开始搭建一个Web框架&#xff08;一&#xff09;-CSDN博客 模块化路由 路由在kilon.go文件中导致路由和引擎交织在一起&#xff0c;如果要实现路由功能的拓展增强&#xff0c;那将会非常麻烦&…

基于Springboot+Vue的Java项目-课程作业管理系统(附演示视频+源码+LW)

大家好&#xff01;我是程序员一帆&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;Java毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计 &am…

rocketmq面试

broker主从复制机制 同步复制&#xff1a; 等Master和Slave均写成功后&#xff0c;才反馈给客户端写成功状态&#xff1b; 如果Master出故障&#xff0c; Slave上有全部的备份数据&#xff0c;容易恢复&#xff0c;但是同步复制会增大数据写入延迟&#xff0c;降低系统吞吐量。…

使用LNMP部署动态网站环境

目录 实验环境 一、配置LNMP架构环境 二、验证部署的LNMP 动态网站环境是否可用 三、配置过程中遇到的问题及解决思路 实验环境 centos7 192.168.81.131/24 一、配置LNMP架构环境 概念及配置手册参考第20章 使用LNMP架构部署动态网站环境。 | 《Linux就该这么学》 安装g…

Java编程练习之接口的声明及实现

1.创建老师类和学生类&#xff0c;两个类都实现了问候接口和工作接口&#xff0c;模拟上课的场景&#xff0c;运行效果如下&#xff1a; package Zaria; interface hello{public void speak(); } interface work{public void dowork(); } class Student implements hello,work{…

gitee如何新建仓库并用小乌龟上传代码

目录 1.登录并注册gitee账号 2.创建新仓库 3.填写仓库信息 4.初始化本地仓库 5.上传数据 7.gitee官网查看上传文件 8.如何安装小乌龟 1.登录并注册gitee账号 2.创建新仓库 登录后&#xff0c;点击页面右上角的「」按钮&#xff0c;选择「新建仓库」。 3.填写仓库信息 …

入门Adaptive AUTOSAR(一) -- 为什么要提Adaptive(1)

目录 1.Adaptive AUTOSAR 1.1 AUTOSAR的由来 1.2 AUTOSAR的方法论 1.3 Why Adaptive 2.小结 1.Adaptive AUTOSAR 1.1 AUTOSAR的由来 2017年&#xff0c;国内绝大部分供应商还在思考如何用最小代价切入到AUTOSAR Classic Platform的时候&#xff0c;AUTOSAR Adaptive Pla…

把持中国互联网流量的“四大家族”,各个牛逼plus!

中国互联网80%流量被四大家族把持着&#xff0c;其余要么去这些家族批发流量&#xff0c;要么去抢占剩余20%。 以下是对中国互联网流量四大家族的介绍和代表性的流量入口产品&#xff1a; 百度系&#xff1a; 百度是中国最大的搜索引擎公司&#xff0c;其搜索引擎百度是中国互…

【位运算】Leetcode 两整数之和

题目解析 371. 两整数之和 算法讲解 异或的本质就是无进位相加&#xff0c;但是我们需要处理进位&#xff0c;就需要知道哪一位上有进位&#xff0c;再让无进位相加的结果 进位即可&#xff0c;在重复这个过程&#xff0c;当进位等于0的时候&#xff0c;说明相加的过程已经结…

OSPF防环文档

OPSF在区域内会产生俩类LSA&#xff1a;Router LSA &#xff0c;Network LSA 路由器以自己为树根构建最短路径树 &#xff0c;这里的最短路径树按两步形 成&#xff0c;第一步&#xff0c;仅考虑路由器和传输网络之间的连接。通过 Dijkstra 算法&#xff0c;根据链路状态数据…

吴恩达2022机器学习专项课程(一) 第二周课程实验:特征工程和多项式回归(Lab_04)

目标 探索特征工程和多项式回归&#xff0c;使用线性回归来拟合非常复杂甚至非线性的函数。 1.为什么线性回归能拟合非线性函数&#xff1f; fxw*xb&#xff0c;属于线性回归的扩展&#xff0c;这个公式在数学中不属于线性&#xff0c;因为有x&#xff0c;而在机器学习中属于…