【40分钟速成智能风控10】风控大数据体系2

目录

​编辑

特征工程方法

统计量

离散化

时间周期趋势

交叉项

隐性特征

用户画像


特征工程方法

在模型圈内有这么一句俗话,“特征决定了模型的上限,而算法只是逼近这个上限”,由此可见特征工程在风控建模中的重要程度。特征工程的本质是基于原始数据的信息提炼,风控场景中的很多数据源,单独来看可能和风险表现关联性并不强,但是加工成特征后,却会与我们想要预测的目标产生紧密的联系。特征工程的方法有很多,有效的风控特征是建模人员通过历史经验和长期探索积累而来的,也是一家互联网金融公司最核心的数据财富。以下是笔者总结的一些在智能风控模型中常见的特征工程方法。

统计量

统计量是特征工程中最常用到的一类方法,是对于原始数据的浅层加工。风控场景中原始采集到的多为明细数据,通过统计量的方式,可以快速地汇总并刻画出数据分布的规律,在短时间内构建上千维特征。常见的统计量包括总和、最大值、平均值、比例、排名、最早、最近等,可以从金额、频率、天数、类型等多个角度出发,结合时间窗口的因素去尝试构建。以征信报告中24个月的还款明细为例,可以有历史/当前逾期本金、历史/近18个月/近12个月/近6个月逾期次数、历史/当前最大逾期天数、最早/最近逾期距今时长、信用卡/贷款逾期本金占比等多个特征,这些特征从各个角度措述了借款人的信用历史状况。

离散化

大多数的原始数据都是数值型,可以加工成统计量,但也有少部分的数据本身是字符型,或者加工成统计量有违实际含义,此时就需要用离散化的方式来处理。离散化是将连续值转化为离散值的过程,常见于基本信息的加工中。离散化根据原始数据的特性又可以分为有序和无序两种。例如年龄,本身是存在排序性的,因此离散化的时候可以将20~25区间内的数据映射为1,25~30区间内的数据映射为2,依次递增,保持年龄的单调性;而对于职业,由于不同职业之间无法进行排序,则需要通过独热编码(One-Hot Encoding)的方式加工成多个0-1特征,例如是否为白领、是否为蓝领、是否为商旅人士等。对比两种离散化方式,后者独热编码会导致特征矩阵的稀疏性,并且会损失一些数据本身的信息,因此可以通过业务经验或者计算WOE的方式,优先考虑将这些字段映射成有序的离散化特征。另外,离散化后的特征具有更好的稳定性,因此也经常被用在风控建模中,用来提高模型的泛化能力。

时间周期趋势

对于积累时间较长的原始数据,还可以加工一些时间周期类特征,包括标准差、变异系数、同比、环比、新增数、连续增长、连续下降等,考察借款人的变化趋势。这类特征通常在风控场景下具有较好的应用价值,因为这些长短期特征能够天然地刻画出客户中长期的信用风险和短期内的欺诈风险。以消费金额为例,从时间周期的角度,可以加工成近6个月标准差/变异系数/新增场景数/连续增长月份数/连续下降月份数、本月同比/环比等,描述了借款人长短期内消费能力的波动情况和方向。

交叉项

单一特征能够提取的信息总是有限的,因此还需要引人交叉项特征,综合考虑两个或者多个原始特征的影响。生成交叉项也有两种思路,基于经验和基于模型。基于经验的方法主要是从业务理解的角度出发,人为地构建一些交叉项组合,放到风控模型中去尝试。交叉项的两个原始特征最好是相关性不高的,例如近6个月的消费总金额和消费金额稳定性,这样构建的交叉项才能够在已有的原始特征之上带来增益。基于模型的方法则是利用树类模型学习目标函数生成大量叶子节点特征,比较经典的方案是Facebook在2014年提出的GBDT+LR模型。与人工经验方案相比,模型方案的优势在于省时省力,利用树类模型的特性自动提取比较重要的交叉项组合;缺点是这些交叉项是基于特定目标学习生成的,对于其他目标通用性不强,并且与离散化一样,存在特征矩阵过于稀疏可能导致模型过拟合的问题,需要利用特征压缩或者正则化的方法进一步处理。

隐性特征

除去上面介绍的这些显性特征,还有一类没有具体业务含义的隐性特征,是通过深度模型挖掘得来的,是对客户商品购买、出行地点、点击行为的高维向量表示,已经在许多头部互联网金融机构的风控模型中得到了效果验证。这里介绍隐性特征挖掘中常用到的一类方Embedding. Embedding 最早在2013年被Google应用于word2vec 模型中,本意是训练文本中的词向量,基于上下文找出相似的词。其中,w(t)是输入的词,w(1--2)、W(1-1)、W(1+1)、W(1+2)是上下文词的概率,中间的隐藏层就是我们想要的w(t)的向量表示。通过这种方式可以对文本中所有的词进行向量化。这种思想也被借鉴到风控场景中的特征挖掘,不同的是这里的文本变成了客户的行为数据,而每个词对应了每一类行为,利用Embedding的思想将行为数据向量化,再输入深度学习模型中与其他显性特征一同训练。

用户画像

最后还有一类特征,主要基于风控建模人员通过数据分析或者专家经验给出逻辑加工而成,这里统称为用户画像。画像类特征是风控建模场景中较为常见的一类特征,是对金融机构内外数据源的高度浓缩,既可以加入风控模型中增强可解释性,也可以在满足合规要求后对外输出。每个用户画像背后都有一套复杂的逻辑,例如有房指数,有过公积金贷款和房贷记录的客户,有房指数为1;居住地和身份证一致的本地人,或者居住地稳定的高净值用户,大概率有房,有房指数为0.9;对于剩余客户,可以利用基本信息、消费能力、资产状况、地理位置等数据源构建预测模型,输出0~1之间的概率值;最终利用准召曲线来确定有房人群阈值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/810816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最大连续1的个数 III

题目链接 最大连续1的个数 III 题目描述 注意点 nums[i] 不是 0 就是 10 < k < nums.length 解答思路 创建一个滑动窗口&#xff0c;保证窗口内翻转0的个数始终不大于k&#xff0c;不断移动窗口的右边界&#xff0c;有以下三种情况&#xff1a; 当右边界的值为1&…

模组硬件通用|ESD静电释放注意事项

当我们在进行接插件操作或者电路板调试时&#xff0c;有时会出现接口损坏或者电路板上的某个IC芯片失效的情况&#xff0c;原因可能仅仅是手触摸到了IC芯片&#xff0c;ESD(Electro-Static discharge 静电释放)导致了损坏。模组作为一个集成电路板&#xff0c;内部含有不同型号…

hertzbeat监控工具部署

目录 参考简介部署docker-compose.ymldocker安装使用portanier部署访问地址默认用户密码 配置SpringBoot程序配置基础信息新增阈值规则新增通知策略 参考 家庭私有云上 Docker 部署 hertzbeat&#xff0c;好用的监控告警系统 官网 简介 hertzbeat是一个拥有强大自定义监控能…

Python3 标准库,API文档链接

一、标准库 即当你安装python3 后就自己携带的一些已经提供好的工具模块&#xff0c;工具类&#xff0c;可以专门用来某一类相关问题&#xff0c;达到辅助日常工作或者个人想法的一些成品库 类似的 C ,Java 等等也都有自己的标准库和使用文档 常见的一些&#xff1a; os 模块…

使用vmware worksttion的ovftool工具导出esxi虚拟机的ovf,未成功

目的&#xff1a;可以实现跨越物理机克隆esxi虚拟机 利用VMware workstation&#xff08;本人使用的pro版&#xff09;的 OVF Tool导出。 假设你的ESXi的服务器ip是172.28.1.1&#xff0c;要备份的虚拟机的名字叫做ubuntu&#xff0c;workstation装在windows上。 首先进入VMwa…

RabbitMQ消息模型之Topic消息模型

Topic消费模型 * 通配符模型 * 生产者必须指定完整且准确的路由key * 消费者可以使用通配符 * *&#xff1a;可以替代一级的任意字符 add.* > add.user add.goods * #&#xff1a;可以替代多级的任意字符 add.# &…

lua基本语法

Lua语法入门 初识lua vi hello.lua print("hello,lua") lua hello.lua 变量和循环 变量 循环 条件控制、函数 条件控制

USB端口

winx&#xff0c;打开设备管理器 名称解释 HS-USB 分类全称传输速率版本超速SSsuper-speed最大速率5Gbps、10Gbps、20GbpsUSB3.0~USB3.2高速HShigh-speed25Mbps-400 Mbps &#xff08;最大480 Mbps&#xff09;USB2.0全速FSfull-speed500Kbps-10Mbps&#xff08;最大12Mbps&…

L2-008 最长对称子串(manacher()算法)

一、manacher()算法 1.可以在o(n)的时间内求出一个字符串的最长回文串 假设n<1.1*10^7 N3e7n*2 2.原理 manacher算法 可以在o(n)的时间内求出一个字符串的最长回文串 1.改造字符串&#xff0c;在字符之间和串两端插入#, 都变成奇回文串 s[0]$是哨兵&#xff08;边界&…

软考 — 系统架构设计师 - 嵌入式真题

问题1&#xff1a; 可靠度表示系统在规定条件下&#xff0c;规定的时间内不发生失效的概率。 失效率表示系统运行到此时从未出现失效的情况下&#xff0c;单位时间内系统出现失效的概率 问题 2&#xff1a; 动态冗余又称为主动冗余&#xff0c;通过故障检测&#xff0c;故障定…

【话题】 0基础如何进入IT行业?

对于零基础的人来说&#xff0c;进入IT行业需要一些策略和努力。以下是一些可能的学习路径、技能培养和实践经验的获取方法&#xff1a; 方向一&#xff1a;学习路径 在线课程和教程: 利用网上资源&#xff0c;如Coursera, Udemy, Codecademy等&#xff0c;这些平台提供了许多…

SAP 计划策略82简介

前面的文章中我们已经测试了很多才策略,10、11、40、50、70、60、63 80策略。 本文将重点说明ATO模式下82策略的使用场景,计划策略82是SAP提供的另一种基于按单生产思想的计划策略,由客户的需求来直接驱动直接生产,是一个按单生产的场景。 1、首先我们先看下系统后台82策略…

centos7下配置mysql8的主从复制

mysql8的安装过程可参考:centos下安装mysql8版本_centos安装mysql8.0-CSDN博客 使用两台服务器,192.168.2.177做为主服务器,192.168.2.159做为从服务器,mysql版本都为8.0.35。 1、在主服务器177上更改/etc/my.cnf配置,添加如下内容 server_id=1 gtid_mode=ON # gtid_…

回溯算法2s总结

8.回溯算法 回溯算法理论基础 回溯法也可以叫做回溯搜索法&#xff0c;它是一种搜索的方式。回溯是递归的副产品&#xff0c;只要有递归就会有回溯。 回溯的本质是穷举&#xff0c;穷举所有可能&#xff0c;然后选出我们想要的答案 回溯法解决的问题 回溯法&#xff0c;一…

MySQL数据导出导出的三种办法(13/16)

数据导入导出 基本概述 目前常用的有3中数据导入与导出方法&#xff1a; 使用mysqldump工具&#xff1a; 优点&#xff1a; 简单易用&#xff0c;只需一条命令即可完成数据导出。可以导出表结构和数据&#xff0c;方便完整备份。支持过滤条件&#xff0c;可以选择导出部分数据…

VsCode 安装Jupyter Notebook

VsCode 安装Jupyter Notebook 安装 1、打开 VSCode 编辑器&#xff0c;点击界面左端的【扩展】栏&#xff1b; 2、在【搜索框】中输入python&#xff0c;点击第一个Python&#xff0c;检查是否已经安装 python 插件&#xff0c;没安装的点击安装&#xff1b;已安装的继续第3步…

ASUS华硕灵耀Pro14笔记本AMD锐龙版M7400QC,M7600QA原厂Win11系统工厂包下载

恢复华硕灵耀14PRO出厂开箱状态预装OEM系统Windows11工厂模式安装包&#xff0c;带Recovery恢复还原功能 适用型号&#xff1a; M7400QC、M7400QE、M7400QEB M7600QC、M7600QE、M7600QA、M7600QCB 链接&#xff1a;https://pan.baidu.com/s/1dIGRAKJQLQt_JcKbQWFxJg?pwdbn…

GD32 HID键盘矩阵键盘发送数据时,一直发送数据问题处理

这个问题找了两三天,开始并不认为是示例程序的问题,只是感觉是自己代码问题。 这个解决流程大概是: 先调好矩阵键盘=> 调用发送函数。 就是因为调用时,一直发送数据,我也在按键抬起做了操作,始终不行。 最后,发现时示例代码中有个 空闲中断 引起的。 udev->reg…

英伟达高性能芯片供货周期缩短到2-3个月,今年GPU不再紧缺?

戴尔台湾地区总经理Terence Liao近日称&#xff0c;英伟达高性能 AI GPU的交付周期在过去几个月中已从3-4个月缩短到仅2-3个月&#xff0c;进入2024年以来交货等待时间一直在不短缩短&#xff0c;目前的2-3个月已经是英伟达高性能GPU最短的交货期。 英伟达公司正在不断努力提高…

spring获取bean

参考&#xff1a;百度安全验证 这里我列举2种方法&#xff0c;其它方法可以自行学习。 1、BeanUtils代码如下&#xff1a; package com.hmblogs.backend.util;import org.springframework.context.ApplicationContext; import org.springframework.web.context.request.Requ…