目录
编辑
特征工程方法
统计量
离散化
时间周期趋势
交叉项
隐性特征
用户画像
特征工程方法
在模型圈内有这么一句俗话,“特征决定了模型的上限,而算法只是逼近这个上限”,由此可见特征工程在风控建模中的重要程度。特征工程的本质是基于原始数据的信息提炼,风控场景中的很多数据源,单独来看可能和风险表现关联性并不强,但是加工成特征后,却会与我们想要预测的目标产生紧密的联系。特征工程的方法有很多,有效的风控特征是建模人员通过历史经验和长期探索积累而来的,也是一家互联网金融公司最核心的数据财富。以下是笔者总结的一些在智能风控模型中常见的特征工程方法。
统计量
统计量是特征工程中最常用到的一类方法,是对于原始数据的浅层加工。风控场景中原始采集到的多为明细数据,通过统计量的方式,可以快速地汇总并刻画出数据分布的规律,在短时间内构建上千维特征。常见的统计量包括总和、最大值、平均值、比例、排名、最早、最近等,可以从金额、频率、天数、类型等多个角度出发,结合时间窗口的因素去尝试构建。以征信报告中24个月的还款明细为例,可以有历史/当前逾期本金、历史/近18个月/近12个月/近6个月逾期次数、历史/当前最大逾期天数、最早/最近逾期距今时长、信用卡/贷款逾期本金占比等多个特征,这些特征从各个角度措述了借款人的信用历史状况。
离散化
大多数的原始数据都是数值型,可以加工成统计量,但也有少部分的数据本身是字符型,或者加工成统计量有违实际含义,此时就需要用离散化的方式来处理。离散化是将连续值转化为离散值的过程,常见于基本信息的加工中。离散化根据原始数据的特性又可以分为有序和无序两种。例如年龄,本身是存在排序性的,因此离散化的时候可以将20~25区间内的数据映射为1,25~30区间内的数据映射为2,依次递增,保持年龄的单调性;而对于职业,由于不同职业之间无法进行排序,则需要通过独热编码(One-Hot Encoding)的方式加工成多个0-1特征,例如是否为白领、是否为蓝领、是否为商旅人士等。对比两种离散化方式,后者独热编码会导致特征矩阵的稀疏性,并且会损失一些数据本身的信息,因此可以通过业务经验或者计算WOE的方式,优先考虑将这些字段映射成有序的离散化特征。另外,离散化后的特征具有更好的稳定性,因此也经常被用在风控建模中,用来提高模型的泛化能力。
时间周期趋势
对于积累时间较长的原始数据,还可以加工一些时间周期类特征,包括标准差、变异系数、同比、环比、新增数、连续增长、连续下降等,考察借款人的变化趋势。这类特征通常在风控场景下具有较好的应用价值,因为这些长短期特征能够天然地刻画出客户中长期的信用风险和短期内的欺诈风险。以消费金额为例,从时间周期的角度,可以加工成近6个月标准差/变异系数/新增场景数/连续增长月份数/连续下降月份数、本月同比/环比等,描述了借款人长短期内消费能力的波动情况和方向。
交叉项
单一特征能够提取的信息总是有限的,因此还需要引人交叉项特征,综合考虑两个或者多个原始特征的影响。生成交叉项也有两种思路,基于经验和基于模型。基于经验的方法主要是从业务理解的角度出发,人为地构建一些交叉项组合,放到风控模型中去尝试。交叉项的两个原始特征最好是相关性不高的,例如近6个月的消费总金额和消费金额稳定性,这样构建的交叉项才能够在已有的原始特征之上带来增益。基于模型的方法则是利用树类模型学习目标函数生成大量叶子节点特征,比较经典的方案是Facebook在2014年提出的GBDT+LR模型。与人工经验方案相比,模型方案的优势在于省时省力,利用树类模型的特性自动提取比较重要的交叉项组合;缺点是这些交叉项是基于特定目标学习生成的,对于其他目标通用性不强,并且与离散化一样,存在特征矩阵过于稀疏可能导致模型过拟合的问题,需要利用特征压缩或者正则化的方法进一步处理。
隐性特征
除去上面介绍的这些显性特征,还有一类没有具体业务含义的隐性特征,是通过深度模型挖掘得来的,是对客户商品购买、出行地点、点击行为的高维向量表示,已经在许多头部互联网金融机构的风控模型中得到了效果验证。这里介绍隐性特征挖掘中常用到的一类方Embedding. Embedding 最早在2013年被Google应用于word2vec 模型中,本意是训练文本中的词向量,基于上下文找出相似的词。其中,w(t)是输入的词,w(1--2)、W(1-1)、W(1+1)、W(1+2)是上下文词的概率,中间的隐藏层就是我们想要的w(t)的向量表示。通过这种方式可以对文本中所有的词进行向量化。这种思想也被借鉴到风控场景中的特征挖掘,不同的是这里的文本变成了客户的行为数据,而每个词对应了每一类行为,利用Embedding的思想将行为数据向量化,再输入深度学习模型中与其他显性特征一同训练。
用户画像
最后还有一类特征,主要基于风控建模人员通过数据分析或者专家经验给出逻辑加工而成,这里统称为用户画像。画像类特征是风控建模场景中较为常见的一类特征,是对金融机构内外数据源的高度浓缩,既可以加入风控模型中增强可解释性,也可以在满足合规要求后对外输出。每个用户画像背后都有一套复杂的逻辑,例如有房指数,有过公积金贷款和房贷记录的客户,有房指数为1;居住地和身份证一致的本地人,或者居住地稳定的高净值用户,大概率有房,有房指数为0.9;对于剩余客户,可以利用基本信息、消费能力、资产状况、地理位置等数据源构建预测模型,输出0~1之间的概率值;最终利用准召曲线来确定有房人群阈值。