目录
编辑
智能反欺诈模型
图计算
智能信用风险模型
专家模型
逻辑回归
决策树
集成树
深度神经网络
循环神经网络
智能反欺诈模型
图计算
图计算(Graph Computing)是以关联图谱为基础引申出来的一类算法的统称,主要解决了图数据模型的表示和计算问题。图计算是目前比较热门的一个研究方向,比较成熟的应用场景有社区发现、标签传播、图嵌入等。社区发现(Communication Detection)主要用于关联图中社区的划分,与聚类算法的目标类似,我们也希望社区划分后每个社区内部节点联系密切,而社区之间的连接较为稀疏,因而这里定义了模块度的概念。简单理解,模块度是社区内部节点的连接边数与随机情况下边数的差,这个差值越大说明社区内部的连接程度越紧密。以最大化全局模块度为学习目标,就有了经典的Louvain算法。Louvain算法在初始化的时候将每个节点看作一个社区,通过分配节点使得相邻社区的模块度增益最大,直至所有社区不再变化,之后将生成的社区压缩成一个新的节点,重复上述工作,直至整个图中的模块度不再变化。Louvain在Spark环境下已经实现分布式,因而可以较好地支持工业界的需求。
标签传播(Label Propagation Algorithm,LPA)是一种基于关联图的半监督学习方法,利用已标记的样本来推论未标记的样本。标签传播算法的核心在于利用节点之间边的权重构建转移矩阵,每轮传播后更新除已标记样本外其他样本的标签,直至所有样本的标签收敛。标签传播算法最大的优势是简单高效,不过也存在结果不稳定等问题。
图嵌入(Graph Embedding)借鉴了NLP中word2vec的思想,将关联图中的节点嵌人某个高维空间中,使得每个节点向量化,并且映射后的向量还能够保留图的结构和性质。图嵌人的方式有很多,例如DeepWalk、Line、node2vec、SDNE等,并没有绝对意义上最优的嵌人方式,需要建模人员根据数据的分布特性和实际业务效果,不断地尝试和迭代。图嵌入后的向量可以表示每个样本的社交属性,既可以作为入模特征放到欺诈或者风险模型中训练,又可以利用聚类算法进行客群间的划分。
智能信用风险模型
评分卡模型存在人模变量少、迭代周期长等劣势,并不足以支持互联网金融机构的风险管理需求。随着大数据和机器学习技术在风险管理场景中应用的相对成熟,新一代的智能信用风险模型出现了。智能信用风险模型基于海量数据搭建,利用了先进的机器学习和人工智能算法,构建多个子模型和集成主模型的方式,大大提升了模型的区分度和时效性,弥补了传统风险管理体系中的诸多不足。
对于智能信用风险模型,风控建模人员通常会将整个信贷生命周期划分为准入、贷前、贷中、贷后四大场景,由于每个场景中的目标和数据源存在差异,又会选择不同的算法来搭建模型。下面会简单介绍一些智能风控时代常用的模型算法及其适用的场景和原因
专家模型
额度和利率模型本身对于准确性并没有很高的要求,更多的是业务人员出于经验给出的一个合理的额度和利率范围,要求有较好的可解释性,因而传统的专家模型(Expert Model)在这里较为适合。对于额度模型,目前行业内比较常见的思路有两种。
第一种是利用申请评分卡和价值模型构建二维矩阵,针对逾期风险较低且平台价值较高的客户给予较高的额度,针对逾期风险较高且平台价值较低的客户给予较低的额度。
第二种是从客户的收入、资产、支出、负债四个方面衡量,大致计算出客户的可支配收入,通常客户每个月的还款金额不超过每个月可支配收人的60%。
利率模型相对简单,通常直接与申请评分卡所预测的逾期风险挂钩,最高不超过监管要求的综合年化利率36%。
逻辑回归
作为风险管理领域中最为经典的算法,逻辑回归(Logistic Regression,LR)在智能风控时代依旧被使用,其兼顾区分度和稳定性的优点,对于白名单模型来说较为适合。在准人环节,机构希望了解整个平台的客群质量,进行风险分层并圈定产品的目标客群,并且每个分层对应的客群逾期率相对于时间的推移是稳定的,逻辑回归模型可以很好地满足这个需求。另外由于白名单模型需要覆盖平台的全部流量并且进行批量更新,出于数据成本的考虑,不会像申请评分模型一样调取大量的外部数据,能够依赖的数据维度较为单一,这种低维情况下选取逻辑回归较为合适。
决策树
决策树(Decision Tree)是智能风控时代运用最广泛的技术,不仅可以被业务人员应用来搭建风控策略中的决策流,还是许多建模人员常用的集成树算法的基础。通常情况下,一棵决策树包括一个根节点、若干个内部节点和若干个叶子节点,根节点和内部节点对应数据维度,每一层节点对应的客群根据数据维度阈值的划分结果,落入下一层节点,叶子节点对应最终的决策结果。对于每一层节点的划分,希望划分后的客群尽可能属于同一个类别,例如逾期或不逾期,这样一层层下来搭建的决策树才能最终将客群区分开。对于决策树的使用,业务人员和建模人员的侧重点有较大的区别。业务人员更偏向于决策树的可视化,希望找到若干条决策路径,构建涵盖多个数据标签的复杂规则;而建模人员则利用多棵决策树集成的算法,学习到已有逾期客群和正常客背后分布的规律,并把这个规律应用到未来进行逾期预测。
集成树
集成树(Ensemble Tree)是树类模型集成算法的统称,例如Random Forest、AdaBoost、GBDT以及大名鼎鼎的XGBoost都属于集成树的范畴。顾名思义,集成树将决策树作为基学习器,利用集成学习的思想,以不同的方式叠加而形成。集成树既具有决策树本身解释性好的优点,又具有集成学习带来的准确性和区分度的提升,一些特殊的框架例如XGBoost,由于加入了正则化项,还保证了模型的稳定性。集成树算法相比于神经网络算法,对于数据量和数据维度的要求并不算高,通常数据量满足5万、数据维度大于100,就可以尝试建模,因此被各大互联网机构应用于申请评分模型、行为评分模型、催收评分模型、价值模型的搭建工作中,是目前建模人员首选的机器学习算法。
深度神经网络
深度神经网络(Deep Neural Network,DNN)在AI领域已经落地较多,在智能风控领域也有着越来越多的尝试。对于头部互联网金副机构的贷前场景来说,由于业务开展较早和规模较大,已经积累了几十万的申请样本和对应的还款表现,并且内外部数据标签上千维,可以利用DNN建立申请评分模型。DNN是深度学习中最经典的框架,由输入层、若干个隐藏层和输出层组成。其中,每个隐藏层都具有若千个节点,层与层的节点之间具有连接,需要求解连接的函数,来确定一个最优的DNN模型。看似复杂,其实DNN与我们熟悉的逻辑回归存在紧密联系,逻辑回归的本质是一个仅含有一个节点的单层神经网络模型,DNN可以理解为多个逻辑回归“交织”在一起,因此具有比逻辑回归强得多的学习能力。比DNN更进一步,Google 于2016年提出Wide&Deep的框架,将线性模型和深度模型利用联合训练的方式结合起来,既保证了显性特征的可解释性,又挖掘了隐性特征的预测能力,也被智能风控领域的建模人员广泛尝试。
循环神经网络
除了DNN算法,循环神经网络(Recurrent Neural Network,RNN)是另一种在智能风控领域被尝试的神经网络结构。RNN的特性是在时间维度上具有“记忆”功能,具体的实现原理是对于RNN的隐藏层,t-1时刻的输出会作为t时刻的输入,这样当前时刻的隐藏层会包括之前所有时刻隐藏层的信息。这个特性使得RNN被应用到行为评分模型和催收评分模型的搭建中,因为支用行为序列和催收行为序列都具有很强的时间属性,利用RNN可以自动提取这些时间序列中的隐性特征。在时间序列中我们通常更希望关注近期行为,忽略远期行为带来的噪声,因此便有了长短期记忆网络(Long Short Term Memory,LSTM)。与RNN相比,LSTM在各隐藏层节点之间传递信息的过程中,加入了输入门、遗忘门和输出门的结构,使得整个网络结构可以有选择性地“记忆”过去的信息,对于时间序列上的信息提取有了重大提升。
print('要天天开心呀')