1.金融这一块的算法,不像推荐系统,图像等领域,金融领域的算法都比较成熟了。现在来说门槛低,属于初期阶段,上升期。
2.反欺诈的数据标签比较少,有一种“标签染色”的方法来做反欺诈模型的标签。
3.常用反欺诈特征
用户基本属性
phone_nember
- 手机号前缀是否相同
- 手机号归属地是否相同
- 是否是虚拟运营商
- 流量卡还是通话卡
nickname
- 昵称符合固定的规律(中文+数字)
- 备注是否符合某种亲密的称呼
birthday
- 年纪
- 星座
- 生肖
sex
- 性别是否失衡
password
- 是否都相同
身份证号码
- 年龄 核对
- 性比 核对
- 城市
邮箱
- 是否是一次性邮箱
- username 满足规律
- 是否同一邮箱服务商
- 邮箱里面的数据(账单)
学历
- 相似性
住房
- 租房情况是否雷同
积分
- 是不是超过某个阈值
签到
- 相似性
ip
- 是否是同一个号段
- 每次登录ip地址是否相同
- 是不是临时ip 和 gps
- ip 和 gps 是否能对的上
gps
- 经纬度相似性分析
- 国家 省份 城市 相似性
- ip 和 gps 是否能对的上
wifi
- ssid
- wifi list
- 贷款前的几分钟有没有切换过wifi
application time
- 时间切片
- 注册用了多长时间(太快太慢都有问题)
- 一共申请了几次
login time
- 时间切片
- 登陆了几次、频率
- 最后一次登录时间距贷款时间的间隔
- 同一时间登录做一个校验(同一时间多人登录)
ua(user agent)
- 每次打开是否是同一个ua
渠道
- app/H5/微信
- 渠道ID属于违规渠道
app version
- 每次app的版本号是否相同
- app版本会不会太老了(老版本的app有bug,可能会被黑中介用来攻击我们)
推荐人/联系人
- 名字匹配
- 手机号匹配
设备指纹
imei
- 受否都相同
- 每次登录imei号是否都相同
device id
- 受否都相同
- 每次登录device id号是否都相同
分辨率
- 手机型号和屏幕分辨率是否一致
mobile type
- 手机品牌
- 手机型号
os(operating system)
- 每次打开操作系统是否都相同
- 来申请的人是否os都相同
- os的版本是否太旧
中文错别字可以考虑转换成拼音做相似度匹配
address
- 地址要标准化
- 模糊匹配
- 相似度计算(cos距离,词向量)
company
- 正则
- 字节拆分
- 关键字提取
- 相似度计算
- 错别字/同音字识别
第三方数据
人行征信
- 公司信息是否一致
- 学历是否一致
- 居住地址是否一致
- 手机号码是否一致
- 逾期数据
运营商
- 是否有相同的联系人
- 是否有黑名单客户在通讯录中
- 通话最频繁的几个人(所在地是否和他相同)
社保公积金
- 工资
- 社保
- 公积金
4.滴滴滴水贷款只给滴滴司机放款
5.单变量分析:分析这个变量在我们研究的问题当中有没有帮助。
6.决策树算法,决策树就是模拟人类决策过程思想的模型
决策树的生成只考虑局部最优,剪枝考虑全局最优
7.逻辑回归的例子
线性回归:变量乘以系数
逻辑回归:变量乘以系数再经过一个类似于sigmoid的函数
8.信息熵是度量样本集合“纯度”最常用的一个指标
9.风控的技术要求比较低