欺诈检测相关论文

欺诈检测相关论文

  • 一、分类
    • 1、GEM
    • 2、HACUD
    • 3、MAHINDER
    • 4、Semi-GNN
    • 5、MvMoE
    • 6、AMG-DP
    • 7、AddGraph
    • 8、NetWalk
    • 9、DOMINANT
    • 10、GraphConsis
    • 11、PC-GNN
    • 12、TRUST
  • 二、类别不平衡

一、分类

在这里插入图片描述

1、GEM

在这里插入图片描述
来自蚂蚁金服的论文,他们提出GEM模型,是一个异质图神经网络方法,用于支付宝中恶意账户的检测。数据量有4.5亿个用户。

作者从数据中总结了来自攻击者的两个主要特征:
1、攻击者要承受计算资源带来的成本,所以大多数攻击者只在少数计算资源上注册或频繁地登录。(x:设备id,y:账户id,左:正常,右:异常)
2、攻击者受攻击时间的限制,通常要在很短的时间内完成既定目标,所以恶意账户的行为可能在有限的时间内爆发。(x:时间,y:账户id,左:正常,右:异常)

异质图构建:
设备聚集:从不同设备角度(如ip地址,电话等)提取D个子图,每个子图都包含G中所有节点。
行为聚集:矩阵X=[N,p+|D|], 前p维 表示账户i行为,0~T时间划分p个时间段,每个时间段有一个行为次数,最后D为表示所属设备(子图)的one-hot编码

2、HACUD

在这里插入图片描述
在这里插入图片描述
来自蚂蚁金服的论文,他们提出HACUD模型,将实际场景建模为属性异质信息网络。用于信用支付中套现用户的检测。数据量级5百万用户

数据:
三类节点:用户U、商家M、设备D,每个节点都有丰富的属性
两种元路径:UU(用户和用户有资金交易)、UMU(用户和用户有相同的交易商家)

作者从数据中观测到两个现象:
1、套现率高的用户往往有更多的套现邻居。这意味着用户的特征可以源于他们基于元路径的邻居的特征。
2、不同的基于元路径的邻居对用户有不同的影响。这意味着不同元路径对用户重要程度不同,可以用注意力机制去捕获。

模型:
初始数据是 用户属性 和 基于元路径的用户邻居属性。
然后使用分层注意力机制获得在邻居粒度和邻居类型层面的向量表示。
最后将用户表示送入分类器训练模型。

3、MAHINDER

在这里插入图片描述
来自阿里的论文,他们提出MAHINDER模型,将实际场景建模为多视图属性异质信息网络。用于信用支付中违约用户的检测。数据量189万用户

属性异质网络划分为三种视图:社交视图、资金视图、设备视图

作者从数据中观测到的现象:
1、不同视图下不同直接违约邻居数量下,违约者的概率和提升有明显差异。(说明1、用户的特征可以用邻居的特征来表示,2、不同的path重要性不同,使用attention机制进行捕获)
2、同一视图不同链接类型下,违约者的概率有明显差异。(所以对meta-path编码的时候,链接类型也进行了编码)

模型:
首先人工选取元路径;
其次使用LSTM建模元路径的细粒度语义;
最后使用注意力整合不同的元路径获取用户表示送入后续分类器。

4、Semi-GNN

在这里插入图片描述
来自蚂蚁金服的论文,他们提出Semi-GNN模型,将实际场景建模为异质图。用于花呗中欺诈用户的检测,是第一篇使用半监督图神经网络进行欺骗检测的论文。

作者收集了4百万个有label的用户,然后从有label的用户的一跳朋友/同学/同事 中采样没有label的用户,所以一共是1亿用户。
从关系(朋友/同学/同事)、app、昵称、地址四个角度分别构建视图。

数据现象: 欺诈常呈团伙聚集, 标注为负样本的用户, 其邻居节点也可疑.
基于上述假设, 受DeepWalk启发, 作者设计的无监督部分Loss希望:邻近节点的表示相似, 不同节点的表示差异较大。

模型:
模型分为两部分:监督学习部分(左)和无监督学习部分(右),两部分模型结构相同。
使用层次注意机制聚合视图内特征和视图间特征,得到用户表示。
监督学习:利用预测的标签和实际标签计算损失
无监督学习:利用邻近节点的表示相似, 不同节点的表示差异较大,来计算损失。

5、MvMoE

在这里插入图片描述
这篇是来自阿里的论文,他们提出MvMoE模型,将实际场景建模为多视图异构网络。在阿里电商数据上实验,是一个信用风险预测和信用限额设置的双任务模型。数据量544万用户

三种视图:user profiles、user sequential behaviors、user relationship
他们的数据不缺label,下个月就可以拿到这个月实验用户的label

采样: 对正样例向上采样,使正样例率在10%左右。(这里的正样例 就是 违约用户)

模型:
1、将异构多视图数据源,进行全面的用户建模。
2、分别采用多层感知器(MLP)、双向长短期记忆(BiLSTM)和图神经网络(GNN)对每个视图的特征进行编码。
3、使用层次注意机制按重要性聚合视图内特征和视图间特征。
4、使用视图感知专家混合结构,来捕获不同任务的更好的信息。
5、利用CRF任务的输出,根据财务先验知识,通过每个任务塔之间的渐进网络来引导CLS任务。

6、AMG-DP

在这里插入图片描述
来自蚂蚁金服的论文,他们提出AMG-DP模型,将实际场景建模为多重图。用于信用支付中还款拖欠用户的检测。每个月有150万用户,一共用了10个月的数据

数据中观测到两个现象:
1、不同关系为刻画违约用户提供了不同的角度(所以作者将多重图根据关系transfer/transaction/social/use划分为不同的视图,做聚合的时候把边也考虑了进来)
2、有更多违约邻居的用户更可能是违约用户(所以可以通过聚合邻居的特征来表示用户)

模型:
根据relation划分multi-view graph,
分别在multi-view graph上做GAT聚合,聚合包括两个点和两点之间的边的属性,
再对不同的关系做attention聚合,得到用户最终表示
最后预测用户的违约概率

7、AddGraph

在这里插入图片描述
来自阿里的论文,他们提出Addgraph模型,将实际场景建模为同质图动态图。在Digg数据集上进行异常边的检测,数据集包含3w节点、8w边

假设: 认为图中存在的边是正常的边,对不存在的边进行采样认为是异常边。

模型:
按时间段划分 t 个快照图
使用gcn学习快照图中每个节点的表示
快照节点表示序列通过attention得到short embedding
当前快照和最后一个快照表示得到current embedding
通过GRU整合short/current embedding得到最终每个节点表示

通过最大化正常边和异常边之间的margin来得到损失

8、NetWalk

在这里插入图片描述
来自高校的论文,他们提出NetWalk模型,模型的主要思路是提出一种动态图embedding的方法,再用其节点表示进行异常检测。
作者在4个数据集上进行异常节点的检测,最大的数据集包含30w节点

假设:不属于某个图聚类的点为异常点

模型:
由网络中每个节点为起始节点,生成 walk
通过最小化每条walk的所有节点对距离和最小化自编码器的重构误差,来学习每个节点的向量表示。
通过聚类得到聚类中心点,计算新来的边/点到中心点的距离,来判断该边/点是否异常。

动态图 增量维护:
Network为每个顶点维持一个reservoir,存放的是对顶点邻居采样的集合,集合大小是固定的。
新来边的时候,针对里面的每个顶点,都会以概率p替换。删除边的时候只针对删除了的顶点进行替换。
然后,通过reservior去产生新的walk更新网络。

9、DOMINANT

在这里插入图片描述
来自高校的论文,他们提出DOMINANT模型,将实际场景建模为同质图,进行异常节点的检测。
数据:使用了三个数据集,最大数据集有1w个节点
假设:图重构过程中属性和结构信息丢失多的节点为异常节点

模型:
使用gcn对图中每个节点(带有属性)进行编码,
通过解码节点属性和图结构来学习图的结构和属性信息
最小化属性重构和结构重构的受损,得到每个用户的表示
对每个用户进行异常度打分 排序。

10、GraphConsis

在这里插入图片描述
来自高校的论文,他们提出GraphConsis模型,将实际场景建模为同质图,主要用来缓解图神经网络进行欺诈检测时的不一致问题。

数据:在垃圾邮件评论数据集上进行实验,包含4w多用户和7百多万边。

不一致问题:
针对3个不一致的解决方法:

11、PC-GNN

在这里插入图片描述
这篇来自阿里的论文,他们提出PC-GNN模型,将实际场景建模为同质图,主要用来解决图神经网络进行欺诈检测时的类别不平衡问题。

数据:在垃圾邮件评论数据集上进行实验,包含4w多用户和3百多万边。

类别不平衡时,如果欺诈用户聚合的邻居中有大量正常节点,就会将欺诈用户隐藏。(和上篇论文中上下文不一致类似)

12、TRUST

在这里插入图片描述
来自阿里的论文,他们提出TRUST模型,进行信用风险的预测,是一个基于元学习的半监督方法的欠抽样学习,可以解决样本不平衡问题。

数据:在阿里在线电子商务消费贷款数据上进行实验,有175万用户。

在该场景中,用户被分为3类,违约用户、良性用户、不确定用户(贷款了但还没到还款日期)

训练:
采样器W1从有标记的数据集Dk中采样一部分数据V,通过训练得到一个基本分类器F;
未标记的数据Du通过分类器F得到数据的label,再通过采样器w2
采样部分数据U;
用数据 V 和 U 来训练模型 F;
通过验证集Dv在模型F上的效果来进行反向传播;
循环这个过程直到收敛,整个迭代学习的过程是元学习的思想。

二、类别不平衡

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479444.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 220. 存在重复元素 III(lower_bound)

文章目录1. 题目2. 解题1. 题目 给定一个整数数组,判断数组中是否有两个不同的索引 i 和 j,使得 nums [i] 和 nums [j] 的差的绝对值最大为 t,并且 i 和 j 之间的差的绝对值最大为 ķ。 示例 1:输入: nums [1,2,3,1], k 3, t 0 输出: tr…

Android自定义控件入门实践之雷达扫描控件

以前因为工作的关系,对于自定义控件用的少之又少,无非就是把几个控件放置到ViewGroup内部,然后提供开放方法,就成了一个所谓的自定义控件,但是这种小伎俩太简单,面试的时候这点东西根本Hold不住场&#xff…

论文浅尝 | 基于知识图谱注意力网络的商品推荐

论文笔记整理:康矫健,浙江大学计算机科学与技术系,硕士研究生。论文链接:https://arxiv.org/pdf/1905.07854.pdf发表会议:KDD 2019任务定义输入:协同过滤知识图谱具体来说包括两个部分,其一是用…

Java 动态调试技术原理及实践

断点调试是我们最常使用的调试手段,它可以获取到方法执行过程中的变量信息,并可以观察到方法的执行路径。但断点调试会在断点位置停顿,使得整个应用停止响应。在线上停顿应用是致命的,动态调试技术给了我们创造新的调试模式的想象…

非常适合初学者的机器学习的数学基础笔记.pdf

本文推荐一份机器学习数学基础专辑,非常适合初学者入门,文末提供下载。机器学习,需要一定的数学基础,也需要一定的代码能力。机器学习从业者数学基础不扎实,只会用一些工具和框架,相当于某些武术家只会耍套…

LeetCode 1094. 拼车

文章目录1. 题目2. 解题1. 题目 假设你是一位顺风车司机,车上最初有 capacity 个空座位可以用来载客。由于道路的限制,车 只能 向一个方向行驶(也就是说,不允许掉头或改变方向,你可以将其想象为一个向量)。…

MySQL的锁机制和加锁原理

原文链接:https://blog.csdn.net/qq_38238296/article/details/88362999 文章目录 MySQL的锁机制和加锁原理1.行锁2.表锁3.页锁4.乐观锁和悲观锁4.1悲观锁4.2乐观锁5.1InnoDB锁的特性 6.Record Lock、Gap Lock、Next-key Lock锁6.1.Record Lock6.2.Gap Lock6.2.​…

CVPR 2019轨迹预测竞赛冠军方法总结

背景 CVPR 2019 是机器视觉方向最重要的学术会议,本届大会共吸引了来自全世界各地共计 5160 篇论文,共接收 1294 篇论文,投稿数量和接受数量都创下了历史新高,其中与自动驾驶相关的论文、项目和展商也是扎堆亮相,成为本…

TSNE画图

TSNE画图 2D图 from sklearn.manifold import TSNE import matplotlib.pyplot as plt import numpy as np# 10条数据,每条数据6维 h np.random.randn(10, 6) # 使用PCA降维到2维 tsne TSNE(n_components2, initpca, random_state0) result_2D tsne.fit_transfo…

深入探讨:为什么要做特征归一化/标准化?

文 | shine-lee源 | CSDN本文解读了一项数据预处理中的重要技术——特征归一化,提出并解答了5个相关问题,同时分析了相关方法和适用场景。写在前面Feature scaling,常见的提法有“特征归一化”、“标准化”,是数据预处理中的重要技…

LeetCode 950. 按递增顺序显示卡牌(deque)

文章目录1. 题目2. 解题1. 题目 牌组中的每张卡牌都对应有一个唯一的整数。你可以按你想要的顺序对这套卡片进行排序。 最初,这些卡牌在牌组里是正面朝下的(即,未显示状态)。 现在,重复执行以下步骤,直到…

技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来

本文作者为:韩旭、高天宇、刘知远。转载自刘知远老师的知乎专栏,文章链接:https://zhuanlan.zhihu.com/p/91762831最近几年深度学习引发的人工智能浪潮席卷全球,在互联网普及带来的海量数据资源和摩尔定律支配下飞速提升的算力资源…

Android 兼容 Java 8 语法特性的原理分析

本文主要阐述了Lambda表达式及其底层实现(invokedynamic指令)的原理、Android第三方插件RetroLambda对其的支持过程、Android官方最新的dex编译器D8对其的编译支持。通过对这三个方面的跟踪分析,以Java 8的代表性特性——Lambda表达式为着眼点…

由Actvity启动模式之SingleInstance引起的坑的反思

以前对于Activity的启动模式只限于文字说明理解的层面,但最近的一个问题让我对启动模式有了更深的了解。 Activity有四大启动模式:standard,singleTop,singleTask,singleInstance,这些启动模式的特点就不在这里细说,主要说一下SingleInstanc…

“李宏毅老师对不起,我要去追这门美女老师的课了” ,台大陈蕴侬深度学习课程最新资料下载...

估计很多同学看到台大首先想到是李宏毅老师的“深度学习人类语言处理”课程,不过这次我们说的是台湾大学陈蕴侬老师的“应用深度学习”课程,这门课程我们之前推荐过,不过主要给大家推荐的是课程视频和课件资源。前段时间,我把这门…

超级好用的使用python批量更新MYsql,速度从一万条需要一天变道一万条需要10分钟左右

推荐网址:https://www.jb51.net/article/100747.html MySQL批量插入的语法为: UPDATE nine_tupleSET SENTI_VALUE CASE N_T_ID WHEN 1 THEN ‘1.57’ WHEN 2 THEN ‘1.3’ WHEN 3 THEN ‘1.2’ END WHERE N_T_ID IN (1,2,3)主要思想:将42W条…

论文浅尝 | 使用位置敏感的序列标注联合抽取实体和重叠关系

论文笔记整理:余海阳,浙江大学硕士,研究方向为知识图谱、自然语言处理。链接:https://wvvw.aaai.org/ojs/index.php/AAAI/article/view/4591动机之前的联合抽取实体以及实体间的关系的方法,主要是采用管道模型&#xf…

LeetCode 938. 二叉搜索树的范围和(二叉树遍历+搜索剪枝)

文章目录1. 题目2. 解题递归剪枝中序遍历循环剪枝1. 题目 给定二叉搜索树的根结点 root,返回 L 和 R(含)之间的所有结点的值的和。 题目的意思,节点的值在[L, R]这个区间内,就加到结果里,求所有符合条件的…

OneData建设探索之路:SaaS收银运营数仓建设

背景 随着业务的发展,频繁迭代和跨部门的垂直业务单元变得越来越多。但由于缺乏前期规划,导致后期数仓出现了严重的数据质量问题,这给数据治理工作带来了很大的挑战。在数据仓库建设过程中,我们总结的问题包括如下几点&#xff1a…

Android远程服务与本地服务的特点以及功能差异

最近又重新看了点IPC的相关知识,以前看过不少Binder的知识,看到c层思路就很模糊了,回头再看也算是一种学习。 IPC全称为:interprocess communication内部进程间通信,官方地址:http://developer.android.com/intl/zh-c…