文章目录
- Introduction
- 2. 相关工作
- 3. 本文的model
- 3.1 Preliminaries
- 3.2建立问题
- 3.3闲鱼图上的异构卷积网络
- 3.3.1Aggregation Sub-layer
- 3.3.2 Time-related Sampling
- 3.3.4将图形网络与文本分类模型相结合。
- 3.4 GCN-based反垃圾邮件模式
- 4.实验
Introduction
ppt
- 任务:垃圾邮件检测
- 挑战
- 大规模数据
- 1e9 items
- 1e7 users
- 敌对行为
- 伪装
- 拨打此号码进行兼职工作
- 变形评论
- Add my vx
- Add my vx
xianyu==闲鱼
- 闲鱼的评论发生在购买之前(交流
- 反垃圾邮件系统的一大挑战:是识别垃圾邮件发送者设计的各种模式。
- 通过介绍评论的上下文可以减轻敌对行动的影响。
- 上下文定义为两类:局部上下文和全局上下文。
- 局部上下文是指来自发布者和相关项目的信息,而
- 全局上下文是指所有评论的特性分发所提供的信息。
- GAS:GCN-based Anti-Spam method在这项工作中,我们提出了一种基于图卷积网络(GCN)的高度可扩展的反垃圾邮件方法,称为基于GCN的反垃圾邮件方法
- 本文贡献:
- 提出了一种基于gcn的异构图垃圾邮件检测算法,该算法适用于在闲鱼上具有边属性的二部图。一种基于元路径[23]的异构GCN算法,用于各种异构图和应用。
- 除了利用局部评论上下文的异构图外,我们还利用全局上下文并提出了自己的解决方案–GAS
- 我们使用分布式部署所提出的反垃圾邮件模型Tensorflow框架每天处理成千上万的评论。根据离线实验和在线评估,我们的系统在满足效率要求的同时,显著地识别出更多的垃圾评论,减轻了对抗行为的影响
2. 相关工作
- 大多数现有的垃圾邮件检测方法侧重于从评论内容或评论行为中提取健壮的工程特性。
- [7]研究了评论内容的重复来检测垃圾评论。他们收集了以评审为中心、以评审者为中心和以产品为中心的特性,并将它们输入逻辑回归模型。
- [17]仅仅关注于评论的内容。作者使用三种策略作为朴素贝叶斯和支持向量机分类器。
- [13]总结了意见挖掘领域专家的特征,并设计了一套详细的特征对意见挖掘领域专家进行分类。
- 缺陷:这些以功能为中心的方法忽略了评论者、商品和评论之间的关系。然而,根据我们的观察,关系在垃圾邮件检测中也扮演着重要的角色。例如,垃圾邮件广告通常由垃圾邮件发送者成组发布。
- —关系很重要
- 使用图的
- 基于类似的观察,一些学者开始利用图信息。
- 第一个基于图的垃圾邮件检测方法以[26]。他们用三种类型的节点构建了“审查图”——审查者、存储和审查。然后以一种类似于[10]的方式加强了审核的可信度、存储的可靠性和审核的真实性。
- Liang等人使用了两种图:一种是上面提到的异质图,另一种是表示评论者之间的支持或冲突关系。
- Soliman[22]提出了一种新的基于图的技术,该技术在一个已构建的用户相似图上使用图聚类来检测垃圾邮件,该相似图在其拓扑结构中编码用户行为模式。
- GCN
- 近年来,开发基于图的深度学习算法的兴趣日益浓厚,包括无监督方法[5,12,18]和监督方法[6,9,11,25]。
- 其中最显著的进展之一是GCN[9],它将节点的特征从本地邻居聚集起来。将“图卷积”算子定义为一跳邻居的特征集合。通过迭代卷积,信息在图中传播多个跃点。与之前的图形挖掘方法(如DeepWalk[18])相比,GCN实现了显著的改进。
- William等人[6]提出了GraphSAGE,这是一个归纳框架,利用节点采样和特征聚合技术,有效地为不可见数据生成节点嵌入,这打破了在转换设置中应用GCN的限制。
- 图注意网络(GAT)[25]将注意机制整合到GCN中。通过计算节点之间的注意系数,GAT允许每个节点将注意力集中在最相关的邻居上,从而做出决策。
- –上面都是同构图
- 异构图
- EAGCN[20]使用注意机制计算异构节点嵌入。该模型着重于图中连接节点的多种类型的链接的情况。作者建议使用“多注意力”——每个注意力函数只考虑由特定链接类型定义的邻居。
- GEM[14]关注的是存在多种类型节点的情况。作者提出了一种注意机制来学习不同类型节点的重要性。具体来说,他们将图按节点类型划分为子图,并计算每个子图对整个系统的贡献作为注意系数。
- 本文第一次将GCN用于垃圾检测
3. 本文的model
先介绍如何扩展异构图的GCN算法,然后通过进一步结合全局上下文来演示GAS
3.1 Preliminaries
- 以前都关注同构图
- 基于gcn的方法遵循分层传播方式。在每个传播层中,所有节点同时更新。 如[28,29]所述,传播层可以分为两个子层:聚集层和组合层。
- 第l层聚合和组合层表示为
其中N(v)是v相邻的一组节点,AGG是节点v相邻节点的聚合嵌入函数,该函数可由特定模型定制,如max-pooling、mean-pooling[6]或基于注意的加权求和[25]。wl是一个可训练的矩阵,在第l层的所有节点之间共享。σ是一个非线性激活函数,例如,Relu。hlN (v)表示第l层节点v邻居的聚集特征。
使用COMBINE函数来组合自嵌入和邻居的聚合嵌入,这也是针对不同图形模型的自定义设置,如GraphSAGE[6]中的拼接。
3.2建立问题
- 闲鱼图:
- 二部图G(U, I, E),U-用户,I-产品,E-评论(边)
- 邻居N(i) ∈ U and N(u) ∈ I
- U (e) and I (e) :设U (e)和I(e)分别表示e边的用户节点和项节点。
3.3闲鱼图上的异构卷积网络
- 在同构图上基于gcn的节点分类任务中,使用来自最后一层的节点嵌入作为分类器的输入
- 我们利用来自最后传播层的边缘嵌入以及该边缘链接到的两个节点的嵌入。
- 我们将这三个嵌入连接起来进行边缘分类
- 闲鱼图上的异构卷积网络
- Aggregation Sub-layer
- Combination Sub-layer
- Time-related Sampling
3.3.1Aggregation Sub-layer
- E:使用TextCNN模型获得评论嵌入(一起训练)
对于用户节点u∈u和项目节点i∈i,除了收集邻居节点的信息外,还收集与其相连的边的属性 - 聚合邻居嵌入:
- 对于每个项目/用户节点,我们对固定数量的邻居进行抽样,以形成一个小型的批处理馈送矩阵
3.3.2 Time-related Sampling
- 需要在一次迭代中更新所有实体的整批训练在大量数据上是不切实际的,因为这会消耗时间。考虑到闲鱼图的规模,小批量训练策略更合适。
- 根据时间选择最接近的M个评论
- 选择最接近的注释比随机抽样更合理
- 当候选对象的数量小于M时,用占位符填充它们
- 填充比重采样更合理(避免改变邻域分布)
- 填充比重采样更合理(避免改变邻域分布)
3.3.4将图形网络与文本分类模型相结合。
- 使用TextCNN模型获得评论嵌入
- TextCNN的参数与其他参数一起训练
3.4 GCN-based反垃圾邮件模式
-
全局上下文–评论图
-
问题
- 对人类阅读来说,垃圾邮件只有轻微影响,但往往混淆我们的NLP模型
- 性能很难从增加传播层的数量中获益
-
解决方案
- 评论图:构建一个齐次图命名图通过连接具有类似内容的评论
- 齐次图上的GCNs可以看作是拉普拉斯平滑的一种特殊形式。
- 节点的特征可以被它的邻居平滑化
- 利用近似KNN图算法[3]构造基于K近邻节点的图。
- 构造
- 删除所有重复的注释,以避免繁琐的解决方案
- 生成评论嵌入
- 利用近似KNN图算法得到相似的评论对
- 删除由同一用户发布的评论对或在同一项下发布的评论对,因为在Xianyu Graph上考虑了本地上下文。
- 评论图:构建一个齐次图命名图通过连接具有类似内容的评论
-
各种垃圾邮件评论可以通过集成它们的邻居的特性来平滑。
-
通过定量分析,证明了经过平滑处理后的评论更具有可分性。两个逻辑回归模型在图6中的原始嵌入和平滑嵌入上进行了培训和测试。AUC和f1评分见表1。
结果表明,经过平滑处理后,样品的线性可分性得到改善。这种改进表明,基于平滑嵌入的分类器性能更好。