GCN-Based User Representation Learning for Unifying Robust
Recommendation and Fraudster Detection
点击率预测:其主要思想是根据用户的历史行为对一组未评级的项目进行评级预测,然后从预测评级最高的项目中选择个性化推荐。
欺诈检测:推荐系统的评论评级数据通常来自于开放平台,这可能会吸引一群恶意用户故意插入虚假反馈,使推荐系统偏向于自己。(此类攻击的出现可能会违反建模假设,即高质量的数据总是可用的,这些数据真实地反映了用户的兴趣和偏好。)
GCN:图卷积神经网络,用来做推荐任务,可以很好的利用rating图的局部结构信息和用户本身的信息来学习用户的表示。
NRF:神经随机森林,用来做异常检测任务,NRF是一个很好的分类器。
在其端到端学习过程中,用户在欺诈者检测组件中被识别为欺诈者的概率自动决定该用户的评级数据在推荐组件中的贡献;而在推荐分量中输出的预测误差是欺骗者检测分量中的一个重要特征。因此,这两个组成部分可以相互增强。
item表示的学习:
user,item 二部图
zv: item emb 随机初始化 (user emb 不是随机,而是根据特征初始化)
er: rating emb
‘+’ : concatenation
g : MLP
wb:参数
6 : relu激活函数
agg: 整合函数,最简单的比如求平均,这里使用attentaion机制
user表示的学习:
zu: user emb ,根据特征初始化
g‘:l - lyear MLP
r: user 对 item 的评分
在异常检测的时候,加入error u 的原因:认为正常用户是更加稳定和可预测的,异常用户的预测误差会更大。所以error就可以给异常检测提供一个强有力的信号。
zu*: dence emb , NRF的输入
决策节点d:有一个决策函数fd,决定接收到的input zu将被转发到左子树还是右子树
叶节点p:预测节点节点,遵循概率分布 p
有o个决策树,每个决策树都是标准的二叉树
点击预测:加入了异常概率作为权重
异常检测:user emb 加入了误差信息
联合训练:超参数平衡两个任务权重