神经图协同过滤
论文链接:Neural Graph Collaborative Filtering, SIGIR’19
原理:在 user-item interaction graph 上使用 GNN 来学习 user 向量和item 向量,用户向量和项向量的内积来预测评分。
区别:
- 大部分论文使用 GNN 只是学习 user 向量,这篇论文的 item 向量也是使用GNN学习的
- 大部分论文是在知识图谱KG或者社交网络Social Network上使用GNN,这篇论文是在用户-项交互二部图上使用GNN
1. 摘要
学习 users 和 items 的向量表示是现代推荐系统的核心。
从早期的矩阵分解到最近出现的基于深度学习的方法,现有的工作通常通过从描述用户(或项目)的现有特性(如ID和属性)映射来获得用户(或项目)的嵌入。
我们认为,这种方法的一个固有缺点是,隐藏在用户-项目交互中的协作信号
没有在嵌入过程中编码。因此,由此产生的嵌入可能不足以捕获协作过滤效果。
在这项工作中,我们建议将用户-项目交互更具体地集成到嵌入过程中二部图结构
。提出了一种新的推荐框架神经图协同过滤算法(NGCF),该算法利用用户项图的结构,在用户项图上传播嵌入
。这就导致了用户项图中高阶连通性的表达建模,有效地将协作信号显式地注入到嵌入过程中。
2. 模型架构
(1)嵌入层:提供用户嵌入和项嵌入初始化;
(2)多嵌入传播层:通过注入高阶连通性关系来细化嵌入;
(3)预测层:整合来自不同传播层的细化嵌入,输出用户-项目对的亲和度得分。
2.1 Embedding Layer
用嵌入向量 eu∈Rd (ei∈Rd) 来描述用户 u (项目 i ),其中 d 表示嵌入大小。(ID嵌入)
E = [eu1,···,euN, ei1,···,eiM]
2.2 Embedding Propagation Layers
构建GNNs的消息传递体系结构,以便沿着图结构捕获CF信号并细化用户和项的嵌入。
2.2.1 First-order Propagation
直观上,与用户交互过的项目可以体现用户的偏好,类似的,与项交互过的用户也可以看作是项的特性,并且可以用于度量两个项目之间的协作相似性。
Message Construction
对于一个连接的 user-item 对,我们定义从 i 到 u 的信息嵌入
mu←i为:
W1,W2∈Rd’×d为可训练权矩阵,提取有用信息进行传播,d '为转换大小。
Nu,Ni 表示用户 u 和项目 i 的第一跳邻居,
括号前面的是系数是拉普拉斯标准化,从表示学习的角度,反映了历史项目对用户偏好的贡献程度。从消息传递的角度来看,可以解释为折扣因子,因为所传播的消息应该随着路径长度而衰减。
在考虑信息嵌入时,不是只考虑了项目的影响,而且将 ei 和 eu 之间的相互作用额外编码到通过 ei⊙eu 传递的消息中。这使得消息依赖于 ei 和 eu 之间的亲和力,例如,从相似的项传递更多的消息。
Message Aggregation
在此阶段,我们整合从 u 的邻域传播的消息,以改进 u 的表示:
e(1)u 是用户 u 在一阶嵌入传播层获得的表示
除了从邻居 Nu 传播的消息外,还考虑了 u 的自连接:mu←u = W1eu,保留了原始特征的信息。
类似地,我们可以通过从其连接的用户传播信息来获得项目 i 的表示形式 e(1)i。
2.2.2 High-order Propagation
通过堆叠 l 嵌入传播层,用户(和项)能够接收从其 l-hop 邻居传播的消息。在第 l 步中,用户 u 的表示递归式为:
Propagation Rule in Matrix Form
为了提供嵌入传播的整体视图,方便批量实现,提供了分层传播规则的矩阵形式:
E(l) ∈ R(N+M)×dl 是用户和项经过 l 步嵌入传播后得到的表示
I 表示一个单位矩阵
L 表示用户-项目图的拉普拉斯矩阵:
R ∈ RN×M 为用户-项目交互矩阵
0 为全 0 矩阵;
A 为邻接矩阵,D 为对角度矩阵,其中第 t 个对角元素 Dtt = |Nt |,这样 Lui 就等于之前的系数 pui
2.3 Model Prediction
由于在不同层中获得的表示强调通过不同连接传递的消息,所以它们在反映用户偏好方面有不同的贡献。
因此,将它们串联起来,构成用户的最终嵌入;对 item 也做同样的操作。
其中||为串联操作。除了连接,其他聚合器也可以应用,如加权平均、最大池、LSTM。使用串联在于它的简单性,不需要学习额外的参数,而且已经被非常有效地证明了。
最后,我们进行内积来估计用户对目标物品的偏好:
2.4 Optimization
optimize the pairwise BPR loss
它考虑观察到的和未观察到的用户-项目交互之间的相对顺序。具体地说,BPR 假设用户引用的已观察到的交互作用应该比未观察到的交互作用具有更高的预测值。目标函数如下: