论文浅尝 | DSKReG:基于关系GNN的推荐知识图谱可微抽样

06e7a12173c9361c3707cf53d92e08ee.png

笔记整理:李爽,天津大学硕士

链接:https://dl.acm.org/doi/pdf/10.1145/3459637.3482092

动机

在信息爆炸的时代,推荐系统被广泛研究和应用,以发现用户的偏好信息。RS在冷启动时性能较差,如果将知识图谱(Knowledge graph, KG)作为辅助信息,可以缓解冷启动问题。然而,现有的研究大多忽略了KGs中的节点度是偏移的,并且在KGs中的大量交互是推荐不相关的。为了解决这些问题,本文提出了基于关系GNN的推荐知识图谱可微抽样(DSKReG),该方法从KGs中学习连通项的相关分布,并根据该分布选取适合推荐的项目。作者设计了一种可微抽样策略,使相关项目的选择与模型训练过程共同优化。实验结果表明,该模型的性能优于目前最先进的基于KG的推荐系统。

亮点

DSKReG的亮点主要包括:

1.根据关联关系和项目类型计算相关分数进行抽样,可以引导模型选择推荐相关的项目;2.设计一种可微抽样策略,使得模型在优化的同时细化抽样过程。

概念及模型

模型的整体框架如下图所示。

82a88091152e6fb26cb1c8f0a71fe36a.png

•问题定义

知识感知推荐的目标是预测用户u是否对给定历史交互和KG的项目v有兴趣。在形式上,用户U与项目V的历史交互被表示为用户-项目二部图 adfcc93fc7de5d032b0a3516f8f0cce6.png。KG包含与项目相关的属性,如电影的类型、导演和演员。作者将KG格式化为有向异构图fa36107ca11292a3bd0cf7301afc98d9.png,例如(James Cameron, isdirectorof, Titanic),其中E和R分别表示实体和关系的集合。因此,知识感知的推荐任务可以形式化为:

aa4ceb22f163f2ce3013e549e29c38a2.png

•关系的邻居构建

节点度偏度限制了KG中稀疏连接的节点的可用邻居项目池。作者提出了“协同交互”模式来建立高阶项目与项目之间的关系,从而缩短相关项目之间的路径距离。从输入KG   中提取协同交互模式,构造一个具有新的协同关系集的项目-项目协同交互无向图  ,其定义如下:

在这些关系的访问之后,将具有协同交互模式的项目连接起来,并构造如框架图(a)所示的项目-项目图。这样可以直接连接高阶邻域,避免接收域的指数增长。将用户-项目二部图  和项目-项目协同交互图  统一为一个关系图。

•可微的抽样

引入可微抽样的邻居选择。交互关系对推荐的相关性因用户而异,并且交互关系是不平衡的。这就带来了一个问题:当潜在邻居池很大时,高度相关的邻居就会减少。为了过滤噪声,保留真正的相关信息,作者引入关系感知采样方法,从关系的角度分配权重。抽样过程首先为每个项目定义一种新的关系感知的相关性得分分布,然后对其进行抽样。项目i的关系感知相关性分数分布  定义如下:

acf1ca093e8a80ae347b6adbfd0da203.png

关联项和邻接项共同决定了其邻接相关概率,强调了抽样相关计算中关系感知的必要性。

考虑到计算出的相关性分布,只选择top-k最相关的项。为了使该过程具有可微性并与优化过程相结合,应用Gumbel-Softmax重参数化技巧:

05ad50ee9b147d83867468d6d18cb5da.png

•偏好感知聚合

在top-k邻居消息传播过程中,除了考虑关系因素外,还应考虑用户偏好。由于用户可能对各种关系有不同的偏好,所以在聚合中考虑这些关系。项目i的嵌入如下:

5d307e52d3e9a83e53d0c87ecf19f705.png

49a7bcb9577b91a38ac8ec1f788d0d99.png

•预测和优化

使用点积生成用户u对项目i的偏好分数,并推断出用户/项目嵌入分别为  和  。预测计算如下:

d87fdac65e320b3461dbaf8ed30710c1.png

使用成对BPR损失优化top-N推荐:

d6914833ce307b44bfdfb349a74f7744.png

理论分析

实验

作者在三个基准数据集Last.FM, BookCrossing和MovieLens-Sub上进行了实验。为了评估top-N推荐和偏好排名的性能,使用三个标准指标:Recall, Precision和NDCG。分别计算前5项、前10项和前20项的Recall、Precision和NDCG。

0e86768c47e9168a4a0252e949954646.png

如上表所示,本文的模型DSKReG在大多数情况下显著优于最先进的方法。与最强的基线模型相比,DSKReG模型在Last.FM上对于Recall、Precision和NDCG平均分别提高了7.73%、6.2%和9.03%的性能。同样,在BookCrossing上的表现比最佳基线模型高出9.43%、4.97%和19.83%。在MovieLens-Sub数据集上,分别提高了11.47%、15.60%和45.47%的性能。这些结果表明了模型的有效性。令人惊讶的是,DSKReG模型显著提高了NDCG。其中,NDCG@20在三个数据集上分别提高了14.2%、32.0%和37.5%。由于NDCG考虑了位置重要性和项目数来衡量推荐质量,这些结果显示了DSKReG模型在推荐方面的优越性。

作者还做了几个消融实验。

1、关系感知抽样的效果

1730515542c915c02c1fccbe5bea37ce.png

实验结果如图2所示,结果表明,在Last.FM和MovieLens-Sub上GS的性能优于其他抽样方法。在BookCrossing上,使用L2距离和内积度量的方法可以获得与GS类似的结果。原因可能是这个数据集中的项目之间的关系相对简单,L2距离和内积度量足以建模项目关系。然而,在处理复杂的物品关系方面,GS明显优于其他指标。

2、抽样规模的影响

c3f55ac60ed09e24ff27f61f5ae3a90e.png

为了检验邻域大小的有效性,作者使用不同的K进行实验,K是采样后邻域的大小。如图3所示,Last.FM、BookCrossing和MovieLens-Sub的最佳邻居大小是8。这表明只有一小部分项目是相关的。本文的模型可以为聚合选择有价值的信息,使得模型在只有8个邻居的情况下获得最佳性能。

总结

文章提出了一种新的框架DSKReG来缓解基于KG的推荐节点度偏移和干扰交互的限制。DSKReG是一种基于采样的关系GNN,它从KGs中提取与推荐相关的信息。作者设计了一种可微分的DSKReG采样策略,并与模型共同优化,学习如何选择top-k相关项目进行聚合。作者在三个公共数据集上进行实验,验证了DSKReG在提高推荐性能方面的有效性。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

6eda2d49dd7ca3a3db3b1f76d3c12976.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477800.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据开放平台的配置管理

背景 美团是数据驱动的技术公司, 非常重视使用数据的效率。为了达到这个目标,我们将数据以开放平台的形式开放给需求方。例如,帮助需求方开发报表的报表开放平台,帮助需求方获取数据的自助查询平台,让需求方参与数据建…

LeetCode 1271. 十六进制魔术数字(进制转换)

1. 题目 你有一个十进制数字,请按照此规则将它变成「十六进制魔术数字」:首先将它变成字母大写的十六进制字符串,然后将所有的数字 0 变成字母 O ,将数字 1 变成字母 I 。 如果一个数字在转换后只包含 {“A”, “B”, “C”, “…

评测任务征集 | 全国知识图谱与语义计算大会(CCKS 2022)

评测任务征集全国知识图谱与语义计算大会(CCKS 2022)2022年8月25-28日,秦皇岛http://sigkg.cn/ccks2022/全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and SemanticComputing)由中国中文信息…

SegmentFault 美团云采访实录

约半年前,美团悄然上线了美团云(Meituan Open Services,简称MOS),这是美团网根据自身虚拟化平台开发和运维经验开放的云计算服务,类似AWS。 美团 CEO 王兴可能是中国最知名的连续创业者,曾创办校…

开局一段扯,数据全靠编?真被一篇“神论文”气到了

文 | 苏剑林(追一科技)编 | 智商掉了一地看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!!这篇文章谈一下笔者被…

LeetCode 147. 对链表进行插入排序(链表)

1. 题目 对链表进行插入排序。 插入排序的动画演示如上。从第一个元素开始,该链表可以被认为已经部分排序(用黑色表示)。 每次迭代时,从输入数据中移除一个元素(用红色表示),并原地将其插入到…

征稿 | 软件学报专刊征文:知识赋能的信息系统

伴随着人工智能的浪潮,智慧信息系统的发展方兴未艾,正处于由感知智能到认知智能转变的关键时期。要实现认知智能的系统跃升,离不开知识的赋能。在数字化转型背景下,数据对象和交互方式的日益丰富和变化,对以知识图谱为…

基于Flume的美团日志收集系统(二)改进和优化

在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。 …

LeetCode 462. 最少移动次数使数组元素相等 II(数学)

1. 题目 给定一个非空整数数组,找到使所有数组元素相等所需的最小移动数,其中每次移动可将选定的一个元素加1或减1。 您可以假设数组的长度最多为10000。 例如: 输入: [1,2,3] 输出: 2说明: 只有两个动作是必要的(记得每一步仅可…

embedding亦福亦祸?XGBoost与LightGBM的新机遇

文 | 水哥源 | 知乎Saying1. 小的性能差异在容易实现面前一文不值,这一点是XGBoost和LightGBM的最大优势2. 没能与embedding很好地结合无疑是树模型的灾难,吃不下巨量的新数据,也打不过DNN,除了一些规模比较小的公司,树…

论文浅尝 - ACL2022 | 面向推理阅读理解的神经符号方法

转载公众号 | 南大Websoft概述近两年来NLP领域出现了一些富有挑战性的机器阅读理解数据集,如ReClor和LogiQA。这两个数据集中的问题需要对文本进行逻辑推理,然而传统的神经模型不足以进行逻辑推理,传统的符号推理器不能直接应用于文本。为了应…

LeetCode 1026. 节点与其祖先之间的最大差值(二叉树DFS)

1. 题目 给定二叉树的根节点 root,找出存在于不同节点 A 和 B 之间的最大值 V,其中 V |A.val - B.val|,且 A 是 B 的祖先。 (如果 A 的任何子节点之一为 B,或者 A 的任何子节点是 B 的祖先,那么我们认为…

凭“难听”上热搜的 idol 们,不如考虑下让 Transformer 帮您作曲?

视频制作 | 白鹡鸰编 | 小轶考虑到 “AI 音乐”这一主题的特殊性,唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是,小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上,才得以完成这次视频。然而在上周的推送中,不知…

YUI3在美团的实践

美团网在2010年引爆了团购行业,并在2012年销售额超过55亿,实现了全面盈利。在业务规模不断增长的背后,作为研发队伍中和用户最接近的前端团队承担着非常大的压力,比如用户量急剧上升带来的产品多样化,业务运营系统的界…

论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练

论文题目:OntoProtein: Protein Pretraining With Gene Ontology Embedding本文作者:张宁豫(浙江大学)、毕祯(浙江大学)、梁孝转(浙江大学)、程思源(浙江大学&#xff09…

LeetCode 540. 有序数组中的单一元素(位运算二分查找)

1. 题目 给定一个只包含整数的有序数组,每个元素都会出现两次,唯有一个数只会出现一次,找出这个数。 示例 1: 输入: [1,1,2,3,3,4,4,8,8] 输出: 2示例 2: 输入: [3,3,7,7,10,11,11] 输出: 10注意: 您的方案应该在 O(log n) 时间复杂度 和 O…

迁移Prompt–解决Prompt Tuning三大问题!

文 | Harris刘鹏飞博士将近代NLP的研究划归为四种范式 [1] 并把预训练语言模型加持下的Prompt Learning看作是近代自然语言处理技术发展的“第四范式”。当我们使用新范式的方法的时候,能够意识到它带来的优异性可能是以某种“人力”牺牲为代价的。而如何让这种人力…

征文 | 2022年全国知识图谱与语义计算大会(CCKS 2022) 征稿通知

2022年全国知识图谱与语义计算大会征稿通知Call for Papers2022年8月25日-28日,秦皇岛征稿截止: 2022年5月22日第十六届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语…

Spring Cloud 和 Dubbo 哪个会被淘汰?

今天在知乎上看到了这样一个问题:Spring Cloud 和 Dubbo哪个会被淘汰?看了几个回答,都觉得不在点子上,所以要么就干脆写篇小文瞎逼叨一下。 简单说说个人观点 我认为这两个框架大概率会长期都存在。 时至今日,这两个…

DNN与推荐两大门派,一念神魔,功不唐捐

文 | 水哥源 | 知乎Saying1. embeddingDNN范式有两个流派,一个更关注DNN,叫逍遥派;一个更关注embedding,叫少林派2. embeddingDNN这种结构中,embedding一般是模型并行;DNN一般是数据并行3. 逍遥派能够创造奇…