论文浅尝 | KR-GCN: 知识感知推理的可解释推荐系统

1dcbfa76684dd5a830071687b8995533.png

论文作者:马婷,中国科学院信息工程研究所直博生

动机

抽取并利用知识图谱(KG)中的多跳关系路径可以提高推荐系统的性能,并提供可解释性。然而,现有的工作仍面临着两个主要的挑战:用户偏好的错误传播和模型的弱解释性。提取并利用用户物品对之间的所有路径会引入不相关的路径,从而导致用户偏好的错误传播。尽管定义元路径在一定程度上可以缓解错误传播问题并提供一定的解释性,但模型的性能将严重依赖于预定义的元路径;最近一些基于GCN的模型在推荐任务上取得了较好的性能,但未能提供可解释性。为了解决上述问题,本文提出了KR-GCN,能够在提高推荐系统性能的同时,提供非预定义的DAG图形式的解释能力。

亮点

KR-GCN的亮点主要包括:

1.为了缓解错误传播问题,文章利用知识图谱表示方法计算三元组的打分,并采用核采样自适应地选择用户物品对之间的路径,以有效去除冗余信息。2.为了提升推荐的性能并保证解释的多样性,文章将用户物品交互数据和知识图谱结合构成一个异构图,利用图卷积网络学习异构图的表示,然后采用路径级的注意力机制来区分不同路径的贡献并预测最终的交互概率,提升最终解释的相关性。3.在三个数据集上进行实验,与基线模型相比,本文所提出的模型在性能上取得了一定的提升,同时,人工评估验证了KR-GCN 可信赖的解释能力。

53d9e9c002763ae2a3db59d4e763ab34.png

模型

KR-GCN包括四个模块:图编码模块、路径抽取与选择模块、路径编码模块和偏好预测模块。图编码模块旨在学习异构图中的节点表示,路径抽取与选择模块旨在从异构图中抽取出用户和物品之间的路径并从中选择出高质量的推理路径,路径编码模块用于学习推理路径的表示,偏好预测模块则根据推理路径来预测用户的偏好。

模型整体框架如下:

767339859e6edf74a080ea01c56e7cbe.png

•图编码

为了学习用户、物品和知识图谱中实体的表示,KR-GCN利用图表示模型GCN对包含用户物品交互数据和知识图谱的异构图进行编码。

55f2408909db82042dc175b96e940ba1.png

3606152364fdf9a181682617706f8a35.png

其中  和  是节点i在第 l层和l+1层的节点表示,  是i的第j个邻居节点在第 l层的表示,  为节点i的最终表示, α 表示第l层的权重,即第l层对最终目标节点表示的重要性。

•路径抽取与选择

本文在异构图上抽取用户物品对之间的多跳路径,用于获取用户的潜在兴趣的表示。然而考虑用户物品对之间的所有路径会涉及不相关的路径,导致错误传播问题。虽然定义元路径可以缓解错误传播的问题,但设计正确的元路径需要对特定领域的知识有深入的了解。为了解决错误传播和知识依赖问题,本文对用户物品对之间的不相关路径进行了修剪。对于用户物品对 (u, v),本文找到u和v之间的路径集合  。由于用户物品对之间的路径数量随着路径跳数呈指数增长,因此本文在提取路径时对跳数进行限制。

考虑到在知识图谱中迭代每个用户物品对之间的所有路径效率低下,本文采用启发式的路径搜索算法进行路径抽取和选择。具体地,我们设计了一种基于特征转换的方法来为三元组打分,并利用核采样在用户物品对之间的路径中自适应地选择三元组,我们使用  和  表示路径搜索中的第k-1跳和第k跳中的节点集合。对于节点集合  中的节点  ,我们在图中搜索它的邻居作为节点  的下一跳节点,对于邻居节点,通过知识图谱表示方法计算对应三元组  的分数,其中  是第k-1和k跳之间的三元组。在本文中,三元组的分数通过TransH计算得出。

在计算了三元组  的得分后,我们采用核采样在每个用户物品对之间的路径中自适应地选择三元组,TransH和核采样被用于进行路径排序和选择,滤低质量路径,进而解决路径上的错误传播问题。核采样旨在自适应地对候选概率分布的 top-p部分进行采样,我们的目标是降低低质量路径的分数并对其进行过滤。三元组内的语义关联(即置信度)越高,三元组的得分越高,那么路径被选中的概率越大,也就是说,得分较高的三元组对路径选择的贡献更大。

在每一跳,三元组从累积概率超过阈值的最小可能的三元组中选择,其中累积概率是通过对三元组的概率分数求和来计算的,采样的三元组的数量可以根据概率分布动态增加或减少,为了进行核采样,三元组分数被归一化用来计算三元组的概率。

f5e40fecae3964c4324e767e8598c3a5.png

其中  是  的分数,由TransH计算得出。给定第 k-1跳和第 k跳之间三元组的概率分布,被选择的三元组  被定义为满足以下条件的最小集合:

4dd658d81fdfe39edc5698311e2d22e2.png

其中p是概率阈值。然后选择  中的三元组作为推理路径中的推理三元组,在每一跳,以与上述相同的方式选择三元组,最后形成推理路径集合  来反映用户u的潜在兴趣,减轻错误传播的影响。

•路径编码

虽然  已经包含了u和v之间的路径信息,但是这些路径主要是针对物品v的,不能反映用户u的其他兴趣,为了挖掘用户的更多兴趣,我们将用户的历史交互与选择路径的进行结合来捕获选择的路径和用户历史交互之间的相互影响。

938043e22e0bc4d3791e66d0b03054de.png

KR-GCN 利用LSTM和注意力机制对选择的推理路径进行编码,该模块将图编码模块和路径抽取与选择模块的输出作为输入,图编码模块提供节点表示,路径提取和选择模块提供路径信息。由于路径中不同节点之间存在多跳关系信息和顺序依赖关系,因此该模块旨在捕获多跳关系信息并对每条路径内的顺序依赖关系进行编码。对于路径序列  :

30f07160d1d5a88dd53930b3c0e5d0da.png

11f721d8ece2ee0d9d5a442882050036.png

其中  是用户 u和物品v之间选择的路径  的表示, α 表示节点  对路径  的重要性,用户 u和物品v之间的多跳推理路径(或潜在关系)  由一组向量  表示,这些路径表示可以反映u的潜在兴趣传播。

•偏好预测

在推荐中,不同的路径通常对预测用户偏好的贡献不同,为了区分每个用户物品对之间不同路径对推理的不同贡献, KR-GCN采用了路径级的自注意力机制,学习每条路径上的路径权重,然后具有不同权重的多跳路径被聚合以表示用户的偏好。

9c6abdeb9c90eefef580b27e8ccc1379.png

d68fe2934c36b970761a4417cb8e4cff.png

其中  是路径集合  通过self-attention机制和max-pool操作的表示,最终的预测得分  为用户u与物品v的交互概率,即用户偏好预测得分。

实验

本文在Amazon-book,Yelp2018和Last-FM三个数据集上进行实验,KR-GCN 在三个数据集上的性能都优于基线模型,性能比较结果验证了 KR-GCN 的有效性。

25b132d02fdee3275b1f006da5c03c01.png

260f5a1c1f4ca14a73a0cb5a4d518643.png

91dda521990921c04c381b64b6493f93.png

与基线模型中的最佳性能结果(即Amazon-book中的JNSKR、Yelp2018和Last-FM 中的 KGAT)相比,KR-GCN的Recall@20分别提高了 4.9%,8.5% 和 2.5%,NDCG@20分别提高了4.4%,5.0% 和 2.1%。我们将所提KR-GCN 优越的推荐性能归因于利用图结构信息和语义信息,并选择了更有助于预测用户偏好的推理路径。

我们从Amazon-book中选择了一个示例来展示KR-GCN的可解释性,可以发现,与对比模型相比,KR-GCN 在用户和物品之间提供了更多类型的关系。

ee1d6d681fed0075afed5698585105c4.png

总结

本文提出了KR-GCN用于可解释性推荐,文章将用户物品交互数据和知识图谱集成到异构图中,并使用图卷积网络对异构图进行编码,为了解决图中的错误传播问题,文章设计了一种基于特征转换的方法对用户物品对之间的多跳路径内的三元组进行打分,并利用核采样自适应地选择三元组。为了提供可解释性,文章引入了路径级的自注意力机制来区分不同选择路径的贡献并预测交互概率,同时提供权重最高的路径作为推荐的解释。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

eea64fdfc440ad8d77c98e51fa051ae2.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477654.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达,确诊新冠阳性!

编 | 好困 袁榭源 | 新智元【导读】当代人工智能领域最权威的学者之一吴恩达,于2022年2月8日晨在自己推特上宣布新冠检测结果阳性,不过症状轻微。北京时间,2022年2月8日早上6点,吴恩达新冠病毒检测呈阳性。吴恩达表示,…

Spring Cloud Config采用Git存储时两种常用的配置策略

由于Spring Cloud Config默认采用了Git存储,相信很多团队在使用Spring Cloud的配置中心时也会采用这样的策略。即便大家都使用了Git存储,可能还有各种不同的配置方式,本文就来介绍一下两种常用的配置策略。 第一种:多个项目公用一…

图谱实战 | 城市大脑知识图谱构建及应用研究

转载公众号 | 专知随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题 进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大…

震惊!三个万引大佬嘴仗,原来是为了他……?

文|白鹡鸰想把小轶挂到三作编|小轶已把白鹡鸰挂到三作这本应是白鹡鸰在小轶追杀下游刃有余拖稿的一天,结果小轶再次把一篇新论文喂到了我的嘴边。象征性地打开论文,草草扫过去,嗯,迁移学习,嗯&a…

LeetCode 611. 有效三角形的个数(双指针)

1. 题目 给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。 示例 1: 输入: [2,2,3,4] 输出: 3 解释: 有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3注意: 数组长度不超过1000。 数组里整数的范围为 [0, 1000]…

Eureka 2.0 开源流产,真的对你影响很大吗?

最近连续发烧四天,偶尔刷两下朋友圈都能看到好几条来自不同号的关于《Eureka 2.0开源工作宣告停止,继续使用风险自负》的推文。主要内容如下: 近日,知名服务注册与服务发现工具 Eureka 的 GitHub Wiki 上显示其 2.0 版本的开源工作…

会议交流 | 知识图谱开源开放及生态——7月12日TF65

转载公众号 | 中国计算机学会本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学、南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱、知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用…

LeetCode 650. 只有两个键的键盘(DP)

1. 题目 最初在一个记事本上只有一个字符 ‘A’。你每次可以对这个记事本进行两种操作: Copy All (复制全部) : 你可以复制这个记事本中的所有字符(部分的复制是不允许的)。Paste (粘贴) : 你可以粘贴你上一次复制的字符。 给定一个数字 n 。你需要使用最少的操作…

10个开源工业检测数据集汇总

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Hystrix降级逻辑中如何获取触发的异常

通过之前Spring Cloud系列教程中的《Spring Cloud构建微服务架构:服务容错保护(Hystrix服务降级)》一文,我们已经知道如何通过Hystrix来保护自己的服务不被外部依赖方拖垮的情况。但是实际使用过程中经常碰到开发反应“莫名”触发…

大厂生存36计

本文授权转载自公众号“算法圈的小破事”,点击以上卡片进行关注大家好,我是在互联网危险边缘疯狂试探的皮皮虾。互联网大厂就像一座围城,外面人想进去,里面的人想出去。里面的人说又累又不好混,外面的人觉得里面的人舒…

开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址:http://openkg.cn/dataset/gakg网站地址:https://gakg.acemap.info/论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:王新…

LeetCode 468. 验证IP地址

1. 题目 编写一个函数来验证输入的字符串是否是有效的 IPv4 或 IPv6 地址。 IPv4 地址由十进制数和点来表示,每个地址包含4个十进制数,其范围为 0 - 255, 用(".")分割。比如,172.16.254.1; 同时&#xff…

Spring Cloud Config采用数据库存储配置内容【Edgware+】

在之前的《Spring Cloud构建微服务架构:分布式配置中心》一文中,我们介绍的Spring Cloud Server配置中心采用了Git的方式进行配置信息存储。这一设计巧妙的利用Git自身机制以及其他具有丰富功能的Git服务端产品,让Spring Cloud Server在配置存…

颤抖吧,打工人!深信服推出员工离职倾向、工作摸鱼监测系统!

文 | 金磊 杨净(发自凹非寺)源 | 量子位前脚投简历,后脚就被精准裁员。一位网友最近就爆出了这样一段真实经历,而且还称被领导教育了一通:别以为你上班干啥我都不知道,你啥时候想走我都一清二楚&#xff01…

征稿 | “知识图谱赋能的知识工程:理论、技术与系统”专题投稿截止时间延长至2022年7月25日...

转载公众号 | 计算机科学编辑部征稿“知识图谱赋能的知识工程:理论、技术与系统”专题知识图谱(Knowledge Graph)方法与技术是人工智能在知识工程领域发展的最新前沿。知识图谱正在“感知智能”迈向“认知智能”的过程中扮演着重要角色。近年…

LeetCode 93. 复原IP地址(回溯)

1. 题目 给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式。 示例: 输入: "25525511135" 输出: ["255.255.11.135", "255.255.111.35"]来源:力扣(LeetCode) 链接:http…

为什么回归问题用MSE?

文 | Matrix.小泽直树最近在看李沐的实用机器学习课程,讲到regression问题的loss的时候有弹幕问:“为什么要平方?”如果是几年前学生问我这个问题,我会回答:“因为做回归的时候的我们的残差有正有负,取个平…

Spring Cloud Config Server迁移节点或容器化带来的问题

如果您跟我一样,目前正在使用Spring Cloud Config做为配置中心的话,本篇将来要描述的问题,强烈推荐了解和关注!因为这个问题目前存在于所有的版本中,还没有完全修复。 问题现象 为了说明下面的内容,我们可…

开源开放 | 面向家庭常见疾病的知识图谱(东南大学)

OpenKG地址:http://openkg.cn/dataset/medicalgraph开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(王之畅,罗卓彦,朱启鹏,朱浩嘉,王湘源&#xf…