论文浅尝 | KGQR: 用于交互式推荐的知识图谱增强Q-learning框架

1f22ee4937fc80633a8f2f36b1441593.png

笔记整理:李爽,天津大学

链接:https://dl.acm.org/doi/pdf/10.1145/3397271.3401174

动机

交互式推荐系统(IRS)以其灵活的推荐策略和考虑最佳的长期用户体验而备受关注。为了处理动态用户偏好,研究人员将强化学习(reinforcement learning,RL)引入到IRS中。然而,RL方法有一个普遍的样本效率问题,即训练有效的推荐策略需要大量的交互数据,这是由于稀疏的用户响应和由大量候选项组成的大的行为空间造成的。此外,在网络环境中,通过探索性政策收集大量数据是不可行的,这可能会损害用户体验。在这项工作中,作者研究了利用知识图谱(KG)来处理IRS RL方法存在的这些问题,它为推荐决策提供了丰富的侧面信息。在两个真实世界的数据集上进行全面的实验,证明了作者提出的方法与先进技术相比有显著的改进。

亮点

KGQR的亮点主要包括:

1.通过利用KG中的先验知识进行候选项选择和从稀疏用户反馈中学习用户偏好,KGQR可以提高基于RL的IRS模型的样本效率;2.采用图神经网络的方法,考虑项目之间的语义相关性,能够更准确地表示用户的动态偏好。

概念及模型

模型的整体框架如下图所示。

6851a433648010cdcb9897a8bc9c9267.png

•KG增强的状态表示

在IRS场景中,不可能直接获得用户的状态,可以直接观察到的是记录的用户系统交互历史。

(1)图卷积嵌入层

为了将图中的结构和语义知识提取为低维稠密的节点表示,作者使用了图卷积网络(GCN)。在单个图卷积嵌入层中,节点表示的计算分为两步:聚合和集成。这两个过程可以扩展到多跳,使用符号k来标识第k跳。在每个层中,首先聚合给定节点h的相邻节点的表示:

e8ec97e3af6d661b3f5ce7101e872954.png

其中N(h)=N(head)={tail | (head,relation,tail)∈G} 是h的相邻节点集合。其次,将邻居的表示与h的表示集成为

23eb7e4eb6ac685b65f0d4783a6cf53f.png

(2)行为聚合层

由于交互式推荐是一个连续的决策过程,因此在每一步中,模型都需要用户的当前观察作为输入,并提供推荐项作为输出。作者使用带有门控循环单元(GRU)的RNN作为网络单元,以聚合用户的历史行为并提取用户的状态s_t (G)。GRU单元的更新函数定义为

9c02e0349b77997ed6d10534cad375fe.png

•基于邻居的候选项选择

作者基于KG中的k-hop邻居执行采样策略。在每个时间步中,用户的历史交互项充当种子集E_t^0={i_1,i_2,…,i_n}。从种子实体开始的k-hop邻居集表示为

dab0fb4a8e4dac01710fce7331daf3d2.png

然后,将当前用户状态的候选操作集定义为

b5a254af509198238c29cbc3e2969d2d.png

•学习深度Q-Network

在对用户状态s_t (G)进行建模并获得候选集I_t (G)后,需要设计Q-Network来结合这些信息,并改进交互式推荐过程的推荐策略。

(1)深度Q-Network

使用两个网络分别计算值函数V(i_t (G))和优势函数A(i_t (G),s_t (G)),Q值可以计算为,

7654f9336349e826f4eab3c8d08fc5e0.png

(2)模型训练

在交互式推荐过程中,在时间步t,推荐代理从用户的观察结果o_t中获取用户的状态s_t,并通过ϵ-贪婪策略推荐项目i_t。然后,代理从用户的反馈中接收奖励r_t,并将经验(o_t, i_t, r_t, o_(t+1))存储在缓冲区D中。从D开始,对小批量的经验进行采样,并最小化均方损失函数以改进Q-Network,定义为

1157d4b1d2d04fa696e06b1053beb805.png

20e59bcf412735985db611c7bcdf7d13.png

为了缓解原始DQN中的过拟合问题,利用了目标网络Q′和在线网络Q(即双DQN结构)。在线网络在每个训练步骤反向传播和更新其权重。目标网络是在线网络的副本,并随训练延迟更新其参数。然后,在线网络更新的目标值更改为

c4ea120f97100f38b3b721722d0997c5.png

42671b255ef3888b68b30952c19ae796.png

理论分析

实验

作者通过两个真实的基准数据集Book-Crossing和Movielens-20M对模型进行评估。实验中采用了三种指标进行评估:

① Average Reward:

43a15bf3b82a8c9290baeecbb76e0a4c.png

② Average Cumulative Precision@T:

029e95b8a9917cc51a97c24445bd21b8.png

③ Average Cumulative Recall@T:

4929b704821ab57d102848a563501629.png

881382702dc5987e3d3169c86400c150.png

上表显示了KGQR与几种基线模型性能比较的结果。可以看出,KGQR始终在所有环境设置上获得了最好的性能。对于传统的评价指标,KGQR在两个数据集中分别将Precision@32提高了0.5%和1.9%。这表明,利用KG中的先验知识显著提高了推荐性能。在大多数情况下,非RL方法的表现都不如基于RL的方法。一方面,除了GRU4Rec外,其他非RL方法在不考虑序列信息的情况下,对用户偏好建模的能力有限。另一方面,它们专注于即时道具奖励,而不将整个序列的整体表现的值带入当前决策中,这使得这些模型在给予更多未来奖励的环境中表现更差。

利用KG的动机之一是在基于RL的推荐中提高样本效率,即减少实现相同性能所需的交互数据量。作者分析了每个基于DRL的模型实现相同性能所需的交互次数,如下图表所示。

b7c9f745441aefcc8b50fdd209ff4200.png

cf4661e7cf013d6380cbd83376671de0.png

可以看出, KGQR可以用最少的交互次数实现与其他基于RL的方法相同的性能,这一结果验证了利用语义和相关信息提高样本效率的有效性。

在KGQR中,有三个利用KG的组件可能会影响KGQR的性能:KG增强的项目表示、状态表示中的GCN传播和基于邻居的候选项选择。为了研究这些成分的有效性,作者评估了四种不同的KGQR变体,即KGQR_(-KG),KGQR_(-CS),KGQR_(-GCN-CS)和KGQR。下表显示了这四种变体的性能。

37dcd93fbf4ab2032edf22bb6cf5fd6d.png

为了研究基于邻居的候选项大小的影响,在{1000, 2000, 3000, 5000, 10000}范围内改变候选项大小,并将推荐性能呈现在下图中。

1d7326eef0bd361e9448286983ec5299.png

可以观察到推荐性能首先随着候选大小的增加而增长,因为较小的候选大小限制了推荐算法的可能选择。然而,由于基于邻居的候选选择预先过滤了一些不相关的项目,候选大小的进一步增加会降低性能。这些不相关的项目被推荐和收集反馈的机会非常有限,这使得它们无法通过推荐算法很好地学习,最终对性能产生负面影响。

总结

文章提出了一个用于交互式推荐的知识图谱增强Q-learning框架(KGQR)。这是首次在基于RL的交互式推荐系统中利用KG的工作,在很大程度上解决了样本复杂性问题,并显著提高了性能。此外,作者利用知识图谱的结构信息直接缩小行为空间,有效地解决了行为空间大的问题。在基于两个真实数据集的实验表明,与现有技术相比,该模型具有更高的采样效率和更高的性能。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

336faf91aed1f758aa0583cff8f0141e.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477843.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

收藏清单:史上最全java自动化测试工具汇总

xUnit frameworks 单元测试框架 JUnit - 常用的测试框架TestNG - 测试框架 Test Data Supplier - TestNG DataProvider封装,让数据的生成更加灵活 TDD \ ATDD \ BDD 工具 JBehave - Behaviour-Driven Development (BDD)测试框架. BDD是从 test-driven development…

LeetCode 1014. 最佳观光组合

1. 题目 给定正整数数组 A&#xff0c;A[i] 表示第 i 个观光景点的评分&#xff0c;并且两个景点 i 和 j 之间的距离为 j - i。 一对景点&#xff08;i < j&#xff09;组成的观光组合的得分为&#xff08;A[i] A[j] i - j&#xff09;&#xff1a;景点的评分之和减去它…

聊聊推荐系统的高阶特征交叉问题

文 | 水哥源 | 知乎Saying1. DCN看起来给了我们很好的允诺&#xff0c;但是细细想来是有一些问题的&#xff0c;这里也可以参考大佬的意见2. 高阶FM的核心设计是先element-wise乘&#xff0c;再对embedding求和。核心优化方法是利用计算中的冗余构建递推关系&#xff0c;然后使…

COS系统的前端演变和发展

背景 美团COS&#xff1a;全称美团网核心业务系统部&#xff0c;以持续整合O2O线下资源&#xff0c;共建高效率、低成本的供应链系统&#xff0c;高效推动O2O生态环境建设为业务目标&#xff0c;负责美团网核心业务系统的建设和管理。 COS系统&#xff0c;伴随着美团3年多的发展…

OpenKG 祝大家元宵节快乐!

OpenKGOpenKG&#xff08;中文开放知识图谱&#xff09;旨在推动以中文为核心的知识图谱数据的开放、互联及众包&#xff0c;并促进知识图谱算法、工具及平台的开源开放。点击阅读原文&#xff0c;进入 OpenKG 网站。

LeetCode 1262. 可被三整除的最大和(DP)

1. 题目 给你一个整数数组 nums&#xff0c;请你找出并返回能被三整除的元素最大和。 示例 1&#xff1a; 输入&#xff1a;nums [3,6,5,1,8] 输出&#xff1a;18 解释&#xff1a;选出数字 3, 6, 1 和 8&#xff0c;它们的和是 18&#xff08;可被 3 整除的最大和&#xff…

LeetCode 1253. 重构 2 行二进制矩阵(贪心)

1. 题目 给你一个 2 行 n 列的二进制数组&#xff1a; 矩阵是一个二进制矩阵&#xff0c;这意味着矩阵中的每个元素不是 0 就是 1。第 0 行的元素之和为 upper。第 1 行的元素之和为 lower。第 i 列&#xff08;从 0 开始编号&#xff09;的元素之和为 colsum[i]&#xff0c;…

论文浅尝 | ExCAR: 一个事件图知识增强的可解释因果推理框架

笔记整理&#xff1a;朱珈徵&#xff0c;天津大学硕士链接&#xff1a;https://aclanthology.org/2021.acl-long.183.pdf动机因果推理旨在理解因果之间的一般因果相关性&#xff0c;对于各种人工智能应用都有很大的价值。先前的研究主要是基于从手工注释的因果事件对中归纳出的…

从ACL2021看对比学习在NLP中的应用

本文首发于微信公众号”夕小瑶的卖萌屋“文 | 花小花Posy源 | 夕小瑶的卖萌屋最近关注对比学习&#xff0c;所以ACL21的论文列表出来后&#xff0c;小花就搜罗了一波&#xff0c;好奇NLPers们都用对比学习干了什么&#xff1f;都是怎么用的呀&#xff1f;效果怎样呀&#xff1f…

美团性能优化之路——性能指标体系

前言 在互联网网站百花齐放的今天&#xff0c;网站响应速度是用户体验的第一要素&#xff0c;其重要性不言而喻&#xff0c;这里有几个关于响应时间的重要条件&#xff1a; 用户在浏览网页时&#xff0c;不会注意到少于0.1秒的延迟&#xff1b;少于1秒的延迟不会中断用户的正常…

图谱实战 | 面向C端场景的概念图谱构成、建设与应用索引

转载公众号 | 老刘说NLPC端是知识图谱应用的一个重要领域&#xff0c;这个领域有大量的用户行为数据&#xff0c;存在着包括搜索、推荐、广告投放等业务。当前&#xff0c;主流的互联网公司&#xff0c;如美团、阿里、腾讯都在尝试相关落地&#xff0c;在此当中&#xff0c;概念…

11 个好用的科研工具推荐!工作效率提升 max!

文 | 炼丹学徒编 | 小轶前阵子&#xff0c;卖萌屋团队群里大家互相分享了一波自己收藏已久的 好用科研工具 。小伙伴们纷纷都有一种相见恨晚的感觉&#xff01;这么多好东西&#xff0c;当然也要分享与各位读者小伙伴啦~也希望大家能把自己用过好用的工具留言在评论区&#xff…

搜索引擎关键字智能提示的一种实现

背景 搜索关键字智能提示是一个搜索应用的标配&#xff0c;主要作用是避免用户输入错误的搜索词&#xff0c;并将用户引导到相应的关键词上&#xff0c;以提升用户搜索体验。 美团CRM系统中存在数以百万计的商家&#xff0c;为了让用户快速查找到目标商家&#xff0c;我们基于s…

会议交流 | DataFunSummit 知识图谱在线峰会——链接知识图谱最前沿技术和最落地产业化应用的桥梁!...

随着人工智能技术的发展与应用&#xff0c;知识图谱作为AI进步的阶梯越来越受到学术界和产业界的重视&#xff0c;并且已经在很多领域、场景中体现出自身的价值。从最初的互联网搜索、推荐、问答等ToC场景&#xff0c;逐渐进入到垂直行业ToB的应用当中。然而&#xff0c;场景的…

LeetCode 1209. 删除字符串中的所有相邻重复项 II(栈)

1. 题目 给你一个字符串 s&#xff0c;「k 倍重复项删除操作」将会从 s 中选择 k 个相邻且相等的字母&#xff0c;并删除它们&#xff0c;使被删去的字符串的左侧和右侧连在一起。 你需要对 s 重复进行无限次这样的删除操作&#xff0c;直到无法继续为止。 在执行完所有删除…

YUI经验谈 - 自定义事件默认行为

纵观主流JS库和框架&#xff0c;YUI在自定义事件方面做的尤为出色。如果需要挑出一个代表性的feature&#xff0c;那么非事件默认行为莫属。 是什么 YUI自定义事件在总体上模仿了DOM事件的设计思想。DOM中的一些事件是有默认行为的&#xff0c;详细见DOM3 Event - Default acti…

美团NLP中心算法实习生招聘

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1岗位职责&#xff1a;NLP算法研发&#xff0c;例如文本挖掘、知识预训练、知识&多模态预训练等知识图谱构建核心技术相关论文撰写岗位要求&#xff1a;北京高校在校大学生。&#xff08;2023年毕业优…

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

笔记整理&#xff1a;谭亦鸣, 东南大学博士生来源&#xff1a;NAACL21链接&#xff1a;https://aclanthology.org/2021.naacl-main.465/概述为了扩展多语言知识图谱问答的应用&#xff0c;Zero-shot方法成为一个研究趋势。在Zero-shot的设定下&#xff0c;通过高资源语言的训练…

LeetCode 1172. 餐盘栈(栈 + set)

1. 题目 我们把无限数量 ∞ 的栈排成一行&#xff0c;按从左到右的次序从 0 开始编号。每个栈的的最大容量 capacity 都相同。 实现一个叫「餐盘」的类 DinnerPlates&#xff1a; DinnerPlates(int capacity) - 给出栈的最大容量 capacity。void push(int val) - 将给出的正…

Hive SQL的编译过程

Hive是基于Hadoop的一个数据仓库系统&#xff0c;在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建&#xff0c;每天执行近万次的Hive ETL计算流程&#xff0c;负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。 在几次升级Hive的过程中&…