来源:专知
协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽 取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐 领域中的一种新兴的范式.文中从图学习角度对近年来推荐领域的研究进行系统性的回顾与总结.首先,根据数据类型将推 荐场景分成两类,包括基于交互信息的推荐系统(将用户与物品交互数据作为关键数据源)和辅助信息增强的推荐系统(融入与 用户和物品相关联的社交信息和知识图谱信息);其次,从随机游走、图表示学习和图神经网络方面入手,对不同推荐场景中的 方法、关键技术、主要难点和重要进展进行回顾与总结;最后,总结关于图学习方法在推荐领域中面临的挑战和未来的主要研究 方向.
https://www.jsjkx.com/CN/10.11896/jsjkx.210900072
1 引言
随着互联网技术的高速发展以及移动终端的全面普及, 互联网中的信息量呈指数级增长.互联网给用户提供海量资 源的同时,也给用户带来了信息过载的问题[1G2],即用户很难 在众多内容中快速、高效地筛选出自己感兴趣或者对自己有 意义的内容.推荐系统通过主动向用户推荐其感兴趣内容,帮助用户 过滤掉许多不感兴趣或者不相关的内容,从而有效地缓解信 息过载的问题,使用户能更加便捷地浏览感兴趣的内容.因 此,推荐系统被广泛地应用在许多企业的服务中,已逐渐成为 企业吸引用户不可或缺的工具.针对不同的应用场景,推荐 系统也演变出不同的推荐任务,其中包括线上购物推荐(如 Amazon、天猫),社交媒体推荐(如微博、抖音)等,为 人 们 的生活带来极大便利的同时,也极大地影响着其生活方式[1].
传统推荐 系 统 分 为 3 类[3]:基 于 内 容 的 推 荐 (ContentG BasedRecommendation,CB)[4]、基于协同过滤的推荐(CollaG borativeFilteringRecommendation,CF)[5]和 混 合 推 荐 (HyG bridRecommendation).基于内容的推荐算法根据用户的历 史交互记录,构建与历史交互的物品关联性高的推荐物品集, 实现对目标用户的推荐任务;基于协同过滤的推荐利用不同 用户之间(不同物品之间)的相似性关系,对用户与物品的交 互信息(点击、购买、评分等交互行为)进行筛选过滤,为目标 用户推荐感兴趣的物品;混合推荐将不同推荐技术融入推荐 系统中,避免单一推荐技术的缺陷.传统推荐系统中,相似性 度量方法包括欧氏距离、余弦相似度、皮尔逊相关系数等.常 用的模型方法包括矩阵分解(MatrixFactorization,MF)[6]、概 率矩 阵 分 解 (Probabilistic MatrixFactorization,PMF)[7]等. 传统推荐系统简单易操作,可以快速地对用户与物品的交互 信息建模,但存在数据稀疏问题,无法处理关系复杂的推荐以 及缺乏可解释性.
随着机器学习的快速发展,经典的机器学习算法被广泛 地应用到推荐领域中,如逻辑回归(LogisticRegression,LR)、 梯度提升决策树(GradientBoostingDecisionTree,GBDT)和 因子分解机(Factorization Machines,FM)等[8G10].基于机器 学习的推荐模型可以处理运算复杂的推荐,但基于机器学习 的推荐算法往往只能建模用户的历史交互数据中的低阶特征 表示,缺乏对高阶特征表示的建模能力. 随着深度学习的兴起,深度神经网络被广泛地应用到推 荐 领 域 中,如 深 度 神 经 网 络 (Deep Neural Networks, DNN)[11G12]、卷积神经网络(ConvolutionalNeuralNetworks, CNN)[13G15]、循 环 神 经 网 络 (Recurrent Neural Network, RNN)[16]、注意力模型(Attention Model)[17]以及变分自编码 器(VariationalAutoencoder,VAE)[18G19]等,并且都取得了不 错的推荐效果.
推荐系统中的大部分数据本质上都可被视为图结构数 据.例如,用户对物品的交互行为(点击、浏览、购买等),从图 结构方面考虑,用户一旦点击或购买物品,就与这些物品相关 联.但绝大多数深度学习任务都是针对1D,2D或3D 的欧氏 结构化数据(如声音信号、图像和视频等)进行研究.推荐系 统中的非欧氏结构化数据(图结构数据)的节点的邻域并不一 致,部分节点的邻居节点多,部分节点的邻居节点少.非欧氏 结构化数据的复杂性使得传统的深度学习无法有效地建模图 结构数据[20].随着图学习(GraphLearning,GL)方法,特别 是图学习中的图神经网络(GraphNeuralNetworks,GNN)的 提出,其在复杂关系提取和链路预测等许多图任务中取得了 巨大成功[21G27],引起了学术界和工业界研究人员的关注.由 于推荐系统的大部分数据具有图结构的特性,将图学习方法 应用到推荐领域是一种很自然的做法.因此,图学习方法已 逐渐成为推荐领域内一种被广泛研究的新兴推荐范式,即基 于图学习的推荐系统[28G31].当用户与物品的交互信息和用 户与物品相关联的辅助信息被构建成图结构形式,再结合以 随机游走、图表示学习和图神经网络为主要代表的图学习方 法,即可捕获、学习和模拟用户与物品之间高阶的、复杂的关 系,更加有效地学习用户的长期兴趣偏好和物品的特征属性, 以提升推荐系统的推荐性能[32G36].因此,对基于图学习的推 荐方法进行系统性的总结与回顾,可以使研究者们更好地把 握这一新兴领域的研究现状和挑战,促进图学习方法在推荐 领域的发展.
由于图学习技术在推荐领域中的广泛运用,一部分研究 学者已经对基于图结构数据的推荐系统进行了回顾和总结. Laknath [29]从全局排名方法、重启随机游走到吸收随机游走3 个方面对不同推荐任务中的随机游走方法进行了详细的分析 与总结.Gao等[30]主要从推荐系统的冷启动、可扩展性、个 性化以及动态性的推荐问题出发,对基于知识图 谱(KnowG ledgeGraph,KG)推荐任务上的图神经网络方法进行了回顾 和总结.Guo等[28]将知识图谱任务上的推荐方法划分为嵌 入方法、路径方法以及未统一定义方法,然后分别对各分类中 的推荐方法进行了详细的分析与总结.Wu等[31]从图神经网 络角度对传统推荐、社交推荐和知识图谱推荐进行了总结. 然而,上述综述工作存在不足之处,Laknath [29]和 Wu等[31]的 综述工作仅对单一的推荐方法(前者是随机游走方法,后者是 图神经网络方法)进行了回顾,Laknath [29]的综述工作时间较 早,并没有总结近几年的相关推荐任务和方法.Gao等[30]和 Guo等[28]的综述工作仅对单一的推荐场景(知识图谱)进行 了总结.然而单一的推荐方法和推荐场景不能使研究学者快 速且全面地了解基于图结构的推荐场景的研究现状和挑战. 针对上述工作的不足,本文首先总结了推荐任务中常用的数 据集和评价指标,以方便研究者快速开展对推荐系统的研究; 其次,根据运用的推荐数据类型将推荐运用场景分成两组: 基于交互信息的推荐系统(仅利用用户与物品的交互数据)和辅 助信息增强的推荐系统(融入与用户和物品相关联的社交信 息以及知识图谱信息等信息).其中,辅助信息增强的推荐系 统主要从用户社交信息和物品知识图谱两个方面对用户和物 品相关联的辅助信息进行详细分析,从而对辅助信息增强的 推荐系统进行回顾与总结.针对不同的推荐运用场景,分别 对随机游走、图表示学习和图神经网络这3种图学习方法进 行总结,分析了不同的图学习方法在不同推荐场景下的难点 和研究现状.最后,本文总结了图学习方法在推荐领域的未 来研究方向,使研究者可以更加清晰地了解图学习在推荐领 域中的挑战和发展趋势.基于图学习的推荐方法的分类如 图1所示.
2 推荐任务定义、评估指标和数据集
推荐系统用于推荐任务的关键数据为用户与物品之间的交互数据,而为了更好地捕捉用户的兴趣偏好和物品的属性 特征,推荐任务也常使用与用户和物品相关的辅助信息,包括 用户和物品的属性信息、用户之间的社交信息、物品之间的关 联信息等,来增强用户和物品的特征表示,如图2所示.推荐 任务使用的大部分数据本质上都可被视为图结构数据,用户 交互信息可转换为用户与物品的交互二部图[37],用户和物品 表示为交互图中的节点,用户与物品之间的交互表示为交互 图中的边.将用户和物品的属性信息与用户的交互图相结 合,转换为带有属性的交互图,用户和物品的属性信息表示为 图中的节点属性.用户之间社交关系,即用户关注或分享链 接给某个用户,可转换为用户信任关系图.用户与物品的属 性信息也可以融入用户与物品的交互图中,组合成包含多个 实体和多重关系的异构图,而在推荐任务中,常采用知识图谱 的方式来表示多种实体之间的关系[29].基于图学习的方法 在捕捉节点之间间接的、高阶的、复杂的连接关系和整体图拓 扑结构信息方面具有非常强大的建模能力[21],因此,将图学 习方法应用到推荐领域是一种理所当然的做法.根据图学习 方法中使用的用户与物品的信息类型,本文将推荐系统主要 分为基于交互信息的推荐系统(模型只考虑用户和物品的交 互关系)和辅助信息增强的推荐系统(利用社交关系和知识图 谱等辅助信息增强用户与物品的特征表示).
3 基于交互信息的推荐系统
基于交互信息的推荐系统通常仅考虑用户与物品之间的 交互关系来实现对用户的兴趣偏好建模,其基于这样一个假 设,即用户对物品的喜好不随时间发生改变,从而为目标用户 提供反映该用户长期兴趣的静态物品推荐列表.基于交互信 息的推荐系统利用图学习的方法,对用户的交互二部图以及 用户与物品的节点属性进行学习,以捕获用户和物品之间复 杂的、高阶的和间接的交互关系,实现对用户与物品邻接矩阵 的补全,利用补全的邻接矩阵来评估 O+ 中用户u 对没有交 互的物品i+ 感兴趣的概率或者评分.基于图学习的方法使 信息在用户与物品交互图上的节点之间广泛传播,以丰富交 互较少的用户和物品的信息,能够缓解数据稀疏性和冷启动 问题.然而在交互图上,用户或物品之间可能不存在直接连 接,消息需要通过多跳邻居节点进行传播.因此,基于图学习 方法在推荐领域如何高效地在用户或物品之间传播信息成为 一个重大挑战.为充分发挥基于图学习方法在用户与物品交 互图上的模型性能,本文将消息传播问题主要概括为:
(1)交互图的采样:交互二部图是根据用户和物品的交互 数据构建而成.但由于推荐任务中的物品数量巨大,考虑推 荐模型的训练和计算效率,如何设计数据采样方式才能有效 地捕捉用户与物品之间的消息传播,更好地提升推荐性能?
(2)信息聚合:用户与物品之间存在复杂、丰富和潜在的 交互关系,如何设计信息聚合方式才能有效地将复杂的、间接 和高阶的信息聚合到目标节点,丰富用户和物品的特征表示, 实现用户与物品之间的消息传播?
(3)节点输出:如何构建适用于下游推荐任务的节点表 示?
4 融入社交信息的推荐系统
社交网络的推荐系统主要考虑利用用户社交网络中的用 户信任关系进一步挖掘用户兴趣偏好,缓解推荐任务中的数 据稀疏性问 题,从 而 有 效 地 为 目 标 用 户 推 荐 其 感 兴 趣 所 物 品[50,71G72].在真实的生活场景中,一个用户的兴趣爱好很可 能会受他所信任的朋友的兴趣影响,即社交影响会在社交网 络中传播和扩散[51].社交关系可以构建成一个关于用户之 间的同构图,其中每个用户代表图中的一个节点,两个用户 之间存在信任关系会对应图上的一条边,即用户信任关系图 GU .在GU 中可能存在隐式社交关系,即用户之间没有显式 的信任交互,但他们却有潜在关系.在融入社交信息的推荐 系统中,利用社交网络中信任的朋友的兴趣特点,来分析目标 用户的喜好,从而更加有效地利用信任朋友的偏好来为目标 用户推荐其感兴趣的物品,或者通过预测社交网络中可能存 在的隐式社交连接,来向目标用户推荐有共同兴趣爱好的朋 友[73].由于社交图也具有图结构属性,社交信息和用户与物 品的交互信息可以自然而然地组合成由这两部分信息构成的异构图.一部分为用户与物品的交互图,另一部分为反映社 会关系的社交图.此异构图中包含两种不同类型的信息(即 交互信息和社交信息). 融入社交信息的推荐系统主要考虑利用目标用户所信任 的朋友的影响来帮助模型更好地理解用户的兴趣偏好,但是 对目标用户的偏好建模,一方面需要考虑如何利用目标用户 信任的朋友的偏好信息来分析目标用户的喜好;另一方面需 要考虑不同的朋友对目标用户产生的影响程度如何,这些问 题都值得深入研究.因此,如何适当地建模目标用户信任的 朋友对目标用户的影响是一个重大的问题.为充分利用社交 信息,改善图学习推荐方法的推荐效果,本文将社交影响问题 主要概括为:
(1)朋友的影响:如何构建朋友的影响并将其融入推荐过 程中? 不同的朋友对目标用户产生的影响程度不同,如何区 分朋友之间的影响力? 如何利用社交网络中存在的隐式社交 关系?
(2)用户偏好分析:如何从社交信息扩散角度和物品的交 互行为角度来分析用户喜好? 如何将社交网络中和物品交互 网络中的兴趣偏好特征融合,更加全面构建出用户的喜好?
5 融入知识图谱的推荐系统
由于知识图谱包含了物品之间丰富的语义信息和用户与 物品、物品与物品之间的多重关系,若能够充分捕捉物品之间 潜在的连接关系,对分析用户真实的兴趣偏好和物品的属性 特征十分有益.因此,将知识图谱融入推荐系统中,可以进一 步提升模型的推荐性能[22,64G68],还可以增加推荐物品的多样 性和有效性.知识图谱虽然包含了丰富的物品信息和用户与 物品之间的多重复杂关系,但具有复杂的图结构,其中包含了 多种类型的实体和关系,使充分挖掘知识图谱的语义信息成 为一个挑战[28].为充分利用知识图谱中丰富的语义关系来 提升推荐性能,本文将知识图谱应用在推荐任务上所面临的 问题主要概括如下:
(1) 结构复杂性:鉴于知识图谱具有复杂的图结构,如何 简化知识图谱结构来实现消息的高效传播和对知识图谱信息 的充分挖掘?
(2)多关系传播:如何捕获实体与实体之间复杂、高阶的 多重关系,并将其有效地融入推荐任务中?
(3)特征整合:如何从知识图谱中复杂的实体和多种关系 中学习到用户和物品的特征表示并进行有效地融合,从而更 加全面挖掘出用户的喜好和物品的属性?
6 基于图学习推荐的未来研究方向
图学习方法不仅在图分类、链路预测等图结构任务上取 得了巨大成功[21G27,80G86],而且在推荐领域也具有出色的推荐 表现,但它仍然有许多问题和挑战亟待解决.本节将对图学 习方法在推荐领域中的未来研究方向进行分析与总结.
6.1 基于图学习的大规模图推荐
在真实的应用场景中,推荐系统往往会面临一个庞大的 用户和商品群体,如淘宝、京东等网上购物平台.数据的规模 是推荐系统无法避免的问题,它会导致系统在时间和空间方 面的计算资源花费极大.基于随机游走和图表示学习的推荐 方法在面对大规模的用户和商品数据时,模型的处理效率低 下.而基于图神经网络的方法在大规模图上的训练成本较 高,不太适合大规模的图结构数据.因此,需要研究更高效的 算法来加速对大规模推荐数据的处理,并不断更新模型以产 生更加及时、有效的推荐.
6.2 多源多模态信息整合
辅助信息已被证明在改善数据稀疏性和冷启动等推荐问 题上非常有效[29,71,87G90].在线上购物系统中,多源多模态的 信息包括商家对商品的描述、分类等信息,用户对物品的点 击、浏览、加入购物车、评分等信息以及商品的文本、图像等信 息.现有的图学习方法难以将多源多模态数据进行有效的融 入,导致对数据中丰富的信息利用不充分或数据对象之间的 关系表示不明显,不能有效地捕捉到用户更加真实的兴趣偏 好和物品真实的属性,使模型的推荐性能无法发挥到极致. 而现有图学习推荐方法对节点的特征向量表示的方式比较单 一,通常只能对用户历史交互记录进行有效的处理,难以将多 源多模态信息有效地融入用户与物品的特征表示中,使模型 达到最佳的推荐效果.因此,如何有效地整合多源多模态数 据信息是图学习推荐方法需要解决的一个重要问题.
6.3 基于图学习的跨领域推荐
跨领域 推 荐[91G94]可 以 缓 解 推 荐 系 统 的 冷 启 动 和 数 据 稀疏性问题,利用辅助域的信息为目标域进行推荐,能够取得 不错的推荐性能.例如用户对电影交互以及用户对书籍交互 可看作两个领域,当用户对电影交互信息存在稀疏性问题时, 可以利用用户对书籍的交互信息来对电影的推荐任务提供帮 助.现有的图学习方法往往只能对单一领域中的图结构数据 进行学习,停留在单一的层面上,难以将训练好的推荐模型从 一个领域中的图结构数据迁移到另一个领域中的图结构数据 上,不能实现在不同推荐模型之间进行有效的信息迁移.实际 上,推荐的数据和交互可以来自多个领域,包括各种来源、系统 和模式,它们之间是相互关联的,可以相互协同来提升推荐效 果.因此,基于图学习的跨领域推荐是一个值得研究的课题. 6.4 推荐方法的可解释性研究 现有的图学习推荐方法尽管取得了优异的推荐效果,但 推荐结果在科学解释方面往往不能令用户和工业界信服.尽 管推荐系统在可解释方面取得了一些进展,但离真正理解用 户选择行为背后的原因和意图还有漫长的路要走[95].然而, 因果推断作为一种用于发现事物之间因果关系的重要技术, 尚未在推 荐 领 域 中 的 可 解 释 性 方 面 得 到 广 泛 的 研 究[96G97]. 因此,在基于图学习的推荐方法中使用因果推断技术来构建 可解释的推荐系统是一个值得研究的方向.
7 结束语
图学习方法在推荐邻域中的应用已经受到学术 界和工业界越来越多的关注.本文对基于图学习推荐方法的 两大应用场景进行了回顾与总结,即基于交互信息的推荐系 统和辅助信息增强的推荐系统.针对辅助信息增强的推荐系 统,本文主要从用户社交信息和物品知识图谱两部分对关于 用户和物品的辅助信息进行详细分析与总结.本文还对各大 应用场景中的图学习方法进行了分析与总结,指出了图学习 推荐方法所面临的难点及未来研究方向,对基于图学习的推 荐系统的研究与发展具有一定的借鉴意义.
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”