多模态推荐系统综述:一、特征交互 Bridge

一、特征交互

挑战1.如何融合不同语义空间中的模态特征并获得每种模态的偏好。GNN+注意力
挑战2.如何在数据稀疏的情况下获得推荐模型的全面表示。对比学习+解缠学习
挑战3. 如何优化轻量级推荐模型和参数化模态编码器。

1. Bridge

侧重于考虑多模态信息来捕获用户和项目之间的相互关系。
大多数早期作品只是简单地使用多模态内容来增强项目表达,但它们往往忽略了用户和项目之间的交互。

1.1 用户-相互二部图

利用用户和物品之间的信息交换,可以捕获用户对不同模式的偏好。因此,一些模型利用了用户-项目图。

MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video 2019

MMGCN为每种模态建立了一个用户-项目二分图。对于每个节点,可以利用相邻节点的拓扑结构和项目的模态信息来更新该节点的特征表达。
在这里插入图片描述

GRCN: Graph-Refined Convolutional Network for Multimedia Recommendation with Implicit Feedback 2021

通过在模型训练期间自适应修改图的结构来删除不正确的交互数据(用户点击了不感兴趣的视频)来提供建议。
在这里插入图片描述
在这里插入图片描述

该模型由三个组件组成:1)图细化层,通过识别和修剪交互图中的噪声边来调整图结构; 2)图卷积层,对精化图进行图卷积运算,以丰富项目和用户的嵌入; 3)预测层,用于推断每个用户和项目对的交互。

注:MMGCN、GRCN这些方法仍然存在局限性,因为使用统一的方式来融合不同模态的用户偏好,忽略了用户对不同模态的偏好程度的差异。换句话说,给每种模态赋予相同的权重可能会导致模型的性能不佳。为了解决这个问题,DualGNN、MMGCL、MGAT学习模态之间的相关性

DualGNN: Dual Graph Neural Network for Multimedia Recommendation 2021

DualGNN利用用户之间的相关性,基于二分图和用户共现图来学习用户偏好。
1)单模态表示学习模块,该模块对每种模态的用户微视频图执行图操作,以捕获不同模态的单模态用户偏好;2)多模态表示学习模块来显式建模用户对不同模态的注意力,并归纳学习多模态用户偏好。3)预测模块来对用户的潜在微视频进行排名。
在这里插入图片描述
在这里插入图片描述

我们提出的 DualGNN 的总体框架。它由单模态表示学习模块和多模态表示学习模块组成,单模态表示学习模块捕获每个模态用户微视频二部图上的单模态用户偏好,多模态表示学习模块显式建模用户对不同模态的品味并归纳学习多模态用户偏好,预测模块估计用户对目标微视频的偏好。
* DualGNN在MMGCN基础上,多了层对用户多模态表示的学习

MMGCL: Multi-modal Graph Contrastive Learning for Micro-video Recommendation 2022

MMGCL设计了一种新的多模态图对比学习方法来解决这个问题。 MMGCL 使用模态边缘损失和模态掩蔽来生成用户-项目图,并引入一种新颖的负采样技术来学习模态之间的相关性。
在这里插入图片描述

MGAT: Multimodal Graph Attention Network for Recommendation 2020

MGAT引入了基于MMGCN的注意力机制,有利于自适应地捕获用户对不同模态的偏好。此外,MGAT利用门控注意力机制来判断用户对不同模态的偏好,可以捕获隐藏在用户行为中的相对复杂的交互模式。
在这里插入图片描述

1)嵌入层,初始化用户和项目的ID嵌入;2)在单模态交互图上嵌入传播层,执行消息传递机制来捕获用户对各个模态的偏好;3)跨多模态交互图的门控注意力聚合,它利用与其他模态的相关性来学习每个邻居的权重以指导传播;4)预测层,根据最终表示估计交互的可能性。

1.2 项目-项目图。

注:使用item-item结构有利于更好地学习item表示,LATTICE、 MICRO。

LATTICE: Mining Latent Structures for Multimedia Recommendation 2021

多模态内容背后潜在的语义项目-项目结构可能有利于学习更好的项目表示并进一步促进推荐。
LATTICE设计了一种模态感知结构学习层,该层学习每种模态的项-项结构并聚合多个模态以获得潜在项图。基于学习到的潜在图,执行图卷积以显式地将高阶项目亲和力注入项目表示中。然后可以将这些丰富的项目表示插入现有的协同过滤方法中,以做出更准确的推荐。
数据集:Clothing, Sports,Baby
在这里插入图片描述
在这里插入图片描述

MICRO: Latent Structure Mining with Contrastive Modality Fusion for Multimedia Recommendation 2022

1)一种新颖的模态感知结构学习层,以从多模态特征中挖掘模态感知的潜在项目-项目语义关系;2)其次,我们在学习到的模态感知图上采用图卷积来分别显式地建模每种模态的项目关系;3)设计了一种新颖的对比多模态融合框架,以迫使融合的多模态表示以自我监督的方式自适应地捕获多种模态之间共享的项目关系。最后,生成的项目表示形式会融入多种模式的项目关系,这些关系将被添加到 CF 模型的输出项目嵌入中以进行推荐。对比损失和推荐(BPR)损失将一起优化。
数据集:Clothing, Sports,Baby
在这里插入图片描述

注:HCGCN考虑到各个特定用户群体之间偏好的差异。

HCGCN: Learning Hybrid Behavior Patterns for Multimedia Recommendation 2022

HCGCN提出了一种聚类图卷积网络,它首先对项目-项目和用户-项目图进行分组,然后学习隐藏在图结构中的不同用户行为模式来预测用户偏好。
在这里插入图片描述

图1(a) 通过对相似的物品进行聚类,描绘了与其他衣服相比,女性更喜欢裙子。图1(b),运动员在线购物的原因可能与艺术家不同。

在这里插入图片描述

1)首先对项目进行聚类并构建项目-项目图来学习多模式项目特征。2)然后,在用户项目子图上本地学习用户偏好,并通过动态图聚类在全局范围内相互通信。此外,项目集成多模态特征和用户被联合用于计算偏好排名。3)最后,设计的共聚类排名损失和项目聚类约束损失可以促进用户-项目和项目-项目图上包含的用户模式的优化。
数据集:Clothing, Sports,Baby

注:受最近预训练模型成功的启发,PMGT 、BGCN。

PMGT: Pre-training Graph Transformer with Multimodal Side Information for Recommendation 2021

PMGT 参考 Bert 的结构提出了一种预训练图转换器,并以多模态形式提供了项目关系及其相关辅助信息的统一视图。
两个商品之间的优势由共同购买的数量来衡量。
在这里插入图片描述
在这里插入图片描述

(a) PMGT 框架,包含四个组件(从左到右所示):上下文邻居采样、节点嵌入初始化、基于 Transformer 的图编码器、图重建。最后一步中的GSR和NFR分别表示图结构重建任务和屏蔽节点特征重建任务。
(b) 节点嵌入初始化:通过考虑节点的多模态特征、位置 ID 嵌入和角色标签嵌入来初始化节点嵌入。
数据集:VG, TG, THI, ML

BGCN: Bundle Recommendation with Graph Convolutional Networks 2020

BGCN作为捆绑推荐中的模型,将用户-项目交互、用户-捆绑交互和捆绑-项目隶属关系统一到异构图中,使用图卷积来提取精细增益的未来。

数据集:Netease, Youshu

注:对比学习

CrossCBR: Cross-view Contrastive Learning for Bundle Recommendation 2023

Cross-CBR构建用户捆绑图、用户项目图和项目捆绑图,使用对比学习将它们从捆绑包和项目视图中对齐。

顶部:U-B、U-I 和 B-I 图中显示的捆绑包和项目视图。底部:我们的工作对视图之间的协作关联进行建模,其中上标 B 和 I 表示捆绑包和项目视图,下标 u、b 和 i 代表用户、捆绑包和项目。

CrossCBR的整体框架由两部分组成:(1)用户和捆绑包两个视图的表示学习;(2)BPR损失LBPR和对比损失LC的联合优化。
数据集:Youshu, NetEase, iFashion

1.3 知识图谱

MKGAT: Multi-modal Knowledge Graphs for Recommender Systems 2020

MKGAT是第一个将知识图引入多模态推荐的模型。 MKGAT提出了一种多模态图注意力技术,分别从实体信息聚合和实体关系推理两个方面对多模态知识图进行建模。此外,采用新颖的图注意网络来聚合相邻实体,同时考虑知识图中的关系。

SI-MKR: An Enhanced Multi-Modal Recommendation Based on Alternate Training With Knowledge Graph Representation

SI-MKR提出了一种基于交替训练和基于MKR的知识图表示的增强型多模态推荐方法。此外,大多数多模态推荐系统都忽略了数据类型多样性的问题。 SI-MKR通过添加知识图谱中的用户和物品属性信息来解决这个问题。

MMKGV: Multi-modal Graph Attention Network for Video Recommendation 2022

MMKGV采用图注意力网络在知识图上进行信息传播和信息聚合,结合多模态信息并利用知识图的三元组推理关系。

整个模型由嵌入层、注意层、预测层三个关键层组成。在知识图嵌入模块和推荐模块中同时使用了嵌入层和注意层。
嵌入层使用不同的预训练模型对每个选定的多模态数据进行训练,并在训练后得到初始向量。注意层将每个实体的邻居实体的信息聚合到每个实体本身中,从而学习一个新的实体向量表示。然后预测层输出预测函数,表示预测用户u采用第i项的概率。

CMCKG: Cross-modal Knowledge Graph Contrastive Learning for Machine Learning Method Recommendation 2022

描述性属性和结构连接之间的区别。

CMCKG将来自描述性属性和结构连接的信息视为两种模式,并通过最大化这两种视图之间的一致性来学习节点表示。

参考文献

Multimodal Recommender Systems: A Survey

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/605700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【一文详解】知识分享:(MySQL关系型数据库快速入门)

mysql基础 sql通用语法分类 DDL(Data Define Language): 数据定义语言,用来定义数据库对象(数据库、表、字段)DML(Data Manipulation Language): 数据操作语言,用来对数据库表中的…

彻底掌握Python中 * 号

Python中的 *号是一个特殊的符号,在其他编程语言中,它最广为人知的用途就是作为乘法运算的符号。 而在Python中,它的用途远不止如此。 本文总结了Python中*号的所有用途,以供参考。 1. 算术运算 *号用来做算术运算几乎是所有编…

creo老是卡住怎么办?如何解决Creo卡顿问题

Creo(PRO/E)是美国PTC公司于2010年10月推出CAD设计软件包。Creo是整合了PTC公司的三个软件Pro/Engineer的参数化技术、CoCreate的直接建模技术和ProductView的三维可视化技术的新型CAD设计软件包,是PTC公司闪电计划所推出的第一个产品。那么C…

C++类与对象基础(5)——日期类的实现

对于实现日期类中需要用到的例如:构造函数,析构函数,运算符重载等内容,已经在前面几篇文章中进行介绍,故本文只给出关于类和对象中日期类的代码实现,对于代码的原理不给予详细的解释: 1.头文件…

kubectl常用命令(全局篇)

格式 -o [cmd] -o json|yaml|wide 如:输出json格式 kubectl get ns ingress-nginx -o json 获取基本信息get #查看集群基本信息 kubectl get cs|pods|nodes|ns|svc|rc|deployments kubectl get cs kubectl get pods kubectl get nodes kubectl get ns kubectl g…

Nginx 搭建可道云网盘

目录 1.安装php-fpm 2. 建站点根目录与配置 2.1 建站点根目录 2.2 配置 3. 搭建成功 1.安装php-fpm nginx 需要使用php 需要安装php-fpm yum install php-fpm php-mbstring php-mysqlnd php-gd -y 修改 www.conf 文件的配置29行和41行,将用户会让用户组改成n…

数据透明化是什么意思,什么是透明管理?

一、透明管理是什么 透明管理专注工业数据可视化分析与呈现,为企业提供一站式数据可视化分析解决方案。聚焦工业BI,基于工业管理特点,打造“指标监控-异常发现-根因溯源-举措拆解-效果监控”管理闭环,实现工业全层级的透明管理。…

SpringCloud-高级篇(十二)

在主从集群中slave节点发生了宕机,不用担心,只要它重启就能从master节点上完成数据的同步,恢复数据,如果宕机的不是slave而是master,是不是master重启就可以呢?如果你做了master节点的数据持久化&#xff0…

GPT火了一年了,你还不懂大语言模型吗?

本文主要介绍大语言的基本原理、以及应用场景和对未来的展望,侧重应用而非技术原理。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:漫谈LLMs带来的AIGC浪潮 🎀CSDN主页 发狂的小花 &#…

【Docker】容器的数据卷

目录 概念及作用 配置数据卷 数据共享 一个容器挂载多个数据卷 概念及作用 Docker容器的数据卷是一种特殊类型的目录,即使容器被删除,存在于宿主机上,可以供一个或多个容器使用。数据卷可以绕过联合文件系统,提供持续存储或共…

6547网文库动态 | 少儿编程考级真题、信息学奥赛、PPT课件等

近期动态:少儿编程题库网上传了2023年12月等级考试真题,主要有GESP真题、电子学会青少年软件编程等级考试真题,少儿编程文库系统主要上传了全国中小学信息技术创新与实践大赛(NOC大赛)真题,信息技术课件&am…

C++CLI——4数组、泛型、集合与属性

CCLI——4数组、泛型、集合与属性 C数组 在c中,数组的大小必须在编译时确定,并且将数组传递给函数时,传递的只是数组起始地址,所以要想办法连同数组大小一同传递给函数。 int arr[4] { 1,2,3,4 }; int arr1[] { 1,2,3,4 }; i…

CodeWave智能开发平台--03--目标:应用创建--07供应商数据表格01

摘要 本文是网易数帆CodeWave智能开发平台系列的第09篇,主要介绍了基于CodeWave平台文档的新手入门进行学习,实现一个完整的应用,本文主要完成07供应商数据表格 CodeWave智能开发平台的09次接触 CodeWave参考资源 网易数帆CodeWave开发者…

相机同步遇到的小问题

出现问题 在进行两个相机显示的时候,出现了相机显示不同步的情况,具体情况如下视频所示: 华睿/大华相机左右相机显示不同步 可以见到视频之中,右相机是比左相机更快一点的,但是有的时候就是同步的。我调用的代码是现成…

基于YOLOv5全系列参数模型【n/s/m/l/x】开发构建道路交通场景下CCTSDB2021交通标识检测识别系统

交通标志检测是交通标志识别系统中的一项重要任务。与其他国家的交通标志相比,中国的交通标志有其独特的特点。卷积神经网络(CNN)在计算机视觉任务中取得了突破性进展,在交通标志分类方面取得了巨大的成功。CCTSDB 数据集是由长沙…

Centos7 静态连接失败解决

在 Linux 下有时候我们需要静态连接,但是静态连接会失败,失败的原因有几种: 1.没有相关的静态库文件 如果是没有相关的静态库文件,那么使用静态连接的话,就是下面的这种效果: 就是显示无法找到 .... 解…

搭建Github Page完全手册

一、前期准备 注册Github账号(必备)下载GitHub Desktop:下载链接(可使用git代替)模板选择网站: jekyllthemes.orggohugomademistakes 二、快速入门 1.模板参考 作者使用的模板来源:https://…

文件批量改名,快速去除文件名中的空格,告别命名烦恼!

在日常工作中,我们经常遇到文件名中带有空格的情况,这不仅导致文件难以查找,还可能在某些软件中引发问题。那么,如何快速、有效地去除这些空格呢?今天,我就来教你一招! 首先,我们要进…

【IEEE会议征稿通知】第五届计算机视觉、图像与深度学习国际学术会议(CVIDL 2024)

第五届计算机视觉、图像与深度学习国际学术会议(CVIDL 2024) 2024 5th International Conference on Computer Vision, Image and Deep Learning 第五届计算机视觉、图像与深度学习国际学术会议(CVIDL 2024)定于2024年4月19-21日…