WWW2024 | PromptMM:Prompt-Tuning增强的知识蒸馏助力多模态推荐系统

请添加图片描述

论文:https://arxiv.org/html/2402.17188v1

代码:https://github.com/HKUDS/PromptMM

研究动机

多模态推荐系统极大的便利了人们的生活,比如亚马逊和Netflix都是基于多模态内容进行推荐的。对于研究,人们也遵循工业界的趋势,进行modality-aware的用户偏好的建模。然而,目前的工作主要是将多模态feature引入推荐系统中,这样的做法导致了两个问题:

  • 多模态编码器的引入引进了非常多的额外的参数导致了过拟合,因为所输入给模型的是高维度多模态feature。

I1: Overfitting & Sparsity. 当前的多媒体推荐系统通过采用先进的编码器来处理来自预训练提取器(CLIP-ViT、BERT)的高维特征而表现出色。辅助模态缓解了数据稀疏性,但不可避免地导致了增加的资源消耗。例如,关于电子产品(第4.1.1节)数据集的特征提取器,SBERT和CNNs的输出维度分别为768和4,096。它们比当前方法的嵌入维度要大得多,即 𝑑𝑚 ≫ 𝑑。重新训练预训练模型可以改变输出维度,但由于不同的潜在表示和超参数,这将显著影响性能。此外,训练预训练模型需要大量的计算资源,可能需要在多个GPU上花费数天到数周的时间。因此,当前的多模式工作携带额外的高维特征减少层。这些额外的参数加剧了由于数据稀疏性而已经存在的过拟合,进一步增加了收敛的难度。

  • side information的引入不可避免地带来了噪声和冗余,这样会导致模态启发的依赖,无法正确反映用户偏好。

I2: Noise & Semantic Gap. 作为附加信息,当使用协同关系来建模用户偏好时,多媒体内容存在固有的不准确性和冗余性。例如,用户可能被文本标题吸引,但图像内容无关;微视频中的音乐可能是为了潮流,而不是用户偏好。盲目依赖噪声模态数据可能会误导用户与项目之间的关系建模。此外,多模态上下文和用户与项目的协同关系最初来自两个不同的分布,存在着较大的语义差距,这给挖掘模态感知用户偏好带来了挑战,甚至破坏了现有的稀疏监督信号。

为了解决这些问题, PromptMM提出通过知识蒸馏的方式简化并强化推荐系统。 而知识蒸馏是被Prompt Tuning所增强的,以为了防止过拟合并得到adaptive的知识。具体地,知识蒸馏进行了模型压缩,通过UI边的关系和多模态节点的关系, 使得老师模型中的这些知识传递到学生当中, 使学生避免了使用额外的多模态feature编码的参数。为了将多模态内容和协同过滤的语义gap缩小以防止过拟和,soft prompt-tuning被引入,使得学生模型得到task adaptive的知识。此外,为了调整不正确性的多模态知识,一个多模态listwise的蒸馏被提出,它是通过re-weight机制来调节噪声。 在真实数据上,全面的实验展示了模型的有效性,消融实验也证明了关键组件的作用,额外的实验测试了模型的有效性和效率。

网络架构

请添加图片描述

一. 模态启发任务适应性建模
1. 老师模型和学生模型
  • 老师模型:编码高阶多模态信息的冗余模型。
    请添加图片描述

  • 学生模型:专注于协同过滤的轻量级模型。
    请添加图片描述

2. Soft Prompt-Tuning作为语义链接

模态内容不可避免地包含任务无关的冗余,他们不仅会影响CF任务,还会加重过拟合。此外,多模态建模和u-i交互建模之间巨大的语义gap还会影响真实用户偏好的学习。 soft prompt-tuning被引入来解决这个问题。具体地,为了从模态中抽取协同信号, prompt p被整合到多模态老师的feature编码层R(.)中。prompt p于多模态老师中被构建,在学生模型中被fine-tune来提升被冻住的老师模型。prompt p能够为老师模型引入学生任务相关的信号。

具体的过程可以被分为三步,i) 构建prompt; ii) 把soft-prompt整合进老师模型; iii) 进行prompt-tuning。

  • 构建prompt:
    请添加图片描述

  • 得到prompt-guided的老师,即将得到的prompt整合进老师的特征编码层中:
    请添加图片描述

  • 进行soft-prompt tuning: 将冗余的多模态老师作为pre-trained model,soft prompt-tuning能对老师模型进行微调。整个训练过程分为两个阶段:1)在老师训练阶段prompt模块梯度下降更新参数,指导老师模型的inference过程。2)在学生训练阶段,模型使用线下知识蒸馏,冻住老师模型,用学生模型loss的下降再次调整prompt模块适应student。

二. 模态启发的ranking知识蒸馏

为了全面地获得高质量的协同信号和模态启发的用户偏好从老师模型,PromptMM设计了三种知识蒸馏的范式:1) 高质量的ranking蒸馏 2) 去噪的模态启发的ranking蒸馏 3) 模态启发的embedding蒸馏。

  • 高质量的ranking蒸馏:通用的知识蒸馏往往发生在多分类任务上,分类的logit作为被蒸馏的知识,为了适用推荐任务,模型将BPR的logit作为需要被蒸馏的知识。除了正常的BPR loss, 这里的高质量的ranking蒸馏从老师模型获得暗知识作为辅助,使得原来的模型跳出局部最优,得到更好的结果。
    请添加图片描述

  • 之前编码的多模态内容 f_m^u, f_m^i 在教师模型 T(·) 中含有噪音,可能会影响模态感知用户偏好建模。为了在减少任务无关部分影响的同时进行精确和细粒度的蒸馏,模型设计了一个去噪的模态感知知识蒸馏。具体而言,模型使用 f_m^u, f_m^i 计算列表式分数来进行模态感知排名知识蒸馏。此外,为了进一步减少噪音的影响,模型将知识蒸馏损失重构为解耦部分的加权和。
    请添加图片描述

请添加图片描述

list-wise ranking KD损失被重构为两个项的加权和,可调节地传递可靠知识并增强与模态相关的用户偏好的准确性。强调置信度较高的是user preference的部分
请添加图片描述

较低的分数被分配给那些不确定的用户-物品关系,以降低它们在知识蒸馏过程中的影响。这使得 PromptMM 可以专注于来自教师模型的最可靠信号,进行去噪的知识传递。即,对置信度较低的部分重新赋予权重,以减轻模态中可能存在的噪声的影响:
请添加图片描述

  • 除了基于logit的知识蒸馏之外,模型提出用嵌入级别蒸馏来增强模型的PromptMM框架。为了在模型的PromptMM中实现嵌入对齐,模型采用了Scale Cosine Error (SCE)损失函数,并结合自动编码器进行鲁棒训练,而不是使用均方误差(MSE)。这是因为MSE具有敏感性和不稳定性,可能会由于不同的特征向量范数和维度灾难导致训练崩溃。 模态启发的embedding蒸馏:是feature-based的蒸馏,通过SCE loss实现:
    请添加图片描述
三. 最终的优化目标

最终的优化目标是BPR loss与三种KD loss的结合:
请添加图片描述

实验结果

一. 主实验

请添加图片描述

所提出的 PromptMM 在所有三个数据集上始终优于普通的协同过滤(CF)模型和最先进的多模态推荐方法,表明其在多模态推荐中的有效性。改进的结果归因于moxing 设计的通过提示调整增强的多模态知识蒸馏,这不仅在多模态知识传递过程中弥合了语义差距,还消除了模态数据的噪声和冗余影响。此外,模型的结果支持多模态推荐系统比普通的 CF 模型表现更好的观点,因为多模态上下文的融合有助于在稀疏数据下辅助用户偏好学习。模型的 PromptMM 通过轻量级架构和定制转移知识取得了竞争性的结果,这表明多模态数据中可能存在噪声。这一发现证实了模型的动机,即直接将多模态信息纳入用户表示可能会引入噪声,从而误导模态感知用户偏好的编码。为了解决这个问题,模型提出的方法在知识蒸馏过程中解耦了协作关系的软标签,有效地通过向学生模型传递更多信息丰富的信号,从而减轻了多模态内容的噪声。

二. 消融实验

请添加图片描述

消融实验说明了知识蒸馏和soft prompt-tuning的效用。如表5所示:(1)对于没有Prompt的变体,其在所有三个数据集上的性能都比PromptMM要差。这表明去除提示调整可能会导致知识蒸馏的语义差距。模态感知投影可能也存在过拟合,并且可能仅限于编码与推荐任务相关的多模态上下文,而没有提示调整增强。(2)在去除成对蒸馏时,没有PairKD的变体表现出与PromptMM相比的性能下降,这表明了LPKD在提取基于排名的信号进行模型对齐方面的强大能力。(3)模态感知列表式蒸馏可以精确地提取质量良好的模态感知协作关系,有助于多模态推荐。因此,没有ListKD的变体不如PromptMM的结果。(4)以物品为中心的模态特征对用户的偏好存在严重偏差。因此,在没有解耦和重新加权蒸馏软标签的情况下,没有Disentangle的变体表现不佳。

三. 资源消耗实验

请添加图片描述

工作研究了老师、学生和几个基线(LATTICE)在训练时间、存储、参数数量和学生与教师参数比等方面的资源利用情况,以进行模型压缩。在Netflix和Electronics数据集上的具体数值结果报告在表6中。结果显示,工作的学生模型在推理和推荐时间消耗方面明显低于其他模型,可能是由于它们较大的大小,在梯度下降参数更新期间需要更多时间。此外,LATTICE必须动态学习同质图,这增加了计算时间消耗。工作发现,在工作的模型中计算KL散度并不会显著增加时间消耗,从而降低了延迟。此外,结果显示工作的模型存储消耗较低,参数数量远低于其他模型,例如LATTICE需要动态计算和存储物品-时间关系,产生了显著的开销。"ratio=11.24% or 2.70%"的数值表明了工作的模型作为压缩算法的有效性。

总结

这项工作的目标是使用一种新颖的模态感知KD框架,通过提示调整来简化和增强多模态推荐系统。为了有效地将任务相关的知识从教师模型转移到学生模型,模型引入了一个可学习的提示模块,动态地弥合了教师模型中的多模态上下文编码与学生模型中协作关系建模之间的语义差距。此外,模型提出的框架名为PromptMM,旨在分解信息性的协作关系,从而实现增强型知识蒸馏。通过大量实验,模型证明了PromptMM相比最先进的解决方案显著提高了模型效率,同时保持了更优的准确性。模型未来的工作计划是将LLMs与多模态上下文编码相结合,以提高性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/742799.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能化工厂大屏监控

通过采集和整合工厂各个环节的数据,包括设备状态、生产进度、质量指标、能源消耗等,并将这些数据以图表、动画、报表等形式展示在大屏上。 智能化工厂大屏监控可以提供以下优势: 实时监控:通过大屏幕展示工厂各项数据&#xff0c…

分布式链路追踪(一)SkyWalking(1)介绍与安装

一、介绍 1、简介: 2、组成 以6.5.0为例,该版本下Skywalking主要分为oap、webapp和agent三部分,oap和webapp分别用于汇总数据和展示,这两块共同组成了Skywalking的平台;agent是探针,部署在需要收集数据的…

如何“使用Docker快速安装Jenkins,在CentOS7”?

1、运行 docker run -d --namejenkins -p 8080:8080 jenkins/jenkins 2、查看日志 ,使用 "docker logs -f jenkins",可以持续刷新日志 docker logs jenkins 3、通过命令查看密码 docker exec -it jenkins cat /var/jenkins_home/secrets/initialAdminP…

Spring框架----AOP全集

一:AOP概念的引入 首先我们来看一下登录的原理 如上图所示这是一个基本的登录原理图,但是如果我们想要在这个登录之上添加一些新的功能,比如权限校验 那么我们能想到的就有两种方法: ①:通过对源代码的修改实现 ②&a…

vim相关命令

vim 三种工作模式:命令模式、文本模式、末行模式 命令模式:通过vi hello.c 命令进入i a o 、I A O、 s S 可以切换到文本模式 ,写完后保存退出 o光标 回到下一行O光标回到上一行s删除当前字母S删除一整行A回到该行末尾处a光标回到下一个输入…

go语言操作etcd

首先在后台启动etcd 写一段go代码 package mainimport ("context""fmt"clientv3 "go.etcd.io/etcd/client/v3""time" )func main() {// 创建客户端,连接etcdcli, err : clientv3.New(clientv3.Config{Endpoints: []strin…

YOLOv5目标检测学习(5):源码解析之:推理部分dectet.py

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、导入相关包与路径、模块配置1.1 导入相关的python包1.2 获取当前文件的相对路径1.3 加载自定义模块1.4 总结 二、执行主体的main函数所以执行推理代码&…

手写超级好用的rabbitmq-spring-boot-start启动器

手写超级好用的rabbitmq-spring-boot-start启动器 文章目录 1.前言2.工程目录结构3.主要实现原理3.1spring.factories配置3.2EnableZlfRabbitMq配置3.3RabbitAutoConfiguration配置3.4ZlfRabbitMqRegistrar配置 4.总结 1.前言 由于springBoot官方提供的默认的rabbitMq自动装配不…

Python代码操作PPT:PowerPoint演示文稿的合并与拆分

多个PowerPoint演示文稿的处理可能会成为非常麻烦的工作。有时需要将多个演示文稿合并为一个演示文稿,从而不用在演示时重复打开演示文稿;有时又需要将单个演示文稿拆分为多个演示文稿,用于其他目的或进行分发。手动进行这些操作会非常麻烦&a…

阿里云环境下,从仅知的一个外网域名如何找出前端程序的部署所在和启动命令

一、背景 一个年久失修的前端项目,临时接到需求要迭代,三四年未迭代过的项目,交接更无从谈起。 所幸的是,源码还在,知道外网访问的入口地址。 本文试着带你一起找到该前端项目部署在哪台机器,以及发布的过…

opencv的approxPolyDP函数

cv2.approxPolyDP() 是 OpenCV 库中的一个函数,用于逼近多边形曲线。它可以将一条曲线用更少的点来表示,同时尽可能地保持其形状。原来是使用Douglas-Peucker算法,表示曲线上的点与逼近后的多边形之间的最大距离d,若d小于epsilon&…

SpringCloudEureka理论与入门

文章目录 1. 前置工作1.1 搭建 user-server1.1.1 pom1.1.2 po,mapper,controller1.1.3 yml1.1.4 启动类1.1.5 启动并访问 1.2 搭建 order-server1.2.1 pom1.2.2 po mapper controller1.2.3 yml1.2.4 启动类1.2.5 启动并访问 1.3 两个服务通信 2. Eureka2…

【Swing】Java Swing实现省市区选择编辑器

【Swing】Java Swing实现省市区选择编辑器 1.需求描述2.需求实现3.效果展示 系统:Win10 JDK:1.8.0_351 IDEA:2022.3.3 1.需求描述 在公司的一个 Swing 的项目上需要实现一个选择省市区的编辑器,这还是第一次做这种编辑器&#xf…

开源办公系统CRM管理系统

基于ThinkPHP6 Layui MySQL的企业办公系统。集成系统设置、人事管理、消息管理、审批管理、日常办公、客户管理、合同管理、项目管理、财务管理、电销接口集成、在线签章等模块。系统简约,易于功能扩展,方便二次开发。 服务器运行环境要求 PHP > 7.…

Mybatis Plus + Spring 分包配置 ClickHouse 和 Mysql 双数据源

目录 一、背景 二、各个配置文件总览(文件位置因人而异) 2.1 DataSourceConfig 2.2 MybatisClickHouseConfig (ClickHouse 配置类) 2.3 MybatisMysqlConfig(Mysql 配置类) 2.4 application.propertie…

《安富莱嵌入式周报》第334期:开源SEM扫描电子显微镜,自制编辑器并搭建嵌入式环境,免费产品设计审查服务,实用电子技术入门,USB资料汇总,UDS统一诊断

周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版: https://www.bilibili.com/video/BV1om411Z714/ 《安富莱嵌入式周报》第334期:开源SEM…

ABCDE联合创始人和普通合伙人BMAN确认出席Hack .Summit() 2024

ABCDE联合创始人和普通合伙人BMAN确认出席Hack .Summit() 2024! ABCDE联合创始人和普通合伙人BMAN确认出席由 Hack VC 主办,并由 AltLayer 和 Berachain 联合主办,与 SNZ 和数码港合作,由 Techub News 承办的Hack.Summit() 2024区…

【Paper Reading】6.RLHF-V 提出用RLHF的1.4k的数据微调显著降低MLLM的虚幻问题

分类 内容 论文题目 RLHF-V: Towards Trustworthy MLLMs via Behavior Alignment from Fine-grained Correctional Human Feedback 作者 作者团队:由来自清华大学和新加坡国立大学的研究者组成,包括Tianyu Yu, Yuan Yao, Haoye Zhang, Taiwen He, Y…

VB播放器(动态服务器获取歌词)-183-(代码+说明)

转载地址: http://www.3q2008.com/soft/search.asp?keyword183 VBASP vb动态从服务器读取歌词 VB asp交互 程序, 模式不一样, 与普通的MP3播放器不一样, 这个是可以实现歌词从服务器上查询功能的. 看好了在咨询 我可以給您演示 目  录 前  言 1 1 . 简述 2 1.1 开发…

阿里云国际DDoS高防接入配置最佳实践

业务接入DDoS高防产品后,可以将攻击流量引流到DDoS高防,有效避免业务在遭受大流量DDoS攻击时出现服务不可用的情况,确保源站服务器的稳定可靠。本文九河云的接入配置和防护策略最佳实践,在各类场景中使用DDoS高防更好地保护您的业…