厉害了多模态对齐!新思路直接发高区!小红书、国科大都在抢着发!

多模态是个非常热门的话题,这其中,“多模态对齐”已经被验证非常重要,它能够提升AI模型的跨模态理解和情感分析精度,是未来多模态大模型商业化的必要条件,研究热度不言而喻。

就说最近的大佬团队,小红书前脚刚在顶会CIKM'24上发表了AlignRec框架,以解决多模态推荐系统中的对齐问题。国科大紧跟着也提出了Math-PUMA,一种三阶段的专注于渐进向上的多模态对齐方法,性能比肩GPT-4V!

另外还有大幅减少GPU内存使用和推理时间的AlignMamba、在零样本分类任务中表现突出的轻量级框架OneEncoder...都是近期最新的多模态对齐方法,非常值得我们研读。

如果有想发论文的同学需要这些优秀成果参考,可以直接看我整理好的11篇多模态对齐最新论文(包含以上),基本都有开源代码, 这样节省找资料的时间提高论文效率。

全部论文+开源代码需要的同学看文末

AlignRec: Aligning and Training in Multimodal Recommendations

方法:论文提出AlignRec框架研究多模态推荐中的对齐问题,聚焦于内容内对齐、内容与类别ID对齐、以及用户与物品对齐,以解决多模态内容与ID特征之间的语义差距,采用预训练策略获取统一的多模态特征,随后联合训练后续对齐任务,从而在长尾物品推荐中优于现有方法。

创新点:

  • 对齐内容内的多模态信息(视觉和文本),通过基于注意力的跨模态编码器实现,为每个物品输出统一的模态表示。

  • 首先预训练内容内对齐任务以获得统一的多模态特征,然后结合内容-类别对齐和用户-物品对齐任务进行推荐目标的训练。

  • 提出零样本、项目-CF和屏蔽模态推荐等三个中间评估协议,直接评估多模态特征对推荐的有效性。

Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning

方法:论文提出了Math-PUMA方法,通过渐进式多模态对齐来提高多模态大语言模型(MLLMs)的数学推理能力。作者通过构建多模态数据集和利用Kullback-Leibler(KL)散度实现视觉与文本模态对齐,并通过多模态指令微调,显著提升模型在不同模态下的数学问题解决能力。

创新点:

  • 引入了一个创新的三阶段方法来提高多模态大语言模型 (MLLMs) 的数学推理能力。

  • 通过构建一个包含996K高质量多模态问题求解数据的数据集,进一步微调模型,显著提高了模型在多模态数学问题求解任务中的性能。

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

方法:论文提出了AlignMamba,通过局部和全局跨模态对齐来增强多模态表示的融合。AlignMamba基于最优传输引入了一个局部跨模态对齐模块,用于显式学习不同模态之间的令牌级对应关系,并且提出了一个基于最大均值差异的全局跨模态对齐损失,用于隐式地强制不同模态分布之间的一致性。

创新点:

  • 提出了AlignMamba框架,用于解决直接应用Mamba于多模态融合任务时的局限性。

  • 引入了一种基于最优传输(OT)的局部对齐模块,用于显式学习token级的对应关系,并通过基于最大均值差异(MMD)的全局对齐损失实现隐式分布对齐。

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

方法:论文介绍了一个轻量级框架OneEncoder,用于逐步对齐不同的模态,如图像、文本、音频和视频。OneEncoder利用预训练的模态特定编码器作为固定特征提取器,并仅训练一个轻量级的通用投影模块来跨所有模态进行对齐。此外,OneEncoder还引入了模态标记以确保在UP内部一致的多模态映射。

创新点:

  • 提出了一种开放框架,通过逐步对齐不同模态,实现新模态与已有模态的无缝集成,而无需重新训练。

  • 使用冻结的预训练视觉-语言编码器和单一的通用投影模块(UP),通过模态标记实现多模态的统一对齐。

  • 引入了一种新的对齐方法,通过利用文本作为中心模态进行传递对齐,从而对齐图像、文本、音频和视频四种不同模态。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“多模态对齐”获取全部方案+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/64914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu20.04安装imwheel实现鼠标滚轮调速

ubuntu20.04安装imwheel实现鼠标滚轮调速 Ubuntu 系统自带的设置中仅具备调节鼠标速度的功能,而无调节鼠标滚轮速度的功能。其默认的鼠标滚轮速度较为缓慢,在查看文档时影响尚可接受,但在快速浏览网页时,滚轮速度过慢会给用户带来…

基于深度学习的图像超分辨率重建

基于深度学习的图像超分辨率重建技术是一种先进的图像处理技术,它能够从低分辨率的图像中重建出高分辨率的图像。以下是对该技术的详细介绍: 一、技术背景图像超分辨率(Image Super Resolution)重建是指从观测到的低分辨率图像重…

MacOS安装MySQL

官网下载MySQL 苹果芯片选择ARM版本 安装过程中会要求你输入root的密码(不少于8位),这里设置为12345678 打开系统设置查看是否成功安装MySQL 配置MySQL环境变量 vi ~/.zshrc加入一行export PATH$PATH:/usr/local/mysql/bin 执行source ~/…

dolphinscheduler服务注册中心源码解析(三)RPC提供者服务整合注册中心注册服务实现源码

RPC提供者服务整合注册中心注册服务实现源码 1.概述2.源码解读思路3.实现2.1.应用服务的RPC服务接口定义2.1.1.MasterServer应用中提供的RPC接口服务2.1.2.WorkerServer应用中提供的RPC接口服务2.2.应用服务的RPC服务接口实现2.2.1.MasterServer应用中提供的RPC接口服务实现类2…

Sass变量的妙用:提升CSS开发效率与可维护性

Sass变量的妙用:提升CSS开发效率与可维护性 Sass变量的妙用:提升CSS开发效率与可维护性一、Sass变量的基础二、Sass变量的妙用三、提升开发效率与可维护性四、结论 Sass变量的妙用:提升CSS开发效率与可维护性 在前端开发的世界里&#xff0c…

Leetcode Hot 100 【二叉树】104. 二叉树的最大深度

104. 二叉树的最大深度 已解答 简单 相关标签 相关企业 给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:3…

【漏洞复现】F5 BIG-IP Next Central Manager SQL注入漏洞(CVE-2024-26026)

🏘️个人主页: 点燃银河尽头的篝火(●’◡’●) 如果文章有帮到你的话记得点赞👍+收藏💗支持一下哦 一、漏洞概述 1.1漏洞简介 漏洞名称:F5 BIG-IP Next Central Manager SQL注入漏洞漏洞编号:CVE-2024-26026漏洞威胁等级:超危影响范围:BIG-IP Next Central Manage…

Debian系统宝塔面板安装LiteSpeed Memcached(LSMCD)

参考链接 1. 官网指引: https://www.litespeedtech.com/support/wiki/doku.php/litespeed_wiki:lsmcd:installation 2. 安装OpenLiteSpeed官方LSMCD对象缓存替换Memcached详细图文教程 - 搬主题 实操记录: 首先LSMCD 默认的端口是11211,…

WebDAV文件共享:将个人电脑变身为云存储,实现自由文件传输

WebDAV文件共享:将个人电脑变身为云存储,实现自由文件传输 引言:操作步骤搭建安装Internet Information Services (IIS) 管理器配置Internet Information Services (IIS) 管理器配置远程域名访问地址 引言: 相信很多朋友都有过把…

MySQL的分析查询语句

【图书推荐】《MySQL 9从入门到性能优化(视频教学版)》-CSDN博客 《MySQL 9从入门到性能优化(视频教学版)(数据库技术丛书)》(王英英)【摘要 书评 试读】- 京东图书 (jd.com) MySQL9数据库技术_夏天又到了…

前端开发 之 12个鼠标交互特效上【附完整源码】

前端开发 之 12个鼠标交互特效上【附完整源码】 文章目录 前端开发 之 12个鼠标交互特效上【附完整源码】一:彩色空心爱心滑动特效1.效果展示2.HTML完整代码 二:彩色实心爱心滑动特效1.效果展示2.HTML完整代码 三:粒子连结特效1.效果展示2.HT…

VSCode如何修改默认扩展路径和用户文件夹目录到D盘

在使用Visual Studio Code(VSCode)时,随着安装的扩展和用户数据的增多,C盘的空间可能会逐渐紧张。为了优化存储管理,将VSCode的默认扩展路径和用户文件夹目录迁移到D盘是一个有效的解决方案。以下是详细的操作步骤&…

Spring Cloud OpenFeign快速入门demo

一、应用场景 Spring Cloud OpenFeign 是一个声明式的 HTTP 客户端,旨在简化微服务之间的通信。它使得开发者能够通过简单的接口定义和注解来调用 RESTful API,极大地减少了样板代码。以下是一些典型的应用场景: 微服务间调用:在…

深度学习之超分辨率算法——SRGAN

更新版本 实现了生成对抗网络在超分辨率上的使用 更新了损失函数,增加先验函数 SRresnet实现 import torch import torchvision from torch import nnclass ConvBlock(nn.Module):def __init__(self, kernel_size3, stride1, n_inchannels64):super(ConvBlock…

未来将要被淘汰的编程语言

COBOL - 这是一种非常古老的语言,主要用于大型企业系统和政府机构。随着老一代IT工作人员的退休,COBOL程序员变得越来越少。Fortran - 最初用于科学和工程计算,Fortran在特定领域仍然有其应用,但随着更现代的语言(如Py…

路由器做WPAD、VPN、透明代理中之间一个

本文章将采用家中TP-Link路由器 路由器进行配置DNS DNS理解知识本文DNS描述参考:网络安全基础知识&中间件简单介绍_计算机网络中间件-CSDN博客 TP LINK未知的错误,错误编号:-22025 TP-LINK 认证界面地址:https://realnam…

MacOS M3源代码编译Qt6.8.1

编译时间过长,如果不想自己编译,可以通过如果网盘进行下载: 链接: https://pan.baidu.com/s/17lvF5jQ-vR6vE-KEchzrVA?pwdts26 提取码: ts26 在macOS上编译Qt 6需要一些前置步骤和工具。以下是编译Qt 6的基本步骤: 安装Xcode和…

CentOS HTTPS自签证书访问失败问题的排查与解决全流程

sudo cp harbor.crt /usr/local/share/ca-certificates/sudo yum install -y ca-certificatessudo update-ca-trust force-enablesudo update-ca-trust extract 但是访问 https://172.16.20.20 仍然报错 * About to connect() to 172.16.20.20 port 443 (#0) * Trying 172.16.2…

PostgreSQL数据库访问限制详解

pg_hba.conf 文件是 PostgreSQL 数据库系统中非常重要的一个配置文件,它用于定义哪些用户(或客户端)可以连接到 PostgreSQL 数据库服务器,以及他们可以使用哪些认证方法进行连接。 pg_hba.conf 的名称来源于 "Host-Based Aut…

Tool之Excalidraw:Excalidraw(开源的虚拟手绘风格白板)的简介、安装和使用方法、艾米莉应用之详细攻略

Tool之Excalidraw:Excalidraw(开源的虚拟手绘风格白板)的简介、安装和使用方法、艾米莉应用之详细攻略 目录 Excalidraw 简介 1、Excalidraw 的主要特点: Excalidraw 安装和使用方法 1、Excalidraw的安装 T1、使用 npm 安装: T2、使用 …