厉害了多模态对齐！新思路直接发高区！小红书、国科大都在抢着发！

多模态是个非常热门的话题，这其中，“多模态对齐”已经被验证非常重要，它能够提升AI模型的跨模态理解和情感分析精度，是未来多模态大模型商业化的必要条件，研究热度不言而喻。

就说最近的大佬团队，小红书前脚刚在顶会CIKM'24上发表了AlignRec框架，以解决多模态推荐系统中的对齐问题。国科大紧跟着也提出了Math-PUMA，一种三阶段的专注于渐进向上的多模态对齐方法，性能比肩GPT-4V！

另外还有大幅减少GPU内存使用和推理时间的AlignMamba、在零样本分类任务中表现突出的轻量级框架OneEncoder...都是近期最新的多模态对齐方法，非常值得我们研读。

如果有想发论文的同学需要这些优秀成果参考，可以直接看我整理好的11篇多模态对齐最新论文（包含以上），基本都有开源代码，这样节省找资料的时间提高论文效率。

全部论文+开源代码需要的同学看文末

AlignRec: Aligning and Training in Multimodal Recommendations

方法：论文提出AlignRec框架研究多模态推荐中的对齐问题，聚焦于内容内对齐、内容与类别ID对齐、以及用户与物品对齐，以解决多模态内容与ID特征之间的语义差距，采用预训练策略获取统一的多模态特征，随后联合训练后续对齐任务，从而在长尾物品推荐中优于现有方法。

创新点：

对齐内容内的多模态信息（视觉和文本），通过基于注意力的跨模态编码器实现，为每个物品输出统一的模态表示。
首先预训练内容内对齐任务以获得统一的多模态特征，然后结合内容-类别对齐和用户-物品对齐任务进行推荐目标的训练。
提出零样本、项目-CF和屏蔽模态推荐等三个中间评估协议，直接评估多模态特征对推荐的有效性。

Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning

方法：论文提出了Math-PUMA方法，通过渐进式多模态对齐来提高多模态大语言模型（MLLMs）的数学推理能力。作者通过构建多模态数据集和利用Kullback-Leibler（KL）散度实现视觉与文本模态对齐，并通过多模态指令微调，显著提升模型在不同模态下的数学问题解决能力。

创新点：

引入了一个创新的三阶段方法来提高多模态大语言模型 (MLLMs) 的数学推理能力。
通过构建一个包含996K高质量多模态问题求解数据的数据集，进一步微调模型，显著提高了模型在多模态数学问题求解任务中的性能。

AlignMamba: Enhancing Multimodal Mamba with Local and Global Cross-modal Alignment

方法：论文提出了AlignMamba，通过局部和全局跨模态对齐来增强多模态表示的融合。AlignMamba基于最优传输引入了一个局部跨模态对齐模块，用于显式学习不同模态之间的令牌级对应关系，并且提出了一个基于最大均值差异的全局跨模态对齐损失，用于隐式地强制不同模态分布之间的一致性。

创新点：

提出了AlignMamba框架，用于解决直接应用Mamba于多模态融合任务时的局限性。
引入了一种基于最优传输（OT）的局部对齐模块，用于显式学习token级的对应关系，并通过基于最大均值差异（MMD）的全局对齐损失实现隐式分布对齐。

OneEncoder: A Lightweight Framework for Progressive Alignment of Modalities

方法：论文介绍了一个轻量级框架OneEncoder，用于逐步对齐不同的模态，如图像、文本、音频和视频。OneEncoder利用预训练的模态特定编码器作为固定特征提取器，并仅训练一个轻量级的通用投影模块来跨所有模态进行对齐。此外，OneEncoder还引入了模态标记以确保在UP内部一致的多模态映射。