1、Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models
中文标题:Chain-of-Spot:交互式推理改进大型视觉语言模型
简介:在视觉语言理解领域,模型在解释和推理视觉内容方面的熟练程度已经成为许多应用的基础。然而,对于大型视觉语言模型(LVLMs)中的视觉编码器来说,提取与语言模型响应相关的问题定制特征是一个具有挑战性的问题。此外,现有LVLMs的常见做法是使用较低分辨率的图像,这限制了视觉识别的能力。
我们的研究引入了一种名为Chain-of-Spot(CoS)的方法,它是一种交互式推理技术,旨在增强特征提取。CoS方法关注于图像中与提出的问题或指令相对应的关键兴趣区域(ROI),从而提供了多粒度的图像特征,而不改变原始图像的分辨率。通过将Chain-of-Spot与指令跟随模型LLaVA-1.5集成,我们的方法在多个多模态数据集和基准测试中始终提高了图像推理性能,而无需复杂的改动,并获得了新的最先进结果。
我们的实证结果表明,LVLMs在理解和推理视觉内容方面的能力显著提升,为更复杂的视觉指令跟随应用奠定了基础。我们的代码和模型可以在https://github.com/dongyh20/Chain-of-Spot上获得。
2、Negative Yields Positive: Unified Dual-Path Adapter for Vision-Language Models
中文标题:负收益产生正收益:视觉语言模型的统一双路径适配器
简介:最近,大规模预训练的视觉语言模型(VLMs)展示了学习开放世界视觉表示的巨大潜力,并通过高效的微调在各种下游任务中展现出卓越的性能。在本研究中,我们创新地引入了双重学习的概念来微调VLMs,即不仅学习图像是什么,还学习图像不是什么。基于这个概念,我们提出了一种全新的DualAdapter方法,通过有限的注释样本从正面和负面两个方面实现VLMs的双重适应。
在推理阶段,我们的DualAdapter通过同时进行正面选择和负面排除,以统一预测目标类别,从而增强了VLMs在下游任务中的整体识别精度。我们在15个数据集上进行了广泛的实验,结果验证了所提出的DualAdapter在少样本学习和领域泛化任务上优于现有的最先进方法,并且具备竞争性的计算效率。、
我们的代码可在https://github.com/zhangce01/DualAdapter中找到。
3、FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
中文标题:FouriScale:免训练高分辨率图像合成的频率视角
简介:在这项研究中,我们对如何从预训练的扩散模型生成高分辨率图像进行了深入研究,解决了应用模型到训练分辨率以外时出现的持久性挑战,如重复模式和结构失真。为了解决这个问题,我们从频域分析的角度引入了一种创新的、无需训练的方法,称为Fouriscale。
通过引入扩张技术和低通操作,我们用Fouriscale方法替换了预训练扩散模型中的原始卷积层,以实现结构一致性和尺度一致性。通过进一步采用填充-裁剪策略的增强,我们的方法可以灵活地处理各种长宽比的文本到图像生成任务。在Fouriscale的指导下,我们的方法成功地平衡了生成图像的结构完整性和保真度,实现了任意尺寸、高分辨率和高质量的图像生成能力。
由于其简单性和兼容性,我们的方法为未来的超高分辨率图像合成研究提供了有价值的见解。我们的代码将在https://github.com/LeonHLJ/FouriScale上发布。