1、InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output
中文标题:InternLM-XComposer-2.5:支持长上下文输入和输出的多功能大视觉语言模型
简介:我们推出了InternLM-XComposer-2.5(简称IXC-2.5),一款具有卓越处理长序列数据能力的多功能语言模型,能够处理和生成广泛的文本与图像内容。IXC-2.5凭借其强大的7B参数规模,展现了媲美GPT-4V的性能,即便是在处理包含24K交替图像与文本的复杂情境下,也能通过RoPE技术平稳地适应更长达96K的上下文环境。这种对长序列的出色掌控力,使其在需求涵盖大量输入输出信息的任务中表现优异。
相较于其前身2.0版,IXC-2.5在视觉语言理解领域实现了三大突破性进步:一是具备了对超高分辨率图像的深度解析能力;二是能够精细解读视频内容;三是支持多轮次、多图片的交互式对话。此外,IXC-2.5通过引入额外的LoRA参数,增强了两项文本图像融合的应用场景:第一,能够创建结构化且内容丰富的网页;第二,能生成结合高品质图文的文章。这些功能的实现,得益于IXC-2.5在28个评估基准上的出色表现,其中在16项上超越了当前开源领域的顶尖模型。同时,在16个核心任务上,IXC-2.5与GPT-4V及Gemini Pro等强劲对手展开了激烈的比拼,展现出不俗的实力。
目前,InternLM-XComposer-2.5已对外开放,可于https://github.com/InternLM/InternLM-XComposer获取源代码,供研究者和开发者们探索和应用。
2、BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations
中文标题:BACON:使用概念袋图增强您的 VLM,以减轻幻觉
简介:本文创新性地引入了“概念袋图”(BACON)这一框架,旨在增强模型的语言理解能力,使之能够借鉴视觉语言模型(VLMs)的优势,从而在诸如物体检测、视觉问答(VQA)以及图像合成等下游任务上取得显著提升。鉴于现实世界中的视觉场景往往蕴含着错综复杂的对象间关系,BACON巧妙地将这些注解拆解至最基本单元,并以图形化的形式予以呈现。这种基于元素的直观表达,加之灵活的结构重组,有效规避了定位困难的问题。
借助精心设计的引导策略,辅以现成的VLMs与分割算法,我们构建了一个包含10万张标注图像的庞大数据库。此举不仅令VLMs展现出了非凡的才能——比如,精确地生成BACON图表,将自然语言提示转化为BACON格式,还能生动地再现由BACON定义的场景布局,并支持通过互动对话实时调整BACON中的组成要素。一系列覆盖检测、VQA与图像生成等领域的全面实验证明,BACON成为了实现过往难以触及任务的关键,亦或是在现有顶尖方案中脱颖而出的制胜法宝,其价值不可小觑。
3、ACTRESS: Active Retraining for Semi-supervised Visual Grounding
中文标题:ACTRESS:半监督视觉基础的主动再训练
简介:半监督视觉定位(SSVG)作为一项前沿研究课题,其特征在于稀缺的标注数据和对多模态理解的需求,构成了一个颇具挑战性的领域。先前的探索,如RefTeacher,曾通过师生架构引入伪置信度指导及注意力机制监督,初步涉足这一难题。不过,该途径与现今基于Transformer架构的顶尖视觉定位系统格格不入。这些系统采取直接预测策略,跳过了区域提议和前景二元分类步骤,故而缺失置信度评分,使得它们与RefTeacher的协同工作受阻。再者,因数据增强策略的差异,造成师生模型输入间的几何偏差,进而自然地引发了注意力约束下的配准难题。
为解决上述局限,本文献提出了一种名为ACTRESS的半监督视觉定位主动重训练流程。此法首先借由附加量化检测模块,强化模型的检测置信水平。随后,ACTRESS整合了主动采样与选择性重训练双策略。主动采样技术凭借评估三大核心指标——忠诚度、稳健性及置信度,循环甄选出高质伪标签,以最大化无标签数据的效能。选择性重训练机制则通过周期性重置部分模型参数,实施模型重训,助其摆脱局部最优陷阱。一系列全面的测试结果证实,ACTRESS在广泛应用的基准数据集上展现了超群的效能。
简而言之,面对SSVG任务的固有复杂性,本文提出的ACTRESS方案,通过增强模型置信度、优化伪标签质量以及促进全局最优解搜索,有效提升了基于Transformer的视觉定位模型在半监督环境下的表现。