VQAScore开启文本到视觉生成评估新篇章

随着生成式人工智能技术的飞速发展,如何全面评估生成内容的质量和与输入提示的一致性成为了一个挑战。在图像-文本对齐领域,传统的评估方法如CLIPScore存在局限性,尤其是在处理涉及多个对象、属性和关系的复杂提示时。它们通常基于简单的词袋模型,无法理解文本中的上下文和复杂语义关系。这导致在评估涉及多个对象、属性和关系的复杂提示时,传统方法不能准确捕捉图像与文本之间的对应关系。而且仅依赖于图像和文本嵌入的相似性度量,无法全面反映内容的质量和一致性。

为了解决这一问题,本文提出了VQAScore。VQAScore的新颖之处在于它通过将文本提示转化为具体的问题,并利用视觉-问题回答(VQA)模型来评估图像与文本之间的对齐度。这种方法不仅简化了评估流程,还提高了评估的准确性和可靠性。VQAScore采用双向图像-问题编码器,允许图像内容和文本问题相互影响,更好地模拟人类理解图像和文本的方式。VQAScore在多个基准测试中超越了传统方法,显示出在评估复杂图像-文本对齐任务时的卓越性能。

VQAScore将文本提示转化为一个直接的问题,然后利用视觉-问题回答(VQA)模型来评估这个问题的肯定答案的概率,例如,给定一个图像和一段文本,VQAScore通过构造一个问题,例如将文本“月亮在牛的上方”转换为“这张图中展示了‘月亮在牛的上方’吗?请回答是或否。”然后,VQA模型接收这个格式化后的问题,并计算出“是”这一答案的生成概率。

Figure 1以图解形式详细介绍了VQAScore的计算过程和模型架构的关键特点。图(a)展示了如何将文本转换成一个简单的是非问题,并利用图像-问题编码器和答案解码器来计算图像与文本对齐得分。图(b)强调了采用双向编码器,如FlanT5,相较于单向自回归架构的优势,这种设计允许图像和问题互相影响,从而更准确地评估它们之间的关联性。这一架构选择使得基于CLIP-FlanT5的VQAScore在多个图像、视频和3D对齐基准测试中达到了新的最佳状态。

VQAScore的计算过程相对简单直接,但却非常有效。它避免了复杂的分解和征服策略,这些策略往往需要将文本提示分解为多个模块化组件,这不仅增加了计算的复杂性,还可能因为分解不当而丢失文本的原意。相反,VQAScore通过直接从VQA模型中获取答案概率,以一种端到端的方式评估图像和文本的一致性。

为了进一步提升VQAScore的性能,研究者们开发了CLIP-FlanT5模型。这个模型结合了预训练的CLIP视觉编码器和FlanT5语言模型,通过双向编码器-解码器架构来处理图像和文本。CLIP-FlanT5模型的创新之处在于,它允许图像嵌入依赖于所提问题,同时问题的理解也依赖于图像内容,这种双向交互使得模型能够更准确地捕捉图像和文本之间的复杂关系。

CLIP-FlanT5模型的训练遵循了文献中的一些最佳实践。例如,它采用了分割文本训练方法,这种方法将文本提示在随机位置分割为两部分,分别发送给编码器和解码器。此外,CLIP-FlanT5在公共VQA数据集上进行了微调,以提高其对复杂问答对的处理能力。通过这种方式,CLIP-FlanT5不仅在传统的VQA任务上表现出色,也在图像-文本对齐评估任务上取得了显著的成果。

在多个图像-文本对齐基准测试中,CLIP-FlanT5模型的VQAScore超越了使用专有GPT-4V模型的基线,显示出其强大的性能。这一成果不仅证明了VQAScore作为一种评估指标的有效性,也展示了CLIP-FlanT5模型在理解和处理视觉-语言任务上的先进性。通过这种结合了视觉和语言模型的双向编码器-解码器架构,VQAScore能够为图像和文本对齐提供一种更为精确和可靠的评估方式。

在深入探究VQAScore的有效性方面,实验结果揭示了其相较于现有基线方法的显著优势。这些基线方法包括广泛使用的CLIPScore、TIFA以及PickScore等。实验的核心环节在于评估VQAScore在处理复杂图像-文本匹配任务时的性能,尤其是在最具挑战性的Winoground和EqBen基准测试中的表现。

Winoground和EqBen基准测试的设计宗旨在于通过二元检索任务来严格评估图像与文本之间的匹配程度。这些任务要求模型不仅要理解图像内容,还要准确把握文本描述,进而判断两者是否一致。在这些测试中,VQAScore展现出了卓越的性能,其得分在各项评估指标上均达到了新的最佳状态。这一成就凸显了VQAScore在图像-文本对齐评估方面的先进性和可靠性。

这张表展示了VQAScore在两个最具挑战性的图像-文本匹配基准测试Winoground和EqBen上达到了最新水平的表现。与基线方法(例如CLIPScore和PickScore)相比,VQAScore的得分是它们的两倍到五倍。

为了验证VQAScore的评估结果是否与人类判断一致,作者开展了一系列测试。通过比较VQAScore的输出与人类对图像-文本对齐的主观评价,研究者发现两者之间存在高度的相关性。这表明VQAScore不仅在技术层面上表现出色,而且在实际应用中也能够作为一个值得信赖的评估工具,为图像-文本对齐提供准确的量化分析。

在对VQAScore的性能进行了充分验证之后,作者提出了GenAI-Bench这一新的评估基准。GenAI-Bench的创建旨在更全面地考验文本到视觉生成模型以及视觉-语言对齐度量的性能。该基准包含1600个精心设计的复合文本提示,覆盖了从基础的对象识别、场景解析到高级的比较、逻辑推理等多层次的视觉-语言组合推理技能。

GenAI-Bench的挑战性在于其对模型的全面性要求极高,不仅要求模型能够处理简单的视觉元素,还要求其能够理解和生成复杂的场景和关系。GenAI-Bench还收集了超过15000个人类评分,这些评分针对当前领先的图像和视频生成模型,如Stable Diffusion、DALL-E 3、Midjourney和Gen2等。这些评分为评估自动化度量提供了宝贵的参考,并有助于推动未来视觉-语言模型的发展。

Figure 2比较了基于CLIP-FlanT5模型的VQAScore和CLIPScore在GenAI-Bench基准测试样本上的表现。GenAI-Bench由1600个文本提示组成,涵盖多样的组合推理技能,挑战了像DALL-E 3和Stable Diffusion这样的领先模型。VQAScore与人类判断的一致性显著优于CLIPScore,使其成为自动文本到视觉评估的更可靠工具。

在视频-文本对齐的评估中,VQAScore通过在视频的多个帧上进行采样,并对这些帧上的VQAScore进行平均计算,从而得到整个视频与文本描述的对齐得分。这种方法考虑了视频内容随时间的动态变化,能够更全面地评估视频与文本之间的一致性。实验结果表明,即使是在仅使用少量帧进行采样的情况下,VQAScore也能取得接近最优的性能,这显示了其在视频评估中的高效性和有效性。

对于3D-文本对齐评估,VQAScore的处理方式与视频类似,通过对3D模型的不同视角渲染出的视图进行采样,并对这些视图上的VQAScore进行平均,以获得3D模型与文本描述的对齐得分。这种方法允许评估者从多个角度考察3D模型的特性,从而更准确地判断模型是否符合文本描述的要求。同样,VQAScore在3D-文本对齐基准测试中也展现出了超越现有方法的性能。

Figure 4 展示了 GenAI-Bench 基准测试的示例和挑战顶级生成模型的能力。Figure 4-a 展示了 GenAI-Bench 中的一些示例提示,这些提示设计用来挑战现有的图像和视频生成模型,需要模型进行更高阶的推理技能,如比较、区分、计数和逻辑。而 Figure 4-b 则展示了 GenAI-Bench 的性能排行榜,列出了多个文本到视觉生成模型在这些复杂提示上的平均 VQAScore,区分了基本和高级提示的性能。

通过这些扩展,VQAScore证明了其在多种视觉生成任务中的适用性和强大性能。它不仅能够处理传统的图像-文本对齐问题,还能够应对更加复杂和动态的视频-文本以及3D-文本对齐问题。这些实验结果进一步巩固了VQAScore作为评估工具的地位,也为未来的研究提供了新的方向和可能性。

值得注意的是,VQAScore在视频和3D模型评估中的成功应用,不仅展示了其灵活性和扩展性,还为评估标准提供了新的思路。这种基于问题回答的方法,通过将文本描述转化为具体问题,并计算得到肯定答案的概率,为视频和3D内容的评估提供了一种新颖且有效的途径。这不仅有助于提升评估的准确性,也为自动化评估工具的开发提供了有力的支持。随着视觉生成技术的不断进步,VQAScore有望在更多领域发挥重要作用,推动相关领域的研究和应用向更深层次发展。

论文链接:https://arxiv.org/abs/2404.01291

项目地址:https://linzhiqiu.github.io/papers/vqascore/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/20222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MES系统的功能、架构及应用价值

MES系统生产过程控制的主要方面涵盖了生产计划与控制、生产调度与排程、数据采集与监控、质量控制与管理、物料管理与控制以及设备管理与维护等多个方面。这些功能共同构成了MES系统的核心价值,帮助企业实现生产过程的数字化、智能化和精细化管理。 一、工厂使用MES…

Nginx 1.26.0 爆 HTTP/3 QUIC 漏洞,建议升级更新到 1.27.0

据悉,Nginx 1.25.0-1.26.0 主线版本中涉及四个与 NGINX HTTP/3 QUIC 模块相关的中级数据面 CVE 漏洞,其中三个为 DoS 攻击类型风险,一个为随机信息泄漏风险,影响皆为允许未经身份认证的用户通过构造请求实施攻击。目前已经紧急发布…

密码与网络安全(一):专栏导读

1.专栏目的 这个专栏的核心目的是提升博主自己的密码与网络安全知识,其次也想将相关的学习收获分享给感兴趣的小伙伴。博主自己的工作主要量子技术相关,身边的同事基本上也是物理专业出身,最近和单位密码领域同事聊天时他提到一个思路很好的启…

【Linux 网络】网络基础(三)(其他重要协议或技术:DNS、ICMP、NAT)

一、DNS(Domain Name System) DNS 是一整套从域名映射到 IP 的系统。 1、DNS 背景 TCP/IP 中使用 IP 地址和端口号来确定网络上的一台主机的一个程序,但是 IP 地址不方便记忆。于是人们发明了一种叫主机名的东西,是一个字符串&…

学习笔记——网络参考模型——TCP/IP模型

二、TCP/IP模型 TCP/IP模型(TCP/IP协议栈):很多个互联网协议的集合,其中以TCP和IP为主,将这些协议的集合称为TCP/IP协议栈。目前使用最多的协议模型。 因为OSI协议栈比较复杂,且TCP和IP两大协议在业界被广泛使用,所以…

JavaScript 动态网页实例 —— 窗口控制

除了打开和关闭窗口之外,还有很多其他控制窗口的方法。例如,可以使用 window.focus()方法使窗口获得焦点,也可以利用与其相对的window.blur 方法使窗口失去焦点。本节介绍移动窗口、改变窗口大小、窗口滚动、窗口超时操作、常用窗口事件、常用窗口扩展等窗口控制的方法和手段。…

[每周一更]-(第99期):MySQL的索引为什么用B+树?

文章目录 B树与B树的基本概念B树(Balanced Tree)B树(B-Plus Tree)对比 为什么MySQL选择B树1. **磁盘I/O效率**2. **更稳定的查询性能**3. **更高的空间利用率**4. **并发控制** 其他树结构的比较参考 索引是一种 数据结构&#x…

LeeCode热题100(两数之和)

本文纯干货,看不懂来打我! 自己先去看一下第一题的题目两数之和:. - 力扣(LeetCode) 简单来说就是让你在一个数组里面找两个数,这两个数的和必须满足等于目标值target才行。 我认为你要是没有思路的话&a…

营造科技展厅主题氛围,多媒体应用有哪些新策略?

长久以来,展厅作为线下向公众传递信息的窗口,其设计风格与内容主题紧密相连,展现出千姿百态的面貌。然而,随着数字多媒体技术的日新月异,展厅不再仅仅是传统的信息展示平台,而是成为了引领内容展示潮流的风…

【Git】git合并分支指定内容到主分支

git合并分支指定内容到主分支 在现实开发中,往往需要合并分支内容,如下图: 我们平时在其他分支修改了部分代码,如何将分支部分代码合并到主分支上面呢? 合并步骤: 1、切换当前到主分支 git checkout m…

大型制造业集团IT信息化总体规划方案(65页PPT)

方案介绍: 本大型制造业集团IT信息化总体规划方案旨在通过构建先进、高效、稳定的IT信息化系统,支撑集团各业务领域的运营和管理需求,促进集团整体运营效率和竞争力的提升。通过实施本项目,集团将能够更好地应对市场变化和客户需…

python绘制piper三线图

piper三线图 Piper三线图是一种常用于水化学分析的图表,它能够帮助我们理解和比较水样的化学成分。该图表由三个部分组成:两个三角形和一个菱形。两个三角形分别用于显示阳离子和阴离子的相对比例,而菱形部分则综合显示了这些离子比例在水样…

十四天学会Vue——Vue 组件化编程(理论+实战)(第四天)

二、 Vue组件化编程 2.1 组件化模式与传统方式编写应用做对比: 传统方式编写应用 依赖关系混乱,不好维护:例如:比如需要引入js1,js2,js3,但是js3需要用到js1、2的方法,所以js1、2…

掌控未来,爱普生SR3225SAA用于汽车钥匙、射频电路的智慧引擎

为了响应市场需求,Epson使用独家QMEMS*2技术所生产的石英振荡器,与其精巧的半导体技术所制造的射频传输器电路,开发了SR3225SAA。不仅内建的石英震荡器之频率误差仅有2 ppm,更使其封装尺寸达仅3.2 mm x 2.5 mm,为客户大…

C#中接口的显式实现与隐式实现及其相关应用案例

C#中接口的显式实现与隐式实现 最近在学习演化一款游戏项目框架时候,框架作者巧妙使用接口中方法的显式实现来变相对接口中方法进行“密封”,增加实现接口的类访问方法的“成本”。 接口的显式实现和隐式实现: 先定义一个接口,接口…

dolphinscheduler docker部署海豚mysql版本,docker重新封装正在运行服务为镜像

1.官方文档: https://dolphinscheduler.apache.org/zh-cn/docs/3.2.1/guide/installation/standalone#%E9%85%8D%E7%BD%AE%E6%95%B0%E6%8D%AE%E5%BA%93 2.github: dolphinscheduler/docs/docs/zh/guide/howto/datasource-setting.md at 3.2.1-release apache/do…

对于vsc中的vue命令 vue.json

打开vsc 然后在左下角有一个设置 2.点击用户代码片段 3.输入 vue.json回车 将此代码粘贴 &#xff08;我的不一定都适合&#xff09; { "vue2 template": { "prefix": "v2", "body": [ "<template>", " <…

Ubuntu中PDF阅读器和编辑器

1. 福昕PDF编辑器 1.1. 下载地址 PDF阅读器下载_PDF编辑器下载_PDF软件官方下载_福昕软件官网 1.2. 安装 sudo dpkg -i signed_com.foxit.foxitpdfeditor_xxx_amd64_UOS.deb 2. WPS DPF 2.1. 下载地址 WPS Office 2019 for Linux-支持多版本下载_WPS官方网站 2.2. 使用 …

基于ES安装IK分词插件

前言 IK分词器插件是为Elasticsearch设计的中文分词插件&#xff0c;由Elasticsearch的官方团队之外的开发者medcl开发。它主要针对中文文本的分词需求&#xff0c;提供了较为准确的中文分词能力。以下是IK分词器插件的一些特点&#xff1a; 智能分词&#xff1a;IK分词器采用基…

每天学点小知识:WSL安装Ubuntu 22.04 LTS

前言 本章教会你在不使用虚拟机下使用linux&#xff0c;但是这里建议还是使用虚拟机&#xff0c;或者装一双系统&#xff0c;wsl使用linux还是有很多问题的。 1. 简介WSL WSL&#xff08;Windows Subsystem for Linux&#xff09;是微软为Windows 10及以上版本开发的一项功能…