GPT-4o首次引入!全新图像自动评估基准发布!

目录

01 什么是DreamBench++?

02 与人类对齐的自动化评估

03 更全面的个性化数据集

04 实验结果


面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。

对此,来自清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中科院和旷视的研究人员共同推出了一项新基准——DreamBench++。

通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。

简单来说,通过精心设计的提示词以及引入思维链提示,团队让GPT-4o在图像评估过程中学会了像人类一样思考,并展现其思考过程。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

为了测试效果,团队以7名专业人类标注员的打分为基准,对7种不同的图像生成方法进行了评估。结果显示,DreamBench++与人类评价高度一致。

01 什么是DreamBench++?

DreamBench++是一个全新的评估工具,在个性化图像评估领域实现了两项关键技术突破:

  1. 引入支持多模态的GPT-4o,实现与人类偏好的深度对齐和自动化评估。
     
  2. 推出了一个更为全面和多元化的数据集。

02 与人类对齐的自动化评估

尽管GPT-4o支持多模态输入,但在评估图像中的细微差异时面临挑战。研究人员选择直接打分而非对比,以避免不同方法生成的图像顺序影响结果,并减少标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的提示词:

  • 任务描述:明确评估的目标和要求。
     
  • 评分标准解释:详细说明评估的依据。
     
  • 评分范围定义:设定评分的量化标准。
     
  • 格式规范:确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。

为了收集无偏的人类偏好数据,研究团队招募了7名经过专业培训的标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

03 更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集。构建过程包括以下步骤:

  • 获取主题关键词:团队挑选并生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200个关键词,分为物体、活物和风格化图片三种类型。
     
  • 图片收集:收集来源包括Unsplash、Rawpixel和Google Image Search。挑选背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
     
  • 提示词(prompt)生成:引导GPT-4o生成不同复杂程度的提示词。这些提示词的复杂性与生成任务的难度相对应。

04 实验结果

在DreamBench++平台上,研究团队对7种不同的图像生成方法进行了评估。这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

评估结果显示:

  • 在图像相似性方面,DINO-I和CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价。
     
  • 在文本遵循方面,CLIP-T的评分则相对较低。
     
  • GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅关注单一方面,而是全面地评估图像的各个方面。

此外,团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示。

在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了79.64%的一致性。


在遵循文本指令生成图像的能力方面,DreamBench++的一致性高达93.18%。

从数据来看,DreamBench++的人类一致性比DINO score高出54.1%,比CLIP score高出50.7%。这也侧面说明,通过设计提示词,能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外,DreamBench++的数据集多样性更高,与DreamBench相比,finetune-based方法在DreamBench++上的表现会下降。

团队推测这可能是因为他们在DreamBench上调整了参数,而DreamBench的种类并不全面。同时,Emu2在非自然或复杂图像上的表现也会下降。

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

DeepSeek-Coder-v2击败GPT-4 Turbo,成为竞技场最强开源编码模型!


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sql server启动、连接 与 navicat连接sql server

一、sql server 启动 1.搜索cmd->以管理员身份运行 2.输入以下命令 net start mssqlserver 3.服务器启动成功 二、sql server连接 1.打开ssms,输入,连接 2.右键,属性 3.连接,勾选允许远程连接到此服务器 三、navicat连接sq…

Python实现无头浏览器采集应用的反爬虫与反检测功能解析与应对策略

Python实现无头浏览器采集应用的反爬虫与反检测功能解析与应对策略 随着网络数据的快速增长,爬虫技术在数据采集、信息分析和业务发展中扮演着重要的角色。然而,随之而来的反爬虫技术也在不断升级,给爬虫应用的开发和维护带来了挑战。为了应…

媒体宣发套餐的概述及推广方法-华媒舍

在今天的数字化时代,对于产品和服务的宣传已经变得不可或缺。媒体宣发套餐作为一种高效的宣传方式,在帮助企业塑造品牌形象、扩大影响力方面扮演着重要角色。本文将揭秘媒体宣发套餐,为您呈现一条通往成功的路。 1. 媒体宣发套餐的概述 媒体…

MySQL中的存储引擎

介绍 存储引擎就是存储数据,建立索引,更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也可以称为表类型(即一个数据库下的表可以选择不同的存储引擎)。 1. 如何查看一个…

day57---面试专题(框架篇)

框架篇 1. Spring refresh 流程 要求 掌握 refresh 的 12 个步骤Spring refresh 概述 refresh 是 AbstractApplicationContext 中的一个方法,负责初始化 ApplicationContext 容器,容器必须调用 refresh 才能正常工作。它的内部主要会调用 12 个方法,我们把它们称为 refre…

收银系统源码-千呼新零售【手机端收银】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

风风火火的新造车,或正在酝酿下一个乐视系,造车就是个大坑

随着国内新能源汽车占新车市场的比例突破五成,燃油车发起了猛烈的反击,5月份燃油车猛烈反弹,前五名之中就有5款是燃油车,燃油车到了背水一战的时候,随着电动汽车和燃油车的较量达到白热化,新造车被淘汰一部…

无视OpenAI限制:智创聚合API的稳定服务承诺

近期OpenAI的一则消息——终止对中国提供API服务,无疑给许多依赖其技术的企业和开发者带来了不小的困扰。但别担心,智创聚合API平台始终在这里,为您提供稳定、可靠且经济的AI服务。 稳定服务,不受限制 智创聚合API平台的服务器设在…

kafka(一)原理(2)组件

一、broker 1、介绍 kafka服务器的官方名字,一个集群由多个broker组成,一个broker可以容纳多个topic。 2、工作流程 3、重要参数 参数名称 描述 replica.lag.time.max.ms ISR中,如果Follower长时间未向Leader发送通信请求或同步数据&a…

MessageBox的作用与用法

在C# ( Windows Forms )中,MessageBox 的所有常用用法如下: 1. 显示一个简单的消息框 MessageBox.Show("这是一个简单的消息框。");2. 显示带标题的消息框 MessageBox.Show("这是一个带标题的消息框。", &…

脉冲同步器(快到慢)

目录 描述 输入描述: 输出描述: 参考代码 描述 sig_a 是 clka(300M)时钟域的一个单时钟脉冲信号(高电平持续一个时钟clka周期),请设计脉冲同步电路,将sig_a信号同步到时钟域 cl…

【计算机毕业设计】073智慧旅游平台开发微信小程序

🙊作者简介:拥有多年开发工作经验,分享技术代码帮助学生学习,独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件,帮助大学选题。赠送开题报告模板&#xff…

abap 类封装Excel转换到内表

文章目录 1.封装思路2.参数2.1.参数解析3.代码4.调用案例5.该类中的其他方法截图1.封装思路 直接复制粘贴激活直接用 首先,需要你在SE11中创建一个和你Excel中的字段相同的结构,然后把这个结构名字以字符串的形式传给方法.几乎可以实现任意扁平结构的Excel转到内表. 2.参数 2…

QT基本对话框(基本对话框、工具盒类、进度条、调色板与电子钟、可扩展对话框、程序启动画面)

此篇文章通过实例介绍基本对话框的用法。首先介绍标准文件对话框(QFileDialog)、标准颜色对话框(QColorDialog)、标准字体对话框(QFontDialog)、标准输入对话框(QInputDialog)以及标…

耐高温水位传感器有哪些

耐高温水位传感器在现代液位检测技术中扮演着重要角色,特别适用于需要高温环境下稳定工作的应用场合。这类传感器的设计和材质选择对其性能和可靠性至关重要。 一种典型的耐高温水位传感器是FS-IR2016D,它采用了PPSU作为主要材质。PPSU具有优良的耐高温…

配置 Python 解释器及虚拟环境

配置 Python 解释器及虚拟环境 配置 Python 解释器: 1. 打开 PyCharm,进入“File”(文件)菜单,选择“Settings”(设置)。 2. 在弹出的设置窗口中,选择“Project: [项目名称]”下的…

尚品汇-(八)

(1)spu相关业务介绍 销售属性 销售属性,就是商品详情页右边,可以通过销售属性来定位一组spu下的哪款sku。可以让当前的商品详情页,跳转到自己的“兄弟”商品。 一般每种商品的销售属性不会太多,大约1-4种…

background 与 background-image

相同点:background 与 background-image都可以用于设置背景图 区别. background既可以用于设置背景图, 又可以用于设置CSS样式,还可以用于设置背景属性。 background-image只能用于设置背景图 background能设置的背景属性,如下&…

恢复机制-数据库系统中的故障(事务故障、系统故障、介质故障)、一致性错误、窃取但不强制的缓冲区管理策略

一、引言 数据库管理系统DBMS的事务处理技术实现的一个主要功能部分就是恢复机制,恢复机制完成的功能就是对发生故障后系统中事务的更新结果进行数据恢复,保证事务的原子性和持久性,从而进一步保证数据库的一致性。 数据库系统与其他计算机系…