GPT-4o首次引入!全新图像自动评估基准发布!

目录

01 什么是DreamBench++?

02 与人类对齐的自动化评估

03 更全面的个性化数据集

04 实验结果


面对层出不穷的个性化图像生成技术,一个新问题摆在眼前:缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。

对此,来自清华大学、西安交通大学、伊利诺伊大学厄巴纳-香槟分校、中科院和旷视的研究人员共同推出了一项新基准——DreamBench++。

通过收集不同的图像和提示,团队利用GPT-4o实现了符合人类偏好的自动评估。

简单来说,通过精心设计的提示词以及引入思维链提示,团队让GPT-4o在图像评估过程中学会了像人类一样思考,并展现其思考过程。

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

为了测试效果,团队以7名专业人类标注员的打分为基准,对7种不同的图像生成方法进行了评估。结果显示,DreamBench++与人类评价高度一致。

01 什么是DreamBench++?

DreamBench++是一个全新的评估工具,在个性化图像评估领域实现了两项关键技术突破:

  1. 引入支持多模态的GPT-4o,实现与人类偏好的深度对齐和自动化评估。
     
  2. 推出了一个更为全面和多元化的数据集。

02 与人类对齐的自动化评估

尽管GPT-4o支持多模态输入,但在评估图像中的细微差异时面临挑战。研究人员选择直接打分而非对比,以避免不同方法生成的图像顺序影响结果,并减少标注时间。

为了确保评估的准确性和一致性,研究人员设计了包含以下要素的提示词:

  • 任务描述:明确评估的目标和要求。
     
  • 评分标准解释:详细说明评估的依据。
     
  • 评分范围定义:设定评分的量化标准。
     
  • 格式规范:确保评分的统一性和可比性。

评分规则涵盖了形状、颜色、纹理以及面部细节(特别针对人和动物),以全面评估图像的个性化效果。

为了收集无偏的人类偏好数据,研究团队招募了7名经过专业培训的标注员。他们的标注结果被用作人类打分的基准,以确保评估结果的客观性和可靠性。

03 更全面的个性化数据集

为了确保评估过程的公正性和无歧视性,DreamBench++的研究人员构建了一个新的个性化数据集。构建过程包括以下步骤:

  • 获取主题关键词:团队挑选并生成了一系列可用于个性化生成的主体名称,如猫、钟表、男人等,共200个关键词,分为物体、活物和风格化图片三种类型。
     
  • 图片收集:收集来源包括Unsplash、Rawpixel和Google Image Search。挑选背景干净、主体占比大的图片,以确保图像的清晰度和识别度。
     
  • 提示词(prompt)生成:引导GPT-4o生成不同复杂程度的提示词。这些提示词的复杂性与生成任务的难度相对应。

04 实验结果

在DreamBench++平台上,研究团队对7种不同的图像生成方法进行了评估。这些方法涵盖了基于训练的、无需训练的,以及基于多模态大语言模型(MLLM)的多种方案。

评估结果显示:

  • 在图像相似性方面,DINO-I和CLIP-I(现有的图像自动评估指标)的评分往往高于人类的评价。
     
  • 在文本遵循方面,CLIP-T的评分则相对较低。
     
  • GPT-4o在这两方面的评分均更接近人类的打分。

团队推测上述结果背后的原因是,GPT-4o和人类评价者都会综合考虑多个视觉元素,如形状、轮廓、纹理,以及人或动物的面部细节等,最终给出一个综合性的评分。

这种评价方式更符合人类的直觉和偏好,因为它不仅关注单一方面,而是全面地评估图像的各个方面。

此外,团队还对不同图像生成方法在DreamBench++上的生成结果进行了可视化展示。

在评估图像生成结果的保持主体情况时,DreamBench++与人类评估者达到了79.64%的一致性。


在遵循文本指令生成图像的能力方面,DreamBench++的一致性高达93.18%。

从数据来看,DreamBench++的人类一致性比DINO score高出54.1%,比CLIP score高出50.7%。这也侧面说明,通过设计提示词,能够让GPT-4o较为准确地捕捉和反映人类的审美和偏好。

另外,DreamBench++的数据集多样性更高,与DreamBench相比,finetune-based方法在DreamBench++上的表现会下降。

团队推测这可能是因为他们在DreamBench上调整了参数,而DreamBench的种类并不全面。同时,Emu2在非自然或复杂图像上的表现也会下降。

这些都说明DreamBench++更全面的数据集暴露了已有的个性化方法中的新问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

DeepSeek-Coder-v2击败GPT-4 Turbo,成为竞技场最强开源编码模型!


超越GPT-4o!新王Claude 3.5 Sonnet来啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sql server启动、连接 与 navicat连接sql server

一、sql server 启动 1.搜索cmd->以管理员身份运行 2.输入以下命令 net start mssqlserver 3.服务器启动成功 二、sql server连接 1.打开ssms,输入,连接 2.右键,属性 3.连接,勾选允许远程连接到此服务器 三、navicat连接sq…

java:aocache的单实例缓存(二)

之前一篇博客《java:aocache的单实例缓存》介绍了aoocache使用注解AoCacheable实现单实例缓存的方式,同时也指出了这种方式的使用限制,就是这个注解定义的构造方法,不能再创建出新实例。 为了更灵活方便的实现单实例。aocache最新版本0.4.0增…

人工智能笔记本选购标准

适合人工智能专业使用的笔记本电脑需要有高性能的CPU、大内存、快速的硬盘、高性能的GPU、支持虚拟化等特性。 一、硬件配置要求 要选择适合人工智能专业使用的笔记本电脑,配置是非常重要的考虑因素。首先,它需要有高性能的CPU,如i7或i9处理器…

nodejs--nodejs内置模块(上)

05 【nodejs内置模块(上)】 1.nodejs 的官方API文档 Node.js 的API文档(英文): https://nodejs.org/docs/latest-v8.x/api/index.htmlNode.js 的API文档(中文):http://nodejs.cn/a…

Python实现无头浏览器采集应用的反爬虫与反检测功能解析与应对策略

Python实现无头浏览器采集应用的反爬虫与反检测功能解析与应对策略 随着网络数据的快速增长,爬虫技术在数据采集、信息分析和业务发展中扮演着重要的角色。然而,随之而来的反爬虫技术也在不断升级,给爬虫应用的开发和维护带来了挑战。为了应…

iCloud Drive使用指南:如何在云端创建和管理文件夹与文件

iCloud Drive是苹果公司提供的一项云存储服务,它允许用户在所有Apple设备上存储文件和文档,并实现无缝同步。通过iCloud Drive,用户可以轻松创建、访问、编辑和共享文件,无论身处何地。本文将详细介绍如何在iCloud Drive中创建文件…

Python 学习路线及技巧

一、学习路线 1. 基础阶段 ● 学习 Python 的语法基础,如变量、数据类型、运算符、控制流等。 ● 掌握常用的 Python 标准库,如 os、sys、re、datetime 等。 ● 通过编写简单的程序来巩固基础,如计算器、字符串处理等。 2. 进阶阶段 ● 深入…

媒体宣发套餐的概述及推广方法-华媒舍

在今天的数字化时代,对于产品和服务的宣传已经变得不可或缺。媒体宣发套餐作为一种高效的宣传方式,在帮助企业塑造品牌形象、扩大影响力方面扮演着重要角色。本文将揭秘媒体宣发套餐,为您呈现一条通往成功的路。 1. 媒体宣发套餐的概述 媒体…

MySQL中的存储引擎

介绍 存储引擎就是存储数据,建立索引,更新/查询数据等技术的实现方式。存储引擎是基于表的,而不是基于库的,所以存储引擎也可以称为表类型(即一个数据库下的表可以选择不同的存储引擎)。 1. 如何查看一个…

day57---面试专题(框架篇)

框架篇 1. Spring refresh 流程 要求 掌握 refresh 的 12 个步骤Spring refresh 概述 refresh 是 AbstractApplicationContext 中的一个方法,负责初始化 ApplicationContext 容器,容器必须调用 refresh 才能正常工作。它的内部主要会调用 12 个方法,我们把它们称为 refre…

收银系统源码-千呼新零售【手机端收银】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

风风火火的新造车,或正在酝酿下一个乐视系,造车就是个大坑

随着国内新能源汽车占新车市场的比例突破五成,燃油车发起了猛烈的反击,5月份燃油车猛烈反弹,前五名之中就有5款是燃油车,燃油车到了背水一战的时候,随着电动汽车和燃油车的较量达到白热化,新造车被淘汰一部…

deepE 定位系统卡顿问题实战(一) ----------- 锁造成的阻塞问题

deepE介绍 deepE是一个开源的用于端侧(自动驾驶车,机器人)等环境的系统问题与性能分析工具。基于ebpf功能实现 deepE项目地址 欢迎star 测试程序 #include <iostream> #include <thread> #include <mutex>static std::mutex lock;void func1() {int l…

FastGPT本地手动部署(一)mongodb和pgvector的安装

本文主要介绍 mongodb 和 pgvector 的安装,为了更快安装,通过 docker 的方式进行安装,本文使用的环境是 ubuntu 20.04。 一、安装 docker 直接通过 apt 进行安装,执行如下命令。 sudo apt install docker.io docker-compose 二、安装 mongodb 和 pgvector (1)docker…

出现 nested exception is java.sql.SQLException: 无效的列类型 的解决方法

目录 前言1. 问题所示2. 原理分析3. 解决方法4. 彩蛋前言 以下主要以mybatisPLus或者JDBC的方式进行插入,导致数据库出现类型不一致 如果是mybatis中的xml也差不多思路 1. 问题所示 代码与数据库交互的时候,出现如下问题 org.springframework.jdbc.UncategorizedSQLExcep…

无视OpenAI限制:智创聚合API的稳定服务承诺

近期OpenAI的一则消息——终止对中国提供API服务&#xff0c;无疑给许多依赖其技术的企业和开发者带来了不小的困扰。但别担心&#xff0c;智创聚合API平台始终在这里&#xff0c;为您提供稳定、可靠且经济的AI服务。 稳定服务&#xff0c;不受限制 智创聚合API平台的服务器设在…

kafka(一)原理(2)组件

一、broker 1、介绍 kafka服务器的官方名字&#xff0c;一个集群由多个broker组成&#xff0c;一个broker可以容纳多个topic。 2、工作流程 3、重要参数 参数名称 描述 replica.lag.time.max.ms ISR中&#xff0c;如果Follower长时间未向Leader发送通信请求或同步数据&a…

MessageBox的作用与用法

在C# &#xff08; Windows Forms &#xff09;中&#xff0c;MessageBox 的所有常用用法如下&#xff1a; 1. 显示一个简单的消息框 MessageBox.Show("这是一个简单的消息框。");2. 显示带标题的消息框 MessageBox.Show("这是一个带标题的消息框。", &…

脉冲同步器(快到慢)

目录 描述 输入描述&#xff1a; 输出描述&#xff1a; 参考代码 描述 sig_a 是 clka&#xff08;300M&#xff09;时钟域的一个单时钟脉冲信号&#xff08;高电平持续一个时钟clka周期&#xff09;&#xff0c;请设计脉冲同步电路&#xff0c;将sig_a信号同步到时钟域 cl…