CVPR 2024最佳论文分享:文本到图像生成的丰富人类反馈

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

00/ 论文分享

本推文详细介绍了CVPR 2024最佳论文《Rich Human Feedback for Text-to-Image Generation》。该论文的第一作者为梁有为。论文针对文本生成图像的伪影、不可信、低审美等问题,发布了第一个具有丰富人类反馈的数据集RichHF-18K。在此基础上,提出了一个多模态Transformer模型(RAHF)用于预测生成图像的丰富反馈,并进一步证明了RAHF预测的丰富人类反馈对改善图像生成的通用性。本推文由朱旺撰写,审校为李杨和陆新颖。

01 /研究背景与解决的关键问题

文本到图像的生成模型在基于文本描述生成高分辨率图像方面取得了重大进展,并正迅速成为包括娱乐、艺术和广告在内的各个领域内容创作的关键。然而,许多生成的图像仍然存在诸如伪影/不可信、与文本描述不一致以及低审美质量等问题。现有的生成图像的自动评估指标大多都是在图像的分布上计算,难以反映单个图像的细微差别。受基于人类反馈的强化学习在大型语言模型上的成功启发,论文试图通过丰富人类反馈信号来改进文本到图像生成模型,解决生成图像中存在的不真实、不对齐、低审美等问题。

02 /方法

论文提出了一种利用人类反馈信号来改进文本到图像生成模型的方法。首先发布了一个具有丰富人类反馈信息的数据集RichHF-18K,其中包括两个热力图(伪像/不可信和不对齐)、四个细粒度分数(合理性、对齐、美学和总体分数)以及一个文本序列(不对齐的关键字)。然后训练一个多模态Transformer模型来自动预测丰富的人类反馈信号,用以微调和改进生成模型。

图片

图 1 注释图像的图示

2.1 RichHF-18K数据集

论文从 Pick-a-Pic 数据集中选择图像-文本对的子集进行数据注释。考虑到图像的平衡性,首先通过视觉回答模型从数据样本中提取一些基本特征,如是否逼真、种类、场景等。然后对每张图像在不可信/伪影或不对齐的位置进行标注,通过假设每个标记点具有有效半径,从而减少标记点个数。接着针对四种细粒度分数进行打分,生成具有丰富人类反馈的图像。考虑到数据集的可靠性,每张图像融合多人注释的信息,分数采用多人打分取平均的策略。生成图像的图示如图1所示。最后对生成的数据集进行分析,生成的打分符合高斯分布,确保有合理数量的正负样本来训练奖励模型。数据集的总大小为 18K,其中 16K 作为训练集,1K 作为验证集,1K 作为测试集。数据集的地址为:https://github.com/google-research/google-research/tree/master/richhf-18k

2.2 预测丰富的人类反馈

论文提出了一个多模态 Transformer 模型用于自动预测丰富的人类反馈信息,其整体架构如图2所示。该模型基于 ViT 和 T5X 模型,ViT 将生成的图像作为输入,并将图像令牌作为高级表示输出。文本提示符号嵌入到密集向量中。图像标记和嵌入的文本标记由 T5X 中的 Transformer 自关注编码器连接和编码。在编码融合的文本和图像标记之上,论文使用三种预测器来分别预测热图、分数和文本输出。

图片

图 2 模型的整体架构

03 /实验结果

论文在发布的 RichHF-18K 数据集上对模型进行了训练并进行了大量实验。通过线性相关系数和等级相关系数对预测分数进行评估,并通过显著性热图指标对预测热图进行分析。对于不对齐的关键字序列预测,论文采用令牌级精度、召回率等指标进行评估。实验结果表明,论文提出的模型在预测人类反馈方面具有优越表现。此外,论文对预测的丰富人类反馈是否可以用于改进图像生成这一问题进行了验证。实验结果表明,通过 RAHF 微调后的 Muse 模型生成的图像具有更少的伪像和不可信性,并且每个细粒度评分都可以改善生成模型或图像的不同方面。

04 /结论

论文发布了第一个具有丰富人类反馈信号的数据集 RichHF-18,通过数据分析验证了数据集的可靠性和合理性。此外,论文设计并训练了一个多模态 Transformer 模型来预测丰富人类反馈。该模型基于 VIT 和 T5X 模型,在连接图像令牌和文本令牌之间使用自关注模块,将文本信息传播到图像标记,用于文本不对齐评分和热图预测,将视觉信息传播到文本标记,用于更好的视觉感知文本编码,以解码文本不对齐序列。实验表明,模型在预测输出人类反馈信息方面具有优越性能,并进一步验证了生成的预测反馈信息和模型可以用于微调生成模型。

图片

扫码关注我们

微信号:人工智能怎么学

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现智慧农田的精准灌溉

如何实现智慧农田的精准灌溉 智慧农田的精准灌溉是现代农业技术发展的重要组成部分,它集成了物联网、大数据分析、人工智能以及现代水利技术,旨在通过实时监测土壤湿度、气象条件及作物生长状况,实现水资源的高效利用和作物产量、品质的双重…

解决2021版IDEA新建没有Server问题

2024-06-27可用 我是这样解决的,仅供参考 IDEA软件是2021.1.1版 导入Tomcat的Servlet包,就解决了,详见下图操作 1. 打开项目结构 2. 选Libraries 3. 找到Tomcat安装路径 比如我安装在了“C:\soft”目录,就去这个目录找 然后记得…

基于Cardinal的AWD攻防平台搭建与使用以及基于docker的题目环境部署

关于 CTF 靶场的搭建与完善勇师傅前面已经总结过了,参考: CTF靶场搭建及Web赛题制作与终端docker环境部署_ctfoj搭建-CSDN博客 基于H1ve一分钟搭好CTF靶场-CSDN博客 Nginx首页修改及使用Nginx实现端口转发_nginx 修改欢迎首页-CSDN博客 关于H1ve导…

Spring Boot中如何实现批量处理

Spring Boot中如何实现批量处理 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿!今天我们来聊聊Spring Boot中如何实现批量处理。在实际开发中,我们经…

cPanel的SSL证书续订方法

在现代互联网环境中,SSL证书对于保障网站的安全和数据加密至关重要。下面我们将介绍如何在cPanel中续订SSL证书,并适时结合Hostease服务器的优势,帮助您更好地理解和操作。 生成私钥和CSR(证书签名请求) 难易程度&am…

qt 开发笔记 json 自动转换实验

1.改用 读取json的配置文件能否想java和c#直接完成json字符串到对象的赋值呢,答案是不能? 能否用宏实现呢 比如:#define funMacro(json的键(变量名)) 变量名 jsonObject[#键].toInt(); 这个看上去是个理想的选择,如果成功了&a…

Unity中模拟抛物线(非Unity物理)

Unity中模拟抛物线非Unity物理 介绍剖析问题以及所需公式重力加速度公式:h 1/2*g*t*t(h 1/2 * g * t ^ 2)速度公式:Vt V初 a * t 主要代码总结 介绍 用Unity物理系统去做的抛物线想要控制速度或者想要细微的控制一些情况是非常困难的。所以想要脱离U…

国产CPU兆芯发展分析

国产信创CPU-兆芯CPU CPU:信创根基,国之重器 国产CPU已形成自主架构、x86、ARM三大阵营。自主架构以龙芯、申威的LoongArch、SW-64为代表;ARM阵营由鲲鹏、飞腾领军,依托ARM授权开发处理器;x86阵营则以海光、兆芯等品牌…

基于halcon的眼在手外(Eye-to-Hand)标定

前言 上个月写了一个《基于halcon的眼在手上(Eye-in-Hand)标定》的文章,通过官方的示例代码进行了简单的叙述,想学习的小伙伴可以点击链接进行学习。之前博主认为眼在手上(Eye-in-Hand)的案例更多&#xff…

leetcode209:长度最小的子数组

题目链接&#xff1a;209. 长度最小的子数组 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int minSubArrayLen(int target, vector<int>& nums) {int n nums.size();if(n 0) return 0;int end 0, start 0, sum 0, ans 0x3f3f3f3f;while…

C 语言高频面试题

常见的C语言初级面试题及详细解答 1. C语言的基本数据类型有哪些&#xff1f; 解答&#xff1a; C语言的基本数据类型包括整型&#xff08;int&#xff09;、字符型&#xff08;char&#xff09;、浮点型&#xff08;float&#xff09;、双精度浮点型&#xff08;double&…

OpenAI将终止对中国提供服务,国内模型接棒

说起来&#xff0c;OpenAI自始至终就没有对中国提供过服务&#xff0c;OpenAI官方支持的国家和地区&#xff1a;https://platform.openai.com/docs/supported-countries 列表里面没有“Chinese”的选项&#xff0c;那为什么又要明令禁止呢&#xff0c;国类IT高手们&#xff0…

批处理脚本的魔法:在Windows中嵌入脚本的艺术

&#x1f9d9;‍♂️ 批处理脚本的魔法&#xff1a;在Windows中嵌入脚本的艺术 &#x1f9d9;‍♀️ 批处理脚本&#xff08;Batch Script&#xff09;是Windows系统中的自动化脚本&#xff0c;用于执行一系列命令。在复杂的任务中&#xff0c;我们可能需要在一个批处理脚本中…

星河璀璨,uni-app 亮相华为 HDC2024 开发者大会

2024年6月21日-23日&#xff0c;第六届华为开发者大会(HDC.Together 2024)在东莞松山湖盛大举办&#xff0c;本次盛会重磅发布了万众关注的HarmonyOS NEXT。 作为鸿蒙生态的重要合作伙伴和深度参与者&#xff0c;DCloud CTO 崔红保受邀出席本次大会&#xff0c;并在鸿蒙生态伙…

day001 环境的配置与工具的安装

VMware的软件包&#xff1a;https://pan.xunlei.com/s/VNs1KShnlZalTSJtejXXzchlA1?pwdudy5# 其他的软件可以在电脑管家中下载&#xff0c;注意不要安装到c盘&#xff0c;否则影响开机速度。 虚拟机工具&#xff1a;VMware17.5.1 1&#xff0c; 2&#xff0c; 3&#xff0c…

欢乐钓鱼大师攻略:卡鱼骨、典藏鱼、藏宝图怎么钓?

《欢乐钓鱼大师》是一款以钓鱼为核心玩法的休闲模拟手游&#xff0c;通过逼真的画面和丰富的钓鱼体验吸引了大量玩家。本文将为你详细介绍这款游戏的亮点、常见问题以及一些实用的游戏技巧&#xff0c;帮助你在《欢乐钓鱼大师》中获得更愉快的游戏体验。 辅助工具 1. 辅助工具…

内网安全【5】隧道搭建

1.内网穿透工具 Ngrok Frp Spp Nps EW(停更) 一共是这五个 优点&#xff1a;穿透加密数据&#xff0c;中间平台&#xff0c;防追踪&#xff0c;解决网络问题 Sunny-Ngrok内网转发内网穿透 - 国内内网映射服务器 https://github.com/esrrhs/spp https://github.com/fatedie…

计算机网络之数据通信原理(中)

上节内容传送口&#xff1a;数据通信原理基础 1.数据传输方式 1.1并行传输 并行传输: 字符编码的各个比特同时传输 特点&#xff1a; 一个比特时间内可传输一个字符&#xff0c;传输速度快&#xff0c;每个比特传输要求一个单独的信道支持&#xff0c;通信成本高&#xf…

Redis数据类型详解:内存中的数据结构艺术

Redis是一个高性能的键值存储数据库&#xff0c;以其出色的读写速度和丰富的数据结构支持而广受欢迎。在Redis中&#xff0c;数据以键值对的形式存储&#xff0c;其中键是唯一的&#xff0c;而值则可以是多种数据类型。本文将详细探讨Redis支持的数据类型&#xff0c;以及每种数…

GPU算力租用平台推荐

推荐以下几家GPU算力租用平台&#xff1a; 1. AWS (Amazon Web Services) EC2 - AWS提供多种GPU实例&#xff0c;适合不同的计算需求&#xff0c;如机器学习、深度学习和图形渲染等。 - 优点&#xff1a;全球覆盖面广&#xff0c;稳定性高&#xff0c;服务支持全面。 …