CVPR 2024最佳论文分享:文本到图像生成的丰富人类反馈

CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。

00/ 论文分享

本推文详细介绍了CVPR 2024最佳论文《Rich Human Feedback for Text-to-Image Generation》。该论文的第一作者为梁有为。论文针对文本生成图像的伪影、不可信、低审美等问题,发布了第一个具有丰富人类反馈的数据集RichHF-18K。在此基础上,提出了一个多模态Transformer模型(RAHF)用于预测生成图像的丰富反馈,并进一步证明了RAHF预测的丰富人类反馈对改善图像生成的通用性。本推文由朱旺撰写,审校为李杨和陆新颖。

01 /研究背景与解决的关键问题

文本到图像的生成模型在基于文本描述生成高分辨率图像方面取得了重大进展,并正迅速成为包括娱乐、艺术和广告在内的各个领域内容创作的关键。然而,许多生成的图像仍然存在诸如伪影/不可信、与文本描述不一致以及低审美质量等问题。现有的生成图像的自动评估指标大多都是在图像的分布上计算,难以反映单个图像的细微差别。受基于人类反馈的强化学习在大型语言模型上的成功启发,论文试图通过丰富人类反馈信号来改进文本到图像生成模型,解决生成图像中存在的不真实、不对齐、低审美等问题。

02 /方法

论文提出了一种利用人类反馈信号来改进文本到图像生成模型的方法。首先发布了一个具有丰富人类反馈信息的数据集RichHF-18K,其中包括两个热力图(伪像/不可信和不对齐)、四个细粒度分数(合理性、对齐、美学和总体分数)以及一个文本序列(不对齐的关键字)。然后训练一个多模态Transformer模型来自动预测丰富的人类反馈信号,用以微调和改进生成模型。

图片

图 1 注释图像的图示

2.1 RichHF-18K数据集

论文从 Pick-a-Pic 数据集中选择图像-文本对的子集进行数据注释。考虑到图像的平衡性,首先通过视觉回答模型从数据样本中提取一些基本特征,如是否逼真、种类、场景等。然后对每张图像在不可信/伪影或不对齐的位置进行标注,通过假设每个标记点具有有效半径,从而减少标记点个数。接着针对四种细粒度分数进行打分,生成具有丰富人类反馈的图像。考虑到数据集的可靠性,每张图像融合多人注释的信息,分数采用多人打分取平均的策略。生成图像的图示如图1所示。最后对生成的数据集进行分析,生成的打分符合高斯分布,确保有合理数量的正负样本来训练奖励模型。数据集的总大小为 18K,其中 16K 作为训练集,1K 作为验证集,1K 作为测试集。数据集的地址为:https://github.com/google-research/google-research/tree/master/richhf-18k

2.2 预测丰富的人类反馈

论文提出了一个多模态 Transformer 模型用于自动预测丰富的人类反馈信息,其整体架构如图2所示。该模型基于 ViT 和 T5X 模型,ViT 将生成的图像作为输入,并将图像令牌作为高级表示输出。文本提示符号嵌入到密集向量中。图像标记和嵌入的文本标记由 T5X 中的 Transformer 自关注编码器连接和编码。在编码融合的文本和图像标记之上,论文使用三种预测器来分别预测热图、分数和文本输出。

图片

图 2 模型的整体架构

03 /实验结果

论文在发布的 RichHF-18K 数据集上对模型进行了训练并进行了大量实验。通过线性相关系数和等级相关系数对预测分数进行评估,并通过显著性热图指标对预测热图进行分析。对于不对齐的关键字序列预测,论文采用令牌级精度、召回率等指标进行评估。实验结果表明,论文提出的模型在预测人类反馈方面具有优越表现。此外,论文对预测的丰富人类反馈是否可以用于改进图像生成这一问题进行了验证。实验结果表明,通过 RAHF 微调后的 Muse 模型生成的图像具有更少的伪像和不可信性,并且每个细粒度评分都可以改善生成模型或图像的不同方面。

04 /结论

论文发布了第一个具有丰富人类反馈信号的数据集 RichHF-18,通过数据分析验证了数据集的可靠性和合理性。此外,论文设计并训练了一个多模态 Transformer 模型来预测丰富人类反馈。该模型基于 VIT 和 T5X 模型,在连接图像令牌和文本令牌之间使用自关注模块,将文本信息传播到图像标记,用于文本不对齐评分和热图预测,将视觉信息传播到文本标记,用于更好的视觉感知文本编码,以解码文本不对齐序列。实验表明,模型在预测输出人类反馈信息方面具有优越性能,并进一步验证了生成的预测反馈信息和模型可以用于微调生成模型。

图片

扫码关注我们

微信号:人工智能怎么学

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/35200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现智慧农田的精准灌溉

如何实现智慧农田的精准灌溉 智慧农田的精准灌溉是现代农业技术发展的重要组成部分,它集成了物联网、大数据分析、人工智能以及现代水利技术,旨在通过实时监测土壤湿度、气象条件及作物生长状况,实现水资源的高效利用和作物产量、品质的双重…

解决2021版IDEA新建没有Server问题

2024-06-27可用 我是这样解决的,仅供参考 IDEA软件是2021.1.1版 导入Tomcat的Servlet包,就解决了,详见下图操作 1. 打开项目结构 2. 选Libraries 3. 找到Tomcat安装路径 比如我安装在了“C:\soft”目录,就去这个目录找 然后记得…

基于Cardinal的AWD攻防平台搭建与使用以及基于docker的题目环境部署

关于 CTF 靶场的搭建与完善勇师傅前面已经总结过了,参考: CTF靶场搭建及Web赛题制作与终端docker环境部署_ctfoj搭建-CSDN博客 基于H1ve一分钟搭好CTF靶场-CSDN博客 Nginx首页修改及使用Nginx实现端口转发_nginx 修改欢迎首页-CSDN博客 关于H1ve导…

cPanel的SSL证书续订方法

在现代互联网环境中,SSL证书对于保障网站的安全和数据加密至关重要。下面我们将介绍如何在cPanel中续订SSL证书,并适时结合Hostease服务器的优势,帮助您更好地理解和操作。 生成私钥和CSR(证书签名请求) 难易程度&am…

Unity中模拟抛物线(非Unity物理)

Unity中模拟抛物线非Unity物理 介绍剖析问题以及所需公式重力加速度公式:h 1/2*g*t*t(h 1/2 * g * t ^ 2)速度公式:Vt V初 a * t 主要代码总结 介绍 用Unity物理系统去做的抛物线想要控制速度或者想要细微的控制一些情况是非常困难的。所以想要脱离U…

国产CPU兆芯发展分析

国产信创CPU-兆芯CPU CPU:信创根基,国之重器 国产CPU已形成自主架构、x86、ARM三大阵营。自主架构以龙芯、申威的LoongArch、SW-64为代表;ARM阵营由鲲鹏、飞腾领军,依托ARM授权开发处理器;x86阵营则以海光、兆芯等品牌…

基于halcon的眼在手外(Eye-to-Hand)标定

前言 上个月写了一个《基于halcon的眼在手上(Eye-in-Hand)标定》的文章,通过官方的示例代码进行了简单的叙述,想学习的小伙伴可以点击链接进行学习。之前博主认为眼在手上(Eye-in-Hand)的案例更多&#xff…

leetcode209:长度最小的子数组

题目链接&#xff1a;209. 长度最小的子数组 - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int minSubArrayLen(int target, vector<int>& nums) {int n nums.size();if(n 0) return 0;int end 0, start 0, sum 0, ans 0x3f3f3f3f;while…

OpenAI将终止对中国提供服务,国内模型接棒

说起来&#xff0c;OpenAI自始至终就没有对中国提供过服务&#xff0c;OpenAI官方支持的国家和地区&#xff1a;https://platform.openai.com/docs/supported-countries 列表里面没有“Chinese”的选项&#xff0c;那为什么又要明令禁止呢&#xff0c;国类IT高手们&#xff0…

day001 环境的配置与工具的安装

VMware的软件包&#xff1a;https://pan.xunlei.com/s/VNs1KShnlZalTSJtejXXzchlA1?pwdudy5# 其他的软件可以在电脑管家中下载&#xff0c;注意不要安装到c盘&#xff0c;否则影响开机速度。 虚拟机工具&#xff1a;VMware17.5.1 1&#xff0c; 2&#xff0c; 3&#xff0c…

欢乐钓鱼大师攻略:卡鱼骨、典藏鱼、藏宝图怎么钓?

《欢乐钓鱼大师》是一款以钓鱼为核心玩法的休闲模拟手游&#xff0c;通过逼真的画面和丰富的钓鱼体验吸引了大量玩家。本文将为你详细介绍这款游戏的亮点、常见问题以及一些实用的游戏技巧&#xff0c;帮助你在《欢乐钓鱼大师》中获得更愉快的游戏体验。 辅助工具 1. 辅助工具…

内网安全【5】隧道搭建

1.内网穿透工具 Ngrok Frp Spp Nps EW(停更) 一共是这五个 优点&#xff1a;穿透加密数据&#xff0c;中间平台&#xff0c;防追踪&#xff0c;解决网络问题 Sunny-Ngrok内网转发内网穿透 - 国内内网映射服务器 https://github.com/esrrhs/spp https://github.com/fatedie…

计算机网络之数据通信原理(中)

上节内容传送口&#xff1a;数据通信原理基础 1.数据传输方式 1.1并行传输 并行传输: 字符编码的各个比特同时传输 特点&#xff1a; 一个比特时间内可传输一个字符&#xff0c;传输速度快&#xff0c;每个比特传输要求一个单独的信道支持&#xff0c;通信成本高&#xf…

探索网络爬虫技术:原理、实践与挑战

一、引言 在数字化时代&#xff0c;信息如同潮水般汹涌而来。过去&#xff0c;我们可能依赖书籍、报纸或电视来获取信息&#xff0c;但这些渠道的信息量有限&#xff0c;而且筛选过的信息未必能满足我们的需求。如今&#xff0c;互联网为我们提供了海量的信息&#xff0c;但同…

【Sklearn驯化-聚类指标】搞懂机器学习中聚类算法评估指标,轮廓系数、戴维森堡丁指数

【Sklearn驯化-聚类指标】搞懂机器学习中聚类算法评估指标&#xff0c;轮廓系数、戴维森堡丁指数 本次修炼方法请往下查看 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合&#xff0c;智慧小天地&#xff01; &#…

快来看,错过了今天就要设置为vip文章了---云原生重塑架构:AutoMQ 基于云构建十倍降本的 Kafka

Apache Kafka在数据流处理系统中的核心地位 Apache Kafka已成为大数据和流计算领域的行业事实标准&#xff0c;其重要性在数据流处理系统中不言而喻。随着数字化转型的加速&#xff0c;越来越多的企业选择基于Kafka来构建其在线业务消息传递系统&#xff0c;使其成为数字化转型…

一文梳理有效提升RAG效果的方法

来源&#xff1a;一文梳理有效提升RAG效果的方法 在大模型实际落地的时候&#xff0c;存在一些问题&#xff0c;主要集中在以下方面&#xff1a; 缺少垂直领域知识&#xff1a;虽然大模型压缩了大量的人类知识&#xff0c;但在垂直场景上明显存在短板&#xff0c;需要专业化的…

如何通过小猪APP分发轻松实现应用内测分发

搞应用开发的朋友们&#xff0c;都知道内测分发这个环节有多重要。没有内测&#xff0c;一款应用基本上是不可能上线的。毕竟&#xff0c;谁也不想自己的产品在上线的那一刻就被用户吐槽得体无完肤。内测分发的好坏&#xff0c;直接影响到应用的质量和用户的第一印象。如何才能…

Web自动化元素定位之xpath定位【超详细】

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 Web自动化常见的定位方式 为什么要学习定位 1.让程序操作指定元素&#xff0c;就必须先找到此元…

Linux文件IO深入剖析

目录 一、文件IO引发的项目血案 1、分析 一、Linux文件系统基本概念 1、文件系统接口 2、文件系统缓存 二、文件IO 访问方式概述 1、标准文件访问方式 2、直接IO 3、实现方式 4、缓存同步 5、Linux 文件IO流程图 6、血案解决 一、文件IO引发的项目血案 事件经过&am…