[23] Self-conditioned Image Generation via Generating Representations

[paper | code]

  • 用生成对象本身作为控制信号,实现无条件图像生成。
  • 训练阶段。Step1:用预训练模型(例如:Moco v3)提取生成对象的特征编码;Step2:基于特征编码,训练一个扩散模型RDM;Step3:基于特征编码,和大量图片,训练一个图像生成器(例如:MAGE);
  • 推理阶段。从RDM从采样图像特征作为控制信号,生成图片;或者生成参考图像的特征编码作为控制信号,生成图片。
  • 优点:无需人类标注标签,实现接近使用标签的生成模型的能力。

目录

摘要

引言

方法

实验结果

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results


摘要

  • 提出一种无条件图像生成框架Representation-Conditioned image Generation (RCG);
  • RCG的控制信号来自自监督表征分布,该分布是预训练编码器对图片处理得到;
  • 生成过程中,RCG使用representation diffusion model (RDM) 从该分布中采样,作为控制条件生成图像;
  • 在ImageNet 256 x 256分辨率下测试,RCG去得了Frechet Inception Distance (FID) 3.31和Inception Score (IS) 253.4的成绩,显著改善无条件图像生成方法,缩小了与有条件图像生成方法的差距。

引言

  • 使用图片本身特征作为控制信号的优点:1)更直观:艺术家是先形成抽象概念,再形成作品;2)更多数据:无条件图像生成使得可用的训练数据变多;3)无需标注:适合分子设计和药物探索。
  • 本文首先使用自监督图片编码器(例如:Moco v3),计算图像特征;其次,用Representation Diffusion Model (RDM) 学习图像特征分布。这样做的优点在于:1)RDM可以捕捉图像特征分布的多样性;2)图像特征维度较低,降低计算开销。
  • 生成过程:RDM采样图像特征分布作为控制信号,pixel generator生成图像。

方法

RCG包含3个关键部分:1)预训练自监督图像编码器;2)图像表征生成器;3)图像生成器。

  • 图像编码器:本文使用自监督对比学习方法Moco v3作为图像编码器。本文使用映射头(projection head)后的256维表征,每个表征基于其均值和方差归一化。
  • 图像表征生成器:RDM如下图所示,每个块包含输入层(input layer)、时间编码映射层(timestep embedding projection layer)和输出层(output layer)。每层包含LayerNorm、SiLU和线性层。图像表征生成器通过两个参数控制:块数量N和中间特征维度C。

如下图所示,RDM遵循DDIM做训练和推理。图片特征z_0,添加噪声得到z_t=\sqrt{\alpha_t}z_0 + \sqrt{1-\alpha_t}\epsilon;RDM的训练目标是预测去噪结果z_0

  • 图像生成器:如下图所示,可以使用任意图像生成器,唯一修改是把原有的控制条件,例如文本或分类标签,替换为self-supervised learning (SSL) 表征。训练时,输入masked image,输出完整图像;推理时输入为全部mak掉的图片,输出完整图像。训练和推理时都用图像编码作为控制信号。

Classifier-free Guidance:RCG遵循Muse实现classifier-free guidance。训练时,MAGE有10%的概率,在不受SSL表征控制下生成。推理时,MAGE预测不受SSL表征控制的输出l_u和受表征控制的l_c,最终预测为l_g=l_c+\tau(l_c-l_u)

实验结果

生成了50K图像做测试

Class-unconditioned Generation

Classifier-free Guidance

Ablations

Compuational Cost

Qualitative Results

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/213920.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pycharm手动安装包

1.下载对应的包 TTS PyPI 2.手动解压,找到文件放到pycharm对应项目的lib文件夹中 以TTS包为例,找到下载并解压的包中的2个文件,一个名称一个info结尾 3.放到项目的lib文件夹中 eg:路径;C:\doc\myProject\speaker\venv…

Android View的 getHeight 和 getMeasuredHeight 的区别

前言 先简单复习一下Android View 的 绘制顺序: 1、onMeasure(测量),先根据构造器传进来的LayoutParams(布局参数),测量view宽高。 2、onLayout(布局),再根…

SQL进阶 | 自连接

概述 SQL的自连接是指在一个SQL表中,使用自身表格中的实例进行联接并查询的操作。自连接通常使用别名来标识一个表格,在自连接中,表格被视为两个不同的表格,并分别用不同的别名来标识。然后,在WHERE子句中使用这些别名…

二十、FreeRTOS之Tickless低功耗模式

本节需要掌握以下内容: 1,低功耗模式简介(了解) 2, Tickless模式详解(熟悉) 3, Tickless模式相关配置项(掌握) 4,Tickless低功耗模式实验&…

自定义异步任务管理器和线程

import com.lancoo.common.utils.Threads; import com.lancoo.common.utils.spring.SpringUtils;import java.util.TimerTask; import java.util.concurrent.ScheduledExecutorService; import java.util.concurrent.TimeUnit;/*** 异步任务管理器* * author lancoo*/ public c…

操作系统大会 openEuler Summit 2023即将召开,亮点不容错过

【12月11日,北京】数字化、智能化浪潮正奔涌而来。操作系统作为数字基础设施的底座,已经成为推动产业数字化、智能化发展的核心力量,为数智未来提供无限可能。12月15-16日,以“崛起数字时代 引领数智未来”为主题的操作系统大会 &…

〖Python网络爬虫实战㊷〗- 极验滑块介绍(四)

订阅:新手可以订阅我的其他专栏。免费阶段订阅量1000 python项目实战 Python编程基础教程系列(零基础小白搬砖逆袭) 说明:本专栏持续更新中,订阅本专栏前必读关于专栏〖Python网络爬虫实战〗转为付费专栏的订阅说明作者&#xff1…

【ArcGIS Pro微课1000例】0049:根据坐标快速定位(创建点位)的常见方法

文章目录 一、转到XY1. 闪烁位置2. 平移3. 标记位置二、定位1. 坐标定位2. 添加到图形3. 添加至要素类三、添加XY坐标四、创建点要素一、转到XY 举例:经纬度坐标:113.2583286东, 23.1492340北 。 1. 闪烁位置 输入坐标,点击闪烁位置工具,即可在对应的位置出现一个绿色闪烁…

shiro入门demo

搭建springboot项目&#xff0c;引入以下依赖&#xff1a; <dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!--单元测试--><depe…

.9.png的创建

1、创建.9.png 选中图片&#xff0c;右击&#xff0c;选择Create 9-Patch file&#xff0c;点击确定会生成一个xxx.9.png的图片 2、绘制拉伸区域 在图片的最外边界绘制拉伸区域&#xff0c;按住鼠标左键不放&#xff0c;绘制完成后保存就可以使用了。绘制结果示意如下&…

phpstudy小皮(PHP集成环境)下载及使用

下载 https://www.xp.cn/download.html直接官网下载即可&#xff0c;下载完解压是个.exe程序&#xff0c;直接点击安装就可以&#xff0c;它会自动在D盘目录为D:\phpstudy_pro 使用 phpMyAdmin是集成的数据库可视化&#xff0c;这里需要下载一下&#xff0c;在软件管理-》网站程…

OPPO怎么录屏?教程来了,让你成为录屏达人

“有人知道OPPO怎么录屏吗&#xff0c;前阵子刚买的OPPO手机&#xff0c;用起来感觉挺流畅的&#xff0c;功能也很齐全&#xff0c;最近因为工作原因&#xff0c;需要用到录屏功能&#xff0c;但是我不知道怎么打开&#xff0c;就想问问大伙&#xff0c;OPPO怎么录屏呀。” 在…

Redis分片集群一步一步全过程搭建

文章目录 Redis搭建分片集群1. 搭建的分片集群结构2.准备实例和配置&#xff08;1&#xff09;创建目录&#xff08;2&#xff09;创建配置文件&#xff08;3&#xff09;将这个文件拷贝到每个目录下&#xff08;4&#xff09;修改每个目录下的redis.conf&#xff0c;将其中的6…

Yocto 还是 Buildroot,构建自定义嵌入式系统时,您会选择哪一种?

假设您正在采用集成平板开发新一代大型智能微波炉。这个创意不错吧&#xff01;现在&#xff0c;您需要构建自定义操作系统&#xff0c;在保证不会烧焦食物&#xff08;更不要烧毁房屋哦&#xff09;的前提下&#xff0c;辅助管理各项事务。除此之外&#xff0c;您还需要创建一…

使用BeautifulSoup 4和Pillow合并网页图片到一个PDF:一种高效的方式来处理网页图像

背景 ​ 网页上的培训材料&#xff0c;内容全是PPT页面图片。直接通过浏览器打印&#xff0c;会存在只打印第一页&#xff0c;并且把浏览器上无效信息也打印出来情况。但目标是希望将页面图片全部打印为pdf形式。 实现方案 利用网页“另存为”&#xff0c;将页面内所有图片资…

官宣!「湾区之光群星演唱会」拉开2024新年音乐华丽序幕!

万众期待&#xff0c;群星荟萃&#xff01;青春宝安时尚湾区——湾区之光群星演唱会即将在2024年1月5日闪耀亮相深圳宝安。 华语歌坛巨星天后齐聚一堂&#xff0c;携手多位实力唱将&#xff0c;共同呈现一场无与伦比的演唱会盛宴&#xff01;在深情而又充满力量的歌声之中&…

15、lambda表达式、右值引用、移动语义

前言 返回值后置 auto 函数名 (形参表) ->decltype(表达式) lambda表达式 lambda表达式的名称是一个表达式 (外观类似函数)&#xff0c;但本质绝非如此 语法规则 [捕获表] (参数表) 选项 -> 返回类型 { 函数体; }lambda表达式的本质 lambda表达式本质其实是一个类…

textarea文本框回车enter的时候自动提交表单,根据内容自动高度

切图网近期一个bootstrap5仿chatgpt页面的项目遇到的&#xff0c;textarea文本框回车enter的时候自动提交表单&#xff0c;根据内容自动高度&#xff0c;代码如下&#xff0c;亲测可用。 <textarea placeholder"Message ChatGPT…" name"" rows"&q…

conda 计算当前包的个数

Conda是一个强大的包管理器和环境管理器&#xff0c;它用于安装和管理来自不同源的软件包。若要计算当前conda环境中安装的包的数量&#xff0c;你可以使用以下命令&#xff1a; 首先&#xff0c;激活你想要检查的conda环境&#xff08;如果不是默认的base环境&#xff09;&am…

虹科新闻丨广州市“强企增效”项目助力虹科高质量发展!

来源&#xff1a;虹科电子科技有限公司 虹科新闻丨广州市“强企增效”项目助力虹科高质量发展&#xff01; 原文链接&#xff1a;https://mp.weixin.qq.com/s/9pUXx5ZZpIi5S4s4o90GJA 欢迎关注虹科&#xff0c;为您提供最新资讯&#xff01; 2023年12月6日至7日&#xff0c;工…