[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents

1、目的

        CLIP + DDPM进行text-to-image生成

2、数据

        (x, y),x为图像,y为相应的captions;设定z_{i}z_{t}为CLIP的image和text embeddings

3、方法

                                

        1)CLIP

                学习图像和文本的embedding;在训练prior和decoder时固定该部分参数

        2)prior model P(z_{i}|y)

                从给定的文本caption(或CLIP text embedding)中生成CLIP image embedding

                -> Autoregressive (AR) prior

                        用PCA对CLIP image embeddings降维(1024 - 319),然后排序和数值化

                        将text caption和CLIP text embedding编码为sequence的prefix

                -> Diffusion prior

                        decoder-only Transformer

                        casual attention mask with causal attention mask on a sequence (encoded text, CLIP text embedding, embedding for the diffusion timestep, noised CLIP image embedding, final embedding whose output from the Transformer is used to predict the unnoised CLIP image embedding)

                        同时生成两个z_{i},选择与z_{t}的点积更大的那一个

                        不预测\epsilon,而是直接预测z_{i}

                        

        3)CLIP image embedding decoder P(x|z_{i}, y)

                -> 用diffusion models、以CLIP image embeddings作为条件生成图像(可能会用到text caption)。直接将embedding作为采样起点效果不佳。

                -> 映射和添加CLIP embeddings到existing timestep embedding

                -> 将CLIP embedding映射到4个额外的context token中,和GLIDE text encoder的输出并联

                -> 因为是CLIP image encoder的逆过程,因此本文的方法也被称为unCLIP

                -> 尝试沿用GLIDE中的text conditioning,但作用不大

                -> 训练细节

                        10%的概率随机设置CLIP embedding(或learned embedding)为0,实现classifier-free guidance;50%的概率随机去除text caption

                        两个upsample网络,64x64 - 256x256 - 1024x1024;第一个上采样阶段采用gaussian blur,第二个上采样阶段采用BSR degradation;训练时随机裁剪1/4大小的图像,推理时则用正常大小;只用spatial convolution,不用attention层;网络为unconditional ADMNets

                -> 备选方案:直接用caption或者text embeddings作为条件,不用prior

4、应用

        1)non-deterministic,给定一个image embedding,可以生成多个图像

        2)通过插值image embedding,可以对生成图像进行插值

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

        3)通过插值text embedding,可以对生成图像进行插值

                ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

                                                

        4)可以有效抵挡CLIP容易受到影响的typographic attack

5、局限性

        1)对于不同物品和属性的关联能力不如GLIDE。因为CLIP embedding本身不关联物品和属性,而decoder也会mix up属性和物品

        2)无法写出连贯的文本。因为CLIP本身不编码拼写信息,BPE编码也会模糊单词的拼写

        3)无法生成复杂场景中的细节。因为模型在低分辨率下训练,然后再上采样

        4)生成效果越好,制造欺骗性或有害图片的能力就更大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/35440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开放式耳机什么牌子好一点?亲检的几款开放式蓝牙耳机推荐

不入耳的开放式耳机更好一些,不入耳式耳机佩戴更舒适,适合长时间佩戴,不会引起强烈的压迫感或耳部不适。不入耳式的设计不需要接触耳朵,比入耳式耳机更加卫生且不挑耳型,因此备受运动爱好者和音乐爱好者的喜爱。这里给…

周转车配料拣货方案

根据周转车安装的电子标签,被悬挂的扫码器扫到墨水屏显示的二维码,投屏发送配料拣货的数据。 方便快捷分拣物料

20240625(周二)欧美股市总结:标普纳指止步三日连跌,英伟达反弹6.8%,谷歌微软新高,油价跌1%

美联储理事鲍曼鹰派发声,若通胀没有持续改善将支持加息,加拿大5月CPI重新加速,对加拿大央行7月降息构成阻碍。美股走势分化,道指收跌近300点且六日里首跌,英伟达市值重上3.10万亿美元,芯片股指显著反弹1.8%…

想要用tween实现相机的移动,three.js渲染的canvas画布上相机位置一点没动,如何解决??

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

第1章 物联网模式简介---独特要求和体系结构原则

物联网用例的独特要求 物联网用例往往在功耗、带宽、分析等方面具有非常独特的要求。此外,物联网实施的固有复杂性(一端的现场设备在计算上受到挑战,另一端的云容量几乎无限)迫使架构师做出艰难的架构决策和实施选择。可用实现技…

【自动调参】年化29.3%,最大回撤18.5%​:lightGBM的参数优化

原创文章第570篇,专注“AI量化投资、世界运行的规律、个人成长与财富自由"。 研报复现继续:【研报复现】年化27.1%,人工智能多因子大类资产配置策略之benchmark 昨天调了一版参数,主要是lambda_l1, lambda_l2,防…

Vmvare12安装CentOS7.6

Vmvare12安装 注意事项 安装完成以后有这两个虚拟网卡。 CentOS官网镜像地址 https://www.centos.org/download/mirrors/Vmvare安装CentOS7.6 创建虚拟机 安装CentOS7.6 选择桌面版 磁盘分区 上述是确认使用自动分区。 设置密码 设置license information 欢迎页面 CentOS7…

宝兰德受邀出席华为开发者大会2024,携手共绘基础软件新篇章

6月21日-23日,华为开发者大会(HDC 2024)在东莞松山湖举行,作为全球开发者的年度盛会,本次大会汇聚了众多业界精英与前沿技术。华为分享了HarmonyOS、盘古大模型、昇腾AI云服务、GaussDB数据库、自研仓颉编程语言等最新…

【IM即时通信 功能介绍】客户端用户在线状态订阅

本文档旨在介绍客户端用户在线状态订阅功能,该功能允许开发者通过 SDK 接口实时监控和接收指定用户的在线或离线状态变更通知。这一功能对于需要实时交流、状态同步或用户活动监控的应用场景至关重要。 功能特点 实时状态通知 跨平台通知:订阅成功后&…

使用 MediaPipe 实现实时手部追踪和手势识别 | Rerun展示

点击下方卡片,关注“小白玩转Python”公众号 在本文中,我将展示一个使用 MediaPipe Python 和 Rerun SDK 进行手部追踪和手势识别的示例。如果您有兴趣深入了解并扩展您的知识,我将指导您如何安装 MediaPipe Python 和 Rerun SDK 来进行手部追…

Linux部署SVN

一.下载与安装 (1)yum安装 yum install subversion (2)源文件编译安装 ①下载svn源文件 subversion-xxx.tar.gz(subversion 源文件) subversion-deps-xxx.tar.gz(subversion依赖文件&…

项目四 OpenStack身份管理

任务一 理解身份服务 1.1 •Keystone的基本概念 • 认证 ( Authentication ) —— 确认用户身份的过程 ,又称身份验证 。 • 凭证 ( Credentials ) —— 又 称凭据,是用于 确认用户身份的数据 。 • 令牌…

短视频最佳时长:成都柏煜文化传媒有限公司

探索时间与内容之间的完美平衡 成都柏煜文化传媒有限公司 在数字媒体日益繁荣的今天,短视频已成为人们获取信息、娱乐休闲的重要形式。然而,关于短视频的最佳时长,一直是一个备受争议的话题。本文将探讨短视频时长的各种考量因素&#xff0…

MySQL报错Duplicate entry ‘0‘ for key ‘PRIMARY‘

报错现场 现象解释 因为你在插入时没有给 Customer.Id 赋值,MySQL 会倾向于赋值为 NULL。但是主键不能为 NULL,所以 MySQL 帮了你一个忙,将值转换为 0。这样,在第二次插入时就会出现冲突(如果已经有一条记录为 0&…

微服务——服务治理

目录 1 什么是服务治理?2 为什么需要服务治理?3 服务治理的关键点3.1 服务注册与发现3.2 负载均衡3.3 容错与熔断3.4 服务监控与告警3.5 服务配置管理 4 示例说明5 总结 1 什么是服务治理? 简单来说,服务治理就是对微服务架构中的…

iptables(11)target(SNAT、DNAT、MASQUERADE、REDIRECT)

简介 前面我们已经介绍了ACCEPT、DROP、REJECT、LOG,这篇文章我们介绍SNAT、DNAT、MASQUERADE、REDIRECT,这几个参数的定义我们在上篇文章中都有介绍,我这里再列出回顾一下 DNAT(目标地址转换)和 SNAT(源地址转换) 原理:修改数据包的源或目标 IP 地址。通常用于 NAT(…

小迪安全v2023笔记 1-18

小迪安全v2023笔记 1-18 棱角社区 文章目录 1. 基础入门1. 正向shell与反向shell2. web应用3. 抓包,封包,协议,app,小程序,pc应用,web应用 2. 信息打点1. 常见信息获取2. 文件泄露3. 常见阻碍4. CDN绕过&a…

Stable Diffusion——SDXL 1.0原理解析

1. SDXL 1.0 简介 SDXL 1.0是Stability AI推出的新基础模型,作为Stable Diffusion的大幅改进版本,它是一个用于文本到图像合成的潜在扩散模型(LDM)。作为Stable Diffusion的最新进化,它正在超越其前身,并与…

录制视频怎么操作?手把手教会你!

在这个互联网科技高速发展的时代,录制视频已经成为了人们生活中一个不可或缺的技能。无论是记录游戏精彩瞬间、制作教程、分享生活趣事,还是进行在线教学,录制视频都是一种非常直观有效的方式。可是录制视频怎么操作呢?本文将介绍…

算法学习笔记——单双链表及其反转—堆栈诠释

单双链表及其反转——堆栈诠释 按值传递 int、long、byte、short、char、float、double、boolean和String 都是按值传递 概念:在方法被调用时,实参通过形参把它的内容副本传入方法内部,此时形参接收到的内容是实参值的一个拷贝,…