[DALL·E 2] Hierarchical Text-Conditional Image Generation with CLIP Latents

1、目的

        CLIP + DDPM进行text-to-image生成

2、数据

        (x, y),x为图像,y为相应的captions;设定z_{i}z_{t}为CLIP的image和text embeddings

3、方法

                                

        1)CLIP

                学习图像和文本的embedding;在训练prior和decoder时固定该部分参数

        2)prior model P(z_{i}|y)

                从给定的文本caption(或CLIP text embedding)中生成CLIP image embedding

                -> Autoregressive (AR) prior

                        用PCA对CLIP image embeddings降维(1024 - 319),然后排序和数值化

                        将text caption和CLIP text embedding编码为sequence的prefix

                -> Diffusion prior

                        decoder-only Transformer

                        casual attention mask with causal attention mask on a sequence (encoded text, CLIP text embedding, embedding for the diffusion timestep, noised CLIP image embedding, final embedding whose output from the Transformer is used to predict the unnoised CLIP image embedding)

                        同时生成两个z_{i},选择与z_{t}的点积更大的那一个

                        不预测\epsilon,而是直接预测z_{i}

                        

        3)CLIP image embedding decoder P(x|z_{i}, y)

                -> 用diffusion models、以CLIP image embeddings作为条件生成图像(可能会用到text caption)。直接将embedding作为采样起点效果不佳。

                -> 映射和添加CLIP embeddings到existing timestep embedding

                -> 将CLIP embedding映射到4个额外的context token中,和GLIDE text encoder的输出并联

                -> 因为是CLIP image encoder的逆过程,因此本文的方法也被称为unCLIP

                -> 尝试沿用GLIDE中的text conditioning,但作用不大

                -> 训练细节

                        10%的概率随机设置CLIP embedding(或learned embedding)为0,实现classifier-free guidance;50%的概率随机去除text caption

                        两个upsample网络,64x64 - 256x256 - 1024x1024;第一个上采样阶段采用gaussian blur,第二个上采样阶段采用BSR degradation;训练时随机裁剪1/4大小的图像,推理时则用正常大小;只用spatial convolution,不用attention层;网络为unconditional ADMNets

                -> 备选方案:直接用caption或者text embeddings作为条件,不用prior

4、应用

        1)non-deterministic,给定一个image embedding,可以生成多个图像

        2)通过插值image embedding,可以对生成图像进行插值

        ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

        3)通过插值text embedding,可以对生成图像进行插值

                ​​​​​​​        ​​​​​​​        ​​​​​​​        ​​​​​​​        

                                                

        4)可以有效抵挡CLIP容易受到影响的typographic attack

5、局限性

        1)对于不同物品和属性的关联能力不如GLIDE。因为CLIP embedding本身不关联物品和属性,而decoder也会mix up属性和物品

        2)无法写出连贯的文本。因为CLIP本身不编码拼写信息,BPE编码也会模糊单词的拼写

        3)无法生成复杂场景中的细节。因为模型在低分辨率下训练,然后再上采样

        4)生成效果越好,制造欺骗性或有害图片的能力就更大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/35440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开放式耳机什么牌子好一点?亲检的几款开放式蓝牙耳机推荐

不入耳的开放式耳机更好一些,不入耳式耳机佩戴更舒适,适合长时间佩戴,不会引起强烈的压迫感或耳部不适。不入耳式的设计不需要接触耳朵,比入耳式耳机更加卫生且不挑耳型,因此备受运动爱好者和音乐爱好者的喜爱。这里给…

MySQL中ALTER LOGFILE GROUP 语句详解

在 MySQL 的 InnoDB 存储引擎中,ALTER LOGFILE GROUP 语句用于修改重做日志组(redo log group)的配置。重做日志是 InnoDB 用来保证事务持久性的一个关键组件,它们用于在系统崩溃后恢复数据。 InnoDB 支持多个重做日志组&#xf…

周转车配料拣货方案

根据周转车安装的电子标签,被悬挂的扫码器扫到墨水屏显示的二维码,投屏发送配料拣货的数据。 方便快捷分拣物料

20240625(周二)欧美股市总结:标普纳指止步三日连跌,英伟达反弹6.8%,谷歌微软新高,油价跌1%

美联储理事鲍曼鹰派发声,若通胀没有持续改善将支持加息,加拿大5月CPI重新加速,对加拿大央行7月降息构成阻碍。美股走势分化,道指收跌近300点且六日里首跌,英伟达市值重上3.10万亿美元,芯片股指显著反弹1.8%…

想要用tween实现相机的移动,three.js渲染的canvas画布上相机位置一点没动,如何解决??

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

linux 批量mv批量cp | 批量复制粘贴剪切

一、【问题描述】 cp 和 mv这种基本命令,多对一是可以做的 比如 cp /conf/* /despath mv /conf/* /path/bak/ 但是一对多会报错,加-r参数也会报错,而且会有问题,不建议这么做,找一台测试机器你会发现加了-r甚至复制…

每日新闻掌握【2024年6月26日 星期三】

2024年6月26日 星期三 农历五月廿一 大公司/大事件 OpenAI将终止对中国提供API服务 从6月24日晚间开始,已有多名用户收到了来自OpenAI的邮件。该邮件表示,“我们的数据显示您的组织来自OpenAI目前不支持的地区的API流量。”邮件进一步表示,…

高内聚低耦合【代码:ShoppingCart(一个类中提供多种操作购物车的方法体现高内聚)支付方式接口(信用卡类、微信支付类实现支付接口 体现低耦合)】

高内聚低耦合 ⾼内聚指的是:⼀个模块中各个元素之间的联系的紧密程度,如果各个元素(语句、程序段)之间的联系程度越⾼,则内聚性越⾼,即 “⾼内聚”。 低耦合指的是:软件中各个层、模块之间的依赖关联程序越低越好。修…

第1章 物联网模式简介---独特要求和体系结构原则

物联网用例的独特要求 物联网用例往往在功耗、带宽、分析等方面具有非常独特的要求。此外,物联网实施的固有复杂性(一端的现场设备在计算上受到挑战,另一端的云容量几乎无限)迫使架构师做出艰难的架构决策和实施选择。可用实现技…

【自动调参】年化29.3%,最大回撤18.5%​:lightGBM的参数优化

原创文章第570篇,专注“AI量化投资、世界运行的规律、个人成长与财富自由"。 研报复现继续:【研报复现】年化27.1%,人工智能多因子大类资产配置策略之benchmark 昨天调了一版参数,主要是lambda_l1, lambda_l2,防…

Vmvare12安装CentOS7.6

Vmvare12安装 注意事项 安装完成以后有这两个虚拟网卡。 CentOS官网镜像地址 https://www.centos.org/download/mirrors/Vmvare安装CentOS7.6 创建虚拟机 安装CentOS7.6 选择桌面版 磁盘分区 上述是确认使用自动分区。 设置密码 设置license information 欢迎页面 CentOS7…

使用Python实现网页数据获取与处理:以财经新闻为例

在现代数据驱动的世界中,获取并处理丰富的网页数据是非常重要的技能。本文将介绍如何使用Python编写一个程序,自动获取财经新闻数据并进行处理。这不仅可以帮助我们快速获取最新的财经信息,还可以为后续的数据分析和研究提供支持。 环境准备…

宝兰德受邀出席华为开发者大会2024,携手共绘基础软件新篇章

6月21日-23日,华为开发者大会(HDC 2024)在东莞松山湖举行,作为全球开发者的年度盛会,本次大会汇聚了众多业界精英与前沿技术。华为分享了HarmonyOS、盘古大模型、昇腾AI云服务、GaussDB数据库、自研仓颉编程语言等最新…

微信小程序录音

微信小程序的录音功能通过一组API来实现,主要涉及录音管理器(RecorderManager)的使用。下面是详细的实现步骤和代码示例: 初始化录音管理器 首先需要获取录音管理器的实例,可以通过 wx.getRecorderManager() 方法来获…

【IM即时通信 功能介绍】客户端用户在线状态订阅

本文档旨在介绍客户端用户在线状态订阅功能,该功能允许开发者通过 SDK 接口实时监控和接收指定用户的在线或离线状态变更通知。这一功能对于需要实时交流、状态同步或用户活动监控的应用场景至关重要。 功能特点 实时状态通知 跨平台通知:订阅成功后&…

使用 MediaPipe 实现实时手部追踪和手势识别 | Rerun展示

点击下方卡片,关注“小白玩转Python”公众号 在本文中,我将展示一个使用 MediaPipe Python 和 Rerun SDK 进行手部追踪和手势识别的示例。如果您有兴趣深入了解并扩展您的知识,我将指导您如何安装 MediaPipe Python 和 Rerun SDK 来进行手部追…

深入Scala的变量声明与类型推断:语法糖下的智能推导

Scala是一种静态类型语言,以其强大的类型推断系统而闻名。变量声明和类型推断是Scala编程中的基础概念,它们共同简化了代码的编写并提高了开发效率。本文将深入探讨Scala中变量声明的语法规则和类型推断的工作原理。 1. Scala静态类型的优越性 静态类型…

深入理解Python中的*和**在函数参数与调用中的奥秘

深入理解Python中的*和**在函数参数与调用中的奥秘 在Python编程中,*和**这两个操作符在函数参数和函数调用中扮演着特殊的角色。它们分别用于处理位置参数(positional arguments)和关键字参数(keyword arguments)&am…

Linux部署SVN

一.下载与安装 (1)yum安装 yum install subversion (2)源文件编译安装 ①下载svn源文件 subversion-xxx.tar.gz(subversion 源文件) subversion-deps-xxx.tar.gz(subversion依赖文件&…

RAG项目工期

工期 第一期,基于term的检索,大模型生成 第二期,搭建前端界面,落地 上传pdf,一键解析,上传多个pdf 提问 第三期,使用向量检索,向量数据库选型 第四期,优化排序。 te…