Scalable Diffusion Models with Transformers

Scalable Diffusion Models with Transformers

bicheng/2025/10/31 1:55:37/文章来源:https://blog.csdn.net/weixin_44994838/article/details/139472012

Meta
https://github.com/facebookresearch/DiT/tree/main?tab=readme-ov-file

问题引入

transformer架构的latent diffusion model，有较好的延展性并是sota；

methods

patchify：原图片 $I\in\mathbb{R}^{H\times W\times 3}$ 经过autoencoder之后得到 $z\in\mathbb{R}^{\frac{H}{8}\times \frac{W}{8}\times 4}$ ，之后经过patchify，得到 $T\times d$ 的sequence，其中 $d$ 是每一个patch的embedding的维度， $T$ 由patch的大小 $p$ 来决定，之后会有position encoding(frequency-based positional embeddings (the sine-cosine version))，之后就是一系列transformer sequence；
除noisy latents以外额外的输入：timesteps t, class labels c, natural language, etc，分别尝试了四种变种：
In-context conditioning：对t和c进行embedding之后将其作为输入额外的token，和image token同等看待，类似与vit的cls tokens；
Cross-attention block：将t和c的embedding进行concat，之后再transformer block中的self attention之后添加cross attention，在这部分参与计算；
Adaptive layer norm (adaLN) block：用adaLN替换transfromer block中的layernorm layer，不是直接学习dimensionwise scale and shift parameters $\gamma,\beta$ ，而是将t和c的embedding进行相加之后经过mlp回归得到；
adaLN-Zero block：除了回归 $\gamma,\beta$ ，还回归dimensionwise scaling parameters $\alpha$ ，在residual connection之前使用，初始化mlp使得初始输入 $\alpha$ 为0vector，该操作相当于将dit block初始化为identity矩阵；
最后dit block的输出为noise和diagonal covariance prediction；

实验

数据：imagenet
B, S, L and XL + patch size p = 2, 4, 8

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/23098.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2024.06.05【读书笔记】丨生物信息学与功能基因组学（第十一章分子水平的系统发生和进化第三部分）【AI测试版】

2024.06.05【读书笔记】丨生物信息学与功能基因组学（第十一章分子水平的系统发生和进化第三部分）【AI测试版】

读书笔记三：《生物信息学与功能基因组学》第十一章第三部分分子系统发生分析的四个步骤在《生物信息学与功能基因组学》第十一章的第三部分中，作者详细阐述了分子系统发生分析的四个关键步骤，这些步骤构成了研究生物分子进化的基础。第…

阅读更多...

【微信小程序】模板语法

【微信小程序】模板语法

数据绑定对应页面的 js 文件中定义数据到 data 中： 在页面中使用 {{}} 语法直接使用： 事件绑定事件触发常用事件： 事件对象的属性列表（事件回调触发，会收到一个事件对象 event，它的详细属性如下&…

阅读更多...

免费，C++蓝桥杯等级考试真题--第10级（含答案解析和代码）

免费，C++蓝桥杯等级考试真题--第10级（含答案解析和代码）

C蓝桥杯等级考试真题--第10级答案：D 解析：数组是一种线性数据结构，其特点是数组中的元素在内存中占据一段连续的存储空间，每个元素通过索引（下标）访问，索引起始通常是0。数组的长度在声明时…

阅读更多...

操作符详解

操作符详解

一、移位操作符 1.1左移操作左边丢弃，右边补0 1.2右移操作算数右移：右边丢弃，左边补原符号位逻辑右移：右边丢弃，左边补0 int main() {int a -1;int b a >> 1;printf("b%d\n",b);return 0; } 原码…

阅读更多...

Linux创建用户与yum安装软件

Linux创建用户与yum安装软件

我们了解了给用户设置或者修改权限，今天了解一下如何手动创建一个用户。一、新创用户的步骤 1、useradd创建 2、passwd设置操作步骤： （1）/etc/passwd 添加一行 （2）/etc/shadow 添加一行 &#xff0…

阅读更多...

厘米级精确定位，开启定位技术新时代

厘米级精确定位，开启定位技术新时代

定位技术在当前这个科技发展时代可以说是以以前所未有的速度在发展，其中厘米级精确定位技术更是成为当前的研究热点和实际应用中的佼佼者。这项技术以其高度的精准性和广泛的应用前景，正在逐渐改变我们的生活和工作方式。接下来我们跟着深圳沧穹科技一起…

阅读更多...

在vue项目中使用markdown-it回显markdown文本

在vue项目中使用markdown-it回显markdown文本

前言其实有很多插件都是可以用来回显markdown文本的,这个插件也是其中之一。文档地址:markdown-it | markdown-it 中文文档这个文档在vue2和vue3里面都可以使用,所以还是比较推荐的使用安装 npm install markdown-it --save 应用 <template><div><…

阅读更多...

微服务开发与实战Day02 - Docker

微服务开发与实战Day02 - Docker

一、Docker快速入门快速构建、运行、管理应用的工具安装部署教程：Docs 1. 部署MySQL 测试连接： 镜像和容器当我们利用Docker安装应用时，Docker会自动搜索并下载应用镜像（image）。镜像不仅包含应用本身&#xff…

阅读更多...

天润融通，荣获2024中国AI应用层创新企业

天润融通，荣获2024中国AI应用层创新企业

AI技术发展日新月异，可谓“AI一天，人间一年”。从2023年到2024年，短短一年的时间，大模型技术的发展就已经逐步从追求“技术突破”转向了追求“应用落地”。如何将大模型的技术与企业的生产、运营、销售等场景结合起来&#xff0…

阅读更多...

java版CRM客户关系管理系统源码：CRM客户关系管理系统的功能详解

java版CRM客户关系管理系统源码：CRM客户关系管理系统的功能详解

CRM客户关系管理系统是一款功能全面的客户管理工具，旨在帮助企业和销售团队提高客户管理效率，优化销售流程。该系统包含多个模块，覆盖了从线索到回款的全流程管理，为用户提供了一个集成化的客户关系管理平台。一、待办事项模块&a…

阅读更多...

Docker 部署 Redis Cluster 高性能高可用分片集群

Docker 部署 Redis Cluster 高性能高可用分片集群

文章目录 1、环境准备2、Cluster 集群讲解2.1、Cluster 介绍2.2、Cluster 和哨兵模式区别2.3、Cluster 如何分散存储数据 3、Cluster 搭建流程3.1、安装 Docker3.2、启动 Redis 容器3.3、创建 Cluster 集群 4、Cluster 集群测试4.1、读写操作4.2、故障转移 1、环境准备准备6台…

阅读更多...

基于Keil5移植LVGL，懂得原理之后什么开发板都可以移植

基于Keil5移植LVGL，懂得原理之后什么开发板都可以移植

今天我们来移植一下LVGL，其实LVGL和Qt差不多，操作起来都很简单，看着官方文档都可以自己学习使用。难就难在移植上面，移植个LVGL花了我三天才弄明白（虽然最后发现在一个很弱智的问题上耽误了我两天）&#…

阅读更多...

oracle 打补丁遇到 check “CheckActiveFilesAndExecutables“ failed报错处理方法

oracle 打补丁遇到 check “CheckActiveFilesAndExecutables“ failed报错处理方法

该报错是因为打补丁的时候停止集群没有停止干净进程导致的问题处理方法强制停止打补丁所在节点集群服务查看grid和oracle相关进程是否停止干净，发现有未关闭的进程手动kill 处理完毕继续打补丁即可

阅读更多...

C++STL---list常见用法

C++STL---list常见用法

C STL中的list list是C标准模板库（STL）中的一个序列容器，它实现了一个双向链表。与vector和deque相比，list支持快速的任意位置插入和删除操作，但不支持快速随机访问。基本操作创建和初始化 #include <list> …

阅读更多...

跟着大佬学RE（四）

跟着大佬学RE（四）

几个API函数 [ACTF新生赛2020]Universe_final_answer 一个很多方程组的函数，还有一个嗯，对input进行一些操作的函数嗯，确实方程解出来得到 key 直接运行就可以得到 flag 了，不过还是去分析了一下。 v22 __readfsqword(0x28u);…

阅读更多...

Java 基础面试300题（261-290）

Java 基础面试300题（261-290）

Java 基础面试300题 （261-290） 261.CompletableFuture.runAsync和CompletableFuture.supplyAsync方法有什么区别？ 这两个方法都可用于异步运行代码。但两者之间有一些区别如下 ： runAsync不返回结果，返回的是一个Com…

阅读更多...

【深度学习】安全帽检测，目标检测，Faster RCNN训练

【深度学习】安全帽检测，目标检测，Faster RCNN训练

文章目录资料环境尝试训练安全帽数据训练测试预测全部数据、代码、训练完的权重等资料见： 资料依据这个进行训练： https://github.com/WZMIAOMIAO/deep-learning-for-image-processing/tree/master/pytorch_object_detection/faster_rcnn ├── bac…

阅读更多...

【加密与解密】【04】Java安全架构

【加密与解密】【04】Java安全架构

JAVA安全模块划分 JCA，Java Cryptography Architecture，Java加密体系结构JCE，Java Cryptography Extension，Java加密扩展包JSSE，Java Secure Sockets Extension，Java安全套接字扩展包JAAS，Java…

阅读更多...

nt9856_sensor_driver camera i2c无响应

nt9856_sensor_driver camera i2c无响应

前言最新更换了不同的平台进行开发，所以一心在研究和学习中，没有太多的时间发布文章，最近开开始上手了，抽空把之前的工作记录进行总结和发布。从原来的高通和瑞芯微转到了国科和海思联咏，整体的架构不太一致&#xff…

阅读更多...

【JVM】已验鼎真，鉴定为：妈妈加载的（双亲委派模型）

【JVM】已验鼎真，鉴定为：妈妈加载的（双亲委派模型）

【JVM】已验鼎真，鉴定为：妈妈加载的（双亲委派模型） 在Java的世界中，类加载器（ClassLoader）是Java虚拟机（JVM）用来动态加载类的基础组件。双亲委派模型（Paren…

阅读更多...

最新文章