【论文阅读】FreeU: Free Lunch in Diffusion U-Net

FreeU: 无需训练直接提升扩散模型生成效果。

paper:https://arxiv.org/abs/2309.11497

code:GitHub - ChenyangSi/FreeU: FreeU: Free Lunch in Diffusion U-Net

1. 介绍

贡献:

•研究并揭示了U-Net架构在扩散模型中去噪的潜力,并确定其主要骨干主要有助于去噪,而其跳过连接将高频特征引入解码器模块。

•介绍了“FreeU”,利用U-Net架构的两个组件的优势,来增强U-Net的去噪能力。提高了生成质量,而不需要额外的训练或微调。

•FreeU框架是通用的,与现有的扩散模型无缝集成。通过各种基于扩散的方法证明了样品质量的显著改善,显示了FreeU在不增加额外成本的情况下的有效性。

2. 方法

图2。去噪过程。顶部一行说明了图像在迭代中的渐进去噪过程,而随后的两行显示了傅里叶反变换后的低频和高频分量,匹配每一步。去噪过程中,低频分量变化缓慢,高频分量显著变化。

图4. FreeU框架。(a) U-Net跳跃特征和主干特征。在U-Net中,跳跃特征和主干特征在每个解码阶段被串联在一起。我们在串联过程中应用FreeU操作。(b) FreeU操作。因子b旨在放大主干特征图x,而因子s则设计为减弱跳跃特征图h。

图5. 主干和跳跃连接缩放因子(b和s)的影响。增加主干缩放因子b显著提高图像质量,而跳跃缩放因子s的变化对图像合成质量几乎没有影响。

 

图6. 随着主干缩放因子b的变化,傅里叶变换的相对对数振幅。增加b相应地会导致扩散模型生成的图像中高频分量的抑制。

 

图7. 主干、跳跃以及它们融合的特征图的傅里叶相对对数振幅。由编码器块较早层直接通过跳跃连接传递到解码器的特征包含大量的高频信息。

图8. 解码器第二阶段的平均特征图可视化。

 

3. 实验

 

表格1. 文本到图像的定量结果。我们分别统计了基准方法和我们的方法的投票百分比。

Image-Text指的是图像和文本的对齐情况。

 

 

表格2. 文本到视频的定量结果。我们分别统计了基准方法和我们的方法的投票百分比。

Video-Text指的是视频和文本的对齐情况。

4. 结论

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/238821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis单机、主从、哨兵、集群配置

单机配置启动 Redis安装 下载地址:Download | Redis 安装步骤: 1: 安装gcc编译器:yum install gcc 2: 将下载好的redis‐5.0.3.tar.gz文件放置在/usr/local文件夹下,并解压redis‐5.0.3.tar.gz文件 wget http://download.re…

react生命周期详解,代码示例(新生命周期,与旧生命周期对比)

旧生命周期:https://blog.csdn.net/kkkys_kkk/article/details/135130549?spm1001.2014.3001.5501 目录 React 生命周期中常见的坑 为什么要移除 “will” 相关生命周期方法呢? Fiber是什么 新生命周期图示 新增生命周期与功能变化 完整生命周期…

C语言操作符详解+运算符优先级表格

目录 前言 一、操作符是什么? 二、操作符的分类 三、算术操作符 四、逻辑操作符 五、比较操作符 六、位操作符 七、赋值操作符 八、其他操作符 九、运算符优先级表格 总结 前言 在编写程序时,最常用到的就是操作符,本文将详细的介绍…

KWin、libdrm、DRM从上到下全过程 —— drmModeAddFBxxx(28)

接前一篇文章:KWin、libdrm、DRM从上到下全过程 —— drmModeAddFBxxx(27) 上回书在探究i915_gem_object_lookup_rcu函数调用idr_find函数时所传递的参数的时候,由第1个实参&file->object_idr引出了对于它是在何时何处赋值的探索。 static inline struct drm_i915_…

RAG框架LlamaIndex核心——各种索引应用分析

目录 LLM私域数据训练问题 什么是LlamaIndex 提供的工具 如何使用 一些核心术语

Golang 的内存管理

文章目录 1.内存管理角色1.常见的内存分配方法线性分配器空闲链表分配器TCMalloc 2.Go 内存管理组件mspanmcache初始化替换微分配器 mcentralmheap 3.内存分配4.内存管理思想参考文献 1.内存管理角色 内存管理一般包含三个不同的组件,分别是用户程序(Mu…

对比学习综述

1.简介 2.相关工作 2.1、Inst Disc 代理任务:个体判别。把每一个图片看作是一种类别,把每一个图片都区分开来。 正负样本选择:正样本是图片本身,负样本是数据集里的其他图片,该文章从memory bank中随机抽取4096个负…

【C语言】指针详解(三)

1.指针运算 指针的基本运算有三种,分别是:⭐指针-整数 ⭐指针-指针 ⭐指针的关系运算 1.1指针 - 整数 因为数组在内存中是连续存放的,只要知道第一个元素的地址,顺藤摸瓜就能找到后面的所有元素。 int arr[10]{1,2,3,4,5,6,7,8,9,10} #inc…

劈窗算法反演地表温度

目录 摘要操作步骤提取热红外单波段提取NDVI同步像元分辨率与个数劈窗算法地表温度反演制图 摘要 主要使用HJ-2(环境减灾二号卫星)的IRS传感器的两个热红外波段,以及红波段与近红波段计算得到的NDVI,使用劈窗算法,得到…

贪吃蛇(五)蛇撞墙

上节我们实现了蛇身向右移动的功能,原理就是增加一个节点,删除一个节点。 本节我们处理蛇撞墙重置的功能 实现原理 在移动函数中检查蛇头(链表尾节点)是否达到墙边的坐标,这里有四种撞墙的情况: 上墙&am…

排障启示录-终端无法接入网络

问题现象:终端连接无线提示无法接入 可能故障方向: 1、策略限制终端接入 2、接入过程不完整 3、存在反制 4、距离较远导致无法接入 信息收集: 全部终端无法接入: 从AP后台打印wifilog或者空口抓包,查看终端从接…

linux怎么做定时执行命令

在Linux中,可以使用cron命令来定时执行命令。cron是一个在指定时间自动执行命令或脚本的守护进程。以下是在Linux中设置定时执行命令的步骤: 1.打开终端,输入以下命令以编辑crontab文件: crontab -e 2.在打开的编辑器中&#xff0…

随笔:集成学习:关于随机森林,梯度提升机的东拉西扯

1.集成学习 这里不会描述算法过程。 当我们有许多学习器对同一个任务做出判断,他们预测的概率可能各不相同,比如预测一个男生(小徐)会不会喜欢另一个女生(小雪),支持向量机算出来小徐爱上小雪的概率是0.8,朴素贝叶斯认为是0.3&a…

qt线程池子线程辅助类传信号

import sys from PyQt5.QtWidgets import QApplication, QMainWindow, QPushButton from PyQt5.QtCore import QObject, QRunnable, pyqtSignal, QThreadPool# 辅助类,用于定义信号 class WorkerSignals(QObject):print(pass signal)finished pyqtSignal(bool) # …

使用Docker-镜像命令

镜像名称一般分两部分组成:[repository]:[tag] 在没有指定tag时,默认是latest,代表最新版本的镜像 案例一:从DockerHub中拉取一个nginx镜像并查看 1.1. 首先去镜像仓库搜索nginx镜像,比如DockerHub 点击nginx 复制拉取命令 1.2.…

MySQL中替换字符串中的指定部分之REPLACE函数

REPLACE函数是用来替换字符串中的指定部分内容的。在本文中,将介绍如何在MySQL中使用REPLACE函数进行字符串替换 REPLACE函数的语法: REPLACE(str, search_str, replace_str) 其中,str是要进行替换操作的字符串,search_str是要搜…

使用Mosquitto/python3进行MQTT连接

一、简介 MQTT(消息队列遥测传输)是ISO 标准(ISO/IEC PRF 20922)下基于发布/订阅范式的消息协议。它工作在 TCP/IP协议族上,是为硬件性能低下的远程设备以及网络状况糟糕的情况下而设计的发布/订阅型消息协议,为此,它需要一个消息中间件。 …

【CMake保姆级教程】制作动静态链接库、指定动静态库输出路径

文章目录 前言一、动静态链接库的介绍1.1 动态链接库 (DLL)1.2 静态链接库 (LIB) 二、制作静态库三、制作动态库四、指定动静态库输出路径4.1 方式1 - 适用于动态库4.2 方式2 - 都适用 总结 前言 在软件开发中,我们经常听到动态链接库(Dynamic Link Lib…

[LitCTF 2023]PHP是世界上最好的语言!!

[LitCTF 2023]PHP是世界上最好的语言&#xff01;&#xff01; wp 进入页面&#xff0c;发现左边有输入框&#xff0c;下面有 RUN CODE 字样&#xff0c;估计是可以执行命令的。 执行 PHP 代码测试 <?php print(1); ?>将 PHP 一句话木马写入文件 为了蚁剑能连上&am…

全国30米分辨率逐年最大NDVI数据集

全国30米分辨率逐年最大NDVI数据集 中国30m逐年NDVI最大值数据集是基于Google Earth Engine&#xff08;GEE&#xff09;遥感云计算平台&#xff0c;利用美国陆地卫星Landsat 5/7/8/9遥感影像计算的1986年以来的逐年度NDVI最大值数据集。计算过程中对每年度全年所有的Landsat5/…