挑战没有免费的午餐定理?南洋理工提出扩散模型增强方法FreeU

e1f6cbd6bb4b429cbd5714cbf5040858.png

论文名称:FreeU: Free Lunch in Diffusion U-Net

文章链接:https://arxiv.org/abs/2309.11497 

代码仓库:https://github.com/ChenyangSi/FreeU
项目主页:https://chenyangsi.top/FreeU

机器学习领域中一个著名的基本原理就是“没有免费的午餐定理”,该定理指示我们:没有一种机器学习算法是适用于所有情况的,简单来说就是在构建算法时,有得必有失。本文介绍一篇来自南洋理工大学S-Lab的研究论文,本文的题目非常有趣:“扩散U-Net网络中的免费午餐”。作者在文中对U-Net架构在扩散过程中的基本原理进行了深入的探索,作者发现,U-Net的backbone网络主要来完成去噪过程,而其中的跳跃连接主要将高频特征引入解码器模块,从而导致整体模型忽略了从backbone中提取到的语义信息。因此本文提出了一种简单有效的方法,称为FreeU,FreeU的主要操作是重新权衡了U-Net的跳跃连接和backbone特征图对最终输出的贡献,而无需额外的训练或微调即可提高模型的生成图像质量,因此称为是“免费的午餐”。在实际操作时,只需要对现有的扩散模型,例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion等加入几行即插即用的重加权代码就可以提高模型的综合性能。

01. 介绍

扩散模型在生成模型领域引入了一种新型生成范式,整体过程由扩散过程和去噪过程构成,在扩散过程中,向输入数据逐渐添加高斯噪声,而在去噪过程中,原始输入数据通过学习逆扩散操作将原始序列从噪声状态中恢复出来。通常,扩散模型会使用U-Net来迭代预测每个去噪步骤中要去除的噪声信号。目前也有一些工作开始从频率域的角度来分析扩散模型的去噪过程,本文提出使用傅立叶变换工具来进行观察扩散生成,下图展示了扩散生成过程中傅里叶逆变换后相关低频和高频空间域的变化情况,可以看出,低频分量在整个过程中表现除了较为柔和的变化率,而高频分量在整个去噪过程中表现出更明显的动态

f1971dbdbbfb4be192b947947e5e839b.png

下图展示了与上图步骤对应的傅里叶对数振幅变化图,从图中可以分析得到:低频分量本质上体现了图像的全局结构和特征,可以理解为是一张图像的图像本质,因此在扩散过程中低频分量应该尽可能保持稳定。相反,高频成分包含图像中的边缘和纹理,这些更精细的细节对噪声非常敏感

3babf9c862a2400db94ca13b5c738a08.png

根据上述分析去噪过程中低频和高频分量之间的关系,本文从扩散U-Net的架构出发,作者发现U-Net中的跳跃连接会将高频特征不断引入解码器模块,这样会导致模型的backbone在推理时的去噪能力受到影响,从而导致生成异常图像细节,如下图第一行所示。

0e8682917f114d04bc521d1e4b19d079.png

基于以上观察,本文提出了一种FreeU的调制策略,即在模型的扩散推理阶段,设计了两个专门的调制因子,其中一个因子称为backbone特征因子,用来放大backbone的特征图效应,从而加强去噪过程,同时为了防止去噪带来的过度纹理平滑,第二个因子被设计为跳连特征缩放因子,用来进行权衡调节

02. 本文方法

2.1 扩散U-Net的架构

下图展示了扩散U-Net的主要框架,主要包括一个主要骨干网络,由编码器和解码器构成,以及促进编码器和解码器相应层之间信息传输的跳跃连接。

df830f6154714e99803aaa4067bb9214.png

574583a8e36e4fcdb355af78af30b8a8.png

30eb7cd900da4480b28fa28999b53e4d.png

然而,跳跃连接可以将编码器的浅层特征块直接传递给解码器,由于这些特征都属于高频信息,作者猜测,在U-Net架构的训练过程中,这些高频特征的存在可能会加速解码器学习对噪声预测的能力

6843df5f5c324f7f9ac3d42f865581f1.png

2.2 扩散U-Net中的免费午餐

03. 实验效果

本文的实验主要侧重于评估FreeU在目前流行的图像生成任务上的效果,例如文本到图像生成(text-to-image)和文本到视频生成(text-to-video),此外,由于FreeU的一大亮点是其可以轻松插入到现有的预训练扩散模型中来提升性能,因此作者还选用了一些流行的下游模型进行了实验。

3.1 文本到图像生成

文本到图像生成作者使用了Stable Diffusion模型作为baseline,并且将FreeU集成在上面,下图展示了使用FreeU对SD模型增强后的效果。可以看到,将FreeU 可以改善SD在实体描绘和细粒度细节的效果。例如,当出现“正在拍摄一辆蓝色汽车”的提示时,FreeU会细化图像,消除屋顶的不规则性并增强周围结构的纹理复杂性。

6565590c56624bb7830de6308b85483b.png

此外,作者还邀请了35名测试员来对图像质量和图像文本对齐情况进行评估。每个测试员都会收到一条文本提示和两张相应的合成图像,一张来自SD,另一张来自SD+FreeU。然后,测试员分别选择他们认为图像文本对齐和图像质量优异的图像,下图展示了最终的实验结果,可以看到测试员将大多数投票投给了SD+FreeU

dcff6074d39b4c5b88205b9940b126f5.png

3.2 文本到视频生成

对于文本到视频合成,作者使用ModelScope[2]作为基础baseline,作者使用了与文本到图像合成类似的评估方法,从下表中显示的结果也表明大多数测试员更喜欢FreeU生成的视频。

21f4ede86d434187bfd1bea9aa2939aa.png

3.3 下游模型实验

在这一部分,作者直接将FreeU嵌入到Dreambooth[3],这是一项发表在CVPR2023上的个性化文本到图像生成模型。如下图展示了使用FreeU的增强效果,其中DreamBooth模型很难根据提示“一张骑摩托车的人偶照片”来合理的生成人偶腿部的外观,而FreeU增强版本可以巧妙地解决这一问题。

82fc4c67166340529c0101f8fe3d1316.png

此外,作者还评估了FreeU对Rerender[4]的影响,这是一种zero-shot文本引导视频转换模型。下图展示了改进效果,例如,当文本提示为“戴着太阳镜的狗”时,Reender会生成一个带有与“太阳镜”相关的视频,但是视频中有一些伪影。加入FreeU后可以有效的消除此类伪影,从而提高最终的生成效果

b037b04fdff54d89b8b1e7ee5e069543.png

04. 总结

本文引入了一种优雅简单但高效的FreeU扩散模型方法,FreeU深入刨析了现有扩散模型内部不同组件之间的交互关系,其主干网络主要用于去噪过程,而跳跃连接主要将高频特征引入解码器。作者使用了一种巧妙的重加权方式来对两个模块进行重新调制,从而在不产生额外计算成本的情况下提升模型性能。FreeU可以无缝集成到各种扩散基础模型及其下游模型中,来显著增强生成图像中的复杂细节同时提高整体的视觉保真度。

参考

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.

[2] Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, and Tieniu Tan. VideoFusion: Decomposed diffusion models for high-quality video generation. In CVPR, 2023.

[3] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Finetuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.

[4] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender a video: Zero-shot text-guided video-to-video translation. arXiv preprint arXiv:2306.07954, 2023.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/117677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RetentionPolicy枚举类

包名package java.lang.annotation 作用 注释保留策略。此枚举类型的常量描述用于保留注释的各种策略。它们被使用与{ Retention}元注释类型一起指定注释要保留多长时间。 属性 SOURCE编译器将丢弃注释。CLASS注释将由编译器记录在类文件…

threejs(3)-详解材质与纹理

一、Matcap(MeshMatcapMaterial)材质原理与应用 Matcap是一张含有光照信息的贴图,通常是直接截取材质球截图来使用。因此Matcap可以很好的模拟静止光源下的光照效果。 最直接的方式就是直接使用在View空间下的模型法向量的xy分量去采样Matcap。 另外还有一种常见…

EPPlus库的安装和使用 C# 中 Excel的导入和导出

安装 工具栏->NuGet 包管理器->管理解决方案的NuGet程序包 安装到当前项目中 使用 将 DataGridView 数据导出为Excel 首先,需要将数据DataGridView对象转换为DataTable private void btnExport_Click(object sender, EventArgs e) {// 1.将当前页面的data…

json-server工具准备后端接口服务环境

1.安装全局工具json-server(全局工具仅需要安装一次) 官网:json-server - npm 点击Getting started可以查看使用方法 在终端中输入yarn global add json-server或npm i json-server -g 如果输入json-server -v报错 再输入npm install -g j…

Elasticsearch之mapping

文章目录 以显式的方式创建一个映射查看某个具体索引的mapping定义向已存在的映射中添加一个新的属性查看映射中指定字段的定义信息更新已存在映射的某个字段 1、 官方文档地址 2、 字段类型 1、定义:映射是定义文档及其包含的字段如何存储和索引的过程。 2、每个…

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType, StringType, StructType import pyspark.sql.functions as Fif __name__ __main__:# 0.构建执行环境入口对象SparkSessionspark SparkSession.builder.\appName(movie_demo)…

【网络爬虫 | Python】数字货币ok链上bitcoin大额交易实时爬取,存入 mysql 数据库

文章目录 一、网站分析二、js 逆向获取 X-Apikey三、python 调用 js 获取 X-Apikey四、python 爬虫部分五、mysql 数据库、日志、配置文件、目录结构六、结尾 一、网站分析 oklink:https://www.oklink.com/ btc 大额交易:https://www.oklink.com/btc/tx-…

题目 1009: [编程入门]数字的处理与判断(python详解)——练气二层后期

✨博主:命运之光 🦄专栏:算法修炼之练气篇(C\C版) 🍓专栏:算法修炼之筑基篇(C\C版) 🍒专栏:算法修炼之练气篇(Python版) ✨…

【2024秋招】小米中间件后端开发一面2023-9-13-base武汉

1 自我介绍 2 快手实习 2.1 讲讲你写的curd启动器,做了哪些工作呢 答: 2.2 网上也有一些开源的curd代码生成器,你为什么需要自研呢(重要) 答: (1)这个必须得自研,因…

vue3检测是手机还是pc端,监测视图窗口变化

1.超小屏幕&#xff08;手机&#xff09; 768px以下 2.小屏设备&#xff08;平板&#xff09; 768px-992px 3.中等屏幕&#xff08;旧式电脑&#xff09; 992px-1200px 4.大屏设备&#xff08;现代电脑&#xff09; 1200px以上 <script setup name"welcome"> i…

最新校园说明会日程安排-ABeam(德硕)旗下艾宾信息技术开发(上海) 德硕管理咨询(深圳)

艾宾信息技术开发&#xff08;上海&#xff09; 2024校园招聘 招聘岗位 公司介绍 福利待遇 联系我们 行程一览 华东理工大学校园宣讲会 日期&#xff1a;2023年10月23日&#xff08;周一&#xff09; 时间&#xff1a;14:00-16:00 地点&#xff1a;上海市徐汇区梅陇…

思维导图软件 ConceptDraw MINDMAP mac中文特色介绍

ConceptDraw MINDMAP mac是一款思维导图绘制软件&#xff0c;它可以帮助用户快速创建各种类型的思维导图&#xff0c;如组织结构图、流程图、概念图和UML图等。该软件具有直观的界面和简单易用的操作方式&#xff0c;使得用户能够轻松地创建复杂的思维导图。此外&#xff0c;它…

Android Studio新功能-设备镜像Device mirroring-在电脑侧显示手机实时画面并可控制

下载最新的灰测版本-蜥蜴 成功运行到真机后&#xff0c;点击右侧Running Devices选项卡&#xff0c;再点击号 选中当前设备&#xff1b; 非常丝滑同步&#xff0c;在电脑侧也可以顺畅控制真机 该功能大大方便了我们视线保持在显示器上专注开发&#xff0c;并且便于与UI视觉进行…

搜维尔科技:伦敦艺术家利用Varjo头显捕捉盲人隐藏的梦想

在伦敦举行的弗里泽艺术博览会上,与专业级虚拟现实/XR硬件和软件领域的全球领先者Varjo合作,展示一个突破性的混合现实艺术装置, 皇家国家盲人学会 (rnib),英国领先的视力丧失慈善机构。 这个名为"公共交通的私人生活"的装置是一个互动的声音和图像雕塑,旨在让有眼光…

KNN-水仙花的分类

题目&#xff1a; 思路&#xff1a; 1、处理数据集&#xff0c;这里用的是题目已知的数据集&#xff0c;所以说需要提前将写好的数据放到excel表格里&#xff0c;再进行读取。 2、将数据集划分为训练集和测试集 3、定义K-NN模型。 4、训练模型 5、预测模型 6、计算分类精…

通过VScode连接远程 Linux 服务器修改vue代码

1先在Linux环境安装node&#xff0c;官网下载的node安装包放在自己新建文件夹 2解压 tar -zxvf node-v18.18.0-linux-x64.tar.xz 3新建代码路径&#xff0c; 下载代码 4安装 OpenSSH OpenSSH 可以让你在终端使用 ssh 命令&#xff0c;Windows10 一般自带。 可以通过以下方式…

大数据技术学习笔记(二)—— Hadoop 运行环境的搭建

目录 1 准备模版虚拟机hadoop1001.1 修改主机名1.2 修改hosts文件1.3 修改IP地址1.3.1 查看网络IP和网关1.3.2 修改IP地址 1.4 关闭防火墙1.5 创建普通用户1.6 创建所需目录1.7 卸载虚拟机自带的open JDK1.8 重启虚拟机 2 克隆虚拟机3 在hadoop101上安装JDK3.1 传输安装包并解压…

Webpack 基础以及常用插件使用方法

目录 一、前言二、修改打包入/出口配置步骤 三、常用插件使用html-webpack-plugin打包 CSS 代码提取 CSS 代码优化压缩过程打包 less 代码打包图片文件 一、前言 本质上&#xff0c;Webpack 是一个用于现代 JavaScript 应用程序的 静态模块打包工具。当 webpack 处理应用程序时…

【接口测试】Jmeter接口实战-Dubbo接口+造10W数据测试(详细)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 1、Windows环境通…

深入了解JavaScript中的AJAX和HTTP请求

在现代Web开发中&#xff0c;AJAX&#xff08;Asynchronous JavaScript and XML&#xff09;和HTTP请求被广泛应用于实现动态交互式网页。本文将深入探讨AJAX的概念、工作原理以及使用方法。 什么是AJAX&#xff1f; AJAX是一种利用JavaScript和HTTP请求与服务器进行异步通信的…