挑战没有免费的午餐定理?南洋理工提出扩散模型增强方法FreeU

e1f6cbd6bb4b429cbd5714cbf5040858.png

论文名称:FreeU: Free Lunch in Diffusion U-Net

文章链接:https://arxiv.org/abs/2309.11497 

代码仓库:https://github.com/ChenyangSi/FreeU
项目主页:https://chenyangsi.top/FreeU

机器学习领域中一个著名的基本原理就是“没有免费的午餐定理”,该定理指示我们:没有一种机器学习算法是适用于所有情况的,简单来说就是在构建算法时,有得必有失。本文介绍一篇来自南洋理工大学S-Lab的研究论文,本文的题目非常有趣:“扩散U-Net网络中的免费午餐”。作者在文中对U-Net架构在扩散过程中的基本原理进行了深入的探索,作者发现,U-Net的backbone网络主要来完成去噪过程,而其中的跳跃连接主要将高频特征引入解码器模块,从而导致整体模型忽略了从backbone中提取到的语义信息。因此本文提出了一种简单有效的方法,称为FreeU,FreeU的主要操作是重新权衡了U-Net的跳跃连接和backbone特征图对最终输出的贡献,而无需额外的训练或微调即可提高模型的生成图像质量,因此称为是“免费的午餐”。在实际操作时,只需要对现有的扩散模型,例如Stable Diffusion、DreamBooth、ModelScope、Rerender和ReVersion等加入几行即插即用的重加权代码就可以提高模型的综合性能。

01. 介绍

扩散模型在生成模型领域引入了一种新型生成范式,整体过程由扩散过程和去噪过程构成,在扩散过程中,向输入数据逐渐添加高斯噪声,而在去噪过程中,原始输入数据通过学习逆扩散操作将原始序列从噪声状态中恢复出来。通常,扩散模型会使用U-Net来迭代预测每个去噪步骤中要去除的噪声信号。目前也有一些工作开始从频率域的角度来分析扩散模型的去噪过程,本文提出使用傅立叶变换工具来进行观察扩散生成,下图展示了扩散生成过程中傅里叶逆变换后相关低频和高频空间域的变化情况,可以看出,低频分量在整个过程中表现除了较为柔和的变化率,而高频分量在整个去噪过程中表现出更明显的动态

f1971dbdbbfb4be192b947947e5e839b.png

下图展示了与上图步骤对应的傅里叶对数振幅变化图,从图中可以分析得到:低频分量本质上体现了图像的全局结构和特征,可以理解为是一张图像的图像本质,因此在扩散过程中低频分量应该尽可能保持稳定。相反,高频成分包含图像中的边缘和纹理,这些更精细的细节对噪声非常敏感

3babf9c862a2400db94ca13b5c738a08.png

根据上述分析去噪过程中低频和高频分量之间的关系,本文从扩散U-Net的架构出发,作者发现U-Net中的跳跃连接会将高频特征不断引入解码器模块,这样会导致模型的backbone在推理时的去噪能力受到影响,从而导致生成异常图像细节,如下图第一行所示。

0e8682917f114d04bc521d1e4b19d079.png

基于以上观察,本文提出了一种FreeU的调制策略,即在模型的扩散推理阶段,设计了两个专门的调制因子,其中一个因子称为backbone特征因子,用来放大backbone的特征图效应,从而加强去噪过程,同时为了防止去噪带来的过度纹理平滑,第二个因子被设计为跳连特征缩放因子,用来进行权衡调节

02. 本文方法

2.1 扩散U-Net的架构

下图展示了扩散U-Net的主要框架,主要包括一个主要骨干网络,由编码器和解码器构成,以及促进编码器和解码器相应层之间信息传输的跳跃连接。

df830f6154714e99803aaa4067bb9214.png

574583a8e36e4fcdb355af78af30b8a8.png

30eb7cd900da4480b28fa28999b53e4d.png

然而,跳跃连接可以将编码器的浅层特征块直接传递给解码器,由于这些特征都属于高频信息,作者猜测,在U-Net架构的训练过程中,这些高频特征的存在可能会加速解码器学习对噪声预测的能力

6843df5f5c324f7f9ac3d42f865581f1.png

2.2 扩散U-Net中的免费午餐

03. 实验效果

本文的实验主要侧重于评估FreeU在目前流行的图像生成任务上的效果,例如文本到图像生成(text-to-image)和文本到视频生成(text-to-video),此外,由于FreeU的一大亮点是其可以轻松插入到现有的预训练扩散模型中来提升性能,因此作者还选用了一些流行的下游模型进行了实验。

3.1 文本到图像生成

文本到图像生成作者使用了Stable Diffusion模型作为baseline,并且将FreeU集成在上面,下图展示了使用FreeU对SD模型增强后的效果。可以看到,将FreeU 可以改善SD在实体描绘和细粒度细节的效果。例如,当出现“正在拍摄一辆蓝色汽车”的提示时,FreeU会细化图像,消除屋顶的不规则性并增强周围结构的纹理复杂性。

6565590c56624bb7830de6308b85483b.png

此外,作者还邀请了35名测试员来对图像质量和图像文本对齐情况进行评估。每个测试员都会收到一条文本提示和两张相应的合成图像,一张来自SD,另一张来自SD+FreeU。然后,测试员分别选择他们认为图像文本对齐和图像质量优异的图像,下图展示了最终的实验结果,可以看到测试员将大多数投票投给了SD+FreeU

dcff6074d39b4c5b88205b9940b126f5.png

3.2 文本到视频生成

对于文本到视频合成,作者使用ModelScope[2]作为基础baseline,作者使用了与文本到图像合成类似的评估方法,从下表中显示的结果也表明大多数测试员更喜欢FreeU生成的视频。

21f4ede86d434187bfd1bea9aa2939aa.png

3.3 下游模型实验

在这一部分,作者直接将FreeU嵌入到Dreambooth[3],这是一项发表在CVPR2023上的个性化文本到图像生成模型。如下图展示了使用FreeU的增强效果,其中DreamBooth模型很难根据提示“一张骑摩托车的人偶照片”来合理的生成人偶腿部的外观,而FreeU增强版本可以巧妙地解决这一问题。

82fc4c67166340529c0101f8fe3d1316.png

此外,作者还评估了FreeU对Rerender[4]的影响,这是一种zero-shot文本引导视频转换模型。下图展示了改进效果,例如,当文本提示为“戴着太阳镜的狗”时,Reender会生成一个带有与“太阳镜”相关的视频,但是视频中有一些伪影。加入FreeU后可以有效的消除此类伪影,从而提高最终的生成效果

b037b04fdff54d89b8b1e7ee5e069543.png

04. 总结

本文引入了一种优雅简单但高效的FreeU扩散模型方法,FreeU深入刨析了现有扩散模型内部不同组件之间的交互关系,其主干网络主要用于去噪过程,而跳跃连接主要将高频特征引入解码器。作者使用了一种巧妙的重加权方式来对两个模块进行重新调制,从而在不产生额外计算成本的情况下提升模型性能。FreeU可以无缝集成到各种扩散基础模型及其下游模型中,来显著增强生成图像中的复杂细节同时提高整体的视觉保真度。

参考

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS, 2020.

[2] Zhengxiong Luo, Dayou Chen, Yingya Zhang, Yan Huang, Liang Wang, Yujun Shen, Deli Zhao, Jingren Zhou, and Tieniu Tan. VideoFusion: Decomposed diffusion models for high-quality video generation. In CVPR, 2023.

[3] Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, and Kfir Aberman. Dreambooth: Finetuning text-to-image diffusion models for subject-driven generation. In CVPR, 2023.

[4] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender a video: Zero-shot text-guided video-to-video translation. arXiv preprint arXiv:2306.07954, 2023.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/117677.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL - mvcc

mvcc 是什么? MVCC(多版本并发控制)是一种数据库并发控制机制,旨在提高数据库的并发性,避免锁定操作,从而减少等待和提高性能。MVCC 主要解决数据库读写操作之间的线程安全问题。 MVCC 主要有两种读取数据…

【web前端】web前端设计入门到实战第二弹——面试题总结+答案

这里写目录标题 一、选择题二、填空题 一、选择题 1、表格的主要作用是( B )。 A.网页排版布局 B.显示数据 C.处理图像 D.优化网站 2、如果表格的边框不显示,应设置border的值为( B )。 A.1 B.0 C.2 D.3 3、定义单元格…

RetentionPolicy枚举类

包名package java.lang.annotation 作用 注释保留策略。此枚举类型的常量描述用于保留注释的各种策略。它们被使用与{ Retention}元注释类型一起指定注释要保留多长时间。 属性 SOURCE编译器将丢弃注释。CLASS注释将由编译器记录在类文件…

threejs(3)-详解材质与纹理

一、Matcap(MeshMatcapMaterial)材质原理与应用 Matcap是一张含有光照信息的贴图,通常是直接截取材质球截图来使用。因此Matcap可以很好的模拟静止光源下的光照效果。 最直接的方式就是直接使用在View空间下的模型法向量的xy分量去采样Matcap。 另外还有一种常见…

EPPlus库的安装和使用 C# 中 Excel的导入和导出

安装 工具栏->NuGet 包管理器->管理解决方案的NuGet程序包 安装到当前项目中 使用 将 DataGridView 数据导出为Excel 首先,需要将数据DataGridView对象转换为DataTable private void btnExport_Click(object sender, EventArgs e) {// 1.将当前页面的data…

基于Raft解决“幽灵复现”问题

3.1 关于Raft日志恢复 首先,我们聊一下Raft的日志恢复,在 Raft 中,每次选举出来的Leader一定包含已经Committed的数据(抽屉原理,选举出来的Leader是多数中数据最新的,一定包含已经在多数节点上Commit的数据),新的Leader将会覆盖其他节点上不一致的数据。虽然新选举出来…

json-server工具准备后端接口服务环境

1.安装全局工具json-server(全局工具仅需要安装一次) 官网:json-server - npm 点击Getting started可以查看使用方法 在终端中输入yarn global add json-server或npm i json-server -g 如果输入json-server -v报错 再输入npm install -g j…

Elasticsearch之mapping

文章目录 以显式的方式创建一个映射查看某个具体索引的mapping定义向已存在的映射中添加一个新的属性查看映射中指定字段的定义信息更新已存在映射的某个字段 1、 官方文档地址 2、 字段类型 1、定义:映射是定义文档及其包含的字段如何存储和索引的过程。 2、每个…

电影评分数据分析案例-Spark SQL

# cording:utf8from pyspark.sql import SparkSession from pyspark.sql.types import IntegerType, StringType, StructType import pyspark.sql.functions as Fif __name__ __main__:# 0.构建执行环境入口对象SparkSessionspark SparkSession.builder.\appName(movie_demo)…

typedef __packed struct 中的__packed意义

typedef __packed struct 是C语言中用于定义紧凑结构体的语法。__packed关键字用于告诉编译器不要为结构体成员添加填充字节,从而使得结构体的大小更加紧凑。typedef关键字用于为数据类型定义一个新的名称。 下面是一个使用__packed和typedef的示例代码&#xff1a…

【网络爬虫 | Python】数字货币ok链上bitcoin大额交易实时爬取,存入 mysql 数据库

文章目录 一、网站分析二、js 逆向获取 X-Apikey三、python 调用 js 获取 X-Apikey四、python 爬虫部分五、mysql 数据库、日志、配置文件、目录结构六、结尾 一、网站分析 oklink:https://www.oklink.com/ btc 大额交易:https://www.oklink.com/btc/tx-…

蜂鸟物流开放平台-配送系统

文章目录 引言API 接入指南1.1 Maven 引入 SDK1.2 pom.xml包依赖冲突解决引言 API 接入指南 https://gitee.com/ash_floating_around/anubis-openapi-sdk 上线前将 Config 中 IS_SANDBOX 值设为 false,并填写正式环境的 APP_ID 和 SECRET_KEY。 1.1 Maven 引入 SDK <d…

解决 edge 浏览器开发者工具出不来的问题

文章目录 猜测原因问题现象尝试过程最终解决办法C盘爆满解决经过&#xff08;拆东墙补西墙&#xff09; 猜测原因 windows 系统更新导致电脑管家C盘迁移导致&#xff08;我C盘爆满了&#xff0c;每天提醒看着膈应&#xff0c;想着清理一下&#xff09; 问题现象 按F12 和 右键…

Java零基础入门-算术运算符

本文旨在帮助零基础的读者快速了解Java中的算术运算符&#xff0c;包括基本的加减乘除运算符、取余运算符、自增自减运算符等常见的数学运算符。 在学习本文前&#xff0c;需要先掌握基本的Java语法&#xff0c;包括数据类型、变量、赋值语句等。 前言 在编写Java程序时&…

layui的一些问题

为什么table.render, ins1.config有时候获取的值是上一次的?例如ins1.conf.page.curr? 这是一段table.render代码 let ins1 table.render({...})一般情况下ins1.conf可以获得表格的当前页,页数等;但是有时候获得的页数是上一次的;主要是因为在table.reload后没有继续赋值的…

题目 1009: [编程入门]数字的处理与判断(python详解)——练气二层后期

✨博主&#xff1a;命运之光 &#x1f984;专栏&#xff1a;算法修炼之练气篇&#xff08;C\C版&#xff09; &#x1f353;专栏&#xff1a;算法修炼之筑基篇&#xff08;C\C版&#xff09; &#x1f352;专栏&#xff1a;算法修炼之练气篇&#xff08;Python版&#xff09; ✨…

爬虫知识之BeautifulSoup库安装及简单介绍

一. 前言 在前面的几篇文章中我介绍了如何通过Python分析源代码来爬取博客、维基百科InfoBox和图片,其文章链接如下: 其中核心代码如下: # coding=utf-8 import urllib import re #下载静态HTML网页 url=http://www.csdn.net/ content = urllib.urlopen(url).read…

【2024秋招】小米中间件后端开发一面2023-9-13-base武汉

1 自我介绍 2 快手实习 2.1 讲讲你写的curd启动器&#xff0c;做了哪些工作呢 答&#xff1a; 2.2 网上也有一些开源的curd代码生成器&#xff0c;你为什么需要自研呢&#xff08;重要&#xff09; 答&#xff1a; &#xff08;1&#xff09;这个必须得自研&#xff0c;因…

vue3检测是手机还是pc端,监测视图窗口变化

1.超小屏幕&#xff08;手机&#xff09; 768px以下 2.小屏设备&#xff08;平板&#xff09; 768px-992px 3.中等屏幕&#xff08;旧式电脑&#xff09; 992px-1200px 4.大屏设备&#xff08;现代电脑&#xff09; 1200px以上 <script setup name"welcome"> i…

最新校园说明会日程安排-ABeam(德硕)旗下艾宾信息技术开发(上海) 德硕管理咨询(深圳)

艾宾信息技术开发&#xff08;上海&#xff09; 2024校园招聘 招聘岗位 公司介绍 福利待遇 联系我们 行程一览 华东理工大学校园宣讲会 日期&#xff1a;2023年10月23日&#xff08;周一&#xff09; 时间&#xff1a;14:00-16:00 地点&#xff1a;上海市徐汇区梅陇…