浅析扩散模型与图像生成【应用篇】(四)——Palette

4. Palette: Image-to-Image Diffusion Models

  该文提出一种基于扩散模型的通用图像转换(Image-to-Image Translation)模型——Palette,可用于图像着色,图像修复,图像补全和JPEG图像恢复等多种转换任务。Palette是一种条件扩散模型,目的是根据输入的条件 x x x来构建分布 p ( y ∣ x ) p(y|x) p(yx),其中 x x x y y y都是图像的形式。作者采用了256*256的条件UNet架构作为网络模型,并通过图像级联的方式引入条件图像。目标损失函数如下 E ( x , y ) E ϵ ∼ N ( 0 , I ) E γ ∥ f θ ( x , γ y + 1 − γ ϵ ⏟ y ~ , γ ) − ϵ ∥ p p \mathbb{E}_{(\boldsymbol{x}, \boldsymbol{y})} \mathbb{E}_{\boldsymbol{\epsilon} \sim \mathcal{N}(0, I)} \mathbb{E}_{\gamma}\|f_{\theta}(\boldsymbol{x}, \underbrace{\sqrt{\gamma} \boldsymbol{y}+\sqrt{1-\gamma} \boldsymbol{\epsilon}}_{\tilde{\boldsymbol{y}}}, \gamma)-\boldsymbol{\epsilon}\|_{p}^{p} E(x,y)EϵN(0,I)Eγfθ(x,y~ γ y+1γ ϵ,γ)ϵpp其中 γ \gamma γ表示噪声的强度。在DDPM中 p = 2 p=2 p=2,即采用L2损失函数;而在其他的一些工作中,也有选择L1损失函数的。作者发现使用L2损失能够提高生成样本的多样性,而使用L1损失则会生成更加保守可信的结果。
  为了评估图像转换算法的性能,作者还给出了一个综合的评价指标,包含Inception Score (IS);Fréchet Inception Distance (FID); Classification Accuracy (CA),用预训练的ResNet-50分类器的Top-1分类准确率; Perceptual Distance (PD), 在Inception-V1特征空间中的欧氏距离。此外还引入了人类评估方式,即让人判断两张图片哪个是自然图片,哪个是生成图片,人类将生成图片误判为自然图片的比例,称为Fool Rate。
  作者在四个图像转换任务中对Palette的性能进行了测试,包括:

  • 图像着色:将灰度图像转换为彩色图像
  • 图像修复:将图像中被任意掩码的部分用真实的内容填充起来
  • 图像补全:把输入图像沿一个或多个方向进行扩展使其变得更大
  • JPEG图像恢复:将压缩过得JPEG图像恢复其图像细节

实验结果表明,在无需对任务进行单独调参和单独设计得条件下,Palette在多个任务中均取得了非常有竞争力的结果,甚至超过了许多针对任务开发的专用算法(包括基于GAN和自回归模型的)。
在这里插入图片描述
  接着作者研究了自注意力机制对扩散模型的影响,作者发现全局自注意力机制要优于局部自注意力机制,甚至不适用自注意力机制,通过增加更多的残差块或者使用空洞卷积来增大感受野,其性能都超过使用局部自注意力。最后,作者研究了多任务训练的影响,即使用多个任务的数据集同时对Palette进行训练。在大部分任务中(图像修复和图像着色)多任务训练的效果是不如针对任务单独训练的Palette方法的,而在JPEG图像恢复任务中,多任务训练的Palette甚至取得了更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/710184.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将编译好的FFmpeg导入iOS项目使用(swift)

1. 将ffmpeg 拖入工程并添加search Paths路径 2.添加所需的framework和lib AudioToolbox.framework,CoreMedia.framework,libbz2,libbz,libiconv,VideoToolbox.framework 3.使用 在桥接header中引入头文件

MySql出现无法正常启动(0x000007b)的快速解决

目录 1.背景介绍 2.解决方案 1.背景介绍 昨天在清理电脑内存空间的时候,不小心将一些重要的系统组件删除,导致无法正常启动mysql,一开始是提示经过msvcp120.dll,于是找到下载dll的网站将组件补充进system,但随后又提…

nodejs配置环境变量后不生效(‘node‘ 不是内部或外部命令,也不是可运行的程序或批处理文件)

一、在我们安装Node.js后,有时候会遇到node命令不管用的情况,关键是在安装时候已经添加配置了环境变量,向下面这样 但是还是不管用,这是因为环境变量配置不正确,权重不够,或者是命令冲突导致,解…

leetcode:135.分发糖果

解题思路:分发糖果时,既要考虑左面,又要考虑右面,如果同时考虑,就会顾此失彼,所以我们可以先考虑右边,再考虑左边,分别正序、逆序进行遍历。逆序遍历时相当于重置candy数组。 运用贪…

FreeRTOS 其它知识点

目录 一、低功耗Tickless模式 1、低功耗Tickless模式的引入 2、Tickless 具体实现 二、空闲任务 1、空闲任务相关知识点 2、钩子函数 3、空闲任务钩子函数 三、使用RTOS的好处 一、低功耗Tickless模式 1、低功耗Tickless模式的引入 FreeRTOS 的系统时钟是由滴答定时器中…

机器人内部传感器阅读梳理及心得-速度传感器-数字式速度传感器

在机器人控制系统中,增量式编码器既可以作为位置传感器测量关节相对位置,又可作为速度传感器测量关节速度。当作为速度传感器时,既可以在模拟量方式下使用,又可以在数字量方式下使用。 模拟式方法 在这种方式下,需要…

5 分钟配置好 Electron 应用的图标

最近在开发博客本地客户端 HexoPress,应用做好后,需要打包,如果不希望打包出来 App 的图标用的是 Electron 默认的星球环绕的图标,那么需要自己制作图标。 制作图标 首先,你需要给各种操作系统制作一个满足要求的图标…

会声会影2024出来了吗?

近年来,随着人们对于娱乐和创意的需求不断增长,视频编辑软件也越来越受到大众的关注。其中,会声会影是一款备受欢迎的视频编辑软件,许多用户都在关注其新版本——会声会影2024。 然而,目前并没有官方宣布会声会影2024的…

虚拟机 VMware 安装 WindowsXP 系统(基于 iso 光盘镜像)

下载好对应的 iso 文件 依次点击文件 -> 新建虚拟机 选择自定义,然后下一步 默认 浏览选中我们刚才下载好的xp系统光盘镜像 iso 文件 下一步 不用输密钥,直接下一步 浏览选择存放虚拟机的位置 下一步 没必要多分处理器内核给它,默认一…

每日五道java面试题之spring篇(十)

目录: 第一题 Spring在运行时通知对象第二题 在Spring AOP 中,关注点和横切关注的区别是什么?在spring aop 中 concern 和 cross-cutting concern 的不同之处?第三题 Spring通知有哪些类型?第四题 什么是切面 Aspect&a…

一个Bug搞懂浏览器缓存策略

最近项目遇到一个问题,发版之后,用户需要清除缓存才可以访问到最新的应用,但是我们访问却可以正常。经过1天的研究搞懂了浏览器缓存的机制,记录下分析轨迹。 浏览器缓存基础知识 浏览器强缓存和协议缓存都是用来提高网页加载速度…

Linux:Makefile的相关知识

背景: 一个工程中的源文件不计数,其按类型、功能、模块分别放在若干个目录中,makefile定义了一系列的 规则来指定,哪些文件需要先编译,哪些文件需要后编译,哪些文件需要重新编译,甚至于进行更复…

【leetcode】破解闯关密码 模板字符串

/*** param {number[]} password* return {string}*/ var crackPassword function(password) {return minNumspassword.sort((a,b)>{if(${a}${b}-${b}${a}>0){return 1;}else{return -1;}}).join(""); };巧用模板字符串对数组进行排序

Restful风格解释

示例对比 传统风格开发 Restful风格开发 结论: 传统风格开发中,前端不同操作使用不同的url来访问后端,使得访问变得麻烦restful风格中,前端使用相同的url来访问后端,但是用数据传送方式进行区分(get为请求…

STM32标准库——(13)USART串口数据包

1.HEX数据包 2.文本数据包 3.HEX数据包接收 对于固定包长的HEX数据包,我们可以定义三个状态:等待包头、接收数据、等待包尾,每个状态。都可以用一个变量来标志,例如变量S来表示。这三个状志可以依次定义为S0、S1、S2。类似于置标志位&#xf…

Android Studio level过滤查看各个等级的日志

Android Studio level过滤查看各个等级的日志 旧版as可以在下方的日志输出框选择debug、info,warn、error日志,新版的需要通过在过滤框手动/联想输入 level:xxx,过滤相应等级的日志,如图: android studio/idea返回/前进…

javaee教程郑阿奇课后答案,三年经验月薪50k我是怎么做到的

个人背景 如标题所示,我的个人背景非常简单,Java开发经验1年半,学历普通,2本本科毕业,毕业后出来就一直在Crud,在公司每天重复的工作对我的技术提升并没有什么帮助,但小镇出来的我也深知自我努…

网络工程师笔记3

IP地址类型 A类 255.0.0.0B类 255.255.0.0C类 255.255.255.0D类 E类 子网掩码:从左到右连续的确定网络位 2-4-8-16-32-64-128-256 128 : 1000 0000 64 : 0100 0000 32 : 0010 0000 16 : 0001 0000 8 &am…

Linux和Windows集群中部署HTCondor

目录 1、集群架构 2、HTCondor版本 3、Linux系统安装 3.1、HTCondor安装 3.2、中央管理节点配置 3.3、其他节点配置 4、Windwos系统安装 5、安全配置 6、参考 1、集群架构 操作系统IP地址1*Ubuntu22.04192.168.1.742Ubuntu22.04192.168.1.603Ubuntu22.04192.168.1.6…

Squid代理服务器配置

需求是:通过外网机(跳板机)访问内网机,并为内网机提供访问网络的能力。 【跳板机T】【内网机N】 公网IP:39.107.xx.xxx 跳板机IP:172.17.216.234 内网机IP:172.17.216.241 Squid代理服务器地址…