[2021-ICCV] MUSIQ Multi-scale Image Quality Transformer 论文简析

[2021-ICCV] MUSIQ: Multi-scale Image Quality Transformer 论文简析

论文:https://arxiv.org/abs/2108.05997

代码:https://github.com/google-research/google-research/tree/master/musiq

概述

当前SOTA的IQA(图像质量评估)模型都是基于CNN的,基于CNN的模型通常受到在一个批次内,图像尺寸必须固定的限制,所以其输入图像通常会进行缩放或者裁剪,当然这会导致图像质量的下降。为了解决这个问题,本文设计了一个多尺度的图像质量transformer(multi-scale image quality transformer)来处理不同尺寸、不同长宽比的原分辨率图像。通过多尺度的图像表示,本文的模型可以捕捉到不同粒度(granularity)的图像质量。另外,本文提出了一种新型的基于哈希的(hash-based)二维空间嵌入方法和一种尺度嵌入,来作为多尺度表示中的位置嵌入。

在这里插入图片描述

上图中右侧(b)图是传统的CNN模型的做法,必须要缩放或者裁剪来固定输入图像尺寸,而这无疑会影响原图的图像质量;而左侧(a)图则是本文的多尺度图像质量transformer,基于图像块可以以多尺度的形式直接处理原图。

另外,由于MUSIQ只改变输入编码,因此它可以适应任何transformer变体,也就是说,本文提出的创新点是在编码阶段的处理方法,得到输入编码之后可以放到Swin、CvT之类的新型transformer里都是可以的。

本文的创新点总结如下:

  1. 本文提出一种基于图像块的多尺度图像质量transformer(multi-scale image quality transformer MUSIQ),可以处理不同尺寸、不同长宽比的全尺寸输入图像,并且可以提取多尺度的特征。
  2. 本文提出了一种新型的基于哈希的(hash-based)二维空间嵌入方法和一种尺度嵌入,来帮助transformer捕获空间间和尺度间的信息。
  3. 本文提出的MUSIQ在四个大规模IQA数据集上取得SOTA性能。

方法

模型框架

在这里插入图片描述

MUSIQ的整体结构如上图所示,首先得到输入图像的多尺度表示,包括原图和固定长宽比缩放(ARP(aspect ratio preserved) resized)的变体。不同尺度的图像被分成固定大小的图像块,然后被送入到模型中,由于图像块是来自不同的空间分辨率的图像,我们需要高效地将这些多种长宽比、多种尺度的输入编码为一个token序列,捕获像素、空间和尺度信息。

为此,本文设计了三个编码模块:

  1. 图像块编码模块
  2. 基于哈希的空间嵌入模块
  3. 可学习的尺度嵌入

分别对来自多尺度图像的图像块本身、每个图像块的二维空间位置、不同的尺度进行编码。

在将多尺度的图像输入编码为一个token序列之后,我们先准备一个额外的可学习的分类头classification head(CLS)。transformer encoder输出中的CLS token将作为最终的图像表示。然后在最后加一个全连接层来预测图像质量分。由于MUSIQ只改变输入编码,因此它可以适应任何transformer变体,也就是说,本文提出的创新点是在编码阶段的处理方法,得到输入编码之后可以放到Swin、CvT之类的新型transformer里都是可以的。

多尺度图像块嵌入

ARP resize = aspect ratio preserved resize 即固定长宽比缩放,后面不在赘述,直接简称ARP resize。

为了同时捕获局部信息和全局信息(各种多尺度方法的老说辞了^^),本文提出对图像的多尺度表示进行建模。

记全尺寸原图的高、宽、通道数分别为 H,W,CH,W,CH,W,C, 使用高斯核对全尺寸原图进行ARP resize(保持长宽比的缩放)之后的多尺度图像的高、宽、通道数分别为 hk,wk,Ch_k,w_k,Chk,wk,C ,其中 k=1,…,Kk=1,\dots,Kk=1,,KKKK是每个输入的ARP resize变体的个数。为了将多尺度输入对齐,从而有一致的全局视角,将每个多尺度变体的长边固定为 LkL_kLk ,从而:
αk=Lk/max(H,W),hk=αkH,wk=αkW\alpha_k=L_k/max(H,W),\ \ \ h_k=\alpha_kH, \ \ \ w_k=\alpha_kW αk=Lk/max(H,W),   hk=αkH,   wk=αkW
αk\alpha_kαk 即为每个尺度的缩放因子。

从每个多尺度图像中切分出尺寸为 PPP 的正方形图像块。对于高、宽不是 PPP 的整数倍的图像,用零填充(这里笔者有个问题:既然都padding 0了,那不就相当于也将输入的尺寸固定了吗,既然可以padding,那什么网络都能处理原尺寸图像啊,没搞懂这样设计还有什么意义)。每个图像块被图像块编码器模块patch encoder module编码为 DDD 维的嵌入,DDD​ 即为transformer中的隐层token尺寸。本文的patch encoder module使用了5层的ResNet而非线性映射。将patch encoder module输出的图像块嵌入拼接起来就得到输入图像的多尺度映射序列,来自原尺寸图像和ARP resize的多尺度图像的图像块个数就分别为:N=HW/P2N=HW/P^2N=HW/P2nk=hkwk/P2n_k=h_kw_k/P^2nk=hkwk/P2

对于输入图像尺寸不同导致的 N,nkN,n_kN,nk 不同,从而序列长度不同的问题。本文采用了NLP中常用的pad+mask的方式来得到固定长度的输入,从而进行训练。前面提到过ARP resize图像的长边固定在 LkL_kLk​ ,因此有 nk<=Lk2/P2=mkn_k<=L_k^2/P^2=m_knk<=Lk2/P2=mk ,所以直接pad到 mkm_kmk 即可。

基于哈希的二维空间嵌入

传统的固定长度的位置嵌入无法适应可变分辨率的输入,并且也无法对齐来自不同尺度但空间位置接近的图像块。

本文认为一个有效地适合MUSIQ的位置嵌入应当满足以下条件:

  1. 可以在不同长宽比、不同分辨率下有效地为图像块的空间信息进行编码;
  2. 不同尺度下空间位置接近的图像块应当有相近的空间嵌入
  3. 便于实现,不会干扰到transformer attention

据此,本文提出了一种基于哈希的二维空间嵌入(HSE),记某个图像块的位置在第 iii 行,第 jjj 列,被哈希到 G×GG\times GG×G 的网格中的相应的元素。该网格中的每一个元素是一个 DDD 维的嵌入向量。即有一个可学习的矩阵 T∈RG×G×DT\in \mathbb{R}^{G\times G\times D}TRG×G×D ,输入尺寸为 H,WH,WH,W ,对于位置在 (i,j)(i, \ j)(i, j) 的图像块,其空间嵌入被定义为 TTT 中的 (ti,tj)(t_i,t_j)(ti,tj) 位置的元素:
ti=i×GH/P,tj=j×GW/Pt_i=\frac{i\times G}{H/P},\ \ \ t_j=\frac{j\times G}{W/P} ti=H/Pi×G,   tj=W/Pj×G
DDD 维的空间嵌入 Tti,tjT_{t_i,t_j}Tti,tj 逐元素地加到patch embedding上。为了快速查找,将(ti,tj)(t_i,t_j)(titj)四舍五入到最接近的整数。

为了在不同尺度之间对齐图像块,来自不同尺度的图像块都映射到一个同样的表格 TTT。这样,在空间上位置接近但是来自不同的尺度的图像块也会被映射到TTT中接近的嵌入上。因为iiiHHH以及jjjWWW与尺寸调整因子ααα成比例变化。

TTT 的尺寸 GGG 存在一个trade-off,GGG​ 过小会导致过多的哈希碰撞,从而使得模型无法分辨空间位置接近的图像块;过大则会导致浪费内存并且需要更多的分辨率来进行训练。

尺度嵌入

由于本文对所用的图像复用一个相同的哈希矩阵,HSE是无法分别来自不同尺度的图像块的,因此本文引入一个额外的尺度嵌入SCE来帮助模型分辨来自不同尺度的图像块。

本文将SCE定义为一个可学习的嵌入 Q∈R(K+1)×DQ\in \mathbb{R}^{(K+1)\times D}QR(K+1)×D ,因为输入有 KKK 个尺度的变体。Q0∈RDQ_0\in \mathbb{R}^{D}Q0RD 逐元素地加到所有的 DDD 维的原分辨率图像的pathch embedding上,Qk∈RDQ_k\in \mathbb{R}^{D}QkRD 分别逐元素地加到所有 kkk 尺度的patch embedding上。

预训练和微调

本文预训练还是在ImageNet上做的,预训练阶段会使用各种数据增广的方法来提升性能。

微调则是在图像质量和美学质量数据集上进行,在微调阶段,保持原尺寸图像作为输入,数据增广只采用对图像质量无影响的水平翻转。

实验

吊打友商部分的实验就不在这里说了,具体指标大家可以到原文中去看。我们主要看一下和方法本身有关的消融实验和可视化实验。

ARP的重要性

本实验旨在说明固定长宽比缩放(ARP)的重要性,上面几个CNN和ViT的方法是直接介绍384/224的正方形square resize的输入,对于本文多尺度方法分别做了正方形square resize的的多尺度输入,和保持原图长宽比的多尺度输入。实验结果成功证实了保持长宽比在图像质量评估中的重要作用。

在这里插入图片描述

除此之外,作者还用折线图配合一张图像破坏长宽比的形式直观地展现了ARP的作用。图中蓝线,即带ARP的本文方法对图像长宽比的变化非常敏感,可以敏锐地察觉到图像长宽比变化对图像质量的影响。而其他在训练时接收的事固定正方形输入的模型则感知不到这种长宽比的变化带来的影响。

在这里插入图片描述

多尺度结合的全尺寸输入的有效性

本实验展示的是多尺度、全尺寸输入的有效性。实验结果如下表,可以看到多尺度输入性能优于单一尺度输入 ,原尺寸输入(full)性能优于固定尺寸输入,并且多尺度结合训练的性能也比多个尺度分别训练再结合

在这里插入图片描述

下面的注意力可视化实验也说明了多尺度学习的作用(注意一下三列分辨率是不同的,这里为了展示缩放到同样大小来适应表格)。可以看到在高分辨率的图像中,模型更加关注细节信息;而在低分辨率的图像中,模型更加关注全局信息。

在这里插入图片描述

下面是基于哈希的二维空间嵌入的每个网格位置 (i,j)(i,j)(i,j) 与其他位置处嵌入的余弦相似度。空间位置嵌入是为了反应二维图像的空间信息,通俗点说就是行列信息,即某个图像块在二维图像的哪一行,哪一列。可以看到除了和自己的相似度最高之外,和同行同列的空间嵌入的相似度也较高。这时符合我们的预期的,说明二维空间嵌入可以准确地表征图像块的行列信息。

在这里插入图片描述

基于哈希的空间嵌入和尺度嵌入的有效性

正文最后一个消融实验对比了有无本文的基于哈希的空间嵌入和有无尺度嵌入的情况下的模型的性能表现。可以看到,这两个嵌入是必需的。

在这里插入图片描述

在这里插入图片描述

还有一个实验对比了不同的图像块编码模块,还是本文的方法较优。

在这里插入图片描述

本文的概述、方法和实验就简单地介绍到这里,已经囊括方法思路和大部分细节及正文实验,此外还有一些附录实验,有兴趣的话请移步到原文中查看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安装oracle不动了,windows2008安装ORACLE到2%不动的问题 | 信春哥,系统稳,闭眼上线不回滚!...

最近又有网友遇到在windows2008服务器上安装ORACLE软件时到2%就卡住不动的问题&#xff0c;下面是该网友的描述&#xff1a;oralce 11g r2 windows server 2008 R2安装到最后一步复制数据文件时卡到2% 不走了内存一直飙升求解决这个问题前段时间也有人遇到过&#xff0c;但是他…

手把手教你入门Git --- Git使用指南(Linux)

手把手教你入门Git — Git使用指南&#xff08;Linux&#xff09; 系统&#xff1a;ubuntu 18.04 LTS 本文所有git命令操作实验具有连续性&#xff0c;git小白完全可以从头到尾跟着本文所有给出的命令走一遍&#xff0c;就会对git有一个初步的了解&#xff0c;应当能做到会用并…

linux修改主机名后oracle em控制台起不来,更改计算机名后导致Oracle dbconsole无法启动问题解决方法...

今天不知道哪根筋搭歪了&#xff0c;看着Oracle EM控制台的主机名WIN-LOSGI0TCOG0乱七八糟的很不爽&#xff0c;就把它给改了。然后Oracle EM就上不去了&#xff0c;Oracledbconsole服务起不来&#xff0c;我尝试把所有“WIN-LOSGI0TCOG0”替换成“ggsjy”&#xff0c;找了好多…

Shell脚本多行换行报错:- unrecognized arguments- \

shell error: unrecognized arguments: \ 在使用linux长命令时&#xff0c;我们通常会用一个shell脚本加\分行的形式来更清晰展示参数。 这时有一个注意事项&#xff1a;在\后必须紧跟回车&#xff0c; 否则会导致后面的参数无法传入。因为这时程序会将后面的参数算作一条新命…

shell脚本长命令带换行 注释方法

shell脚本长命令带换行 注释方法 命令行传参 在训练深度学习网络时&#xff0c;我们每次实验通常会有许多超参数需要设置&#xff0c;如batch size, epoch, gpu id, arch甚至还有一些具体的模型结构等。这事我们通常使用python模块argparse&#xff0c;在命令行进行传参。 比…

php对中英文字符串进行截取,利用php怎么对中英文混合的字符串进行截取

利用php怎么对中英文混合的字符串进行截取发布时间&#xff1a;2021-01-04 15:31:24来源&#xff1a;亿速云阅读&#xff1a;103作者&#xff1a;Leah利用php怎么对中英文混合的字符串进行截取&#xff1f;很多新手对此不是很清楚&#xff0c;为了帮助大家解决这个难题&#xf…

Linux查找命令find、loacte、whereis、which、type梳理

Linux查找命令find、loacte、whereis、which、type梳理 Linux操作系统中有5种常用的查找命令&#xff1a;find&#xff0c;locate&#xff0c;whereis&#xff0c;which&#xff0c;type&#xff0c;他们分别用于查找不同的东西&#xff0c;本文将就他们各自的功能进行一下梳理…

php数据关系图,如何利用navicat查看数据表的ER关系图

文章背景&#xff1a;(相关推荐&#xff1a;navicat)由于工作需要&#xff0c;现在要分析一个数据库&#xff0c;然后查看各个表之间的关系&#xff0c;所以需要查看表与表之间的关系图&#xff0c;专业术语叫做ER关系图。默认情况下&#xff0c;Navicat显示的界面是这样的&…

Linux软链接的使用

Linux软链接的使用 转自&#xff1a;https://www.cnblogs.com/sueyyyy/p/10985443.html&#xff0c;本博文仅对原博排版稍微优化。 更为细致的硬链接、软链接的介绍可参考&#xff1a;Linux中的硬链接和软链接 另外&#xff0c;提供笔者对软连接的一个最简单的理解&#xff…

oracle死锁优化,Oracle性能优化之LockContention(转)

1、概念DML事务使用row-level locks,查询不会锁定数据。锁有两种模式&#xff1a;exlusive、share。锁的类型&#xff1a;• DML or data locks:– Table-level locks(TM)– Row-level locks(TX)• DDL or dictionary locks一个transaction至少获得两个锁&#xff1a;一个共享的…

Linux中g++与gcc的区别

转自&#xff1a;https://blog.csdn.net/bit_clearoff/article/details/53965514 Windows中我们常用vs来编译编写好的C和C代码&#xff1b;vs把编辑器&#xff0c;编译器和调试器等工具都集成在这一款工具中&#xff0c;在Linux下我们能用什么工具来编译所编写好的代码呢&#…

linux系统可以用迅雷吗,在Linux系统下使用wine运行迅雷5的方法

在Linux系统下使用wine运行迅雷5的方法一、下载ies4linux去 http://www.tatanka.com.br/ies4linux/page/Installation 下载ies4linux的文件包(目前版本为2.99)&#xff0c;然后解压缩。注意&#xff1a;这个网站被大陆和谐了&#xff0c;需要跳墙。至于怎么跳&#xff0c;诸位就…

从C源代码到可执行文件的四个过程:预处理、编译、汇编、链接

从C源代码到可执行文件的四个过程&#xff1a;预处理、编译、汇编、链接 总览 我们将在Linux操作系统中&#xff0c;以C语言的Hello World程序为例&#xff0c;用gcc编译器分步执行这四个步骤。 我们有再熟悉不过的HelloWorld程序&#xff0c;hello.c&#xff1a; #include …

uboot引导linux内核,u-boot启动内核的几种方式

1.uboot启动内核的代码缩减如下&#xff1a;s getenv ("bootcmd");debug ("### main_loop: bootcmd\"%s\"\n", s ? s : "");if (bootdelay > 0 && s && !abortboot (bootdelay)){run_command (s, 0);}2.假设boot…

跟我一起写makefile: 概述、介绍、规则

跟我一起写makefile 概述、介绍、规则 转自&#xff1a;https://seisman.github.io/how-to-write-makefile/rules.html 概述 什么是makefile&#xff1f;或许很多Windows的程序员都不知道这个东西&#xff0c;因为那些Windows的集成开发环境&#xff08;integrated developm…

linux内核中cent文件夹,Centos 中如何快速定制二进制的内核 RPM 包

1、rpm 制作前的环境准备&#xff1a;yum install -y ncurses-devel qt-devel rpm-build redhat-rpm-config asciidoc hmaccalc perl-ExtUtils-Embed xmlto audit-libs-devel binutils-devel elfutils-devel elfutils-libelf-devel newt-devel python-devel zlib-devel bc2、准…

TabError- inconsistent use of tabs and spaces in indentation 查验及解决方法

TabError: inconsistent use of tabs and spaces in indentation 查验及解决方法 报错代码 def eccv16(pretrainedTrue):model ECCVGenerator()if(pretrained):import torch.utils.model_zoo as model_zoomodel.load_state_dict(torch.load(/home/ps/.cache/torch/hub/check…

linux用xshell编辑文件,Linux远程管理器xshell和xftp使用教程

Xshell 是一个强大的安全终端模拟软件&#xff0c;它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。Xftp 是一个基于 MS windows 平台的功能强大的SFTP、FTP 文件传输软件。安装完毕后打开xshell设置网站帐号信息设置主机信息设置服务器帐号设置字符集编码设置好了…

strict=False 但还是size mismatch for []: copying a param with shape [] from checkpoint,the shape in cur

strictFalse 但还是size mismatch for []: copying a param with shape [] from checkpoint,the shape in cur 问题 我们知道通过 model.load_state_dict(state_dict, strictFalse)可以暂且忽略掉模型和参数文件中不匹配的参数&#xff0c;先将正常匹配的参数从文件中载入模…

linux中权限765啥意思,Linux中的文件权限

Linux系统中的每一个文件都与多种权限类型相关联。在这些权限中&#xff0c;我们主要和三类权限打交道&#xff1a;用户(user)、用户组(group)和其他用户(others)。用户是文件的所有者&#xff1b;用户组是指和文件所有者在同一组的其他多个用户的集合&#xff1b;其他用户是除…