论文阅读——MIRNet

项目地址:

GitHub - swz30/MIRNet: [ECCV 2020] Learning Enriched Features for Real Image Restoration and Enhancement. SOTA results for image denoising, super-resolution, and image enhancement.GitHub - soumik12345/MIRNet: Tensorflow implementation of MIRNet for Low-light image enhancement

论文地址:https://arxiv.org/pdf/2003.06792

应用:defocus deblurring, image denoising, super-resolution, and image enhancement.

期刊:ECCV 2020/TPAMI 2022


概述

背景如下:

1. 图像复原领域被CNN统治

2.CNN使用全分辨率,或者是渐进的低分辨率full-resolution or on progressively low-resolutionrepresentations。前者是单一尺度的,而后者一般是编码器-解码器结构。

3.空域信息spatial details和上下文语义信息不可兼得

从四个方面解决:

1.多尺度特征提取,但是是并行进行的。

2.多尺度间的信息交换

3.非局部attention

4.基于attention的多尺度信息集成

(a) parallel multi-resolution convolution streams for extracting multi-scale features,

(b) information exchangeacross the multi-resolution streams,

(c) non-local attention mechanism for capturing contextual information,

(d) attention basedmulti-scale feature aggregation. 

Multi-Scale Residual Block(MRB)

图像复原任务是与位置信息高度相关的,需要分辨哪些是退化后的内容,哪些是真正的纹理线条。这就需要更大的感受野,或者在更小分辨率上提取特征。所以多尺度仍然是必需的。

但不同于之前encoder-decoder,MIRnet的结构是由MRB模块堆叠得到的。始终有一路高分辨率的stream。

MRB在v1和v2上略有区别:

以v1为例,观察MRB有如下特点:

首先是三条并行的特征提取stream,不同stream负责同一图像的不同分辨率;

每条stream都经历了DAU->SKFF->DAU;

每条stream在DAU之后都被上采样后者下采样,然后经SKFF进行融合;

x1 stream是主干,最后其他stream都被汇集到x1中。

Residual Contextual Block(RCB)

框架中的绿色部分。在MIRnet-v2中使用RCB代替了dual attention unit (DAU).

RCB整体是一个残差结构:

F_b是原始特征图,相比于标准卷积,使用了更为高效的group convolution,这样每个filter可以得到更加独特的特征。

CM表示Context module,包括三部分。第一部分Modeling把HxWxC的特征图转换为1x1xC。Transform则是两次1x1卷积,增强通道之间的通信。Fusion则是对每个通道加一个不一样的常数。最后,CM之后的F_b再和F_a进行求和。

selective kernel feature fusion (SKFF)

对应前面MRB图中紫色的部分。它接在绿色的RCB部分后面,是对已经提取到的多尺度特征进行信息交换和融合。

实际上是受到了南京科技大学Selective Kernel Networks的启发。先看SKnet的结构:

在SKNet中包含三个操作:Split, Fuse and Select。split阶段提供了两种卷积核的特征图;fuse把两种特征图对应像素相加,然后求全局池化,每个通道得到一个数值,再经过全连接,得到更短的一个数组。但为了得到原始长度为c的权重,需要再次通道升维,升维也使用两种卷积核,这样再次变为两个分支,然后两个分支在每个通道对应位置求softmax,得到权重,对最开始的两种特征图做加权求和。

而对于MIRnet的两个stream,已经是两种scale的特征图了,所以可以省略掉split:

SKFF相比于cancate省却了5x的参数量,但是可以得到更好的特征表达。

Progressive Training Regime

patch更大时,CNN可以捕获得到更好的特征,但是训练速度也会更慢。所以可以在训练前期使用较小的patch,在后期逐步加大。具体是从128大小的patch开始,一直加大到144, 192, and 224.


reference:

MIRNet重磅升级!MIRNetV2 更快、更强、更轻量-腾讯云开发者社区-腾讯云

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/850904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据库(29)——子查询

概念 SQL语句中嵌套SELECT语句,称为嵌套查询,又称子查询。 SELECT * FROM t1 WHERE column1 (SELECT column1 FROM t2); 子查询外部语句可以是INSERT/UPDATE/DELETE/SELECT的任何一个。 标量子查询 子查询返回的结果是单个值(数字&#xff…

电子设计入门教程硬件篇之集成电路IC(二)

前言:本文为手把手教学的电子设计入门教程硬件类的博客,该博客侧重针对电子设计中的硬件电路进行介绍。本篇博客将根据电子设计实战中的情况去详细讲解集成电路IC,这些集成电路IC包括:逻辑门芯片、运算放大器与电子零件。电子设计…

31、matlab卷积运算:卷积运算、二维卷积、N维卷积

1、conv 卷积和多项式乘法 语法 语法1:w conv(u,v) 返回向量 u 和 v 的卷积。 语法2:w conv(u,v,shape) 返回如 shape 指定的卷积的分段。 参数 u,v — 输入向量 shape — 卷积的分段 full (默认) | same | valid full:全卷积 ‘same…

UnityXR Interaction Toolkit 如何使用XRHand手部识别

前言 Unity的XR Interaction Toolkit是一个强大的框架,允许开发者快速构建沉浸式的VR和AR体验。随着虚拟现实技术的发展,手部追踪成为了提升用户交互体验的关键技术之一。 本文将介绍如何在Unity中使用XR Interaction Toolkit实现手部识别功能。 准备工作 在开始之前,请…

统信UOS1070上配置文件管理器默认属性01

原文链接:统信UOS 1070上配置文件管理器默认属性01 Hello,大家好啊!今天给大家带来一篇关于在统信UOS 1070上配置文件管理器默认属性的文章。文件管理器是我们日常操作系统使用中非常重要的工具,了解如何配置其默认属性可以极大地…

apache poi 插入“下一页分节符”并设置下一节纸张横向的一种方法

一、需求描述 我们知道,有时在word中需要同时存在不同的节,部分页面需要竖向、部分页面需要横向。本文就是用java调用apache poi来实现用代码生成上述效果。下图是本文实现的效果,供各位看官查阅,本文以一篇课文为例,…

Linux系统推出VB6开发IDE了?Gambas,Linux脚本编写

第一个Linux程序,加法计算加弹窗对话框,Gambas,linux版的类似VB6的IDE开发环境 一开始想用VB6的Clng函数转成整数,没这函数。 输入3个字母才有智能提示,这点没做好 没有msgbox函数,要用messagebox.warning 如果可以添加函数别名就…

[书生·浦语大模型实战营]——第六节 Lagent AgentLego 智能体应用搭建

1. 概述和前期准备 1.1 Lagent是什么 Lagent 是一个轻量级开源智能体框架,旨在让用户可以高效地构建基于大语言模型的智能体。同时它也提供了一些典型工具以增强大语言模型的能力。 Lagent 目前已经支持了包括 AutoGPT、ReAct 等在内的多个经典智能体范式&#x…

通过双模式对抗提示越狱视觉语言模型

最近,将视觉整合到大型语言模型(LLMs)中的兴趣显著增加,催生了大型视觉语言模型(LVLMs)。这些模型结合了视觉和文本信息,如LLaVA和Gemini,已经在包括图像字幕、视觉问题回答和图像检…

论文阅读:All-In-One Image Restoration for Unknown Corruption

发表时间:2022 cvpr 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Li_All-in-One_Image_Restoration_for_Unknown_Corruption_CVPR_2022_paper.pdf 项目地址:https://github.com/XLearning-SCU/2022-CVPR-AirNet 代码解读…

c++中, 直接写浮点数, 是float 还是 double?

如果直接一个浮点数, 那么他默认是float还是double呢? 测试用例 #include <iostream> using namespace std;int main() {auto x 0.2;float f 0.2;double d 0.2;cout << "x Size : " << sizeof(x) << " bytes" << endl…

vue28:组件化开发和根组件

简单写个点击事件 <template> <div class"app"><div class"box" click"fn"></div></div> </template><script> export default {//导出当前组件的配置项//里面可以提供 data methods computed wat…

AtCoder Beginner Contest 356 G. Freestyle(凸包+二分)

题目 思路来源 quality代码 题解 对n个泳姿点(ai,bi)建凸包&#xff0c;实际上是一个上凸壳&#xff0c; 对于询问(ci,di)来说&#xff0c;抽象画一下这个图&#xff0c;箭头方向表示询问向量 按x轴排增序&#xff0c;并且使得后面的y不小于前面的y&#xff0c;因为总可以多…

C++ Easyx案例实战:Cookie Maker工作室1.0V

前言 //制作属于自己的工作室&#xff01; 注&#xff1a;运行效果以及下载见Cookie Maker 工作室成立程序。 关于Cookie Maker工作室成立的信息&#xff0c;I am very happy&#xff08;唔……改不过来了&#xff09;。 OKOK&#xff0c;第一次用图形库写程序&#xff08;图形…

在开源处理器架构RISC-V中发现可远程利用的中危漏洞

在RISC-V SonicBOOM处理器设计中发现中度危险的漏洞 最近&#xff0c;西北工业大学的网络空间安全学院胡伟教授团队在RISC-V SonicBOOM处理器设计中发现了一个中度危险的漏洞。这个团队的研究人员发现了一个可远程利用的漏洞&#xff0c;该漏洞存在于开源处理器架构RISC-V中。…

单灯双控开关原理

什么是单灯双控&#xff1f;顾名思义&#xff0c;指的是一个灯具可以通过两个不同的开关或控制器进行控制。 例如客厅的主灯可能会设置成单灯双控&#xff0c;一个开关位于门口&#xff0c;另一个位于房间内的另一侧&#xff0c;这样无论你是从门口进入还是从房间内出来&#x…

java web:springboot mysql开发的一套家政预约上门服务系统源码:家政上门服务系统的运行流程

java web&#xff1a;springboot mysql开发的一套家政预约上门服务系统源码&#xff1a;家政上门服务系统的运行流程 家政上门服务系统的优势 服务质量更稳定&#xff1a;由专业的家政人员提供服务&#xff0c;经过严格的培训和筛选。 价格更透明&#xff1a;采用套餐式收费&…

Word多级标题编号不连续、一级标题用大写数字二级以下用阿拉伯数字

Word多级标题编号不连续 &#xff1a; 一级标题用大写数字二级以下用阿拉伯数字&#xff1a;

墨雨云间王星越雨中情深

墨雨云间&#xff1a;王星越的雨中情深&#xff0c;吻上萧蘅&#xff0c;宿命之恋在烟雨朦胧的《墨雨云间》中&#xff0c;王星越饰演的角色&#xff0c;以其深邃的眼神和细腻的演技&#xff0c;将一段宿命之恋演绎得淋漓尽致。当镜头聚焦于他与阿狸在雨中的那一幕&#xff0c;…

(南京观海微电子)——温度对TFT影响及改善方式

温度如何损坏 LCD&#xff1f; 这个工作温度范围会影响设备内的电子部分&#xff0c;超出范围会导致 LCD 技术在高温下过热或在寒冷时变慢。 至于液晶层&#xff0c;如果放在高温下&#xff0c;它会变质&#xff0c;导致它和显示器本身出现缺陷。 LCD 温度限制&#xff1a; 什…