深度学习中的Pixel Shuffle和Pixel Unshuffle:图像超分辨率的秘密武器

在深度学习的计算机视觉任务中,提升图像分辨率和压缩特征图是重要需求。Pixel Shuffle和Pixel Unshuffle是在超分辨率、图像生成等任务中常用的操作,能够通过转换空间维度和通道维度来优化图像特征表示。本篇文章将深入介绍这两种操作的原理,并结合PyTorch实现可视化展示,希望能帮助大家更好地理解他们的用途与效果。

为什么需要Pixel Shuffle和Pixel Unshuffle

Pixel Shuffle是一种从特征图中提取空间信息的方法,主要应用于图像超分辨率等任务。超分辨率(Super-Resolution,SR)指的是通过机器学习算法生成比输入分辨率更好的图像。Pixel Shuffle操作可以帮助模型通过减少通道数、扩大空间分辨率来重建出更精细的图像。这不仅有效提升了模型的效果,还在一定程度上降低了计算成本。

相对应地,Pixel Unshuffle是Pixel Shuffle的逆操作,将空间维度重新映射回通道维度,这在特征压缩和编码解码任务中非常有用。

Pixel Shuffle和Pixel Unshuffle的原理解释及代码示例

Pixel Shuffle的工作原理

Pixel Shuffle是一种将通道维度转换为空间维度的操作,用于将特征图从较低的空间分辨率上采样到较高的分辨率。它的基本工作过程如下:

假设输入特征图的维度是 C × H × W C×H×W C×H×W,我们希望将其上采样到更高的空间分辨率 r H × r W rH×rW rH×rW,其中 r r r是放大倍率。Pixel Shuffle的操作步骤如下:

  1. 分解通道数:将特征图通道 C C C分解为 C ′ = C r 2 C'=\frac{C}{r^2} C=r2C,其中 C ′ C' C是新的通道数。
  2. 增加空间维度:将输入特征图的维度从 C × H × W C×H×W C×H×W变为 C ′ × r × r × H × W C'×r×r×H×W C×r×r×H×W,其中 r × r r×r r×r是每个通道中的小块大小。
  3. 重排特征图:将 r × r r×r r×r的小块移动到空间维度上,形成一个大小为 C ′ × r H × r W C'×rH×rW C×rH×rW的特征图。

通过上述过程,Pixel Shuffle可以将特征图的空间分辨率从 H × W H×W H×W放大到 r H × r W rH×rW rH×rW,同时减少通道数。

示例

假设输入特征图的维度是 4 × 2 × 2 4×2×2 4×2×2,我们希望放大2倍,即将分辨率换成 4 × 4 4×4 4×4。Pixel Shuffle操作过程如下:

  • 原始特征图 4 × 2 × 2 4×2×2 4×2×2
  • 分解通道数 4 4 4通道分解为 1 1 1通道的小块,即 1 × 2 × 2 × 2 × 2 1×2×2×2×2 1×2×2×2×2
  • 重排特征图:重排为 1 × 4 × 4 1×4×4 1×4×4的特征图。

这个过程相当于将每个通道中的像素块分配到更大的空间位置,从而实现高效的上采样操作。

代码示例

在PyTorch中,我们可以使用torch.nn.PixelShuffle来实现。以下是一个代码示例,展示如何在PyTorch中应用Pixel Shuffle。

import torch
import torch.nn as nn# 创建一个示例张量
x = torch.randn(1, 4, 2, 2)  # 输入形状 (batch, channels, height, width)# Pixel Shuffle 操作,使用上采样因子 2
pixel_shuffle = nn.PixelShuffle(2)
y = pixel_shuffle(x)print(f"输入形状: {x.shape}, 输出形状: {y.shape}")
# 输入形状: torch.Size([1, 4, 2, 2]), 输出形状: torch.Size([1, 1, 4, 4]) 

在这段代码,我们创建了一个形状为(1,4,2,2)的示例张量,将其通过Pixel Shuffle转换成形状为(1,1,4,4)的张量。这里的(2)是上采样因子,代表输出空间维度扩大2倍,而通道数被缩小为 2 2 2^2 22倍,即将4个通道转换为更大的空间维度,使得高分辨率图像生成称为可能。通过这种方式,网络可以利用更多的控价信息,生成更高质量的图像。

Pixel Unshuffle的工作原理

Pixel Unshuffle 是 Pixel Shuffle 的逆操作,用于将特征图从较高的空间分辨率下采样到较低的分辨率,将空间维度的高频信息重新映射回通道中。这种操作在编码解码模型(将高分辨率图像重新映射回多通道低分辨率特征图)、图像压缩等任务中非常实用。

假设输入特征图的维度是 C ′ × r H × r W C'×rH×rW C×rH×rW,我们希望将其下采样至 C × H × W C×H×W C×H×W的特征图。Pixel Unshuffle 的具体操作步骤如下:

  1. 分解空间维度:将输入特征图的空间维度 r H × r W rH×rW rH×rW 分解为 H × W H×W H×W 和每个位置的小块大小 r × r r×r r×r
  2. 增加通道数:将特征图的维度从 C ′ × r H × r W C'×rH×rW C×rH×rW 变为 C × H × W C×H×W C×H×W,其中 C = C ′ × r 2 C=C'×r^2 C=C×r2,即原始通道数。
  3. 重排通道:将空间维度的 r × r r×r r×r 小块重新映射到通道维度中,从而实现特征的压缩。

通过上述步骤,Pixel Unshuffle 将空间信息压缩回通道中,实现了图像特征的有效下采样。

示例

假设输入特征图的维度是 1 × 4 × 4 1×4×4 1×4×4,希望将其下采样到 4 4 4 通道,尺寸为 2 × 2 2×2 2×2。Pixel Unshuffle 的操作过程如下:

  • 原始特征图 1 × 4 × 4 1×4×4 1×4×4
  • 分解空间维度:将空间维度 4 × 4 4×4 4×4 分解为 2 × 2 2×2 2×2 2 × 2 2×2 2×2的小块
  • 增加通道数:将特征图的维度变为 4 × 2 × 2 4×2×2 4×2×2

这个过程相当于将空间中的信息“压缩”到通道中,从而获得较低分辨率但信息密集的特征图。

代码示例

以下代码展示了如何用Pixel Unshuffle恢复特征图

import torch
import torch.nn.functional as F# 假设 y (1,1,4,4)是 Pixel Shuffle 的输出
x_reconstructed = F.pixel_unshuffle(y, 2)
print(f"重新构建后的形状: {x_reconstructed.shape}")
# 重新构建后的形状: torch.Size([1, 4, 2, 2])

在这个示例中,pixel_unshuffle将分辨率降回Pixel Shuffle之前的形状,将空间维度信息重映射回通道中,从而实现特征图的压缩。

可视化展示

为了能够更直观地展示Pixel Shuffle的效果,我们可以通过一张实际图片来演示。以下代码将读取一张图片,通过Pixel Shuffle操作后进行对比可视化,方便理解其在上采样中的效果。假设我们读取的图片为
DOG

import torch.nn as nn
import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt# 1. 读取图片并预处理
img_path = 'your_image_path.jpg'  # 替换为你的图片路径
image = Image.open(img_path).convert('RGB')# 2. 图像转换为张量,并调整形状以适应 Pixel Shuffle
transform = transforms.Compose([transforms.Resize((8, 8)),  # 调整为较小尺寸以便观察transforms.ToTensor()
])img_tensor = transform(image).unsqueeze(0)  # 增加 batch 维度# 3. 增加通道以便演示 Pixel Shuffle(例如转为 4 通道)
img_tensor = img_tensor.repeat(1, 4, 1, 1)  # 这里将通道数扩展到4# 4. 执行 Pixel Shuffle 操作
pixel_shuffle = nn.PixelShuffle(2)
img_shuffled = pixel_shuffle(img_tensor)# 5. 可视化原图与 Pixel Shuffle 后的图像
fig, axs = plt.subplots(1, 2, figsize=(10, 5))# 原图
axs[0].imshow(transforms.ToPILImage()(img_tensor.squeeze(0)[:3, :, :]))  # 只取前3个通道
axs[0].set_title("Original")# Pixel Shuffle 后的图
axs[1].imshow(transforms.ToPILImage()(img_shuffled.squeeze(0)[:3, :, :]))  # 只取前3个通道
axs[1].set_title("Pixel Shuffle")plt.show()

在这段代码中,我们读取一张图片并将其转换为张量格式,扩展通道数以符合 Pixel Shuffle 的输入要求。通过 Pixel Shuffle 操作,图像的空间分辨率增加,而通道数减少。经过代码处理后的结果为image-20241114093549088

可视化后可以清晰看到,Pixel Shuffle 操作有效地上采样了图片,使其更加细化并且包含更丰富的细节信息。

Pixel Shuffle 与 Pixel Unshuffle 的实际应用

在实际应用中,Pixel Shuffle 常用于超分辨率任务,例如在著名的 EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution)或 SRGAN(Super-Resolution Generative Adversarial Network)模型中,Pixel Shuffle 是提升图像质量的关键组件之一。Pixel Unshuffle 则适用于特征图压缩和编码场景,帮助模型更高效地处理高维特征。

总结

Pixel Shuffle:用于上采样,将通道维度转换为空间维度,提升图像分辨率。

Pixel Unshuffle:用于下采样,将空间维度转换为通道维度,降低图像分辨率进行特征压缩。

Pixel Shuffle 和 Pixel Unshuffle 通过在通道维度和空间维度之间进行信息重排,使得模型在不引入额外插值误差的情况下,实现高效的上采样和下采样操作。

参考文献

  1. Shi, Wenzhe, et al. “Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016): 1874-1883.
  2. Yu, Jiahui, et al. “Wide Activation for Efficient and Accurate Image Super-Resolution.” arXiv preprint arXiv:1808.08718 (2018).
    (2016): 1874-1883.
  3. Yu, Jiahui, et al. “Wide Activation for Efficient and Accurate Image Super-Resolution.” arXiv preprint arXiv:1808.08718 (2018).
  4. Lim, Bee, et al. “Enhanced Deep Residual Networks for Single Image Super-Resolution.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (2017): 136-144.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/60134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity类银河战士恶魔城学习总结(P132 Merge skill tree with skill Manager 把技能树和冲刺技能相组合)

【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili 教程源地址:https://www.udemy.com/course/2d-rpg-alexdev/ 本章节实现了解锁技能后才可以使用技能,先完成了冲刺技能的锁定解锁 Dash_Skill.cs using System.Collections; using System…

正则表达式完全指南,总结全面通俗易懂

目录 元字符 连接符 限定符 定位符 修饰符(标记) 运算符优先级 普通字符集及其替换 零宽断言 正向先行断言 负向先行断言 正向后发断言 负向后发断言 捕获组 普通捕获组 命名捕获组 PS:非捕获组 正则表达式在线测试: 正则在线测试工具 …

qt之QFTP对文件夹(含嵌套文件夹和文件)、文件删除下载功能

一、前言 主要功能如下: 1.实现文件夹的下载和删除,网上很多资料都是单独对某个路径的文件操作的,并不能对文件夹操作 2.实现目标机中含中文名称自动转码,有些系统编码方式不同,下载出来的文件会乱码 3.实现ftp功能…

代码随想录算法训练营第五十一天|Day51 图论

岛屿数量 深搜 https://www.programmercarl.com/kamacoder/0099.%E5%B2%9B%E5%B1%BF%E7%9A%84%E6%95%B0%E9%87%8F%E6%B7%B1%E6%90%9C.html 思路 #include <stdio.h> #define MAX_SIZE 50 int grid[MAX_SIZE][MAX_SIZE]; int visited[MAX_SIZE][MAX_SIZE]; int N, M; …

HCIP --OSI七层参考模型回顾、TCP/UDP协议复习

目录 一、OSI 二、重要的三个协议报头格式 名词注解 MTU 封装 解封装 PDU ARP DNS TCP/IP与OSI的区别 三、数据包转发过程 四、获取目标ip地址方式 五、获取目标mac地址方式 六、交换机的工作原理 七、TCP/UDP TCP&#xff08;Transmission Control Protocol&a…

ORIN NX 16G安装中文输入法

刷机版本为jetpack5.14.刷机之后预装了cuda、cudnn、opencv、tensorrt等&#xff0c;但是发现没有中文输入&#xff0c;所以记录一下安装流程。 jetson NX是arm64架构的&#xff0c;sougoupinyin只支持adm架构的&#xff0c;所以要选择安装Google pinyin 首先打开终端&#x…

解决背景图因为图片路径中携带括号导致图片无法显示的问题

本人是在uniapp中写微信小程序遇到了这个问题&#xff0c;调用后端接口传来的数据&#xff0c;发现有些背景图能正常显示&#xff0c;但有些不能&#xff0c;最后发现问题是因为路径地址携带了()的原因 如下&#xff1a; 注&#xff1a;该地址无法正常访问&#xff0c;放在这只…

Node == Sequelize 使用文档

目录 1. 简介 2. 安装 3. 连接到数据库 4. 测试连接 5. 关闭连接 6. 模型&#xff08;Model&#xff09; define.sync({ force: true }); belongsTo paranoid 7. 增删改查&#xff08;CRUD&#xff09; 7.1 查询&#xff08;Query&#xff09; 7.2 插入&#xff08;…

2411rust,1.75.0

原文 Rust团队很高兴地声明推出Rust的新版本1.75.0. 如果你rustup安装了以前版本的Rust,你可如下取1.75.0: $ rustup update stable1.75.0稳定版中的功能 async fn和特征中的返回位置impl Trait. 指针字节偏移API 原始指针(*const T和*mutT)过去主要支持,T为单位的操作.如…

物联网智能技术的深入探讨与案例分析

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

Keil基于ARM Compiler 5的工程迁移为ARM Compiler 6的工程

环境&#xff1a; keil版本为5.38&#xff0c;版本务必高于5.30 STM32F4的pack包版本要高于2.9 软件包下载地址&#xff1a;https://zhuanlan.zhihu.com/p/262507061 一、更改Keil中编译器 更改后编译&#xff0c;会报很多错&#xff0c;先不管。 二、更改头文件依赖 观察…

9.《滑动窗口篇》---①长度最小的子数组(中等)

滑动窗口推导过程 我们不能说一上来就知道这个题目用滑动窗口&#xff0c;然后就使用滑动窗口的方法来做这个题目。 首先我们想到的应该是暴力解法。 接着再优化为滑动窗口 由于数字都是 ≥ 0 的数。因此累加的数越多。和越大。 因此right往后遍历的时候。当发现sum > targe…

Marin说PCB之电源完整性之电源网络的PDN仿真CST---04

小编我最近都要忙疯了&#xff0c;好不容易去韩国出个差&#xff0c;打算不忙的时候去首尔看看韩国的美女们&#xff0c;说错了&#xff0c;是看美景啊。谁料想韩国分公司的SI同事的李相赫同志由于结婚请假了一个多月啊&#xff0c;他倒是挺爽啊&#xff0c;和老婆去度蜜月了&a…

视频融合×室内定位×数字孪生

随着物联网技术的迅猛发展&#xff0c;室内定位与视频融合技术在各行各业中得到了广泛应用。不仅能够提供精确的位置信息&#xff0c;还能通过实时视频监控实现全方位数据的可视化。 与此同时&#xff0c;数字孪生等技术的兴起为智慧城市、智慧工厂等应用提供了强大支持&#…

git push时报错! [rejected] master -> master (fetch first)error: ...

错误描述&#xff1a;在我向远程仓库push代码时&#xff0c;即执行 git push origin master命令时发生的错误。直接上错误截图。 错误截图 错误原因&#xff1a; 在网上查了许多资料&#xff0c;是因为Git仓库中已经有一部分代码&#xff0c;它不允许你直接把你的代码覆盖上去…

Vite 基础理解及应用

文章目录 概要Vite基础知识点1. 快速启动和热更新热更新原理 2. 基于ES模块的构建3. 对不同前端框架的支持 vite.config.js配置实例1. 基本结构2. 服务器相关配置3. 输入输出路径配置4. 打包优化配置 项目构建一、项目初始化二、项目结构理解三、CSS处理四、静态资源处理五、构…

概念解读|K8s/容器云/裸金属/云原生...这些都有什么区别?

随着容器技术的日渐成熟&#xff0c;不少企业用户都对应用系统开展了容器化改造。而在容器基础架构层面&#xff0c;很多运维人员都更熟悉虚拟化环境&#xff0c;对“容器圈”的各种概念容易混淆&#xff1a;容器就是 Kubernetes 吗&#xff1f;容器云又是什么&#xff1f;容器…

【Android】线程池的解析

引言 在Android当中根据用途分为主线程与子线程&#xff0c;主线程当中主要处理与界面相关的操作&#xff0c;子线程主要进行耗时操作。除了Thread本身以外&#xff0c;在Android当中还有很多扮演者线程的角色&#xff0c;比如AsyncTask&#xff08; 底层为线程池&#xff0c;…

本地音乐服务器(三)

6. 删除音乐模块设计 6.1 删除单个音乐 1. 请求响应设计 2. 开始实现 首先在musicmapper新增操作 Music findMusicById(int id);int deleteMusicById(int musicId); 其次新增相对应的.xml代码&#xff1a; <select id"findMusicById" resultType"com.exa…

设计模式的基本概述

一.什么是设计模式 1.设计模式(Design Pattern)是前辈们对代码开发经验的总结&#xff0c;是解决特定问题的一系列套路&#xff0c;它不是语法规定&#xff0c;而是一套用来提高代码可复用性、可维护性、可读性、稳健性以及安全性的解决方案 。 2.1995 年&#xff0c;GoF(Gang…