使用 ESPCN 模型进行超分辨率图像处理

前言

使用 ESPCN (Efficient Sub-Pixel CNN) 模型对低分辨率的图像,进行超分辨率处理。

效果展示

lowres 表示低分辨率图像,highres 表示高分辨率图像,prediction 表示模型预测的高分辨率图像,可以看出模型在生成高分辨率图像过程中确实发挥了作用。

image.png

image.png

image.png

PSNR of low resolution image and high resolution image is 25.4162
PSNR of predict and high resolution is 26.8309

image.png

image.png

image.png

PSNR of low resolution image and high resolution image is 24.5984
PSNR of predict and high resolution is 26.2234

模型原理

SRCNNDRCN 中,低分辨率图像都是先通过上采样插值得到与高分辨率图像同样的大小再作为网络输入,这意味着卷积操作在较高的分辨率上进行,相比于在低分辨率的图像上计算卷积会降低效率ESPCN 提出一种在低分辨率图像上直接计算卷积得到高分辨率图像的高效率方法。

image.png

ESPCN 的核心概念是亚像素卷积层(sub-pixel convolutional layer)。如上图所示,网络的输入是原始低分辨率图像,通过若干卷积层以后,得到的特征图像大小与输入图像一样,但是特征通道为 r^2 。将每个像素的 r^2 个通道重新排列成一个 r x r 的区域,对应于高分辨率图像中的一个 r x r 大小的子块,从而大小为r^2 x H x W 的特征图像被重新排列成 1 x rH x rW 大小的高分辨率图像。这个变换虽然被称作 sub-pixel convolution , 但实际上并没有卷积操作。总之亚像素卷积层包含两个过程,分别是普通的卷积层和后面的排列像素的步骤。

通过使用 sub-pixel convolution , 图像从低分辨率到高分辨率放大的过程,插值函数被隐含地包含在前面的卷积层中,可以自动学习到。只在最后一层对图像大小做变换,前面的卷积运算由于在低分辨率图像上进行,因此效率会较高。

数据处理

  • 我自己生成了一批数据,我这里是放在了 D:\pythonProject\HKYModel\data2 目录之下。
  • 因为数据集中已经分好了训练集测试集,所以直接使用函数进行本地数据的读取即可得到 train_dsvalid_ds
  • train_dsvalid_ds 中的图片都做归一化操作
root_dir = "D:\pythonProject\HKYModel\BSR\BSDS500\data"
crop_size = 300
upscale_factor = 3
input_size = crop_size // upscale_factor
batch_size = 8
train_ds = image_dataset_from_directory(root_dir, batch_size=batch_size, image_size=(crop_size, crop_size), validation_split=0.2,  subset="training", seed=1337,  label_mode=None)
valid_ds = image_dataset_from_directory(root_dir, batch_size=batch_size,  image_size=(crop_size, crop_size),  validation_split=0.2, subset="validation",  seed=1337, label_mode=None)
def scaling(input_image):input_image = input_image / 255.return input_image
train_ds = train_ds.map(scaling)
valid_ds = valid_ds.map(scaling)
  • process_input 函数接受输入图像和输入大小作为参数,并且将输入图像转换为 YUV 颜色空间。YUV 颜色空间包含了亮度(Y)和色度(U、V)信息。tf.image.rgb_to_yuv 函数用于将 RGB 彩色图像转换为 YUV 颜色空间。接着确定最后一个维度的索引。这个索引被用来沿着颜色通道轴(通常是最后一个维度)拆分输入张量,得到 Y、U、V 三个通道的张量。我们从拆分后的张量中只提取亮度通道 Y,并使用 tf.image.resize 函数将其调整为指定的输入大小,调整大小的方法是 "area"
  • process_target 函数也是类似的,它也将输入图像转换为 YUV 颜色空间,并提取出亮度通道 Y。但不同的是,它并没有调整图像的大小,只是返回了亮度通道 Y。
dataset = os.path.join(root_dir, "images")
test_path = os.path.join(dataset, "test")
test_img_paths = sorted([os.path.join(test_path, fname) for fname in os.listdir(test_path) if fname.endswith(".jpg")])
def process_input(input, input_size):input = tf.image.rgb_to_yuv(input)last_dimension_axis = len(input.shape) - 1y, u, v = tf.split(input, 3, axis=last_dimension_axis)return tf.image.resize(y, [input_size, input_size], method="area")
def process_target(input):input = tf.image.rgb_to_yuv(input)last_dimension_axis = len(input.shape) - 1y, u, v = tf.split(input, 3, axis=last_dimension_axis)return y
train_ds = train_ds.map(lambda x: (process_input(x, input_size), process_target(x))).prefetch(buffer_size=32)
valid_ds = valid_ds.map(lambda x: (process_input(x, input_size), process_target(x))).prefetch(buffer_size=32)

模型

  • DepthToSpace 类继承自 layers.Layer,表示一个深度转换空间的层,用于实现深度转换空间操作。 get_config 方法用于获取层的配置信息。这个方法被调用以保存层的配置,以便在需要序列化模型时可以重新创建相同的层实例。call 方法实现了层的前向传播逻辑,在这个方法中,它接受一个输入张量 input,然后执行深度转换空间操作。具体地,它首先获取输入张量的形状信息,然后按照 block_size 分块重排张量,并最终返回转换后的张量。

  • get_model 函数用于创建一个 Keras 模型。在这个函数中,它接受两个参数:upscale_factorchannelsupscale_factor 表示上采样因子,channels 表示输入图像的通道数。在模型中,它使用了一系列的卷积层构建了一个深度卷积神经网络。然后,通过 DepthToSpace 层来实现深度转换空间操作,以实现图像的上采样。最后,通过 keras.Model 类构建了一个 Keras 模型,指定了输入和输出,返回了这个模型。

class DepthToSpace(layers.Layer):def __init__(self, block_size):super().__init__()self.block_size = block_sizedef get_config(self):config = super().get_config()config.update({"block_size": self.block_size})return configdef call(self, input):batch, height, width, depth = ops.shape(input)depth = depth // (self.block_size**2)x = ops.reshape(input, [batch, height, width, self.block_size, self.block_size, depth])x = ops.transpose(x, [0, 1, 3, 2, 4, 5])x = ops.reshape(x, [batch, height * self.block_size, width * self.block_size, depth])return x
def get_model(upscale_factor=3, channels=1):conv_args = {"activation": "relu",  "kernel_initializer": "orthogonal", "padding": "same"}inputs = keras.Input(shape=(None, None, channels))x = layers.Conv2D(512, 5, **conv_args)(inputs)x = layers.Conv2D(256, 3, **conv_args)(x)x = layers.Conv2D(64, 3, **conv_args)(x)x = layers.Conv2D(channels * (upscale_factor**2), 3, **conv_args)(x)outputs = DepthToSpace(upscale_factor)(x)return keras.Model(inputs, outputs)

训练

  • 自定义回调函数类 ESPCNCallback ,在每个 epoch 开始时调用 on_epoch_begin 方法,它初始化了一个列表 self.psnr,用于存储每个 epoch 的峰值信噪比(PSNR)。在每个 epoch 结束时调用 on_epoch_end 方法。它计算了当前 epoch 的平均 PSNR ,并打印输出。每隔 20 个 epoch 就利用模型生成了一个预测图像,并通过 plot_results 函数绘制了这个预测图像,用于观察模型的生成效果。在每个测试集的 batch 结束时调用on_test_batch_end 方法,它计算了当前 batch 的 PSNR ,并将其添加到 self.psnr 列表中。
  • 另外创建了两个额外的 Keras 回调函数:early_stopping_callback 用于在训练过程中实施 early stopping 策略,如果在连续 5 个 epoch 中损失没有降低,则停止训练;model_checkpoint_callback 用于在训练过程中保存模型的最佳参数。
  • 使用 Adam 优化器和均方误差作为损失函数。
  • 使用 model.fit 函数进行模型的训练。指定了训练数据集 train_ds,并设置了训练的 epochs 数目为 200,并且设置了之前定义的回调函数作为回调参数。
class ESPCNCallback(keras.callbacks.Callback):def __init__(self):super().__init__()self.test_img = get_lowres_image(load_img(test_img_paths[0]), upscale_factor)def on_epoch_begin(self, epoch, logs=None):self.psnr = []def on_epoch_end(self, epoch, logs=None):print("Mean PSNR for epoch: %.2f" % (np.mean(self.psnr)))if epoch % 20 == 0:prediction = upscale_image(self.model, self.test_img)plot_results(prediction, "epoch-" + str(epoch), "prediction")def on_test_batch_end(self, batch, logs=None):self.psnr.append(10 * math.log10(1 / logs["loss"]))early_stopping_callback = keras.callbacks.EarlyStopping(monitor="loss", patience=5)
model_checkpoint_callback = keras.callbacks.ModelCheckpoint(filepath="ESPCN/checkpoint.keras", save_weights_only=False, monitor="loss",  mode="min", save_best_only=True, )
model = get_model(upscale_factor=upscale_factor, channels=1)
model.summary()
callbacks = [ESPCNCallback(), early_stopping_callback, model_checkpoint_callback]
model.compile(optimizer=keras.optimizers.Adam(learning_rate=0.001), loss=keras.losses.MeanSquaredError())
model.fit(train_ds, epochs=200, callbacks=callbacks, validation_data=valid_ds, verbose=2)

日志打印:

Epoch 1/200
2024-03-06 16:14:17.804215: I tensorflow/stream_executor/cuda/cuda_dnn.cc:384] Loaded cuDNN version 8100
Mean PSNR for epoch: 22.44
50/50 - 5s - loss: 0.0226 - val_loss: 0.0058 - 5s/epoch - 105ms/step
Epoch 2/200
Mean PSNR for epoch: 23.57
50/50 - 1s - loss: 0.0064 - val_loss: 0.0043 - 1s/epoch - 21ms/step
...
Epoch 29/200
Mean PSNR for epoch: 26.75
50/50 - 1s - loss: 0.0025 - val_loss: 0.0022 - 996ms/epoch - 20ms/step
Epoch 30/200
Mean PSNR for epoch: 26.53
50/50 - 1s - loss: 0.0025 - val_loss: 0.0023 - 992ms/epoch - 20ms/step
Epoch 31/200
Mean PSNR for epoch: 26.18
50/50 - 1s - loss: 0.0025 - val_loss: 0.0023 - 987ms/epoch - 20ms/step

那么,我们该如何学习大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型,如GPT-3、BERT或任何其他先进的神经网络模型,需要系统的方法和持续的努力。既然要系统的学习大模型,那么学习路线是必不可少的,下面的这份路线能帮助你快速梳理知识,形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别:AI大模型API应用开发工程

L3级别:大模型应用架构进阶实践

L4级别:大模型微调与私有化部署

一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线,不知道为什么发出来就有点糊,高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/24582.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣hot100:155. 最小栈(栈,辅助栈存储相关信息)

LeetCode:155. 最小栈 1、尝试单调栈 看到这题说,要常数时间内检索最小元素的栈,想到了单调栈,递增单调栈确实能维护最小值,但是这个最小值是存在一定意义的,即如果后面出现了最小值,那么前面…

光电管道液位传感器与电容式液位开关相比

如今,随着检测液位技术的不断发展,检测液位的方法也越来越多,比如浮球开关、电容式液位传感器、管道式液位传感器等等,那么光电管道液位传感器与电容式液位开关相比,有哪些优势? 光电管道液位传感器采用先…

论文高级图表绘制(Python语言,局部放大图)

本文将通过一个具体的示例,展示如何使用Python语言和Matplotlib库来绘制高级图表,包括局部放大图的制作。适用于多条曲线绘制在同一个图表中,但由于数据量过大,导致曲线的细节看不清,需要对细节进行局部放大。如下图: 环境准备 首先,确保你的Python环境中已经安装了以…

基于SSM+Jsp的高校信息资源共享平台

开发语言:Java框架:ssm技术:JSPJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包…

基于STM32开发的智能家居监控系统

目录 引言环境准备智能家居监控系统基础代码实现:实现智能家居监控系统 4.1 传感器数据读取4.2 电器设备控制4.3 实时数据监控与分析4.4 用户界面与数据可视化应用场景:家庭安全监控与管理问题解决方案与优化收尾与总结 1. 引言 随着智能家居技术的发…

FM151A,FM171B和利时工控

FM151A,FM171B和利时工控,DCS系统应该具备以下特点:1.系统具备开放的体系结构,可以提供多层的开放数据接口;FM151A,FM171B和利时工控。2.系统应具备强大的处理功能,中型分布式控制系统大型数据采集监控系统功能。FM151…

[数据集][目标检测]室内积水检测数据集VOC+YOLO格式761张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):761 标注数量(xml文件个数):761 标注数量(txt文件个数):761 标注类别…

使用小黄鸟(HttpCanary)、VMOS Pro虚拟机对手机APP进行抓包(附带软件)

老规矩先看,效果图: 文章很详细,希望可以耐心看完,保证可以学会抓包,不再走冤枉路,小编在之前看过太多类似文章,折腾了太久才搞懂的,写这篇文章就是不想希望你们像小编一样再花时间…

mac无法读取windows分区怎么办 苹果硬盘怎么读取

对于Mac电脑用户但有Windows系统使用需求的,我们可以通过Boot Camp启动转换助理安装Windows分区这个方案来解决,不过因为两个系统的磁盘格式不同,相应的也会产生一些问题,例如无法正常读取windows分区。下面本文就详细说明mac无法…

在Java中使用SeleniumAPI,超详细

Java中 Selenium相关操作 1 定位元素 1.1 css选择器定位元素 就是定位到页面的元素,本质上就是一个一个的语法 下面举几个具体的例子: 类选择器 按照给定的 class 属性的值,选择所有匹配的元素。 语法:.classname 例子&am…

素颜个人引导页源码

源码介绍 素颜个人引导页源码,源码由HTMLCSSJS组成,记事本打开源码文件可以进行内容文字之类的修改,双击html文件可以本地运行效果,也可以上传到服务器里面,重定向这个界面 效果预览 源码下载 素颜个人引导页源码

2005-2022年各省居民人均消费支出数据(无缺失)

2005-2022年各省居民人均消费支出数据(无缺失) 1、时间:2005-2022年 2、来源:国家统计局、统计年鉴 3、指标:全体居民人均消费支出 4、范围:31省 5、缺失情况:无缺失 6、指标解释 居民人…

matlab(实例):滤波器(低通、带通、高通,使用butter函数、filter函数)

一、题目:已知一个时域信号,包含三个频率(50Hz、150Hz、300Hz),分别设计并使用低通滤波器、带通滤波器、高通滤波器,对其进行滤波,画出滤波信号的时域图和频谱图。 二、解题过程: ①…

区块链的基本原理和优势

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

无人机电机选型

2306的意思是电机定子直径23MM,定子高度6MM.在相同KV值的情况下电机的定子体积越大,扭矩越大:KV的意思是每增加1V的电压电机转速增加多少。同参数的电机KV越低,在低速的情况下能带动更大的质量。这也就解释了竞速机选用更高KV值的…

【Java】解决Java报错:NoClassDefFoundError

文章目录 引言1. 错误详解2. 常见的出错场景2.1 类路径配置错误2.2 依赖库缺失2.3 类文件被删除或损坏2.4 类加载器问题 3. 解决方案3.1 检查类路径配置3.2 检查依赖库3.3 检查类文件3.4 调试类加载器问题 4. 预防措施4.1 使用构建工具管理依赖4.2 定期进行构建和测试4.3 使用I…

了解光伏储能技术的应用场景和优势

光伏发电是指利用太阳能电池板将太阳光转化为电能的过程。其优点在于清洁、高效、可再生,但光伏发电需要同时也存在间歇性和不稳定性问题。为了解决这一问题,光伏储能技术得到了广泛应用。其基本原理是将白天无法消耗的电能储存起来,以供需要…

mysql当前状态分析(show status)

文章目录 查看当前线程数据查询连接情况查询缓存相关查询锁相关查询增删改查执行次数查询DDL创建相关 SHOW STATUS 是一个在 MySQL 中用来查看服务器运行状态的命令。它可以帮助你了解服务器的当前性能,包括连接数、表锁定、缓冲区使用情况等信息。 查看当前线程数据…

【Rust】——面向对象设计模式的实现

🎼个人主页:【Y小夜】 😎作者简介:一位双非学校的大二学生,编程爱好者, 专注于基础和实战分享,欢迎私信咨询! 🎆入门专栏:🎇【MySQL&#xff0…

张量之力:人工智能的多维舞台

在人工智能(AI)的广阔天地里,张量(Tensor)这一数学概念如同璀璨的明星,以其独特的魅力和强大的功能,为AI技术的发展和应用注入了新的活力。张量,这个源自物理学的概念,如…