昇思学习打卡营第31天|深度解密 CycleGAN 图像风格迁移:从草图到线稿的无缝转化

1. 简介

        图像风格迁移是计算机视觉领域中的一个热门研究方向,其中 CycleGAN (循环对抗生成网络) 在无监督领域取得了显著的突破。与传统需要成对训练数据的模型如 Pix2Pix 不同,CycleGAN 不需要严格的成对数据,只需两类图片域数据,便可实现图像风格的迁移与互换。

        本篇博文将通过一个实际案例演示如何使用 CycleGAN 实现从草图到目标线稿图的图像风格迁移任务,并详细介绍 CycleGAN 的模型结构、数据处理及训练过程。

2. 模型介绍

        CycleGAN 的核心思想源自 "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks" 论文。该模型在不需要成对示例的情况下,学习将源域 X 的图像转换到目标域 Y。其应用领域包括风格迁移、图像增强和域适应等任务。

2.1 CycleGAN 网络结构

        CycleGAN 由两个 GAN 模型组成,其对称的架构允许在不同的域之间来回转换图像。具体而言,CycleGAN 使用两个生成器(G 和 F)和两个判别器(D_X 和 D_Y),生成器负责将域 X 的图像转换到域 Y,并通过判别器对生成结果进行真假判断。

        模型架构如下:

  1. 生成器:生成器采用 ResNet 结构,由 9 个残差块组成,适合处理 256x256 尺寸的图片。
  2. 判别器:判别器通过 PatchGAN 模型检测图像的真实性,以保证生成的图像足够逼真。
2.2 循环一致性损失

        CycleGAN 通过 循环一致性损失 来保证从域 X 到域 Y,再从域 Y 转换回域 X 的图像应尽可能接近原始图像。这种损失机制确保模型不会丢失重要的图像特征。

3. 数据集

        本案例使用的数据集包含线稿图和草图图像,所有图片大小为 256x256 像素。数据集分为训练集和测试集,训练集包含 25654 张图片,测试集包含约 100 张线稿图片和 116 张草图图片。

4. 模型实现
4.1 生成器模型

        生成器模型基于 ResNet 结构,通过卷积、反卷积及残差块实现图像风格的转换。以下是生成器的代码实现:

import mindspore.nn as nnclass ResidualBlock(nn.Cell):def __init__(self, dim):super(ResidualBlock, self).__init__()self.conv_block = nn.SequentialCell(nn.Conv2d(dim, dim, kernel_size=3, padding=1, pad_mode="pad"),nn.BatchNorm2d(dim),nn.ReLU(),nn.Conv2d(dim, dim, kernel_size=3, padding=1, pad_mode="pad"),nn.BatchNorm2d(dim))def construct(self, x):return x + self.conv_block(x)class ResNetGenerator(nn.Cell):def __init__(self, input_nc, output_nc, n_residual_blocks=9):super(ResNetGenerator, self).__init__()model = [nn.Conv2d(input_nc, 64, kernel_size=7, padding=3, pad_mode="pad"),nn.BatchNorm2d(64),nn.ReLU()]# Downsamplingmodel += [nn.Conv2d(64, 128, kernel_size=3, stride=2, padding=1),nn.BatchNorm2d(128),nn.ReLU(),nn.Conv2d(128, 256, kernel_size=3, stride=2, padding=1),nn.BatchNorm2d(256),nn.ReLU()]# Residual blocksfor _ in range(n_residual_blocks):model += [ResidualBlock(256)]# Upsamplingmodel += [nn.Conv2dTranspose(256, 128, kernel_size=3, stride=2, padding=1, output_padding=1),nn.BatchNorm2d(128),nn.ReLU(),nn.Conv2dTranspose(128, 64, kernel_size=3, stride=2, padding=1, output_padding=1),nn.BatchNorm2d(64),nn.ReLU()]model += [nn.Conv2d(64, output_nc, kernel_size=7, padding=3, pad_mode="pad"),nn.Tanh()]self.model = nn.SequentialCell(model)def construct(self, x):return self.model(x)
4.2 判别器模型

        判别器基于 PatchGAN 的结构,通过卷积网络将输入图片划分为多个小的 patch,并分别进行真假判别。

class Discriminator(nn.Cell):def __init__(self, input_nc, ndf=64):super(Discriminator, self).__init__()self.model = nn.SequentialCell([nn.Conv2d(input_nc, ndf, kernel_size=4, stride=2, padding=1),nn.LeakyReLU(0.2),nn.Conv2d(ndf, ndf * 2, kernel_size=4, stride=2, padding=1),nn.BatchNorm2d(ndf * 2),nn.LeakyReLU(0.2),nn.Conv2d(ndf * 2, ndf * 4, kernel_size=4, stride=2, padding=1),nn.BatchNorm2d(ndf * 4),nn.LeakyReLU(0.2),nn.Conv2d(ndf * 4, ndf * 8, kernel_size=4, stride=1, padding=1),nn.BatchNorm2d(ndf * 8),nn.LeakyReLU(0.2),nn.Conv2d(ndf * 8, 1, kernel_size=4, stride=1, padding=1)])def construct(self, x):return self.model(x)
4.3 优化器与损失函数

        CycleGAN 采用对抗性损失和循环一致性损失的组合来训练生成器和判别器。优化器选择了 Adam 优化器,学习率设置为 0.0002。

import mindspore as ms# 定义损失函数和优化器
gan_loss = nn.BCELoss()
cycle_loss = nn.L1Loss()optimizer_G = nn.Adam(generator.parameters(), learning_rate=0.0002)
optimizer_D = nn.Adam(discriminator.parameters(), learning_rate=0.0002)
5. 训练与推理

        训练过程中,我们交替训练生成器和判别器。判别器通过真假样本的判别进行训练,而生成器则通过对抗判别和循环一致性进行优化。以下是一个训练步骤的实现:

def train_step(real_A, real_B):# 生成器前向计算fake_B = generator_A2B(real_A)fake_A = generator_B2A(real_B)# 判别器前向计算D_A_loss = gan_loss(discriminator_A(fake_A), Tensor(0)) + gan_loss(discriminator_A(real_A), Tensor(1))D_B_loss = gan_loss(discriminator_B(fake_B), Tensor(0)) + gan_loss(discriminator_B(real_B), Tensor(1))# 生成器损失计算cycle_A_loss = cycle_loss(generator_B2A(fake_B), real_A)cycle_B_loss = cycle_loss(generator_A2B(fake_A), real_B)G_loss = cycle_A_loss + cycle_B_loss + D_A_loss + D_B_lossoptimizer_G.step()optimizer_D.step()return G_loss, D_A_loss, D_B_loss

结语

        通过本次的CycleGAN模型实践,我们深入理解了图像风格迁移的基本原理,特别是在无监督情况下如何实现两个域之间的图像转换。CycleGAN的循环一致性损失在保持图像内容一致性的同时,又能实现风格的转换,这是其在域迁移任务中广泛应用的重要原因。在整个实现过程中,不仅对生成器和判别器的构建有了更清晰的理解,同时也进一步熟悉了损失函数的优化策略。

        这次实验的关键在于让模型具备在没有配对数据的情况下,也能够进行风格转换的能力。虽然实验需要较大的计算资源,但我们通过小规模数据集也能够体验到CycleGAN的强大之处。希望通过这个项目,我们不仅能掌握CycleGAN的基本原理,也能为以后的图像生成和风格迁移任务打下坚实的基础。

如果你觉得这篇博文对你有帮助,请点赞、收藏、关注我,并且可以打赏支持我!

欢迎关注我的后续博文,我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/55576.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【网络】web1.0 2.0 3.0各自出现背景/技术原理/演化发展过程,以及Web 3.0 对传统互联网的影响

一、web1.0 2.0 3.0各自出现背景/技术原理/演化发展过程 互联网自诞生以来,经历了三个主要的发展阶段:Web 1.0、Web 2.0 和 Web 3.0,每个阶段都有其独特的特点和影响。 1、Web 1.0 Web 1.0 是互联网的初始阶段,大约从1990年代到…

IDEA:增加类注释模板和方法注释模板

文章目录 概要配置类注释模板配置方法模版 概要 配置类注释和方法注释 配置类注释模板 点击setting->Editor->File and Code Templates,然后找到Class,如下图: 注意勾掉Reformat according to style,否则会格式化。 注…

动态规划算法专题(四):子串、子数组系列

目录 1、最大子数组和 1.1 算法原理 1.2 算法代码 2、环形子数组的最大和 2.1 算法原理 2.2 算法代码 3、乘积最大子数组 3.1 算法原理 3.2 算法代码 4、乘积为正数的最长子数组长度 4.1 算法原理 4.2 算法代码 5、等差数列划分 5.1 算法原理 5.2 算法代码 6、…

COSPLAY大赛静态HTML网页模板源码

源码名称:COSPLAY大赛静态HTML网页模板 源码介绍:一款cosplay大赛HTML网页模板源码,过往参赛选手会自动从腾讯大赛获取,可用于cosplay大赛,漫展等。 需求环境:H5 下载地址: https://www.5188…

vue2路由和vue3路由区别及原理

一、Vue2 与 Vue3 路由的区别 1. 创建路由实例方式的不同 Vue 2 中,通过 Vue.use() 注册路由插件,并通过 new VueRouter() 来创建路由实例。 import Vue from vue;import VueRouter from vue-router;import Home from /components/Home.vue;​Vue.us…

如何减少网络安全事件的损失

为了减轻网络安全事件的损失,可以采取以下多项措施: 一、数据备份与恢复 定期备份数据:包括文件、数据库和系统映像等,确保在发生安全事件时,能够快速恢复数据和系统,从而减少损失。制定恢复计划&#xf…

k8s的控制节点不能访问node节点容器的ip地址

master控制node服务器添加容器后,访问不了该node服务器容器的ip,只能在node服务器访问 排查后发现是k8s的master服务器和node节点的网址网段和k8s初始化时提示的ip网段不一致 我之前是192.168.137.50, 实际上master主机期望的是192.168.1.50 解决方案: 1.删除服务器后重建ma…

使用iTextPDF库时,设置文字为中文格式

在使用iTextPDF库时,设置文字为中文格式主要涉及选择合适的中文字体,并确保该字体能够正确渲染中文字符。由于iTextPDF的内置字体通常不支持中文,因此你需要加载一个支持中文的字体文件(如TrueType字体,.ttf文件&#…

SpringCloud入门(十二)全局过滤器和跨域

一、全局过滤器 全局过滤器的作用也是处理一切进入网关的请求和微服务响应,与GatewayFilter的作用一样。 区别在于GatewayFilter通过配置定义,处理逻辑是固定的,如果我们希望拦截请求,做自己的业务逻辑则没办法实现。而GlobalFilt…

【api连接ChatGPT的最简单方式】

通过api连接ChatGPT的最简单方式 建立client 其中base_url为代理,若连接官网可省略;配置环境变量 from openai import OpenAI client OpenAI(base_url"https://api.chatanywhere.tech/v1" )或给出api和base_url client OpenAI(api_key&…

英文论文安全的免费查重网站

关注B站可以观看更多实战教学视频:hallo128的个人空间 英文论文安全的免费查重网站 对于英文论文查重,以下是一些相对安全、且免费使用的查重网站推荐。不过请注意,免费工具通常只能提供基础查重功能,对于学术论文的全面查重&…

【AI大模型-文心-思维树解读-仓颉精通之路-11】

提问:你还记得我们设置过一个暗号吗?仓颉精通之路 回答:如下 版本:文心大模型3.5 是的,我记得我们之前设置过的“暗号”是“仓颉精通之路”。这个“暗号”可以被视为一个象征性的口号或指引,代表着我们在追…

VLAN 和 ARP 表

VLAN 和 ARP 表之间有着密切的关系,因为 ARP (地址解析协议) 用于在同一个二层广播域内将 IP 地址解析为 MAC 地址。VLAN 将一个物理局域网分割成多个逻辑局域网,每个 VLAN 都是一个独立的广播域。因此,ARP 表的作用范围被限制在每个 VLAN 内…

Redis:string类型

Redis:string类型 string命令设置与读取SETGETMSETMGET 数字操作INCRINCRBYDECRDECRBYINCRBYFLOAT 字符串操作APPENDSTRLENGETRANGESETRANGE 内部编码intembstrraw 在Redis中,字符串string存储的是二进制,以byte为单位,输入的二进…

Pikachu-Unsafe FileUpload-客户端check

上传图片,点击查看页面的源码, 可以看到页面的文件名校验是放在前端的;而且也没有发起网络请求; 所以,可以通过直接修改前端代码,删除 checkFileExt(this.value) 这部分; 又或者先把文件名改成…

java代理模式(动态代理、静态代理、需要实现类的JDK代理、不需要实现类的JDK动态代理、CGLIB代理)

静态代理简单使用 静态代理是代理模式的一种实现方式,它在编译时就已经确定了被代理对象和代理对象的关系。在静态代理中,需要手动创建一个代理类,该代理类与被代理对象实现相同的接口或继承相同的父类,并在代理类的方法中调用被…

C++基类构造器的自动调用

C基类构造器的自动调用 虽然基类的构造器和解构器不会被派生类继承,但它们会被派生类的构造器和解构器自动调用,今天我们用代码实证一下。 验证代码 源代码,仔细看注释内容: D:\YcjWork\CppTour>vim c2004.cpp #include &l…

《RabbitMQ篇》基本概念介绍

MQ功能 解耦 MQ允许不同系统或组件之间松散耦合。发送者和接收者不需要直接连接,从而提高了系统的灵活性和可维护性。异步处理 使用MQ可以实现异步消息传递,发送者可以将消息放入队列后立即返回,不必等待接收者处理。这提高了系统的响应速度…

RabbitMQ入门3—virtual host参数详解

在 RabbitMQ 中,创建 Virtual Host 时会涉及到一些参数配置,比如 tags 和 Default Queue Type。下面是对这两个参数的详细解释: 1. Tags Tags 是 Virtual Host 的标记,用来为 Virtual Host 添加元数据,帮助你管理和组…

牛客周赛 Round 62(期望、DFS、主席树、DP、逆推DP)

文章目录 牛客周赛 Round 62(期望、DFS、主席树、DP、逆推DP)A. 小红的字符移动B. 小红的数轴移动C. 小红的圆移动D. 小红的树上移动 (期望、DFS)E. F. 小红的中位数查询(主席树)G. 小红的数轴移动(二)&…