论文笔记：ViTGAN: Training GANs with Vision Transformers

论文笔记：ViTGAN: Training GANs with Vision Transformers

news/2025/4/17 2:13:10/文章来源:https://blog.csdn.net/qq_40206371/article/details/133267199

2021

1 intro

论文研究的问题是：ViT是否可以在不使用卷积或池化的情况下完成图像生成任务
- 即不用CNN，而使用ViT来完成图像生成任务
将ViT架构集成到GAN中，发现现有的GAN正则化方法与self-attention机制的交互很差，导致训练过程中严重的不稳定
- ——>引入了新的正则化技术来训练带有ViT的GAN
- ViTGAN模型远优于基于Transformer的GAN模型，在不使用卷积或池化的情况下，性能与基于CNN的GAN（如Style-GAN2）相当
- ViTGAN模型是首个在GAN中利用视觉Transformer的模型之一

2 方法

直接使用ViT作为鉴别器会使训练变得不稳定。
- 论文对生成器和鉴别器都引入了新的技术，用来稳定训练动态并促进收敛。
  - (1)ViT鉴别器的正则化；
  - (2)生成器的新架构

2.1 ViT鉴别器的正则化

利普希茨连续（Lipschitz continuity）在GAN鉴别器中很重要
- GAN笔记：利普希茨连续（Lipschitz continuity）_UQI-LIUWJ的博客-CSDN博客
然而，最近的一项工作表明，标准dot product self-attention层的Lipschitz常数可以是无界的，使Lipschitz连续在ViTs中被违反。
- —>1，用欧氏距离代替点积相似度
- —>2，在初始化时将每层的归一化权重矩阵与spectral norm相乘
  - 对于任意矩阵 A，其Spectral Norm定义为：
    - 也可以定义为矩阵 A 的最大奇异值
  - - σ计算矩阵的Spectral Norm

2.2 设计生成器

3 实验

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/87761.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

《优化接口设计的思路》系列：第四篇—接口的权限控制

《优化接口设计的思路》系列：第四篇—接口的权限控制

系列文章导航《优化接口设计的思路》系列：第一篇—接口参数的一些弯弯绕绕《优化接口设计的思路》系列：第二篇—接口用户上下文的设计与实现《优化接口设计的思路》系列：第三篇—留下用户调用接口的痕迹《优化接口设计的思路》系列&#…

阅读更多...

机器人过程自动化(RPA)入门 2. 录制播放

机器人过程自动化(RPA)入门 2. 录制播放

在计算机上记录用户步骤并回放的功能使机器人过程自动化（RPA）取得了巨大成功。如果没有这一功能，该技术的采用可能会非常缓慢，它将被视为另一种自动化/脚本工具。在前一章中，我们对机器人过程自动化有了基本的了解。在本章中，我们将了解如何使用录音机作为我们旅程中自…

阅读更多...

知识库搭建保姆级教程，如何从0到1完成知识库搭建

知识库搭建保姆级教程，如何从0到1完成知识库搭建

在这个信息爆炸的时代，如何获取、整理和应用知识成为了我们个体价值和企业核心竞争力打造的重要表现，搭建一个高效的知识库可以提升我们企业的竞争力，必要时还能快速切换赛道，开展一个新的领域。今天我们将结合HelpLook 来与你一…

阅读更多...

行为型模式-解释器模式

行为型模式-解释器模式

提供了评估语言的语法或表达式的方式，它属于行为型模式。这种模式实现了一个表达式接口，该接口解释一个特定的上下文。这种模式被用在 SQL 解析、符号处理引擎等。意图：给定一个语言，定义它的文法表示，并定义一个解释…

阅读更多...

Flink RoaringBitmap去重

Flink RoaringBitmap去重

1、RoaringBitmap的依赖  <dependency><groupId>org.roaringbitmap</groupId><artifactId>RoaringBitmap</artifactId><version>0.9.21</version> </dependency> 2、Demo去重 package com.gwm.driver…

阅读更多...

SpringBoot-Druid

SpringBoot-Druid

目录 1.什么是Druid 2.主要优点和原因 3.误区 4.Part代码 0.pom 1.Spring.datasource.type: com.alibaba.druid.pool.DruidDataSource 2.Druid用Jasypt加密任意内容 EnableEncryptableProperties开启加密注解 3.Druid监控平台 1.什么是Druid Druid 是一个开源的数据库…

阅读更多...

C++之互斥锁、读写锁、互斥量、信号量、原子锁机制总结(二百二十五)

C++之互斥锁、读写锁、互斥量、信号量、原子锁机制总结(二百二十五)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言： 人生…

阅读更多...

MAC word 如何并列排列两张图片

MAC word 如何并列排列两张图片

系统：MAC os 参考博客 https://baijiahao.baidu.com/s?id1700824516945958911&wfrspider&forpc 步骤1 新建一个word文档和表格修改表格属性去掉自动重调尺寸以适应内容插入图片在表格的位置插入对应的图片如下去除边框最终结果如下

阅读更多...

十大排序算法的实现（C/C++）

十大排序算法的实现（C/C++）

以下是十大经典排序算法的简单 C 实现： 冒泡排序（Bubble Sort）： 思想：重复地遍历要排序的列表，比较相邻的两个元素，如果它们的顺序错误就交换它们。时间复杂度：最坏情况和平均情况…

阅读更多...

CentOS安装kafka单机部署

CentOS安装kafka单机部署

一：保证机器上已经运行的有Java环境服务器：centos7 kafka版本：3.5.1 二：下载kafka压缩包下载地址 1.解压kafka压缩包 tar -zxvf kafka_2.13-3.5.1.tgz 2.我得是上传到了 /home目录下，配置文件server.propertie…

阅读更多...

UE5 ChaosVehicles载具研究

UE5 ChaosVehicles载具研究

一、基本组成载具Actor类名称：WheeledVehiclePawn Actor最原始的结构官方增加了两个摇臂相机，可以像驾驶游戏那样切换多机位、旋转观察选择骨骼网格体、动画蓝图类、开启物理模拟二、SportsCar_Pawn 角阻尼：物体旋转的阻力。数值越大…

阅读更多...

云原生技术盛会KubeCon即将召开！亚马逊云科技作为钻石赞助商参会

云原生技术盛会KubeCon即将召开！亚马逊云科技作为钻石赞助商参会

KubeCon2023将于9月26-28日在上海跨国采购会展中心隆重召开。作为云原生领域最负盛名的技术大会之一，KubeConCloudNativeCon是连接全球开发者与云原生社区的最佳平台，此次还新增Open Source Summit环节，吸引了全球顶尖的云原生专家们汇聚其中…

阅读更多...

ArrayBlockingQueue

ArrayBlockingQueue

ArrayBlockingQueue 是一个并发队列实现，它基于数组的数据结构，提供了线程安全的队列操作。这个队列的容量是固定的，一旦达到容量上限，后续的插入操作将会被阻塞，直到有其他线程从队列中移除元素为止。以下是对 ArrayBlockingQueue 的详细解释：容量限制：ArrayBlocking…

阅读更多...

腾讯mini项目-【指标监控服务重构-会议记录】2023-08-04

腾讯mini项目-【指标监控服务重构-会议记录】2023-08-04

组长会议记录 A组调研 traefik 命名，大驼峰 Grafana metric 的配置还存在有些问题，待解决完成了 trace 的上报待办： entry.go : fiber log 重复【完成】event.go : traceparent 变量，线程隔离，多线程并发问题…

阅读更多...

数据链路层协议

数据链路层协议

文章目录数据链路层协议0. 数据链路层解决的问题1. 以太网协议(1) 认识以太网(2) 以太网帧格式<1> 两个核心问题 (3) 认识MAC地址(4) 局域网通信原理(5) MTU<1> 认识MTU<2> MTU对IP协议的影响<3> MTU对UDP协议的影响<4> MTU对TCP协议的影响<…

阅读更多...

Python开发与应用实验2 | Python基础语法应用

Python开发与应用实验2 | Python基础语法应用

*本文是博主对学校专业课Python各种实验的再整理与详解，除了代码部分和解析部分，一些题目还增加了拓展部分（⭐）。拓展部分不是实验报告中原有的内容，而是博主本人自己的补充，以方便大家额外学习、参考。 &a…

阅读更多...

Oracle判断函数

Oracle判断函数

CASE WHEN 语法： CASE WHEN 条件1 THEN 返回值1WHEN 条件2 THEN 返回值2ELSE 默认值END -- 对 EMP 的 DEPTNO 字段进行判断,显示出对应的部门名称 SELECT E.*, CASE WHEN E.DEPTNO10 THEN ACCOUNTINGWHEN E.DEPTNO20 THEN RESEARCHWHEN E.DEPTNO30 THEN SALES…

阅读更多...

安装Python3.x--Windows

安装Python3.x--Windows

1 下载安装包确定安装是干什么，要下哪个版本（如果是配置项目环境，最好按项目需求的版本来装） 1.1 官网链接 https://www.python.org 最新版本指定版本 2 安装说明点击下载exe，运行自定义安装路径，下…

阅读更多...

什么是泛型？

什么是泛型？

泛型（Generics）是一种编程语言特性，它允许在编写代码时使用未指定具体类型的变量、参数或返回值。泛型的作用是增加代码的灵活性和重用性，并提高代码的类型安全性。泛型可以应用于各种数据结构和算法中，例如集合类&a…

阅读更多...

TS编译选项——不允许使用隐式any类型、不明确类型的this、严格检查空值、编译后文件自动设置严格模式

TS编译选项——不允许使用隐式any类型、不明确类型的this、严格检查空值、编译后文件自动设置严格模式

一、不允许使用隐式any类型在tsconfig.js文件中配置noImplicitAny属性 {"compilerOptions": {// 不允许使用隐式any类型"noImplicitAny": true} } 开启后即可禁止使用隐式的any类型注意：显式的any类型并不会被禁止二、不允许使用不明确类…

阅读更多...

最新文章