【AIGC-图片生成视频系列-4】DreamTuner:单张图像足以进行主题驱动生成

目录

一. 项目概述

问题:

解决:

二. 方法详解

a) 整体结构

b) 自主题注意力

三. 文本控制的动漫角色驱动图像生成的结果

四. 文本控制的自然图像驱动图像生成的结果

五. 姿势控制角色驱动图像生成的结果


2023年的最后一天,发个文记录下。马上就要迎来新的一年,在这里预祝各位读者新年新气象!

今天要介绍的是字节的DreamTuner: Single Image is Enough for Subject-Driven Generation,可以通过单张图像实现特定主题的驱动生成。

一. 项目概述

什么是主题驱动生成?使用一张或几张参考图像生成定制概念的个性化应用。

问题:

  1. 现有的基于微调的方法需要在主题学习和维护预训练模型的生成能力之间进行权衡,个人理解是模型特化和泛化的权衡。

  2. 基于附加图像编码器的其他方法往往由于编码压缩而丢失主题的一些重要细节。

解决:

文中提出了 DreamTurner,这是一种从粗到细注入定制主题的参考信息的新颖方法。

  1. 首先提出了一种用于粗略主题身份保留的主题编码器,其中在视觉文本交叉注意之前通过附加注意层引入压缩的一般主题特征。

  2. 然后,我们将预训练的文本到图像模型中的self-attention修改为self-subject-attention层,以细化目标主体的细节。值得强调的是,self-subject-attention是一种优雅、有效、免训练的方法,用于维护定制概念的详细特征,可以在推理过程中用作即插即用的解决方案。

  3. 最后,通过仅对单个图像进行额外的微调,DreamTurner 在由文本或姿势等其他条件控制的主题驱动图像生成方面取得了卓越的性能。

二. 方法详解

DreamTuner 作为一种基于微调和图像编码器的主题驱动图像生成的新颖框架,它保持从粗到细的主题身份。

DreamTuner由三个阶段组成:主题编码器预训练、主题驱动微调和主题驱动推理。

  1. 首先,训练主题编码器以进行粗略的身份保留。主题编码器是一种图像编码器,为生成模型提供压缩图像特征。冻结的 ControlNet 用于解耦内容和布局。

  2. 然后我们在参考图像和一些生成的常规图像上微调整个模型,如 DreamBooth 中一样。请注意,主题编码器和自主题注意力用于常规图像生成以细化常规数据。

  3. 在推理阶段,通过微调获得的主题编码器、自身主题注意力和主题词[S*]用于从粗到细地进行主题身份保留。预训练的 ControlNet 还可用于布局控制生成。

a) 整体结构

  1. 提出的主题编码器作为一种图像编码器,为主题驱动生成提供粗略参考。使用冻结的 CLIP 图像编码器来提取参考图像的压缩特征。使用显著对象检测(SOD)模型或分割模型来去除输入图像的背景并强调主题。

  2. 然后引入一些残差块(ResBlock)进行域移位。CLIP提取的多层特征在通道维度上cat操作,然后通过残差块调整到与生成特征相同的维度。使用附加的主题编码器注意(SEA)层将主题编码器的编码参考特征注入到文本到图像模型中。主题编码器注意层添加在视觉文本交叉注意之前,因为交叉注意层是控制生成图像的总体外观的模块。

  3. 根据与交叉注意力相同的设置构建主题编码器注意力,并将输出层初始化为零。附加系数β引入来调整主题编码器的影响。

  4. 此外,进一步引入ControlNet来帮助解耦内容和布局。具体来说,我们训练主题编码器和冻结深度 ControlNet。由于ControlNet提供了参考图像的布局,主题编码器可以更加关注主题内容

b) 自主题注意力

  1. 由于主题编码器为生成过程提供了特定主题的一般外观,因此进一步提出基于原始自注意力层的自主题注意力,以实现良好的主题身份保存。

  2. 将预训练的文本到图像 U-Net 模型提取的参考图像的特征注入到自注意力层中。

  3. 参考特征可以提供精细且详细的参考,因为它们与生成图像的特征共享相同的分辨率。具体来说,在每个时间步长通过扩散前向过程对参考图像进行噪声处理t。

  4. 然后从噪声参考图像中提取每个自注意力层之前的参考特征,这些特征与时间步长生成的图像特征共享相同的数据分布。

  5. 利用参考特征将原始的自注意力层修改为自主题注意力层。将生成图像的特征作为查询,并将生成图像特征和参考图像特征的进行cat操作作为键和值。

  6. 为了消除参考图像背景的影响,使用显著对象检测(SOD)模型创建前景掩模,其中使用0和1来指示背景和前景。

  7. 此外,掩模还可以通过权重策略来调整参考图像影响的大小,即掩模乘以调整系数, 起到注意偏差的作用,因此使用对数函数作为预处理。

将原来的分类器免引导方法也修改为:

图片

第一个方程强调参考图像的引导,第二个方程强调条件的引导,用概率控制选择第一个或者第二个的可能性。

三. 文本控制的动漫角色驱动图像生成的结果

结果显示了专注于动漫角色的文本控制的主题驱动图像生成的输出。

局部编辑结果(例如第一行的表达式编辑)和全局编辑结果(包括后续五行的场景和动作编辑),即使输入复杂的文本也能产生高度详细的图像。值得注意的是,图像准确地保留了参考图像的细节。

四. 文本控制的自然图像驱动图像生成的结果

该方法在 DreamBooth 数据集上进行评估,其中每个主题的一张图像用作参考图像。通过使用主题编码器和自我主题注意力,生成精确的参考。

这使得 DreamTuner 能够成功生成与文本输入一致的高保真图像,同时还保留关键的主题细节,包括但不限于、小狗头上的白色条纹、包上的徽标、罐头上的图案和文字。

图片

五. 姿势控制角色驱动图像生成的结果

该方法可以与 ControlNet 相结合,将其适用性扩展到各种条件,例如姿势。在下面的示例中,仅使用一张图像进行 DreamTuner 微调,并使用参考图像的姿态作为参考条件。为了保证帧间的一致性,参考图像和生成图像的前一帧都用于自我注意力,参考权重分别为10和1。 

欢迎加入AI杰克王的免费知识星球,海量干货等着你,一起探讨学习AIGC!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/589967.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Java影院影片管理系统

基于Java影院影片管理系统 功能需求 1、影片信息管理:系统能够添加、删除、修改和查询影片的信息,包括影片名称、导演、演员、类型、简介等。 2、座位管理:系统能够添加、删除、修改和查询影院的座位信息,包括座位号、座位类型…

迈向通用异常检测和理解:大规模视觉语言模型(GPT-4V)率先推出

PAPERCODEhttps://arxiv.org/pdf/2311.02782.pdfhttps://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection 图1 GPT-4V在多模态多任务异常检测中的综合评估 在这项研究中,我们在多模态异常检测的背景下对GPT-4V进行了全面评估。我们考虑了四种模式&#…

BikeDNA(二) OSM数据的内在分析1

BikeDNA(二) OSM数据的内在分析1 该笔记本分析给定区域的 OSM 自行车基础设施数据的质量。 质量评估是“内在的”,即仅基于一个输入数据集,而不使用外部信息。 对于将 OSM 数据与用户提供的参考数据集进行比较的外在质量评估&…

运维面试笔试题

目录 shell脚本 nginx 数据库mysql k8s(kubernetes) 安全与防护 网络TCP/IP shell脚本 1 通过正则表达式匹配文本

企业如何实现合理定岗定编?

文/华恒智信分析员 定岗定编是一项最为基础的人力资源管理工作。定岗是指明确企业所需要的岗位;定编是指明确企业需要多少适合企业发展的个人。在企业组织结构确定之后,紧接着的问题就是定岗定编。定岗定编涉及企业业务目标的落实、员工能力和数量的匹配…

mysql原理--optimizer trace表的神器功效

1.概述 设计 MySQL 的大叔提出了一个 optimizer trace 的功能,这个功能可以让我们方便的查看优化器生成执行计划的整个过程,这个功能的开启与关闭由系统变量 optimizer_trace 决定。 如果想打开这个功能,必须首先把 enabled 的值改为 on &am…

基于SpringBoot的二手手机商城系统的设计与实现

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于SpringBoot的二手手机商城系统的设计…

loTDB数据库常用SQL语句搜集 —— 筑梦之路

# 创建数据库CREATE DATABASE root.ln# 查看数据库SHOW DATABASES# 删除数据库DELETE DATABASE root.ln# 统计数据库数量COUNT DATABASES# 创建时间序列时间序列(Timeseries)是以时间为索引的数据点的集合,在IoTDB中时间序列指的是一个测点的…

力扣回溯算法-电话号码的字母组合

力扣第17题,电话号码的字母组合 题目 给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 .电话号码的字母组合 示例: 输入:“2…

lv14 注册字符设备 3

1 注册字符设备 1.1 结构体介绍 struct cdev {struct kobject kobj;//表示该类型实体是一种内核对象struct module *owner;//填THIS_MODULE,表示该字符设备从属于哪个内核模块const struct file_operations *ops;//指向空间存放着针对该设备的各种操作函数地址str…

2023-12-17 LeetCode每日一题(使用最小花费爬楼梯)

2023-12-17每日一题 一、题目编号 746. 使用最小花费爬楼梯二、题目链接 点击跳转到题目位置 三、题目描述 给你一个整数数组 cost ,其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用,即可选择向上爬一个或者两个台阶。 你…

宠物猫的饲养技术,可爱猫的秘密世界

一、教程描述 从来没有养过猫的朋友,在你猫咪来你家之前,最基本的准备工作需要做好,比如清洁消毒屋子,为猫咪准备好猫砂、猫砂盆、猫粮(不要去超市买猫粮),以及一个柔软的窝。满三个月的小猫要…

Linux 安装 mysql 【使用 tar.gz | tar.xz安装包-离线安装】

一、以tar.xz压缩包为安装源 网址:https://downloads.mysql.com/archives/community/ 二、解压压缩包 首先,将压缩包从windows传输到linux上 解压到/usr/local下,并且将解压的目录名称改为mysql tar -xvf /tmp/mysql-8.1.0-linux-glibc2.2…

【JVM】一文掌握JVM垃圾回收机制

作为Java程序员,除了业务逻辑以外,随着更深入的了解,都无法避免的会接触到JVM以及垃圾回收相关知识。JVM调优是一个听起来很可怕,实际上很简单的事。 感到可怕,是因为垃圾回收相关机制都在JVM的C++层实现,我们在Java开发中看不见摸不着;而实际很简单,是因为它说到底,也…

[密码学]ECC加密

椭圆曲线加密 Ellipse Curve Cryptography 椭圆曲线上的离散对数问题 Ellipse Curve Discrete logarithm Problem 椭圆曲线 注意积分公式的分母,椭圆曲线由此得名。这种曲线和椭圆一点不像。 离散对数: yg^x mod p,对于给定的g,x,p求y很容易&#…

操作系统期末复习

分段存储管理方式 某采用段式存储管理的系统为装入主存的一个作业建立了如下段表: 段号 段长 主存起始地址 0 660 210 1 140 3300 2 100 90 3 580 1237 4 960 1959 (1)计算该作业访问[0,432],[1&am…

P2249 【深基13.例1】查找

P2249 【深基13.例1】查找 P2249 【深基13.例1】查找 题意 输入n 个不超过10的9次方的单调不减的(就是后面的数字不小于前面的数字)非负整数a1,a2,a3…然后进行 m 次询问。对于每次询问,给出一个整数q,要…

python AI五子棋对战

我写过一篇c++五子棋 c++五子棋代码-CSDN博客 现在又写了python import copy import time from enum import IntEnum import pygame from pygame.locals import *time = time.strftime("%Y-%m-%d %H:%M:%S") version = str(time)# 基础参数设置 square_size = 40 …

我的运维认知

前言 对于从事IT领域的工程师而言,运维一词应该是时常听闻的。但对于运维的理解,未必每个人都有相同的认知。下面我将讲述我对运维的认知。 IT运维的内容、 IT运维在最早意义上是指将相关软件部署到某个硬件后,解决用户在使用软件过程中发…

什么是缓存、为什么要用缓存、缓存分类、缓存测试、缓存更新、缓存设计考虑点、缓存测试点

一、缓存 缓存是一种将数据存储在高速缓存中的技术,它可以提高应用程序的性能和响应速度。 二、 为什么要用缓存 1. 高性能(主要目的) 查询耗时,但变化少,又有很多读请求情况下,可以将查询结果放到缓存中。减少对数据库的压力&…