【论文阅读】AttnDreamBooth | 面向文本对齐的个性化图片生成

文章目录

  • 1 动机
  • 2 方法
  • 3 实验

1 动机

使用灵活的文本控制可以实现一些特定的概念的注入从而实现个性化的图片生成。

最经典的比如一些好玩的动漫人物的概念,SD大模型本身是不知道这些概念的,但是通过概念注入是可以实现的从而生成对应的动漫人物

两个主要的传统的实现方式

(1) Textual Inversion:容易出现过拟合概念的情况(即只看到概念,而忽视其他的prompt) 对于text embedding做注入

(2)DreamBooth:容易忽视概念(即可以看到其他prompt,不能看到概念)对于原本的扩散模型做微调

作者归因为概念嵌入对齐的错误学习,因而提出了AttnDreamBooth去解决上述的问题

2 方法

提出了AttnDreamBooth

(1)通过分别学习嵌入对齐、注意力图和不同训练阶段的主题身份来解决这些问题

(2)作者还引入了一个交叉注意力图正则化项来增强注意力图的学习。

通过结合两种方式,一个即 Textual Inversion,另一个即DreamBooth

在这里插入图片描述

方法由三个训练阶段组成。

在第 1 阶段,优化了新概念的文本嵌入,使其嵌入与现有标记对齐。

在第 2 阶段,对交叉注意力层进行微调以细化注意力图。

在第 3 阶段,对整个 U-net 进行微调以捕获主题身份。引入了一个交叉注意力图正则化项来指导注意力图的学习。

3 实验

之后通过用户体验问卷

复杂概念评估

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/28488.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

创建阿里云的免费镜像仓库

1、登录 阿里云 首先进入阿里云的官网,如果没有注册的需要先注册,这里就不过多的讲解了。 2、搜索 登录完毕后点击右上角的控制台 进入管理页面。或者直接在搜索框中输入容器镜像服务 点击进入 这里我是已经开通过了,如果你还没有开通的…

SpringBoot 第一天

什么是Spring Boot 学习过spring,并且做过项目的估计都经历过,xml文件的繁杂配置,让人眼花缭乱,且极易出错,因此 Spring 一度被称为“配置地狱” 为了简化 Spring 应用的搭建和开发过程,Pivotal 团队在 S…

什么是git?

前言 Git 是一款免费、开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。是的,我对git的介绍就一条,想看简介的可以去百度一下😘😘😘 为什么要用git? OK,想象一下…

《C语言》文件操作

文章目录 一、认识文件1、文件的概念2、程序文件3、数据文件4、文件名 三、二进制文件和文本文件四、文件的打开和关闭1、流2、标准流3、文件指针4、文件的关闭和打开 四、文件的顺序读写文件的随机读写1、fseek2、ftell3、rewind4.int origin 一、认识文件 主要讨论数据文件 1…

Javaweb06-Jsp技术

Jsp技术 一.Jsp的运行原理 **概述:**JSP是Java服务器页面,既可以写静态页面代码,也可以写动态页面代码 **特点:**跨平台性,业务代码相分离,组件重用,预编译 运行原理: 客户端发生…

如何设计一个秒杀系统?

这篇分享源自之前购买的极客时间课程《如何设计一个秒杀系统》,以及书籍《亿级流量网站架构核心技术》。 这两个讲的都是关于高并发系统设计的,感觉收获颇多。 本篇内容对核心要点进行了摘录,也结合网上一些文章,希望能分享所得…

运算符及表达式+基本语句和函数使用的详细讲解

运算符及表达式 运算符及表达式 在C语言中,运算符是用于执行特定操作的符号,而表达式则是由运算符和操作数组成的式子。 1) 运算符 运算符的目数 单目运算符:只需要一个操作数,如 !(逻辑非)、&#xf…

简易开发一个app

即时设计网站 即时设计 - 可实时协作的专业 UI 设计工具 需要先设计好UI界面 上传到codefun 首次需要安装 自动生成代码 打开hb软件 新建项目 打开创建的项目 删除代码 复制代码过去 下载图片 将图片放到文件夹里 改为这种格式 index.vue 如果不需要uni-app导航栏可以修改 …

项目文件预览

在实际项目开发过程,项目使用数据存在多种形式,“文件”也是一种常见形式,因此,“文件预览”功能变成了常规需求。 kkFileView项目使用流行的spring boot搭建,易上手和部署。万能的文件预览开源项目,基本支…

以太网基础知识(二)—NRZ,PAM4调制技术

1:码元 了解调制技术需要引出“码元”的概念。 一个码元就是一个脉冲信号,即一个最小信号周期内的信号,我们都能够理解,最简单的电路,以高电平代表1,低电平代表0,一个代表1或者0的信号&#x…

分层解耦

三层架构 controller:控制层,接收前端发送的请求,对请求进行处理,并响应数据, service:业务逻辑层,处理具体的业务逻辑。 dao:数据访问层(Data Access Object)(持久层),负责数据访问操作,包括数…

讨论C++模板

讨论C模板 函数重载和泛型编程模板分类函数模板语法原理函数模板的实例化隐式实例化显示实例化 匹配原则 类模板语法类模板的实例化 C支持了函数重载,通过函数名相同,参数列表不同来构成函数重载,以达到方便程序员调用。但还是没有改变代码大…

KT-H6测距模块标品,测距范围1500m,demo报价1000RMB,批量报价500RMB

激光测距传感器是一种用于测量距离的模块,通常由传感器和相关电子设备组成,测距模块可以集成到各种设备和系统中,以实现准确的测距和定位功能。KT-H6系列激光测距模块,为自主研发,激光波长905nm的激光器,专为热成像、夜视仪、无人机、安防、瞄具等产品定身打造,其优点是…

基于Matlab停车场车牌识别计时计费管理系统 【W2】

简介 停车场车牌识别计时计费管理系统在现代城市管理中具有重要意义。随着城市化进程的加快和车辆数量的增加,传统的人工管理停车场的方式已经难以满足效率和精确度的要求。因此引入车牌识别技术的自动化管理系统成为一种趋势和解决方案。 背景意义 提升管理效率&a…

元数据、数据元、数据字典、数据模型及元模型的区别详解

在数据管理和分析领域,有许多相似的概念,如元数据、数据元、数据字典、数据模型和元模型。这些概念的定义和应用往往容易混淆。 数据元 数据元是通过一系列属性描述的数据单元,包括定义、标识、表示以及允许值等。这些属性帮助我们理解和使用…

【Java04】引用变量数组初始化的内存机制

引用类型数组指向的元素也是引用。其本质是: 由一个在栈上的引用数组变量指向一块堆内存;这块堆内存里存储的元素是引用,又分别指向其他堆内存。 class Person // Person是一个自定义的类 {public int age;puiblic double height;public vo…

Codeforces Round 953 (Div. 2)(A~D题解)

这次比赛是我最顺利的一次比赛,也是成功在中途打进前1500,写完第三道题的时候也是保持在1600左右,但是后面就啥都不会了,还吃了点罚时,虽说如此也算是看到进步了,D题学长说很简单,但是我当时分析…

爱了爱了,11款超良心App推荐!

AI视频生成:小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/今天,我们向你推荐十款与众不同但又不错的win10软件,它们都有各自的功能和优点,相信你一定会喜欢。 1.图片处…

Git/TortoiseGit ssh client 配置

1. Git ssh client 配置 Git 默认的 ssh client 是 <Git 安装目录>/usr/bin/ssh.exe 修改方法为打开 Git Bash 执行&#xff1a; git config --global core.sshCommand "/C/Program Files/TortoiseGit/bin/TortoiseGitPlink.exe" 注意&#xff1a;如果路径…

​单级高频谐振小放

目录 高频交流等效电路 质量指标 增益 通频带 选择性 高频交流等效电路 质量指标 增益 YL撇是怎么来的。 通频带 选择性