AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 效果

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法,专注于微调一个轻量级编码器,将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型,EDT 避免了训练整个模型,从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理,并将它们嵌入到自然语言提示引导下的新场景中。然而,目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制,论文提出了一种基于编码器的域调优方法。该方法的关键见解是,通过对来自给定领域的大量概念进行欠拟合,用以改进泛化,并创建一个更易于快速添加新概念的模型相同的域。具体来说,使用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单一图像作为输入,一个特定的面孔,并学习将其映射到一个表示该概念的单词嵌入中。第二,一组针对文本到图像模型的规则化的权重偏移量,用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习,允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒,同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好,在3090系显卡上就能玩转。虽然作者说他们的速度快了,但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分:
领域特定编码器: 这是一个轻量级的神经网络,经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念,捕捉目标领域的独特特征。
冻结的文本到图像模型: 使用一个预训练的文本到图像模型(例如 Stable Diffusion),不做任何修改。编码器的输出被用作冻结模型的输入,允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器,以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。
在这里插入图片描述
该方法有效地适应了预先训练好的扩散模型(中间)来处理新的概念。训练了两个组件,一个单词嵌入编码器(左)和权重偏移量(右)。编码器的预测是扩散模型嵌入空间中的一种新代码,它最好地描述了输入概念。此外,优化学习的权重偏移,使文本到图像模型专门化到目标领域(例如,猫)。偏移量是学习到的常数,通过一个神经网络进行正则化。在培训期间,使用𝑥0=𝐼𝑐。其中𝑥𝑇是从高斯先验,𝑥𝑡不再是𝐼𝑐的一个嘈杂版本。
实现:
论文展示了 E4T 的实际实现,并展示了其在各种领域(包括特定艺术风格、物体类别和视觉效果)上的有效性。该实现使用基于 Transformer 的编码器,并通过对比学习目标进行训练。
优点:
快速个性化: 与传统微调方法相比,E4T 显著减少了训练时间,允许快速适应新领域。
资源高效: 通过冻结文本到图像模型,E4T 需要更少的计算资源和数据。
领域特定适应性: 领域特定编码器使模型能够捕捉目标领域的独特特征,从而实现更准确和相关的图像生成。
泛化性: 编码器可以应用于各种领域和图像生成任务。
缺点:
控制有限: 冻结的文本到图像模型限制了对生成过程的控制能力,只能捕捉到领域特定的词汇。

2 效果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/842492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】使用pip3安装pexpect,解决报错:the ssl module in Python is not available

pip3是python3的包管理工具,安装、卸载、更新等管理python包。 pexpect是其中一个python库,用于自动化与终端交互。 centos7使用pip3安装pexpect,报错: pip3 install pexpect 原因:使用python3解释器导入ssl库检查ss…

常见的JavaScript设计模式(一)

常见的JavaScript设计模式 一、模块模式(Module Pattern)二、单例模式(SingIeton Pattern)三、工厂模式(Factory Pattern)四、观察者模式(Observer Pattern) 常见的JavaScript设计模式包括 模块模式、 在…

Sylar C++高性能服务器学习记录18 【Address模块-代码分析篇】

早在19年5月就在某站上看到sylar的视频了,一直认为这是一个非常不错的视频。 由于本人一直是自学编程,基础不扎实,也没有任何人的督促,没能坚持下去。 每每想起倍感惋惜,遂提笔再续前缘。 为了能更好的看懂sylar&…

分布式事务解决方案(最终一致性【TCC解决方案】)

最终一致性分布式事务概述 强一致性分布式事务解决方案要求参与事务的各个节点的数据时刻保持一致,查询任意节点的数据都能得到最新的数据结果,这就导致在分布式场景,尤其是高并发场景下,系统的性能受到了影响。而最终一致性分布式…

第十七届全国大学生信息安全竞赛创新实践能力赛初赛部分复现

Misc 神秘文件 1.根据提示信息,均需要从ppt中提取信息 2.在ppt的属性中发现一串密文和key,解密之后得到第一部分,根据提示Bifid chipher,为双歧密码解密,使用Bifid Cipher Decode解码 3.在第五张幻灯片,…

Kullback-Leibler (KL)散度

Kullback-Leibler (KL) 散度,又称为相对熵(Relative Entropy),是信息理论和统计学中的一个重要概念,用于衡量两个概率分布之间的差异。KL散度量化了一个概率分布与另一个概率分布之间的距离,通常用于比较一…

【python】python商家会员数据分析可视化(源码+数据集+课程报告论文)

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

Wireshark有哪些常用的过滤器?

Wireshark提供了强大的过滤功能,允许用户根据各种标准筛选和缩小捕获的数据包范围。以下是一些常用的Wireshark过滤器: 协议过滤器: tcp:仅显示TCP协议的数据包。udp:仅显示UDP协议的数据包。icmp:仅显示I…

Midjourney应用场景、特点、生成图片带来影响

Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人,旨在提供多领域的智能对话服务。本文主要介绍Midjourney的应用场景、功能特点、图片生成后可以做什么? 一、Midjourney应用场景 Midjourney的应用场景相当广泛,以下是一些主要的适用…

单链表OJ题(课堂总结)

1.链表的带环问题 上图就是一个典型的带环链表 1.1如何判读链表是否带环? 最常见的方法就是利用快慢指针,快指针追加慢指针,当二者相等的时候即可判断链表带环 其实现的代码如下: bool hasCycle(struct ListNode*head) { s…

nuxt2:自定义指令 / v-xxx / directives / 理解 / 使用方法 / DEMO

一、理解自定义指令 在 vue 中提供了一些对于页面和数据更为方便的输出&#xff0c;这些操作就叫做指令&#xff0c;以 v-xxx 表示&#xff0c;比如 html 页面中的属性 <div v-xxx ></div>。自定义指令很大程度提高了开发效率&#xff0c;提高了工程化水平&#x…

通过键值对访问字典

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中&#xff0c;如果想将字典的内容输出也比较简单&#xff0c;可以直接使用print()函数。例如&#xff0c;要想打印dictionary字典&#xff…

【AI】DeepStream(07):deepstream-app-示例演示

【AI】AI学习目录汇总 1、简介 deepstream-test1:演示各种 DeepStream 插件构建 GStreamer 管道。从文件中获取视频、解码、批处理,然后进行对象检测,最后在屏幕上渲染框。 deepstream-test2:和deepstream-test1相比,多了目标跟踪和分类,对目标跟踪并使用数字做编号,并…

【ARMv8/v9 异常模型入门及渐进 10 -- WFI 与 WFE 使用详细介绍 1】

请阅读【ARMv8/v9 ARM64 System Exception】 文章目录 WFI 与 WFE等待事件&#xff08;WFE&#xff09;发送事件&#xff08;SEV&#xff09;本地发送事件&#xff08;SEVL&#xff09;WFE 唤醒事件 WFE 使用场景举例与代码实现wfe睡眠函数sev 事件唤醒函数全局监视器和自旋锁 …

【Text2SQL 论文】IncSQL:通过增量式生成 action 序列来得到 SQL

论文&#xff1a;IncSQL: Training Incremental Text-to-SQL Parsers with Non-Deterministic Oracles ⭐⭐⭐ ICLR 2019&#xff0c;arXiv:1809.05054, Microsoft Research 一、论文速读 本文提出了 IncSQL&#xff0c;一个使用 Non-Deterministic Oracles 思路的增量式 Text…

[[nodiscard]]--c++17

作用 用于标记某个函数或者类的成员函数的返回值需要处理。 被标记的函数和类的函数被调用&#xff0c;但是返回值没有接收的时候&#xff0c;编译器会warning. 标记函数 #include <iostream>[[nodiscard]] int square(int x) {return x * x; }int main() {// 注意&am…

C++青少年简明教程:switch语句

C青少年简明教程&#xff1a;switch语句 在C中&#xff0c;switch语句用于基于一个表达式的值来执行不同的代码块。这个表达式通常是一个整数类型&#xff08;如int&#xff0c;char&#xff0c;或枚举类型&#xff09;&#xff0c;并且case标签必须是整数常量表达式。 语法格…

香橙派Kunpeng Pro测评:他给的实在太多了

文章目录 一、开箱环节1、包装配置2、开发板包装3、开发板3.1、开发版正面3.2、开发板背面 二、硬件配置1、硬件配置清单 2、配置图解 三、开机~启动&#xff01;1、运行系统1.1、外设配置1.2、系统启动1.3、官方教程 2、openEuler系统概览 四、系统测试1、性能测试1.1、安装sy…

【附代码案例】深入理解 PyTorch 张量:叶子张量与非叶子张量

在 PyTorch 中&#xff0c;张量是构建神经网络模型的基本元素。了解张量的属性和行为对于深入理解模型的运行机制至关重要。本文将介绍 PyTorch 中的两种重要张量类型&#xff1a;叶子张量和非叶子张量&#xff0c;并探讨它们在反向传播过程中的行为差异。 叶子张量与非叶子张…

【CV】视频图像背景分割MOG2,KNN,GMG

当涉及背景分割器&#xff08;Background Subtractor&#xff09;时&#xff0c;Mixture of Gaussians&#xff08;MOG2&#xff09;、K-Nearest Neighbors&#xff08;KNN&#xff09;和Geometric Multigid&#xff08;GMG&#xff09;是常用的算法。它们都用于从视频流中提取…