AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!

AIGC 007-E4T基于编码器的域调优用于文本到图像模型的快速个性化!


文章目录

    • 0 论文工作
    • 1 论文方法
    • 2 效果

0 论文工作

这篇论文提出了一种使用领域特定编码器来快速将文本到图像模型适配到新领域的方案。这种被称为基于编码器的领域微调 (E4T) 的方法,专注于微调一个轻量级编码器,将领域特定的文本提示投影到与预训练文本到图像模型更一致的空间中。通过利用预训练的文本到图像模型,EDT 避免了训练整个模型,从而显著减少了训练时间和资源消耗。
文本到图像个性化的目的是教一个预先训练过的扩散模型对用户提供的新颖概念进行推理,并将它们嵌入到自然语言提示引导下的新场景中。然而,目前的个性化方法面临着漫长的培训时间、高存储需求或身份丢失的问题。为了克服这些限制,论文提出了一种基于编码器的域调优方法。该方法的关键见解是,通过对来自给定领域的大量概念进行欠拟合,用以改进泛化,并创建一个更易于快速添加新概念的模型相同的域。具体来说,使用了两个组件:首先,一个编码器,它将来自给定域的目标概念的单一图像作为输入,一个特定的面孔,并学习将其映射到一个表示该概念的单词嵌入中。第二,一组针对文本到图像模型的规则化的权重偏移量,用来学习如何有效地摄取额外的概念。这些组件一起被用于指导对看不见的概念的学习,允许只使用一张图像和多达5个训练步骤来个性化一个模型——加速个性化化n从几十分钟到几秒,同时保持质量。
这个方法有点像一个lora加textual-inversion.严格来说这些方法都是需要用a100起步的显卡来微调。相比之下lora和controlnet显得更加友好,在3090系显卡上就能玩转。虽然作者说他们的速度快了,但是前提是依赖性能优越的显卡。
论文链接

1 论文方法

EDT 包含两个主要部分:
领域特定编码器: 这是一个轻量级的神经网络,经过训练将领域特定的文本提示投影到共享的嵌入空间中。编码器学习表示领域特定的词汇和概念,捕捉目标领域的独特特征。
冻结的文本到图像模型: 使用一个预训练的文本到图像模型(例如 Stable Diffusion),不做任何修改。编码器的输出被用作冻结模型的输入,允许模型根据领域特定编码的文本提示生成图像。
训练过程涉及微调领域特定编码器,以最小化编码的文本提示与冻结文本到图像模型中的对应潜在表示之间的差异。
在这里插入图片描述
该方法有效地适应了预先训练好的扩散模型(中间)来处理新的概念。训练了两个组件,一个单词嵌入编码器(左)和权重偏移量(右)。编码器的预测是扩散模型嵌入空间中的一种新代码,它最好地描述了输入概念。此外,优化学习的权重偏移,使文本到图像模型专门化到目标领域(例如,猫)。偏移量是学习到的常数,通过一个神经网络进行正则化。在培训期间,使用𝑥0=𝐼𝑐。其中𝑥𝑇是从高斯先验,𝑥𝑡不再是𝐼𝑐的一个嘈杂版本。
实现:
论文展示了 E4T 的实际实现,并展示了其在各种领域(包括特定艺术风格、物体类别和视觉效果)上的有效性。该实现使用基于 Transformer 的编码器,并通过对比学习目标进行训练。
优点:
快速个性化: 与传统微调方法相比,E4T 显著减少了训练时间,允许快速适应新领域。
资源高效: 通过冻结文本到图像模型,E4T 需要更少的计算资源和数据。
领域特定适应性: 领域特定编码器使模型能够捕捉目标领域的独特特征,从而实现更准确和相关的图像生成。
泛化性: 编码器可以应用于各种领域和图像生成任务。
缺点:
控制有限: 冻结的文本到图像模型限制了对生成过程的控制能力,只能捕捉到领域特定的词汇。

2 效果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/842492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】使用pip3安装pexpect,解决报错:the ssl module in Python is not available

pip3是python3的包管理工具,安装、卸载、更新等管理python包。 pexpect是其中一个python库,用于自动化与终端交互。 centos7使用pip3安装pexpect,报错: pip3 install pexpect 原因:使用python3解释器导入ssl库检查ss…

分布式事务解决方案(最终一致性【TCC解决方案】)

最终一致性分布式事务概述 强一致性分布式事务解决方案要求参与事务的各个节点的数据时刻保持一致,查询任意节点的数据都能得到最新的数据结果,这就导致在分布式场景,尤其是高并发场景下,系统的性能受到了影响。而最终一致性分布式…

第十七届全国大学生信息安全竞赛创新实践能力赛初赛部分复现

Misc 神秘文件 1.根据提示信息,均需要从ppt中提取信息 2.在ppt的属性中发现一串密文和key,解密之后得到第一部分,根据提示Bifid chipher,为双歧密码解密,使用Bifid Cipher Decode解码 3.在第五张幻灯片,…

【python】python商家会员数据分析可视化(源码+数据集+课程报告论文)

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

Midjourney应用场景、特点、生成图片带来影响

Midjourney是一个基于GPT-3.5系列接口开发的免费AI机器人,旨在提供多领域的智能对话服务。本文主要介绍Midjourney的应用场景、功能特点、图片生成后可以做什么? 一、Midjourney应用场景 Midjourney的应用场景相当广泛,以下是一些主要的适用…

单链表OJ题(课堂总结)

1.链表的带环问题 上图就是一个典型的带环链表 1.1如何判读链表是否带环? 最常见的方法就是利用快慢指针,快指针追加慢指针,当二者相等的时候即可判断链表带环 其实现的代码如下: bool hasCycle(struct ListNode*head) { s…

nuxt2:自定义指令 / v-xxx / directives / 理解 / 使用方法 / DEMO

一、理解自定义指令 在 vue 中提供了一些对于页面和数据更为方便的输出&#xff0c;这些操作就叫做指令&#xff0c;以 v-xxx 表示&#xff0c;比如 html 页面中的属性 <div v-xxx ></div>。自定义指令很大程度提高了开发效率&#xff0c;提高了工程化水平&#x…

通过键值对访问字典

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 在Python中&#xff0c;如果想将字典的内容输出也比较简单&#xff0c;可以直接使用print()函数。例如&#xff0c;要想打印dictionary字典&#xff…

【ARMv8/v9 异常模型入门及渐进 10 -- WFI 与 WFE 使用详细介绍 1】

请阅读【ARMv8/v9 ARM64 System Exception】 文章目录 WFI 与 WFE等待事件&#xff08;WFE&#xff09;发送事件&#xff08;SEV&#xff09;本地发送事件&#xff08;SEVL&#xff09;WFE 唤醒事件 WFE 使用场景举例与代码实现wfe睡眠函数sev 事件唤醒函数全局监视器和自旋锁 …

【Text2SQL 论文】IncSQL:通过增量式生成 action 序列来得到 SQL

论文&#xff1a;IncSQL: Training Incremental Text-to-SQL Parsers with Non-Deterministic Oracles ⭐⭐⭐ ICLR 2019&#xff0c;arXiv:1809.05054, Microsoft Research 一、论文速读 本文提出了 IncSQL&#xff0c;一个使用 Non-Deterministic Oracles 思路的增量式 Text…

[[nodiscard]]--c++17

作用 用于标记某个函数或者类的成员函数的返回值需要处理。 被标记的函数和类的函数被调用&#xff0c;但是返回值没有接收的时候&#xff0c;编译器会warning. 标记函数 #include <iostream>[[nodiscard]] int square(int x) {return x * x; }int main() {// 注意&am…

C++青少年简明教程:switch语句

C青少年简明教程&#xff1a;switch语句 在C中&#xff0c;switch语句用于基于一个表达式的值来执行不同的代码块。这个表达式通常是一个整数类型&#xff08;如int&#xff0c;char&#xff0c;或枚举类型&#xff09;&#xff0c;并且case标签必须是整数常量表达式。 语法格…

香橙派Kunpeng Pro测评:他给的实在太多了

文章目录 一、开箱环节1、包装配置2、开发板包装3、开发板3.1、开发版正面3.2、开发板背面 二、硬件配置1、硬件配置清单 2、配置图解 三、开机~启动&#xff01;1、运行系统1.1、外设配置1.2、系统启动1.3、官方教程 2、openEuler系统概览 四、系统测试1、性能测试1.1、安装sy…

漫步者x1穷鬼耳机双耳断连

困扰了我两天&#xff0c;终于有时间解决这个问题了&#xff0c;查看了一堆都是别的型号。怎么没人用这个啥按键都没有的耳机QAQ&#xff0c;幸好给我找到了说明书&#xff0c;啊哈哈&#xff01; 说明书地址

堆结构知识点复习——玩转堆结构

前言:堆算是一种相对简单的数据结构&#xff0c; 本篇文章将详细的讲解堆中的知识点&#xff0c; 包括那些我们第一次学习堆的时候容易忽略的内容&#xff0c; 本篇文章会作为重点详细提到。 本篇内容适合已经学完C语言数组和函数部分的友友们观看。 目录 什么是堆 建堆算法…

电脑找不到opencl.dll原因分析及5种详细的解决方法

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“找不到opencl.dll”。这通常意味着计算机中缺少或损坏了与OpenCL&#xff08;开放计算语言&#xff09;相关的动态链接库文件。OpenCL允许应用程序利用图形处理器&#xff08;GPU&#xff…

【问题记录】QT“类型强制转换“:无法从“ATL::CString“转换为“LPCWSTR“

一&#xff0c;问题现象 环境&#xff1a;VS2019QT 报错提示&#xff1a;“类型强制转换”&#xff1a;无法从"ATL::CString"转换为"LPCWSTR" 二&#xff0c;解决方法 打开项目属性&#xff0c;设置字符集&#xff0c;如下所示&#xff1a;

BFS解决最短路问题(详解)

目录 BFS简介 && 框架&#xff1a; 一.二叉树的最小深度 二&#xff1a;迷宫中里入口最近的出口&#xff1a; 三.最小基因变化: 四&#xff1a;单词接龙&#xff1a; ​五&#xff1a;为高尔夫比赛砍树&#xff1a; BFS简介 && 框架&#xff1a; 说到BFS…

动态规划-卡特兰数

不同的二叉搜索树&#xff08;96&#xff09; 题目描述: 状态表示: 建立一维数组dp&#xff0c;使用dp[i]来表示i个节点时有的二叉搜索树种类。 状态转移方程: 因为dp[i]表示有i个节点&#xff0c;我们设置一个循环&#xff0c;循环下标为j&#xff0c;此时j代表第几个节点为…

STM32Cube系列教程10:STM32CubeIDE工程创建+串口DMA+IDLE+printf重定向+软中断处理串口数据+非阻塞延时任务

文章目录 工程配置配置时钟配置Debug接口配置串口外设配置时钟树生成代码 配置串口重定向printf配置串口&#xff0c;开启IDLE&#xff0c;开启软中断 配置非阻塞延时任务调度函数编写任务调度函数延时任务创建 编译&#xff0c;下载与测试编译下载测试 前两天收到了ST社区的NU…