FLUX的ID保持项目也来了! 字节开源PuLID-FLUX-v0.9.0,开启一致性风格写真新纪元!

之前的文章已经和大家介绍过字节开源的ID保持项目PuLID。随着FLUX模型的发布,PuLID也开源了 FLUX 版本的模型,不得不说FLUX的强大,两个月生态就赶上了SDXL。这次新发布PuLID-FLUX-v0.9.0模型,它为FLUX.1-dev提供了无需调整的ID定制解决方案。

视觉结果

相关链接

项目介绍:https://github.com/ToTheBeginning/PuLID

ComfyUI链接:https://github.com/cubiq/PuLID_ComfyUI

huggingface演示:https://huggingface.co/spaces/yanze/PuLID-FLUX

实用技巧

有两个参数至关重要,需要仔细设置:

  1. timestep to start inserting ID:此参数控制ID插入的时间。如果设置为0,则从第一个时间步开始将ID插入DIT。插入得越早,ID的保真度就越高,但可编辑性可能会降低。插入得越晚,ID的保真度就越低,但可编辑性会增加,对原始模型行为的破坏也会更小。为了生成逼真的图像,我们建议将其设置为4。如果你发现ID相似度不够高,你可以尝试相应地降低此参数。为了生成风格化的图像,我们建议将其设置为0-1。

  1. true CFG scale:FLUX.1-dev 是一个指导性提取模型,将原有的需要两倍推理步骤的 CFG 流程提取为指导性尺度,从而通过指导性尺度调制 DIT,以一半的推理步骤模拟真实的 CFG 流程。在下文中我们将此称为 fake CFG。我们的 PuLID-FLUX 模型可以在 fake CFG 设置下进行测试,指导性尺度可以设置为常用值,例如 4。但是该模型也支持使用真实的 CFG 进行推理。我们在下面对比了在照片级真实场景中使用 true CFG 和 fake CFG 的结果。

如上图所示,在 ID 保真度方面,使用 fake CFG 在大多数情况下与 true CFG 相似,只是在少数情况下,true CFG 实现了更高的 ID 相似度。在图像美观度和面部自然度方面,fake CFG 表现更佳。但是,通过仔细调整超参数,真正的 CFG 的性能可能会进一步提高,我们留给社区去探索。因此,我们建议在照片级真实场景中使用假 CFG。如果您对 ID 保真度不满意,可以尝试切换到真正的 CFG。此外,如下所示,我们发现在风格化场景中使用假 CFG 有时会导致 ID 相似度较低和风格响应较差,因此在风格化场景中遇到这两个问题,可以切换到真正的 CFG。

一些技术细节

  • PuLID-FLUX-v0.9.0将ID编码器从MLP结构切换到Transformer结构。感兴趣的小伙伴户、可以参考源代码:源码链接

  • 受到Flamingo的启发,每隔几个 DIT 块插入额外的交叉注意力块,以将 ID 特征与 DIT 图像特征进行交互。

  • 加速方法(如 SDXL-Lightning)是一种可选的加速技巧,但它对于训练 PuLID 来说并非不可或缺。未来会更新 arxiv 论文的相关细节。请继续关注。

局限性

该模型目前处于测试版本,部分男性输入的身份保真度可能不高,也许模型需要更多训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/881157.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4S店4S店客户管理系统小程序(lw+演示+源码+运行)

社会的发展和科学技术的进步,互联网技术越来越受欢迎。手机也逐渐受到广大人民群众的喜爱,也逐渐进入了每个用户的使用。手机具有便利性,速度快,效率高,成本低等优点。 因此,构建符合自己要求的操作系统是非…

VirtulBOX Ubuntu22安装dpdk23.11

目录 依赖包安装 Python安装 numa安装 ​编辑Python pip3安装 ​编辑pyelftools安装 meson和ninja安装 ​编辑构建与编译 Meson构建DPDK ​编辑Ninja安装DPDK ​编辑VFIO-PCI驱动安装 大页内存和IOMMU配置 ​编辑VFIO-PCI加载 ​编辑VFIO-PCI驱动绑定 ​编辑dpdk…

Linux网络操作命令与函数全面总结

1. 引言 Linux作为服务器和开发平台,网络操作是其核心功能之一。本文旨在全面总结Linux系统中的网络操作方法,包括命令行工具和编程接口,帮助读者深入理解Linux网络管理的机制。 2. 命令行工具 2.1 ping 命令 ping 命令用于测试网络连接和…

【Linux】信号知识三把斧——信号的产生、保存和处理

目录​​​​​​​ 1、关于信号的前置知识 1.1.什么是信号? 1.2.为什么要学习信号? 1.3.如何学习信号? 1.4.一些常见的信号 1.5.信号的处理方式 1.6.为什么每一个进程都可以系统调用? 2.信号的产生 2.1.kill命令产生信号…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28目录前言1. Cognitive phantoms in LLMs through the lens of latent variables摘要研究背景问题与挑战创新点算法模型实验效果…

【C++】二叉搜索树+变身 = AVL树

🚀个人主页:小羊 🚀所属专栏:C 很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~ 目录 前言一、AVL树二、AVL树的实现2.1 平衡因子2.2 旋转处理2.2.1 左单旋:插入新节点后单纯的右边高2.2.2 …

html5 + css3(上)

目录 HTML初识基础认知web标准vscode的简介和使用注释 HTML标签学习排版标签标题和段落换行和水平线标签 文本格式化标签媒体标签图片标签图片-基本使用图片-属性 路径绝对路径相对路径 音频标签视频标签链接标签 HTML基础列表标签列表-无序和有序列表-自定义 表格标签表格-使用…

【包教包会】2D图片实现3D透视效果(支持3.x、支持原生、可合批)

将去年写的SpriteFlipper从2.x升级到3.x。 如果需要2.x版本或需要了解算法思路,请移步:https://blog.csdn.net/weixin_42714632/article/details/136745051 优化功能:可同时绕X轴和Y轴旋转,两者效果会叠加。 完美适配Web、原生…

数据结构与算法篇(图)(持续更新迭代)

目录 一、引言 二、基本概念 三、图的定义 四、图的基本概念和术语 1. 有向图 2. 无向图 3. 简单图 4. 多重图 5. 完全图(也称简单完全图) 6. 子图 7. 连通、连通图和连通分量 8. 强连通图、强连通分量 9. 生成树、生成森林 10. 顶点的度、…

使用WPF实现一个快速切换JDK版本的客户端工具

发现网上一键切换JDK环境的方法都是在mac或Linux下的,本人主力电脑是Windows,于是看了一下WPF的文档,自己开发了一个客户端。 直接上代码吧: using JavaSwitch.Properties; using Newtonsoft.Json; using System; using System.…

【C++11】新特性

前言: C11 是C编程语言的一个重要版本,于2011年发布。它带来了数量可观的变化,包含约 140 个新特性,以及对 C03 标准中约600个缺陷的修正,更像是从 C98/03 中孕育出的新语言 列表初始化 C11 中的列表初始化&#xff0…

爬虫案例——爬取情话网数据

需求: 1.爬取情话网站中表白里面的所有句子(表白词_表白的话_表白句子情话大全_情话网) 2.利用XPath来进行解析 3.使用面向对象形发请求——创建一个类 4.将爬取下来的数据保存在数据库中 写出对应解析语法 //div[class"box labelbo…

vite学习教程03、vite+vue2打包配置

文章目录 前言一、修改vite.config.js二、配置文件资源/路径提示三、测试打包参考文章资料获取 前言 博主介绍:✌目前全网粉丝3W,csdn博客专家、Java领域优质创作者,博客之星、阿里云平台优质作者、专注于Java后端技术领域。 涵盖技术内容&…

云手机可以解决TikTok运营的哪些问题?

随着社交媒体的飞速发展,TikTok迅速崛起,成为个人和企业进行品牌宣传和内容创作的首选平台。然而,在运营TikTok账号的过程中,不少用户会遇到各种问题。本文将详细阐述云手机如何帮助解决这些问题。 1. 多账号管理的高效便捷 通过云…

外包功能测试干了4年,技术退步太明显了。。。。。​

先说一下自己的情况,本科生,18年通过校招进入武汉某软件公司,干了差不多4年的功能测试,今年中秋,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…

精准选择大模型:消费品行业的营销与体验创新之路

在消费品行业,大模型技术的引入正逐渐从一个新兴趋势转变为行业标配。随着人工智能的快速发展,特别是OpenAI等领军企业推出的创新技术,如Sora,大模型在市场营销、消费者行为分析、个性化推荐等方面展现出巨大潜力。然而&#xff0…

详解Java中的BIO、NIO、AIO

1、 详解Java中的BIO、AIO、NIO 1.1、引言 IO流是Java中比较难理解的一个知识点,但是IO流在实际的开发场景中经常会使用到,比如Dubbo底层就是NIO进行通讯。本文将介绍Java发展过程中出现的三种IO:BIO、NIO以及AIO,重点介绍NIO。…

动态桌面时钟 让时间在桌面舞动 发现生活中的美好瞬间!

在快节奏的现代生活中,时间是最宝贵的资源之一。无论是在工作还是生活中,我们都需要时刻关注时间,在桌面显示一个时钟,可以让你更方便的掌握时间。今天小编给大家推荐一个软件《芝麻时钟》(下载地址:https:…

Linux高级编程_29_信号

文章目录 进程间通讯 - 信号信号完整的信号周期信号的编号信号的产生发送信号1 kill 函数(他杀)作用:语法:示例: 2 raise函数(自杀)作用:示例: 3 abort函数(自杀)作用:语法:示例: 4 …

汇编DEBUG程序调用

工具 系统:Windows 11 应用:DOSBox 0.74-3 下载安装教程:本人写的《DOSBox下载安装(Windows系统 DOSBox 0.74-3)》 https://blog.csdn.net/just_do_it_sq/article/details/142715182?spm1001.2014.3001.5501 相关文…