优于InstantID!中山大学提出ConsistentID:可以仅使用单个图像根据文本提示生成不同的个性化ID图像

给定一些输入ID的图像,ConsistentID可以仅使用单个图像根据文本提示生成不同的个性化ID图像。效果看起来也是非常不错。

相关链接

Code:https://github.com/JackAILab/ConsistentID

Paper:https://ssugarwh.github.io/consistentid.github.io/arXiv.pdf

Demo:https://huggingface.co/spaces/JackAILab/ConsistentID/

论文阅读

ConsistentID:具有多模式细粒度身份保护的肖像生成

摘要

基于扩散的技术已经取得了重大进展,特别是在个性化和定制的设施生成方面。然而,现有方法在实现高保真和详细身份(ID)一致性方面面临挑战,这主要是由于对面部区域的细粒度控制不足,以及缺乏通过充分考虑错综复杂的面部细节和整体面部来保存ID的全面策略。

为了解决这些限制,我们引入了ConsistentID,这是一种创新的方法,专门用于在细粒度多模式面部提示下生成不同身份的人像,仅使用单个参考图像。ConsistentID由两个关键组件组成:一个多模式面部提示生成器,它将面部特征、相应的面部描述和整体面部上下文结合起来,以提高面部细节的准确性;一个通过面部注意力定位策略优化的ID保留网络,旨在保留面部区域的ID一致性。这些组件通过引入面部区域的细粒度多模态ID信息,显著提高了ID保存的准确性。

为了促进ConsistentID的训练,我们提供了一个细粒度的人像数据集FGID,其中包含超过500,000张面部图像,提供了比现有公共面部数据集更大的多样性和全面性。%如里昂脸、CelebA、FFHQ和SFHQ。实验结果证实,我们的ConsistentID在个性化面部生成方面实现了卓越的精度和多样性,超过了MyStyle数据集上的现有方法。此外,虽然ConsistentID引入了更多的多模态ID信息,但它在生成过程中保持了较快的推理速度。

方法

该框架包括两个关键模块:多模式面部身份生成器和有目的地制作的身份保留网络。

  • 多模态面部提示生成器由两个基本组件组成:一个细粒度的多模态特征提取器,专注于捕获详细的面部信息;一个面部ID特征提取器,专门用于学习面部ID特征。

  • 另一方面,身份保留网络利用面部文本和视觉提示,通过面部注意力定位策略防止来自不同面部区域的身份信息混合。这种方法确保了面部区域中ID一致性的保持。

实验

ConsistentID改变角色年龄属性的应用案例。

我们的模型与其他模型在两个特殊任务上的定性比较:风格化和动作指导。

与更多基于微调的模型的比较。

重新语境化环境中的可视化。这些例子展示了ConsistentID的高身份保真度和文本编辑能力。

消融实验

不同合并步骤下的可视化结果。合并步骤指示何时开始向文本提示添加面部图像特征。

结论

在这项工作中,我们介绍了ConsistentID,这是一种创新的方法,旨在保持身份一致性并捕捉不同的面部细节。我们已经开发两个新颖的模块:多模式面部提示生成器和身份保存网络。前者致力于通过在面部区域级别结合视觉和文本描述来生成多模式面部提醒。后者旨在通过面部注意力定位策略确保每个面部区域的ID一致性,防止ID信息混合不同的面部区域。

通过利用多模式细粒度提示,我们的方法仅使用单个面部图像就实现了显著的身份一致性和面部真实感。此外,我们还介绍了FGID数据集,这是一个全面的数据集,包含细粒度的身份信息和详细的面部描述,对训练ConsistentID模型至关重要。实验结果在个性化面部生成方面表现出卓越的准确性和多样性,超过了MyStyle数据集上的现有方法。

限制

在我们的方法中使用MLLM可能会引入一些限制,这些限制可能会影响模型性能的特定方面。约束条件有限的姿势和表情可能会限制我们方法的多样性, 影响其处理面部变化的能力。这些限制强调深入讨论和探索的必要性,特别是在解决与GPT-4V的姿态、表达和整合相关的挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/14413.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机毕业设计 | springboot养老院管理系统 老人社区管理(附源码)

1,绪论 1.1 背景调研 养老院是集医疗、护理、康复、膳食、社工等服务服务于一体的综合行养老院,经过我们前期的调查,院方大部分工作采用手工操作方式,会带来工作效率过低,运营成本过大的问题。 院方可用合理的较少投入取得更好…

Python数据可视化(七)

绘制 3D 图形 到目前为止,我们一直在讨论有关 2D 图形的绘制方法和绘制技术。3D 图形也是数据可视化的 一个很重要的应用方面,我们接下来就重点讲解有关 3D 图形的实现方法。绘制 3D 图形通常需要导 入 mpl_toolkits 包中的 mplot3d 包的相关模块&#x…

【数据结构】哈夫曼树和哈夫曼编码

一、哈夫曼树 1.1 哈夫曼树的概念 给定一个序列,将序列中的所有元素作为叶子节点构建一棵二叉树,并使这棵树的带权路径长度最小,那么我们就得到了一棵哈夫曼树(又称最优二叉树) 接下来是名词解释: 权&a…

如何使用Suno:免费的AI歌曲生成器

文章目录 Suno AI 是什么?Suno AI 如何工作?选择Suno AI的理由:核心优势易于操作多样化创作灵活的定价策略版权保障技术突破 如何使用Suno AI创作歌曲?第1步:注册Suno AI账户第2步:输入提示词创建第 3 步&a…

作业-day-240522

思维导图 使用IO多路复用实现并发 select实现TCP服务器端 #include <myhead.h>#define SER_IP "192.168.125.112" #define SER_PORT 8888int main(int argc, const char *argv[]) {int sfdsocket(AF_INET,SOCK_STREAM,0);if(sfd -1){perror("socket er…

脆皮之“字符函数与字符串函数”宝典

hello&#xff0c;大家好呀&#xff0c;感觉我之前有偷偷摸鱼了&#xff0c;今天又开始学习啦。加油&#xff01;&#xff01;&#xff01; 文章目录 1. 字符分类函数2. 字符转换函数3. strlen的使用和模拟实现3.1 strlen 的使用3.1 strlen 的模拟1.计算器方法2.指针-指针的方…

每周刷题第三期

个人主页&#xff1a;星纭-CSDN博客 系列文章专栏&#xff1a;Python 踏上取经路&#xff0c;比抵达灵山更重要&#xff01;一起努力一起进步&#xff01; 目录 题目一&#xff1a;环形链表 题目二&#xff1a;删除有序数组中的重复项 题目三&#xff1a;有效的括号 题…

Python语法学习之 - 生成器表达式(Generator Expression)

第一次见这样的语法 本人之前一直是Java工程师&#xff0c;最近接触了一个Python项目&#xff0c;第一次看到如下的代码&#xff1a; i sum(letter in target_arr for letter in source_arr)这条语句是计算source 与 target 数组中有几个单词是相同的。 当我第一眼看到这样…

Varjo XR-4功能详解:由凝视驱动的XR自动对焦相机系统

Varjo是XR市场中拥有领先技术的虚拟现实设备供应商&#xff0c;其将可变焦距摄像机直通系统带入到虚拟和混合现实场景中。在本篇文章中&#xff0c;Varjo的技术工程师维尔蒂莫宁详细介绍了这项在Varjo XR-4焦点版中投入应用的技术。 对可变焦距光学系统的需求 目前所有其他XR头…

WPF之容器标签之Canvas布局标签

Canvas: 定义一个区域&#xff0c;可在其中使用相对于 Canvas 区域的坐标以显式方式来定位子元素。 实例 可以在子标签使用Canvas属性设置定位 <Canvas Width"500" Height"300"><StackPanel Width"100" Height"100"Backgro…

指数分布的理解,推导与应用

指数分布的定义 在浙大版的教材中&#xff0c;指数分布的定义如下&#xff1a; 若连续型的随机变量 X X X的概率密度为&#xff1a; f ( x ) { 1 θ e − x θ , x>0 0 , 其他 f(x) \begin{cases} \frac{1}{\theta} e^{-\frac{x}{\theta}}, & \text{x>0}\\ 0, &a…

Python正则表达式与Excel文件名批量匹配技术文章

目录 引言 正则表达式基础 Python中的re模块 Excel文件名批量匹配案例 常见问题与解决方案 结论 引言 在现代办公环境中&#xff0c;Excel文件几乎成为了数据分析和处理的标配工具。由于Excel文件可能包含大量的数据和信息&#xff0c;因此&#xff0c;对Excel文件的命名…

在aspNetCore中 使用System.Text.Json的定制功能, 将定制化的json返回给前端

C# 默认大写, 而大部分的前端默认小写, 这时候可以如此配置: builder.Services.AddControllers().AddJsonOptions((opt) > {opt.JsonSerializerOptions.PropertyNamingPolicy System.Text.Json.JsonNamingPolicy.CamelCase;opt.JsonSerializerOptions.WriteIndented true…

DSPF网络类型实验1

对R6配置 对R1配置 对R2 对R3 对R4 对R5 对R1R2R3R4R5加用户 环回处理 然后开始配置缺省 R1有两个下一跳 3&#xff0c;4&#xff0c;5同R2 然后对R1 dynamic动态 对R2 手写 把注册加上 register R3同R2处理

医学图像分割

论文&#xff1a;Medical Image Segmentation Using Deep Learning: A Survey 参考&#xff1a;[医学图像分割综述] Medical Image Segmentation Using Deep Learning: A Survey-CSDN博客 一、背景 特征表示的困难&#xff1a;模糊、噪声、对比度低--->CNN属于语义分割&a…

Web Server项目实战2-Linux上的五种IO模型

上一节内容的补充&#xff1a;I/O多路复用是同步的&#xff0c;只有调用某些API才是异步的 Unix/Linux上的五种IO模型 a.阻塞 blocking 调用者调用了某个函数&#xff0c;等待这个函数返回&#xff0c;期间什么也不做&#xff0c;不停地去检查这个函数有没有返回&#xff0c…

Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023 paper code preference based offline RL&#xff0c;基于HIM&#xff0c;不依靠额外学习奖励函数 Intro 本研究聚焦于离线偏好引导的强化学习&#xff08;Offline Preference-based Reinforcement Learning, PbRL&#xff09;&#xff0c;这是传统强化学习&#x…

轻量音乐网站程序源码,在线音乐免费听歌

这是一个高品质的音乐共享和流媒体平台&#xff0c;用户可以在这个网站上免费在线听歌。这个轻量级的音乐网站程序源码&#xff0c;是您创建自己的音乐流媒体网站的最佳选择&#xff01;它还支持制作插件&#xff0c;并且在更新后&#xff0c;您可以保留您的自定义设置。 下 载…

Python基于PyQt6制作GUI界面——多选框

QCheckBox 是 PyQt6 中的一个复选框控件&#xff0c;它允许用户通过单击来选择或取消选择某个选项。与 QRadioButton 不同&#xff0c;QCheckBox 控件并不互斥&#xff0c;这意味着用户可以同时选择多个 QCheckBox。示例对应的制作的 ui文件 界面如下所示。 <?xml version…