【论文简介】个性化真实人像生成方法(2024.01.15发布,即将开源)

在这里插入图片描述
零样本身份保留生成方法:声称效果好于PhotoMaker(即将开源)
2401.InstantID: Zero-shot Identity-Preserving Generation in Seconds :
项目主页:https://instantid.github.io/

一、简介

本文的主要内容是介绍了一种名为InstantID的零样本身份保留生成方法,它可以在只有一个面部图像的情况下生成保留身份细节的个性化图像。
这种方法通过引入一个轻量级的适配器模块和一个身份网络来实现强大的身份控制和面部细节保留。
实验结果表明,InstantID在保持原始模型的文本编辑能力的同时,能够有效地保留身份细节,具有出色的性能和效率。

官方展示效果

在这里插入图片描述

原图1 对论文作者进行风格化图片生成

在这里插入图片描述

主要方法

模型由三部分组成,以保持高面部保真度。
首先,我们采用人脸编码器(face encoder)而不是CLIP来提取语义人脸特征,并使用可训练的投影层(a trainable projection layer)将它们投影到文本特征的空间。我们将投影特征作为人脸嵌入(face embedding)。
然后,引入一个具有解耦交叉注意(decoupled cross-attention)的轻量级自适应模块(lightweight adaptive module)来支持图像作为提示(prompts)。
最后,我们提出了IdentityNet,用额外的弱空间控制对参考图像中的复杂特征进行编码。
在 IdentityNet 中,生成过程完全由人脸嵌入(face embedding)指导,没有任何文本信息。
只有新添加的模块被更新(训练),而预训练的文本到图像模型仍然被冻结以确保灵活性。
训练后,用户可以高保真地生成任何风格的id保留图像
在这里插入图片描述

原图5 和主流方法比较效果

从左到右分别是IP-Adapter-SDXL、IPAdapter-SDXL-FaceID (*表示实验版本)、IP-Adapter-SD1.5-FaceID、IP-Adapter-SD1.5-FaceID-Plus
对比发现依赖 CLIP embeddingIP-Adapter无法实现面部保真度(facial fidelity),也会导致提示控制的退化生成样式(degradation of prompt control to generate styles)。
IP-Adapter-FaceID 引入了人脸嵌入向量(face embedding),提高了人脸保真度,但仍然无法实现高保真度。
IPAdapter-FaceID-Plus结合了人脸和CLIP embeding,可以实现良好的人脸保真度,但存在风格退化问题,导致人脸无法融入背景风格。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/632406.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码训练营第36天|● 435. 无重叠区间 ● 763.划分字母区间 ● 56. 合并区间

文档讲解:代码随想录 (programmercarl.com) 视频讲解:代码随想录的个人空间-代码随想录个人主页-哔哩哔哩视频 (bilibili.com) LeetCode 435. 无重叠区间 题目链接:435. 无重叠区间 - 力扣(LeetCode) 代码如下&#…

【驱动】I2C驱动分析(二)-驱动框架

I2C驱动框架简介 I2C 驱动属于总线-设备-驱动模型的,与I2C总线设备驱动模型相比,大体框架是一样,系统的整体框架如下所示。 最上层是应用层,在应用层用户可以直接用open read write对设备进行操作,往下是设备驱动层&a…

多线程编程——线程的属性

以下内容源于C语言中文网的学习与整理,非原创,如有侵权请告知删除。 如果只是学习简单的多线程编程,本文内容可以暂时忽略。在利用pthread_create() 函数创建线程时,第二个参数设置为NULL即可。 一、引入 通过阅读前面章节&…

Jenkins的环境部署,(打包、发布、部署、自动化测试)

一、Tomcat环境安装 1.安装JDK(Java环境) JDK下载地址:Java Downloads | Oracle 安装好后在系统环境变量里配置环境变量: ①添加JAVA_HOME 变量名:JAVA_HOME变量值:C:\Program Files\Java\jdk1.8.0_18…

前端开发 2: CSS

在前端开发中,CSS(层叠样式表)是一种用于描述网页样式的语言。它控制着网页的布局、颜色、字体等外观效果。在本篇博客中,我将为你介绍 CSS 的基础知识和常用技巧,帮助你更好地掌握前端开发中的样式设计。 CSS 基础知…

CSS笔记II

CSS第二天笔记 复合选择器后代选择器子选择器并集选择器交集选择器伪类选择器 三大特性继承性层叠性优先级优先级-叠加计算规则 Emmet写法 背景属性背景图平铺方式位置缩放固定复合属性 显示模式转换显示模式 复合选择器 定义:由两个或多个基础选择器,通…

长虹智能电视C1100i、C1080i系列、3D51V50等 ZPM41AiJ机芯 刷机方法,及刷机数据

适用机芯:ZPM41AiJ 适用型号: 3D51C1100i、3D51C1080i、3D51V50 刷机方法: 1、将文件下载到电脑,解压后有3个文件,3个文件放到U盘的根目录。U盘必须使用FAT32格式; 2、将U盘接入电视的USB接口&#…

LeetCode19:删除链表的倒数第N个结点

力扣题目链接 思路:由于本题有可能删除头结点,为保证删除头结点和其他结点的操作一致,因此首先创建一个虚拟头结点dummy。 其次,本题需要删除倒数第N个结点,由于单链表只有next指针,因此需要找到倒数第N1…

力扣精选算法100题——找到字符串中所有字母异位词(滑动窗口专题)

本题链接👉找到字符串中所有字母异位词 第一步:了解题意 给定2个字符串s和p,找到s中所有p的变位词的字串,就是p是"abc",在s串中找到与p串相等的字串,可以位置不同,但是字母必须相同,比…

笨蛋学设计模式结构型模式-外观模式【10】

结构型模式-外观模式 7.4外观模式:arrow_up::arrow_up::arrow_up:7.4.1概念7.4.2场景7.4.3优势 / 劣势7.4.4外观模式可分为7.4.5外观模式7.4.6实战7.4.6.1题目描述7.4.6.2输入描述7.4.6.3输出描述7.4.6.4实战 7.4.7总结外观模式 7.4外观模式⬆️⬆️⬆️ 7.4.1概念 ​ 外观模…

橘子学K8S04之重新认识Docker容器

我们之前分别从 Linux Namespace 的隔离能力、Linux Cgroups 的限制能力,以及基于 rootfs 的文件系统三个角度来理解了一下关于容器的核心实现原理。 这里一定注意说的是Linux环境,因为Linux Docker (namespaces cgroups rootfs) ! Docker on Mac (bas…

JAVA开发工作笔记

Android开发 1、解决notifyDataSetChanged()刷新数据的时候,edittext的焦点就会自动消失 第一步:在adapter中复写此方法 Override public long getItemId(int position) { return position; }第二步:在创建Adapter的时候设置setHasStabl…

Mybatis面试题(一)

MyBatis 面试题 1、什么是 Mybatis? 1、Mybatis 是一个半 ORM(对象关系映射)框架,它内部封装了 JDBC,开发时只需要关注 SQL 语句本身,不需要花费精力去处理加载驱动、创建连接、创建statement 等繁杂的过程…

在PyCharm中创建Flask项目

在 PyCharm 中创建 Flask 项目的步骤如下: 打开 PyCharm,并选择 "Create New Project"(新建项目)。在弹出的窗口中,选择左侧的 "Python" 选项,然后选择右侧的 "Flask" 项目…

【开发实践】前端jQuery+gif图片实现载入界面

一、需求分析 载入界面(Loading screen)是指在计算机程序或电子游戏中,当用户启动应用程序或切换到新的场景时,显示在屏幕上的过渡界面。它的主要作用是向用户传达程序正在加载或准备就绪的信息,以及提供一种视觉上的反…

科技的成就(五十五)

519、Machine Learning "1959 年 7 月,塞缪尔首创 Machine Learning 一词。塞缪尔在“Some Studies in Machine Learning Using theGame of Checkers”一文中给 Machine Learning 下了个非正式定义:没有明确编程指令的情况下,能让计算机…

(C语言)冒泡排序

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>//实现buble_sort函数&#xff1b; void buble_sort(int arr[], int sz) {//初始化变量值&#xff1b;int i 0;//嵌套循环冒泡排序&#xff1b;//外层循环&…

VPS与母机

VPS技术是将一台服务器分割成多个虚拟专享服务器的优质服务。实现VPS的技术分为容器技术&#xff0c;和虚拟化技术。在容器或虚 拟机中&#xff0c;每个VPS都可选配独立公网IP地址、独立操作系统、实现不同VPS间磁盘空间、内存、CPU资源、进程和系统配置的 隔离&#xff0c;为用…

HBase学习三:集群部署

集群启停顺序:启动Hadoop—>启动HBase—>关闭HBase—>关闭Hadoop 1 环境准备 1.0 环境前期准备 参考基础环境配置 1.1 机器准备 hostnameipvm1ip1vm2ip2vm3ip31.2 机器分配 hdfs的集群搭建可以参考 hdfs集群搭建 hdfs集群机器分配 NameNodeDataNodeJournalNode…

基于SSM的在线宠物商城设计与实现

末尾获取源码 开发语言&#xff1a;Java Java开发工具&#xff1a;JDK1.8 后端框架&#xff1a;SSM 前端&#xff1a;Vue、HTML 数据库&#xff1a;MySQL5.7和Navicat管理工具结合 服务器&#xff1a;Tomcat8.5 开发软件&#xff1a;IDEA / Eclipse 是否Maven项目&#xff1a;是…