【AIGC大模型】InstantID 赏析

  • 论文地址:https://arxiv.org/abs/2401.07519

  • InstantID 主页:https://instantid.github.io/

  • Demo :https://huggingface.co/spaces/InstantX/InstantID

  • code: InstantID/InstantID: InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥 (github.com)

来自小红书的团队 最近开源了InstantID项目。

InstantID 凭借着高质量的图像生成能力在 GitHub 热榜上迅速飙升,成为焦点。

这个出片神器,让用户只需上传一张照片,就能轻松定制出多种风格的 AI 写真。

使用 Textual Inversion、DreamBooth 和 LoRA 等方法进行个性化图像合成取得了重大进展。然而,它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。 相反,现有的基于 ID 嵌入的方法虽然只需要一次前向推理,但面临着挑战:它们要么需要对众多模型参数进行广泛的微调,要么缺乏与社区预训练模型的兼容性,要么无法保持高面部保真度。 为了解决这些局限性,他们引入了 InstantID,这是一种强大的基于扩散模型的解决方案。他们的即插即用模块仅使用单个面部图像即可熟练地处理各种样式的图像个性化,同时确保高保真度。 为了实现这一点,我们设计了一种新颖的IdentityNet,通过施加强语义和弱空间条件,将面部和地标图像与文本提示相结合,以引导图像生成。InstantID 展现了卓越的性能和效率,在身份保护至关重要的实际应用中被证明是非常有益的。此外,我们的工作与流行的预训练文本到图像扩散模型(如 SD1.5 和 SDXL)无缝集成,作为一个适应性强的插件。我们的代码和预先训练的检查点将在此 URL 上提供。

方法:

InstantID 仅提供一张参考 ID 图像,旨在从单个参考 ID 图像生成具有各种姿势或样式的自定义图像,同时确保高保真度。 下图概述了他们的方法。它包含三个关键组件:(1)捕获强大的语义人脸信息的ID嵌入;(2)具有解耦交叉注意力的轻量级适配模块,便于使用图像作为视觉提示;(3) 一个 IdentityNet,它通过额外的空间控制对参考面部图像中的详细特征进行编码

他们在以下几个方面与以往工作不同:(1)不训练UNet,因此可以保留原始文本到图像模型的生成能力,并与社区中现有的预训练模型和ControlNets兼容;(2)不需要测试时调优,所以对于一个特定的角色,不需要收集多张图片进行微调,只需要对一张图片进行一次推断;(3)实现了更好的人脸保真度,并保留了文本的可编辑性。

演示了 InstantID 的健壮性、可编辑性和兼容性。第 1 列显示“仅图像”结果的结果,其中提示在推理期间设置为空。第 2-4 列通过文本提示显示可编辑性。第 5-9 列显示了与现有 ControlNet 的兼容性(精明和深度)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/710246.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机组成原理-第一/二章 概述和数据的表示和运算【期末复习|考研复习】

文章目录 前言第一章 计算机组成原理 概述及各种码1.1 计算机硬件的基本组成1.1.1 存储器1.1.2 运算器1.1.3 控制器 1.2 计算机的工作过程1.3 计算机的性能指标1.4 各个字长区别与联系 第二章 数据的表示与运算2.1 ASCII码2.2 各种码2.3 浮点数 总结 前言 给大家整理了一下计算…

网络安全与代理技术:解密 SOCKS5、代理IP 和 HTTP

在当今数字化的世界中,网络安全问题备受关注。作为网络安全的重要组成部分,代理技术在保护个人隐私和网络安全方面发挥着关键作用。本文将以教授的身份,简明扼要地介绍 SOCKS5 代理、代理IP、HTTP 代理等关键词,帮助读者了解这些技…

雅特力AT32L021首款低功耗MCU震撼登场

雅特力于2月28日正式发布AT32L021首款入门级低功耗MCU,搭配不同容量Flash、SRAM,提供7种封装类型共21个型号选择,最小封装面积仅3x3mm。为降低能耗,延长设备运作时间,AT32L021系列支持多种能耗模式和休眠模式&#xff…

spark中dataframe起别名对join过程的影响

toDF().as("a").join(df2,Seq("seq1"),"right") .filter($"a.seq1".isNotNull)toDF().as("a").join(df2,Seq("seq1"),"right") .filter($"seq1".isNotNull)今天之前我认为这里不应该用别名&a…

2.29文件IO-进程 作业

1.要求将当前路径下&#xff0c;所有文件的权限及最后一次的访问时间提取出来&#xff0c;写入到file.txt中! !提示: opendir readir stat-->提取出来的数据写入到file.xt中 #include <stdio.h> #include <sys/types.h> #include <dirent.h> #include &l…

详解kubernetes中的Pod生命周期

目录 1.1 Pod生命周期概述 1.2 创建和终止 1.2.1 Pod的创建过程 1.2.2 Pod的终止过程 1.3 初始化容器 1.3.1 案例 1.4 容器探测 1.4.1 Exec示例 1.5 重启策略 1.1 Pod生命周期概述 Pod中的生命周期主要包含以下过程&#xff1a; pod创建过程 运行初始化容器&#xff…

Mysql Day07

存储过程 -- 存储过程基本语法 -- 创建 create procedure p1() begin select count(*) from student; end; -- 调用 call p1(); -- 查看 select * from information_schema.ROUTINES where ROUTINE_SCHEMA itcast; show create procedure p1; -- 删除 drop procedure if exis…

weak 的实现原理

iOS 在运行时维护着一个全局的弱引用表&#xff0c;该表是一个 hash 表&#xff0c;hash表的 key 是 weak 对象的地址&#xff0c;value 是指向该对象的所有 weak 指针的地址数组。 /**全局的弱引用表&#xff0c;本质是一个hash结构&#xff0c;object作为key, weak_entry_…

npm 设置取消代理

npm 设置淘宝镜像源&#xff1a;npm install -g cnpm --registryhttps://registry.npm.taobao.org npm 查看当前配置信息 npm config listnpm 设置代理 npm config set proxy 127.0.0.1:7890 npm config set https-proxy 127.0.0.1:7890删除代理信息 npm config delete pro…

TCP/UDP模型:2024/2/29

作业1&#xff1a;TCP模型 服务器端&#xff1a; #include <myhead.h> #define SER_IP "192.168.199.129" #define SER_PORT 8899int main(int argc, const char *argv[]) {//1.创建用于连接的套接字文件int sfdsocket(AF_INET,SOCK_STREAM,0);if(sfd-1){per…

【蓝桥杯】赢球票(模拟、枚举、搜索)

一.题目描述 某机构举办球票大奖赛。获奖选手有机会赢得若干张球票。 主持人拿出 N 张卡片&#xff08;上面写着 1~N 的数字&#xff09;&#xff0c;打乱顺序&#xff0c;排成一个圆圈。你可以从任意一张 卡片开始顺时针数数: 1,2,3..... 如果数到的数字刚好和卡片上的数字…

深入理解nginx的https alpn机制

目录 1. 概述2. alpn协议的简要理解2.1 ssl的握手过程2.2 通过抓包看一下alpn的细节3. nginx源码分析3.1 给ssl上下文设置alpn回调3.2 连接初始化3.3 处理alpn协议回调3.4 握手完成,启用http协议4.4 总结阅读姊妹篇:深入理解nginx的https alpn机制 1. 概述 应用层协议协商(…

基于Siamese网络的zero-shot意图分类

原文地址&#xff1a;Zero-Shot Intent Classification with Siamese Networks 通过零样本意图分类有效定位域外意图 2021 年 9 月 24 日 意图识别是面向目标对话系统的一项重要任务。意图识别(有时也称为意图检测)是使用标签对每个用户话语进行分类的任务&#xff0c;该标签…

Shell:字符串的截取和替换

#/bin/sha="hello, world, 88"echo ${a:0}echo ${a:2:3}echo ${a/l/ii}echo ${a//l/ii}echo ${a#he}echo ${a#*,}echo ${a##*,}echo ${a%88}echo ${a%,*}echo ${a%%,*} 运行程序输出: hello, world, 88 llo heiilo, world, 88 heiiiio, woriid, 88 llo, world, 88 w…

网络编程学习

思维导图 代码练习 TCP实现通信 服务器端代码 #include <myhead.h> #define SER_IP "192.168.152.135" #define SER_PORT 8910 int main(int argc, const char *argv[]) {//&#xff11;创建用于监听的套接字int sfd -1;sfd socket(AF_INET,SOCK_STREAM,0)…

【mysql】 1819 - Your password does not satisfy the current policy requirements

创建mysql账户密码时候提示&#xff1a; 1819 - Your password does not satisfy the current policy requirements 1819-您的密码不符合当前策略要求 下面是执行的sql DROP DATABASE IF EXISTS company;CREATE DATABASE company CHARACTER SET utf8mb4 ;grant all on com…

VuePress + GitHub 搭建个人博客踩坑记录

最近想给我教练搭个网站,本来选的是 VuePress 框架,也折腾完了,起码是搭建出来了,踩的坑也都总结好了 但是最近发现了一个更简洁的模板: VuePress-theme-hope ,所以最终网站使用的样式是这个 不过我觉得这里面踩坑的记录应该还是有些价值的,分享出来,看看能不能帮到一些小伙伴~…

2000-2022年上市公司绿色专利申请占比/数据

2000-2022年上市公司绿色专利申请占比数据 1、时间&#xff1a;2000-2022年 2、来源&#xff1a;国家知识产权局、WIPO绿色专利清单 3、指标&#xff1a;年份、股票代码、股票简称、行业代码、省份、城市、区县、行政区划代码、城市代码、区县代码、首次上市年份、上市状态、…

Redis 由浅入深 (6) - Redis批量删除key

redis 删除缓存 日常工作当中经常会遇到删除Redis key的问题,如果是删除某个key,使用 DEL keyname 或者 EXPIRE keyname ttl 都可以实现。但如果想要一次性删除多个key应该怎么处理呢?Redis本身并不支持批量删除key的操作,下面我们就来看看如何巧妙地处理这类问题。 场景一…

黑马瑞吉外卖练习笔记

day2 员工管理 完善登录 问题&#xff1a;用户不登录&#xff0c;直接访问系统首页&#xff0c;照样可以正常访问。我们希望&#xff0c;只有登录成功后才可以访问系统中的页面&#xff0c;如果没有登录则跳转到登录页面 怎么实现&#xff1f; 用过滤器或拦截器&#xff0c;在…