【AIGC大模型】InstantID 赏析

论文地址：https://arxiv.org/abs/2401.07519
InstantID 主页：https://instantid.github.io/
Demo ：https://huggingface.co/spaces/InstantX/InstantID
code： InstantID/InstantID: InstantID : Zero-shot Identity-Preserving Generation in Seconds 🔥 (github.com)

来自小红书的团队最近开源了InstantID项目。

InstantID 凭借着高质量的图像生成能力在 GitHub 热榜上迅速飙升，成为焦点。

这个出片神器，让用户只需上传一张照片，就能轻松定制出多种风格的 AI 写真。

使用 Textual Inversion、DreamBooth 和 LoRA 等方法进行个性化图像合成取得了重大进展。然而，它们在现实世界中的适用性受到高存储需求、冗长的微调过程以及对多个参考图像的需求的阻碍。相反，现有的基于 ID 嵌入的方法虽然只需要一次前向推理，但面临着挑战：它们要么需要对众多模型参数进行广泛的微调，要么缺乏与社区预训练模型的兼容性，要么无法保持高面部保真度。为了解决这些局限性，他们引入了 InstantID，这是一种强大的基于扩散模型的解决方案。他们的即插即用模块仅使用单个面部图像即可熟练地处理各种样式的图像个性化，同时确保高保真度。为了实现这一点，我们设计了一种新颖的IdentityNet，通过施加强语义和弱空间条件，将面部和地标图像与文本提示相结合，以引导图像生成。InstantID 展现了卓越的性能和效率，在身份保护至关重要的实际应用中被证明是非常有益的。此外，我们的工作与流行的预训练文本到图像扩散模型（如 SD1.5 和 SDXL）无缝集成，作为一个适应性强的插件。我们的代码和预先训练的检查点将在此 URL 上提供。

方法：

InstantID 仅提供一张参考 ID 图像，旨在从单个参考 ID 图像生成具有各种姿势或样式的自定义图像，同时确保高保真度。下图概述了他们的方法。它包含三个关键组件：（1）捕获强大的语义人脸信息的ID嵌入;（2）具有解耦交叉注意力的轻量级适配模块，便于使用图像作为视觉提示;（3）一个 IdentityNet，它通过额外的空间控制对参考面部图像中的详细特征进行编码

他们在以下几个方面与以往工作不同：（1）不训练UNet，因此可以保留原始文本到图像模型的生成能力，并与社区中现有的预训练模型和ControlNets兼容;（2）不需要测试时调优，所以对于一个特定的角色，不需要收集多张图片进行微调，只需要对一张图片进行一次推断;（3）实现了更好的人脸保真度，并保留了文本的可编辑性。