论文网址链接:https://arxiv.org/abs/2312.04461
详情网址链接:PhotoMaker
开源代码网址链接:GitHub - TencentARC/PhotoMaker: PhotoMaker
文本到图像AI生成的最新进展在根据给定文本提示合成逼真的人类照片方面取得了显着进展。然而,现有的个性化生成方法无法同时满足高效率、有前途的身份(ID)保真度和灵活的文本可控性的要求。在这项工作中 PhotoMaker 是一种高效的个性化文本到图像生成方法,它主要将任意数量的输入 ID 图像编码为堆栈 ID 嵌入,以保存 ID 信息。这种嵌入作为统一的ID表示,不仅可以全面封装同一输入ID的特征,而且可以容纳不同ID的特征以便后续集成。这为更有趣且具有实际价值的应用铺平了道路。
此外,为了推动 PhotoMaker 的训练,他们提出了一个面向 ID 的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的滋养下,他们的 PhotoMaker 表现出了比基于测试时微调的方法更好的 ID 保存能力,同时提供了显着的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用程序。
实现方法:
- 重新语境化:
他们的方法将一些具有相同身份的输入图像转换为堆叠的 ID 嵌入。这种嵌入可以看作是要生成的ID的统一表示。在推理阶段,构成堆叠ID嵌入的图像可以源自不同的ID。然后他们可以在不同的上下文中合成定制的 ID。 - 他们首先分别从文本编码器和图像编码器获得文本嵌入和图像嵌入。然后,他们通过合并相应的类嵌入(例如男人和女人)和每个图像嵌入来提取融合嵌入。接下来,他们沿着长度维度连接所有融合嵌入以形成堆叠 ID 嵌入。最后,他们将堆叠的 ID 嵌入提供给所有交叉注意力层,以自适应地合并扩散模型中的 ID 内容。请注意,虽然他们在训练过程中使用具有遮蔽背景的相同ID的图像,但他们可以在推理过程中直接输入不同ID的图像而没有背景失真来创建新的ID。
- 将艺术品/老照片中的人物带入现实:
通过将艺术绘画、雕塑或人物的老照片作为输入,PhotoMaker可以将一个人从上个世纪甚至古代带到本世纪,为他们“拍摄”照片。他们在每个图像下方显示调节提示。 - 风格化:
PhotoMaker 不仅能够生成逼真的人类照片,而且还可以在保留 ID 属性的同时进行风格化。 - 改变年龄或性别:
通过简单地替换类别词(例如,男人和女人),他们的方法可以在保持原始身份的同时实现性别和年龄的变化。 - 身份混合:
如果用户提供不同ID的图像作为输入,PhotoMaker可以很好地整合不同ID的特征,形成一个新的ID。对于身份混合,可以通过控制输入图像池中身份图像的百分比或通过提示加权的方法来调整合并比率。首先展示的方法是如何通过控制输入图像池中不同 ID 的比例来定制新的 ID。 - 比较:
与其他方法相比,PhotoMaker 可以同时满足高质量和多样化的生成能力、可编辑性、推理效率高和 ID 保真度强。更多比较结果可以在他们的论文中找到。