文章目录
- 一、AnyDoor简介
- 二、AnyDoor方法
- (一)ID特征提取
- (二)细节特征提取
- (三)特征注入
- (四)视频、图像动态采样
一、AnyDoor简介
- “任意门”算法:可以将任意目标传送到指定场景的指定位置,无需微调,便捷生成高质量、高保真的合成图像。被传送的目标会自动对新的场景进行姿态、角度、动作等方面的调整,确保生成图像的多样性以及和谐度。
- 该算法可以完成多种图像生成或编辑任务如:图像定制化,多目标组合,虚拟试衣;同时,经过简单拓展,任意门算法可以完成更多神奇的应用比如物体移动、换位等。
二、AnyDoor方法
- 核心思想: 将目标表征成“ID相关”和“细节相关”的特征,然后将他们组合到与背景场景的交互中。
- 算法流程:
-
- 给定一张目标图,使用分割模型对该图进行背景去除;
-
- 用ID extractor进行ID特征提取;同时使用高频滤波器提取参考图的高频细节分类,将该高频图拼贴到背景图的指定位置,送入Detail extractor进行细节提取;
-
- 将提取的ID特征和细节特征注入预训练的文生图大模型以控制最终的生成结果。
(一)ID特征提取
首先通过一个分割模块去除目标物体的背景,然后使用DINO-V2模型提取物体的身份信息。
- Segmentor:去除背景,并将对象对齐到图像中心
- ID Extractor: DINO-V2 作为 ID 提取器的Backbone,使用单个线性层将 ID 提取器的 token 对齐到预训练的文本到图像的 UNet 中。
以往使用的CLIP 的训练数据是粗略描述的文本图像对,只能嵌入语义级别的信息,而难以保留有区分度的对象身份表示;DINO-V2是一种强大的自监督模型,在保留高辨别度特征方面,自监督模型展现了更强大的能力。
(二)细节特征提取
提出了一种频率感知的细节特征提取器,用于提取目标物体的高频细节信息。
- 防止生成的图像和参考图过于相似:提取参考图中的高频分量用于表达细节特征
- 将高频分量图和背景图拼贴在一起,用Detail extractor提取一组不同尺度的特征图送入U-Net进行监督
(三)特征注入
核心就是通过交叉注意力机制,将物体特征引入到Unet的生成过程中:
- 使用Stable Diffusion作为backbone,将ID特征通过cross-attention注入Stable Diffusion的每一层;
- 同时我们将细节特征和UNet decoder的特征进行concat融合。
- 在训练过程中,我们将UNet Encoder的参数固定,对Decoder参数进行微调。
(四)视频、图像动态采样
为了学习“同一个目标在不同场景的外观变化”,收集了大量图像视频数据进行联合训练:
- 对于视频数据,使用分割以及跟踪标注构造样本对;
- 对于静态图像,对图像进行扩充构造样本对。
该方式构造的数据面临一个问题:视频样本有很高的多样性,但是画质模糊;图像样本画质清晰,但是不能很好的建模目标的姿态、动作变化。由此我们提出动态采样的方法:
-
- 在去噪训练的初始阶段更多的采样视频样本,由此学习更大幅度的外观变化;
-
- 在去噪的后期更多的采样静态图像,以学习更好的细节重建能力。
参考:
任意门:零样本物体级图像定制化
再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
【AIGC实践篇4】:来自阿里的AnyDoor模型开源,图像工业应用侧的大利好,任意物体放入任意场景。