基于DiT的id保留图像生成面临着多种挑战,缺乏定制模块设计,模型扩展的困难以及高质量数据的匮乏,因此基于flux的解决方案是相对稀缺的,pulid-flux是基于flux的id保留的初步尝试,包括instantx和xlabs-ai的flux.1-dev ip-adapters,现有方法在三个关键方面保险不足:1.身份相似性不足;2.文本-图像对齐和可编辑性差,明显存在面部的粘贴复制问题;3.fllux生成能力在很大程度上受到损害,导致图像质量和美观性降低。
Infiniteyou,引入了InfuseNet,作为controlnet的一种推广,能够接受id信息以及控制条件,通过残差连接,infusenet将投影的id特征注入到DiT基础模型中,从而使文本和id注入解耦。采用多阶段训练策略,包括预训练和监督微调sft,sft阶段利用精心设计的合成单人多样本数据生成,利用我们预训练的模型本身和各种现成模块,这一策略增强了训练数据的数量、质量和美观性和文本-图像对齐,从而改善整体模型性能&