目录
前言
摘要
方法
结果展示
多人试穿同一件衣服
同一个人试穿不同的衣服
交互式试穿演示
与最先进方法的比较
总结分析
前言
谷歌的新AI模型TryOnDiffusion,直接解决了AI换装的两大难题——既保留衣服细节,又能随意换姿势。以后再剁手,恐怕要更容易了!你只要给它一张自己的全身照,和服装模特的照片,就能知道自己穿上这件衣服之后是什么样子了。一键换装,被谷歌给实现了!
TryOnDiffusion ,由Google Research 与华盛顿大学联合研发 。可以通过将两张图片融合起来,让模特无须重新拍摄就可以展示出不同服装的上身效果。传统的合成方法通常只能接受造型区别不大的两张图片,否则合成出来的新图片会出现服装变形严重的情况。而 TryOnDiffusion 基于并行 UNet 的扩散式架构打造,能够在保留更多细节的情况下让服装和真人模特相结合,呈现出自然的服装效果。
下面是TryOnDiffusion的一些资料和链接地址,有需要的小伙伴自取哈, OK,接下来一起来探究一下TryOn Diffusion的奥秘吧~
论文名称:《Tyron Diffusion: A Tale of Two UNets》
Luyang Zhu(1,2), Dawei Yang(2), Tyler Zhu(2), Fitsum Reda(2), William Chan(2), Chitwan Saharia(2), Mohammad Norouzi(2), Ira Kemelmacher-Shlizerman(1,2)
(1)University of Washington (2)Google Research
IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2023
项目链接:https://tryondiffusion.github.io/?ref=louisbouchard.ai
论文链接:https://arxiv.org/abs/2306.08276
摘要
给定两张描绘一个人和另一个人穿的衣服的图像,Tyron Diffusion的目标是生成一个可视化的图像,显示衣服在输入人身上的样子。一个关键的挑战是合成一个逼真的细节保留服装的可视化,同时扭曲服装以适应主体的重要身体姿势和形状变化。以前的方法要么注重服装细节的保存,而没有有效的姿势和形状的变化,要么允许以所需的形状和姿势试穿,但缺乏服装细节。在本文中,我们提出了一种基于扩散的架构,该架构统一了两个unet(称为Parallel-UNet),这使我们能够在单个网络中保留服装细节并对服装进行扭曲,以实现重要的姿势和身体变化。Parallel-UNet背后的关键思想包括:1)服装是通过交叉注意机制隐性扭曲的;2)服装扭曲和人的融合是一个统一过程的一部分,而不是两个独立任务的序列。实验结果表明,TryOnDiffusion在定性和定量上都达到了最先进的性能。
方法
整体流水线:在预处理步骤中,将目标人物从人物图像中分割出来,形成“服装不可知RGB”图像,将目标服装从服装图像中分割出来,同时计算人物和服装图像的姿态。这些输入被带入128×128 Parallel-UNet(关键贡献),以创建128x128的试穿图像,该图像与试穿条件输入一起进一步作为输入发送到256×256 Parallel-UNet。256×256 Parallel-UNet的输出被发送到标准超分辨率扩散以创建1024×1024图像。
128×128 Parallel-UNet的架构。person-UNet(上图)以与服装无关的RGB和噪声图像作为输入。由于两个输入都是像素对齐的,TryOnDiffusion在UNet处理开始时直接沿着通道维度将它们连接起来。服装unet(下)以分割后的服装图像作为输入。通过交叉关注将服装特征融合到目标图像中。为了保存模型参数,在32×32上采样块之后提前停止了服装unet,在那里完成了最终的person-UNet交叉关注模块。首先将人的姿态和服装的姿态分别输入到线性层中计算姿态嵌入。然后通过注意机制将姿态嵌入融合到person-UNet中。此外,它们被用来调制两个unet在所有尺度上使用FiLM的功能。
结果展示
多人试穿同一件衣服
同一个人试穿不同的衣服
交互式试穿演示
与最先进方法的比较
挑战性案例的定性比较(极端的身体姿势和形状差异)
简单案例的定性比较(最小的服装经度和简单的纹理图案)
总结分析
TryonDiffusion有几个限制。首先在预处理过程中分割图和姿态估计错误的情况下显示服装泄漏伪影。幸运的是,这些在最近几年变得相当准确,这种情况并不经常发生。其次,通过与服装无关的RGB来表现身份并不理想,因为有时它可能只保留部分身份,例如,纹身在这种表现中是不可见的,或者特定的肌肉结构。第三,训练和测试数据集大多具有干净统一的背景,因此不知道该方法在更复杂背景下的表现如何。第四,TryonDiffusion不保证合身,目前只关注试穿的可视化效果。最后,这项工作主要是上半身的服装,还没有进行全身试穿的实验。