试衣不再有界:Tunnel Try-on开启视频试衣应用新纪元

论文:https://arxiv.org/pdf/2404.17571

主页:https://mengtingchen.github.io/tunnel-try-on-page/

一、摘要总结

        随着虚拟试衣技术的发展,消费者和时尚行业对于能够在视频中实现高质量虚拟试衣的需求日益增长。这项技术允许用户在不实际穿上衣物的情况下,通过视频序列体验穿着不同服装的效果。尽管基于图像的虚拟试衣方法已经得到了广泛的研究,但视频虚拟试衣面临着保持服装细节和模拟连贯动作的双重挑战,这在以往的研究中并未得到很好的解决。

        本文介绍了一种名为“Tunnel Try-on”的新型视频虚拟试衣框架,旨在解决以往方法在处理复杂场景时的不足。该框架的核心思想是在输入视频中挖掘一个“聚焦隧道”(focus tunnel),以便近距离拍摄服装区域,从而更好地保留服装的细微细节。为了生成连贯的动作,研究者们首先利用卡尔曼滤波器(Kalman filter)构建平滑的裁剪框,并注入隧道的位置嵌入到注意力层中,以提高生成视频的连贯性。此外,还开发了一个环境编码器来提取隧道外的上下文信息,作为辅助线索。通过这些技术,Tunnel Try-on不仅保持了服装的精细细节,还合成了稳定和平滑的视频。该方法在视频虚拟试衣领域取得了突破性进展,为电商/时尚行业的实际应用提供了新的可能性,并为未来虚拟试衣应用的研究提供了新的方向。

二、网络结构

a.)核心创新

本文的核心创新主要体现在以下几个方面:

  1. 聚焦隧道(Focus Tunnel):提出了一种新的视频处理策略,通过在视频中创建一个聚焦隧道来放大服装区域,从而更好地捕捉和保留服装的细微特征。

  2. 隧道平滑和嵌入(Tunnel Smoothing and Embedding):使用卡尔曼滤波器对隧道坐标进行平滑处理,并引入隧道嵌入机制,以增强视频帧之间的连贯性和一致性。

  3. 环境编码器(Environment Encoder):开发了一种新的编码器,用于提取并融合视频中隧道区域外的全局上下文信息,以改善背景生成的质量。

  4. 扩散模型应用:将扩散模型应用于视频虚拟试衣,利用其在图像生成中的优势,提高了视频试衣结果的质量和真实感。

b.)核心网络

Tunnel Try-on的网络结构包括以下几个关键组件:

  1. 主网络(Main U-Net):作为基础的图像试衣模型,使用掩码视频帧、潜在噪声和衣物无关掩码作为输入。

  2. 参考网络(Ref U-Net):用于编码参考服装的细粒度特征。

  3. CLIP图像编码器:捕获目标服装图像的高级语义信息。

  4. 姿态编码器:将人体姿态信息编码为特征,用于辅助视频生成。

  5. 时间注意力模块(Temporal-Attention):在Main U-Net的每个阶段后插入,用于确保帧之间的平滑过渡。

  6. 环境编码器(Environment Encoder):由一个冻结的CLIP图像编码器和一个可学习的线性映射层组成,用于提取和融合环境上下文信息。

  7. 隧道嵌入(Tunnel Embedding):将隧道的位置和大小信息编码为嵌入,注入到时间注意力模块中。

  8. 训练和测试流程:训练分为两个阶段,第一阶段专注于图像级别的试衣生成,第二阶段整合所有策略和模块,训练视频试衣数据集。

  9. 后处理:使用高斯模糊技术将生成的试衣视频与原始视频融合,以获得最终的试衣效果。

通过这些创新点和详细的算法流程,Tunnel Try-on能够处理复杂的背景和多样的人体动作,生成高保真的虚拟试衣视频。

三、实验结果

a.)总体指标

b.)ablation study

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/11130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

目标检测——印度车辆数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

弱监督语义分割学习笔记

目录 partial cross entropy loss GitHub - LiheYoung/UniMatch: [CVPR 2023] Revisiting Weak-to-Strong Consistency in Semi-Supervised Semantic Segmentation partial cross entropy loss import torch import torch.nn.functional as Fdef partial_cross_entropy_loss…

区块链中的APP与传统APP的区别

一、技术 区块链中的APP是基于区块链技术开发的,而传统APP则基于传统的应用程序商店或网页。区块链中的APP利用区块链技术的去中心化、数据不可篡改等特点,使得应用程序的开发和分发更加安全、透明和可信。与传统APP相比,区块链中的APP无需中…

如何实现嵌套路由

实现步骤 1. 新建子页面 2. 在router/index.js中的父路由节点添加children数组 3. 在children中添加子路由 {path: /,name: home,component: HomeView,children: [ {path: /pageA,name: pageA,component: pageA},{path: /pageB,name: pageB,component: pageB}] }, 5.在父路…

Web安全:SQL注入之布尔盲注原理+步骤+实战操作

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

前端VUE基础之创建脚手架

创建脚手架 第一步(仅第一次执行):全局安装vue/cli。 npm install -g vue/cli 到你要创建项目的目录,然后使用命令创建项目 vue create xxxx 第三步:启动项目 npm run serv 备注: 1. 如出现下载缓慢请…

PHP流程控制

PHP 流程控制主要是 if 和 switch 流程控制。 当您编写代码时,您常常需要为不同的判断执行不同的动作。您可以在代码中使用条件语句来完成此任务。 在 PHP 中,提供了下列条件语句: if 语句 - 在条件成立时执行代码if...else 语句 - 在条件…

访客管理系统对于校园安全的重要性

校园访客办理计划是针对校园安全需求规划的安全办理体系,主要用于对校园外来人员的科学办理。要做好校园安全作业,把风险分子拒之门外尤为要害。校园访客办理计划实现访客实名制,并结合公安网、黑名单功用,对风险人员进行提前预警…

没有公网ip,如何实现外网访问内网?

目前拨号上网是最广泛的上网方式,这种方式优点是价格便宜,缺点是没有固定公网ip,每次重新您拨号ip地址都会变。如果有一台服务器,需要实现外网访问,在没有固定公网ip的环境下,该如何实现呢?使用…

【CTF Web】QSNCTF 文章管理系统 Writeup(SQL注入+Linux命令+RCE)

文章管理系统 题目描述 这是我们的文章管理系统,快来看看有什么漏洞可以拿到FLAG吧?注意:可能有个假FLAG哦 解法 SQL 注入。 ?id1 or 11 --取得假 flag。 爆库名。 ?id1 union select 1,group_concat(schema_name) from information_sch…

华为OD机试【统一限载货物数最小值】(java)(200分)

1、题目描述 火车站附近的货物中转站负责将到站货物运往仓库,小明在中转站负责调度 2K 辆中转车(K辆干货中转车,K 辆湿货中转车)货物由不同供货商从各地发来,各地的货物是依次进站,然后小明按照卸货顺序依次装货到中转车&#xf…

二维数组 和 变长数组

在上一期的内容中,为诸君讲解到了一维数组,在一维数组的基础上,C语言中还有着多维数组,其中,比较典型且运用较为广泛的就是我们今天的主角——二维数组 一 . 二维数组的概念 我们把单个或者多个元素组成的数组定义为一…

VScode 修改 Markdown Preview Enhanced 主题与字体

VScode 修改 Markdown Preview Enhanced 主题与字体 1. 修改前后效果对比2. 修改主题2.1 更改默认主题2.2 修改背景色 3. 修改字体 VS Code基础入门使用可查看: VS Code 基础入门使用(配置)教程 其他Vs Code 配置可关注查看: Vs C…

2024年如何选什么版本FL Studio才适合自己编曲?

fl studio是什么软件 水果编曲软件 FL Studio,全称为Fruity Loops Studio,是一款全能音乐制作环境或数字音频工作站(DAW),集编曲、录音、剪辑、混音等多种功能于一身。 FL Studio最初名为Fruity Loops,因…

外网如何访问内网?快解析

由于公网IP资源短缺,我们的电脑大多处于内网环境,如何在外网访问内网电脑,成为一个令人头疼的问题,下面我给大家推荐一个非常实用的方法。 1:访问快解析下载安装快解析服务器 2:运行软件,点击“…

2.4 输入和显示

本节必须掌握的知识点: 示例五源代码 代码分析 汇编解析 2.4.1 示例五 ■格式化输入函数scanf scanf函数可以从键盘读取输入的信息。scanf函数同样可以像printf函数那样,通过转换说明“%d”来限制函数只能读取十进制数。scanf函数的参数为可变参数…

【算法训练 day25 修剪二叉搜索树、将有序数组转化为二叉搜索树、把二叉树搜索转化为累加树】

目录 一、修剪二叉搜索树-LeetCode 669思路实现代码个人代码视频链接代码 个人问题 二、将有序数组转化为二叉搜索树-LeetCode 108思路实现代码个人问题 三.把二叉树搜索转化为累加树-LeeCode 538思路实现代码个人问题 一、修剪二叉搜索树-LeetCode 669 Leecode链接: leetcode…

项目管理-计算题公式【复习】2/2

2.【成本】相关公式 2.1挣值分析 三个参数 (1)计划价值(PV,Plan Value): PV:计划工作分配的经批准的预算,是为完成某活动或 WBS 组成部分而准备的一份经批准的预算。不包括管理储备。 注意:按照计划截止目…

LwIP 之九 详解 UDP RAW 编程、示例、API 源码、数据流

我们最为熟知的网络通信程序接口应该是 Socket。LwIP 自然也提供了 Socket 编程接口,不过,LwIP 的 Socket 编程接口都是使用最底层的接口来实现的。我们这里要学习的 UDP RAW 编程则是指的直接使用 LwIP 的最底层 UDP 接口来直接实现应用层功能。这里先来一张图,对 LwIP 内部…

React 和 Vue两个流行的前端 JavaScript 框架有什么区别?

设计理念: React 是由 Facebook 开发的,专注于构建 UI 组件。它采用了一种声明式的、组件化的开发模式,通过使用虚拟 DOM 来实现高效的 UI 更新。 Vue 是由尤雨溪开发的,旨在提供一个灵活且易于上手的框架。Vue 也支持组件化开发…