试衣不再有界:Tunnel Try-on开启视频试衣应用新纪元

论文:https://arxiv.org/pdf/2404.17571

主页:https://mengtingchen.github.io/tunnel-try-on-page/

一、摘要总结

        随着虚拟试衣技术的发展,消费者和时尚行业对于能够在视频中实现高质量虚拟试衣的需求日益增长。这项技术允许用户在不实际穿上衣物的情况下,通过视频序列体验穿着不同服装的效果。尽管基于图像的虚拟试衣方法已经得到了广泛的研究,但视频虚拟试衣面临着保持服装细节和模拟连贯动作的双重挑战,这在以往的研究中并未得到很好的解决。

        本文介绍了一种名为“Tunnel Try-on”的新型视频虚拟试衣框架,旨在解决以往方法在处理复杂场景时的不足。该框架的核心思想是在输入视频中挖掘一个“聚焦隧道”(focus tunnel),以便近距离拍摄服装区域,从而更好地保留服装的细微细节。为了生成连贯的动作,研究者们首先利用卡尔曼滤波器(Kalman filter)构建平滑的裁剪框,并注入隧道的位置嵌入到注意力层中,以提高生成视频的连贯性。此外,还开发了一个环境编码器来提取隧道外的上下文信息,作为辅助线索。通过这些技术,Tunnel Try-on不仅保持了服装的精细细节,还合成了稳定和平滑的视频。该方法在视频虚拟试衣领域取得了突破性进展,为电商/时尚行业的实际应用提供了新的可能性,并为未来虚拟试衣应用的研究提供了新的方向。

二、网络结构

a.)核心创新

本文的核心创新主要体现在以下几个方面:

  1. 聚焦隧道(Focus Tunnel):提出了一种新的视频处理策略,通过在视频中创建一个聚焦隧道来放大服装区域,从而更好地捕捉和保留服装的细微特征。

  2. 隧道平滑和嵌入(Tunnel Smoothing and Embedding):使用卡尔曼滤波器对隧道坐标进行平滑处理,并引入隧道嵌入机制,以增强视频帧之间的连贯性和一致性。

  3. 环境编码器(Environment Encoder):开发了一种新的编码器,用于提取并融合视频中隧道区域外的全局上下文信息,以改善背景生成的质量。

  4. 扩散模型应用:将扩散模型应用于视频虚拟试衣,利用其在图像生成中的优势,提高了视频试衣结果的质量和真实感。

b.)核心网络

Tunnel Try-on的网络结构包括以下几个关键组件:

  1. 主网络(Main U-Net):作为基础的图像试衣模型,使用掩码视频帧、潜在噪声和衣物无关掩码作为输入。

  2. 参考网络(Ref U-Net):用于编码参考服装的细粒度特征。

  3. CLIP图像编码器:捕获目标服装图像的高级语义信息。

  4. 姿态编码器:将人体姿态信息编码为特征,用于辅助视频生成。

  5. 时间注意力模块(Temporal-Attention):在Main U-Net的每个阶段后插入,用于确保帧之间的平滑过渡。

  6. 环境编码器(Environment Encoder):由一个冻结的CLIP图像编码器和一个可学习的线性映射层组成,用于提取和融合环境上下文信息。

  7. 隧道嵌入(Tunnel Embedding):将隧道的位置和大小信息编码为嵌入,注入到时间注意力模块中。

  8. 训练和测试流程:训练分为两个阶段,第一阶段专注于图像级别的试衣生成,第二阶段整合所有策略和模块,训练视频试衣数据集。

  9. 后处理:使用高斯模糊技术将生成的试衣视频与原始视频融合,以获得最终的试衣效果。

通过这些创新点和详细的算法流程,Tunnel Try-on能够处理复杂的背景和多样的人体动作,生成高保真的虚拟试衣视频。

三、实验结果

a.)总体指标

b.)ablation study

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/11130.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

目标检测——印度车辆数据集

引言 亲爱的读者们,您是否在寻找某个特定的数据集,用于研究或项目实践?欢迎您在评论区留言,或者通过公众号私信告诉我,您想要的数据集的类型主题。小编会竭尽全力为您寻找,并在找到后第一时间与您分享。 …

区块链中的APP与传统APP的区别

一、技术 区块链中的APP是基于区块链技术开发的,而传统APP则基于传统的应用程序商店或网页。区块链中的APP利用区块链技术的去中心化、数据不可篡改等特点,使得应用程序的开发和分发更加安全、透明和可信。与传统APP相比,区块链中的APP无需中…

Web安全:SQL注入之布尔盲注原理+步骤+实战操作

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

访客管理系统对于校园安全的重要性

校园访客办理计划是针对校园安全需求规划的安全办理体系,主要用于对校园外来人员的科学办理。要做好校园安全作业,把风险分子拒之门外尤为要害。校园访客办理计划实现访客实名制,并结合公安网、黑名单功用,对风险人员进行提前预警…

没有公网ip,如何实现外网访问内网?

目前拨号上网是最广泛的上网方式,这种方式优点是价格便宜,缺点是没有固定公网ip,每次重新您拨号ip地址都会变。如果有一台服务器,需要实现外网访问,在没有固定公网ip的环境下,该如何实现呢?使用…

【CTF Web】QSNCTF 文章管理系统 Writeup(SQL注入+Linux命令+RCE)

文章管理系统 题目描述 这是我们的文章管理系统,快来看看有什么漏洞可以拿到FLAG吧?注意:可能有个假FLAG哦 解法 SQL 注入。 ?id1 or 11 --取得假 flag。 爆库名。 ?id1 union select 1,group_concat(schema_name) from information_sch…

华为OD机试【统一限载货物数最小值】(java)(200分)

1、题目描述 火车站附近的货物中转站负责将到站货物运往仓库,小明在中转站负责调度 2K 辆中转车(K辆干货中转车,K 辆湿货中转车)货物由不同供货商从各地发来,各地的货物是依次进站,然后小明按照卸货顺序依次装货到中转车&#xf…

二维数组 和 变长数组

在上一期的内容中,为诸君讲解到了一维数组,在一维数组的基础上,C语言中还有着多维数组,其中,比较典型且运用较为广泛的就是我们今天的主角——二维数组 一 . 二维数组的概念 我们把单个或者多个元素组成的数组定义为一…

VScode 修改 Markdown Preview Enhanced 主题与字体

VScode 修改 Markdown Preview Enhanced 主题与字体 1. 修改前后效果对比2. 修改主题2.1 更改默认主题2.2 修改背景色 3. 修改字体 VS Code基础入门使用可查看: VS Code 基础入门使用(配置)教程 其他Vs Code 配置可关注查看: Vs C…

2024年如何选什么版本FL Studio才适合自己编曲?

fl studio是什么软件 水果编曲软件 FL Studio,全称为Fruity Loops Studio,是一款全能音乐制作环境或数字音频工作站(DAW),集编曲、录音、剪辑、混音等多种功能于一身。 FL Studio最初名为Fruity Loops,因…

外网如何访问内网?快解析

由于公网IP资源短缺,我们的电脑大多处于内网环境,如何在外网访问内网电脑,成为一个令人头疼的问题,下面我给大家推荐一个非常实用的方法。 1:访问快解析下载安装快解析服务器 2:运行软件,点击“…

2.4 输入和显示

本节必须掌握的知识点: 示例五源代码 代码分析 汇编解析 2.4.1 示例五 ■格式化输入函数scanf scanf函数可以从键盘读取输入的信息。scanf函数同样可以像printf函数那样,通过转换说明“%d”来限制函数只能读取十进制数。scanf函数的参数为可变参数…

LwIP 之九 详解 UDP RAW 编程、示例、API 源码、数据流

我们最为熟知的网络通信程序接口应该是 Socket。LwIP 自然也提供了 Socket 编程接口,不过,LwIP 的 Socket 编程接口都是使用最底层的接口来实现的。我们这里要学习的 UDP RAW 编程则是指的直接使用 LwIP 的最底层 UDP 接口来直接实现应用层功能。这里先来一张图,对 LwIP 内部…

电商技术揭秘营销相关系列文章合集(4)

相关系列文章 电商技术揭秘相关系列文章合集(1) 电商技术揭秘相关系列文章合集(2) 电商技术揭秘相关系列文章合集(3) 文章目录 引言集合说明集合文章列表 引言 在数字化浪潮的推动下,电商行…

【35分钟掌握金融风控策略25】定额策略实战2

目录 基于收入和负债的定额策略 确定托底额度和盖帽额度 确定基础额度 基于客户风险评级确定风险系数 计算最终授信额度 确定授信有效期 基于收入和负债的定额策略 在实际生产中,客户的收入和负债数据大多无法直接获得,对于个人的收入和负债数据&…

【JavaEE】Spring Boot 入门:快速构建你的第一个 Spring Boot 应用

目录 第一个SpringBoot程序介绍项目创建创建项目目录介绍输出Hello World 第一个SpringBoot程序 介绍 在学习SpringBoot之前, 我们先来认识⼀下Spring 我们看下Spring官⽅(https://spring.io/)的介绍 可以看到, Spring让Java程序更加快速, 简单和安全. Spring对于速度、简单…

【论文阅读笔记】MapReduce: Simplified Data Processing on Large Clusters

文章目录 1 概念2 编程模型3 实现3.1 MapReduce执行流程3.2 master数据结构3.3 容错机制3.3.1 worker故障3.3.2 master故障3.3.3 出现故障时的语义 3.4 存储位置3.5 任务粒度3.6 备用任务 4 扩展技巧4.1 分区函数4.2 顺序保证4.3 Combiner函数4.4 输入和输出的类型4.5 副作用4.…

用balenaEtcher烧录ubuntu的iso文件都失败,所以选用了另一种烧录的软件Rufus,然后烧录成功了+安装ubuntu的坑

https://releases.ubuntu.com/bionic/进入网页下载ubuntu 选择烧录软件将下载的Ubuntu烧录到U盘中 之前用这个U盘烧录过一次,成功了,后来应该是U盘受损或者是什么其他原因使得用这个U盘总是烧录失败 换思路:由于一直使用balenaEtcher烧录ubu…

WebView基础知识以及Androidx-WebKit的使用

文章目录 摘要WebView基础一、启动调整模式二、WebChromeClient三、WebViewClient四、WebSettings五、WebView和Native交互 Androidx-WebKit一、启动安全浏览服务二、设置代理三、安全的 WebView 和 Native 通信支持四、文件传递五、深色主题的支持六、JavaScript and WebAssem…

ipa 功能包调试,分区算法,覆盖算法测试

参考 wiki 流网络 flow network 解释 相关文章 ipa 分区算法 ipa 分区算法总结,部分算法图解 环境 ubuntu20,ros 版本 noetic 运行测试 按照 readme 提示进行测试,跳过第一个步骤,并不需要 turtlebot3。 执行第三个 launch 报…