上交商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型

上交&商汤联合提出一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型,强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。从效果展示来看很不错。

相关链接

论文地址:https://arxiv.org/pdf/2406.10539v1

论文阅读

用于增强虚拟衣服试穿的自监督视觉变压器

摘要

虚拟试穿已成为网上购物的重要功能,为消费者提供了一个可视化服装合身程度的重要工具。在我们的研究中,我们介绍了一种虚拟试穿的创新方法,利用自监督视觉变换器 (ViT) 和扩散模型。我们的方法强调细节增强,通过将 ViT 生成的局部服装图像嵌入与其全局对应物进行对比。条件指导和重点关注关键区域等技术已融入我们的方法中。这些组合策略使扩散模型能够以更高的清晰度和真实感再现服装细节。实验结果显示,虚拟试穿体验中细节的真实感和精确度有了显着提高,大大超越了现有技术的能力。

方法

网络总体框架。我们利用稳定扩散 (SD) 修复网络,并使用经过特别微调的视觉变换器 (ViT) 将网络的焦点引导到复杂的衣服图像细节上。微调的 ViT(表示为 τ)也充当重要特征提取器,有助于计算损失并进一步完善修复过程。此外,我们将扭曲特征集成到输入中,以增强网络内部特征与给定条件下的特征之间的一致性。为了简化表示,我们在描述中省略了 SD 网络的编码器 E 和解码器 D。

在这项研究中,我们的目标是利用扩散用于虚拟试穿的绘画框架中的模型任务,侧重于服装的复杂性,如袖子,项圈和文本模式。以前的方法探索了注入明确信息的各种方法,但他们经常忽略这些关键的服装细节。为了解决这个问题,我们引入了一个基于自监督学习的细节增强器,旨在帮助我们的网络更好地学习认识和整合这些基本特征。

平均头部注意力的可视化ViT中的Class Token。“SS-”表示没有任何参数的场景 微调时,“SS RF”表示使用随机的本地作物进行 自监督微调,“SS SF”表示应用程序 我们的方法,包括选择性地选择当地的作物 self-supervised整合。

在这个可视化中,(a) 显示了输入到条件编码器 τ 的原始图像。子图 (b) 说明了 ViT 的自注意力机制中两个特定头部的注意力图,突出显示了关注区域。子图 (c) 显示了从 (b) 中呈现的注意力图中得出的焦点,精确定位了受到最高关注的特定区域。(d) 描绘了所有头部的焦点聚合,展示了全面的注意力格局。基于 (d) 中的焦点,进行聚类以确定关键聚类中心,这些中心在子图 (e) 中以红色突出显示,表示所有头部的关注区域。

效果展示

定性比较

在DressCode数据集的定性比较

与VITON-HD数据集基线的定性比较

方法局限性

结论

在本文中,我们提出了一种创新且有效的虚拟试衣方法。该方法将自监督的 ViT 与扩散模型相结合。它专注于通过比较 ViT 中的局部和全局服装图像嵌入来增强细节,展示了对复杂视觉元素的敏锐理解。条件指导、关注关键区域和专门的内容丢失等技术有助于其彻底性。这些策略使扩散模型能够准确复制服装细节,从而显着增强虚拟试衣体验的真实感和清晰度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/32090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Honeyview图片查看:从未如此流畅

名人说:一点浩然气,千里快哉风。 ——苏轼 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 目录 一、软件介绍1、Honeyview2、核心特点 二、下载安装1、下载2、安装 三、使用方法1、图片打开2、自…

FP7195做大功率钓鱼灯应用方案,0.1%深度无极无频闪调光调色应用,调光曲线顺滑无突兀

文章目录 文章目录 方案背景 一、夜钓灯电路框架 二、FP7195芯片介绍 芯片参数 总结 方案背景 目前夜钓正在逐渐变得时尚起来,随着夜钓群体的年轻化,人们对于夜钓灯的审美要求也越来越高。夜钓灯作为夜间钓鱼的重点装备,不仅仅需要高质量的光…

RIP路由协议汇总、版本兼容、定时器、协议优先级配置(华为)

#交换设备 RIP路由协议汇总 一、原理概述 当网络中路由器的路由条目非常多时,可以通过路由汇总(又称路由汇聚或路由聚合)来减少路由条目数,加快路由收敛时间和增强网络稳定性。路由汇总的原理是,同一个自然网段内的…

AI音乐模型:创新还是颠覆?

文章目录 AI音乐大模型的崛起音乐创作门槛的降低与兴奋AI音乐作品的版权归属问题创意产业在AI阴影下的生长结语 🎉欢迎来到AIGC人工智能专栏~探索Java中的静态变量与实例变量 ☆* o(≧▽≦)o *☆嗨~我是IT陈寒🍹✨博客主页:IT陈寒的博客&…

【C++课程设计】校园导游程序及通信线路设计

私信我获得论文 问题描述: 设计校园平面图,所含景点不少于10个。以图中顶点表示校内各景点,存放景点名称、代号、简介等信息;以边表示路径,存放路径长度等相关信息。 (1) 显示校园平面图(用cout显示即可&a…

Docker开机自动重启及自动启动容器

Docker开机自动重启及自动启动容器 Windows开机自动重启设置容器自动启动 Windows开机自动重启 勾选 Start Docker Desktop when you sign in to your computer 设置容器自动启动 1.docker update 命令 Usage: docker update [OPTIONS] CONTAINER [CONTAINER...]Update co…

数据结构与算法-B(B-)树的简单实现

B(B-)树定义 B树(或B-tree)是一个在计算机科学中广泛使用的数据结构,它是一种自平衡的树,能够保持数据有序。 以下是B树的特性 每个节点最多右m个孩子,二叉树是B-树的特例,其有2个孩子。除了叶节点和根节点…

c++中从父类继承的属性在子类内存中如何显示?

目录 一、继承概念 二、示例 三、结论 一、继承概念 在C中,继承是面向对象编程的一个重要特性,它允许一个类(称为派生类或子类)继承另一个类(称为基类或父类)的成员(包括数据成员和成员函数…

springboot + Vue前后端项目(第十七记)

项目实战第十七记 写在前面1. 个人信息1.1 Person.vue1.2 设置路由并改动Header.vue1.3 动态刷新头像1.3.1 在保存个人信息时,触发方法1.3.2 父组件Manage.vue1.3.3 再将user以prop方式传递给子组件Header.vue1.3.4 Header.vue使用user 1.4 效果图 2. 修改密码2.1 前…

[RK-Linux] RK3562 I2C驱动TP芯片GSL3680

TP芯片GSL3680 1、简介 GSL3680是一款电容屏多点触摸控制单芯片,其芯片内部框架图如下所示: GSL3680采用了独特的互电容感应技术,可以在1ms内测量多达192个节点,支持广泛的传感器选择,包括单层或双层ITO,玻璃或薄膜,采用了先进的抗电磁干扰信号处理技术,使其对各种干…

C++初学者指南第一步---12.引用

C初学者指南第一步—12.引用 文章目录 C初学者指南第一步---12.引用1. 功能(和限制)1.1 非常量引用1.2 常量引用1.3 auto引用 2.用法2.1 范围for循环中的引用2.2 常量引用的函数形参2.3 非常量引用的函数形参2.4 函数参数的选择:copy / const…

git拉取gitee项目到本地

git安装等不做赘述。 根据需要选择不同操作 1.只是单纯拉取个项目,没有后续的追踪等操作 不需要使用git init初始化本地文件夹 新建一个文件夹用于存储项目,右键选择 git bash here 会出现命令行窗口 如果像我一样,只是拉取个项目作业&…

若以框架学习(3),echarts结合后端数据展示,暂时完结。

前三天,参加毕业典礼,领毕业证,顿时感到空落落的失去感,没有工作,啥也没有,总感觉一辈子白活了。晚上ktv了一晚上,由于我不咋个唱歌,没心情,听哥几个唱了一晚上周杰伦&am…

Redis实战—Redis分布式锁

本博客为个人学习笔记,学习网站与详细见:黑马程序员Redis入门到实战 P56 - P63 目录 分布式锁介绍 基于Redis的分布式锁 Redis锁代码实现 修改业务代码 分布式锁误删问题 分布式锁原子性问题 Lua脚本 编写脚本 代码优化 总结 分布式锁介绍…

express+vue在线im实现【三】

往期内容 expressvue在线im实现【一】 expressvue在线im实现【二】 本期示例 本期总结 支持各种类型的文件上传,常见文件类型图片,音频,视频等,上传时同步获取音频与视频的时长,以及使用上传文件的缓存路径来作为vi…

WDF驱动开发-DMA(一)

在 Windows 7 及更早版本上,Kernel-Mode Driver Framework (KMDF) 仅支持 (DMA) 设备的总线-主直接内存访问。 此类设备包含其自己的 DMA 控制器。 在片上系统 (SoC) 上运行Windows 8及更高版本的平台上,该框架还支持系统模式 DMA,其中多个设…

视频讲解|基于模型预测算法的含储能微网双层能量管理模型【mpc】

1 主要内容 该讲解视频对应的免费程序链接为【防骗贴】基于模型预测算法的含储能微网双层能量管理模型,主要做的是一个微网双层优化调度模型,微网聚合单元包括风电、光伏、储能以及超级电容器,在微网的运行成本层面考虑了电池的退化成本&…

快捷方式(lnk)--加载HTA-CS上线

免责声明:本文仅做技术交流与学习... 目录 CS: HTA文档 文件托管 借助mshta.exe突破 本地生成lnk快捷方式: 非系统图标路径不同问题: 关于lnk的上线问题: CS: HTA文档 配置监听器 有效载荷---->HTA文档--->选择监听器--->选择powershell模式----> 默认生成一…

政务大厅引导系统:AR、VR技术革新引领政务服务体验升级

一、传统政务大厅面临的普遍痛点 随着城市的发展和政务服务需求的增长,传统的政务大厅面临着诸多挑战和痛点: 信息不对称:政务大厅内各部门信息分散,群众难以快速获取全面准确的服务信息,导致办事效率低下。 办事流…

计算机视觉 | 基于图像处理和边缘检测算法的黄豆计数实验

目录 一、实验原理二、实验步骤1. 图像读取与预处理2. 边缘检测3. 轮廓检测4. 标记轮廓序号 三、实验结果 Hi,大家好,我是半亩花海。 本实验旨在利用 Python 和 OpenCV 库,通过图像处理和边缘检测算法实现黄豆图像的自动识别和计数&#xff0…