DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

news/2025/4/21 11:20:56/文章来源:https://blog.csdn.net/weixin_44994838/article/details/139270682

UW&UCB&Google&NVIDIA ICCV23
https://github.com/johannakarras/DreamPose?tab=readme-ov-file

问题引入

输入参考图片 $x_0$ 和pose序列 $\{p_1,\cdots,p_N\}$ ，输出对应视频 $\{x_1',\cdots,x_N'\}$ ；
模型在推理的时候是帧与帧之间是独立生成的；
将原本的文生图模型改造成pose&image guided video generation model；

methods

appearence控制：Split CLIP-VAE Encoder，之前的方法将图片条件和noised latents结合到一起作为输入，但是这种方法是为了spatial的align，所以本文采取了另一种办法，也就是结合使用CLIP和VAE，最初和VAE embedding相关的权重设置为0，最后得到的embedding $c_I = A(c_{CLIP},c_{VAE})$ ，其中 $A$ 代表adapter；
pose控制：采用五个连续pose帧 $c_p=\{p_{i - 2},p_{i - 1},p_i,p_{i + 1},p_{i + 2}\}$ ，这些和noised latents concat到一起作为输入，输入修改了以接收额外的10个通道，初始化参数为0；
训练：根据上面的描述初始化模型参数之后，分为两个阶段进行训练，第一个阶段在完整数据集上面进行训练，第二个阶段在特定主题数据上进行微调；
Pose and Image Classifier-Free Guidance： $\epsilon_\theta(z_t,c_i,c_p) = \epsilon_\theta(z_t,\empty,\empty) + s_I(\epsilon_\theta(z_t,c_I,\empty)-\epsilon_\theta(z_t,\empty,\empty)) + s_p(\epsilon_\theta(z_t,c_I,c_p)-\epsilon_\theta(z_t,c_I,\empty))$ ， $s_I$ 保证和输入图片的appearence相符， $s_p$ 保证和pose的align；

实验

UBC Fashion dataset

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/843107.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

浙江大学数据结构MOOC-课后习题-第十讲-排序5 PAT Judge

浙江大学数据结构MOOC-课后习题-第十讲-排序5 PAT Judge

题目汇总浙江大学数据结构MOOC-课后习题-拼题A-代码分享-2024 题目描述这段文字是关于如何生成PAT（一种编程能力测试）的排行榜的说明。下面是这段文字的中文翻译： 输入说明： 每个输入文件包含一个测试案例。对于每个案例&…

阅读更多...

存储器带宽

存储器带宽

定义存储器单位时间内读出/写入的位数或字节数单位单位是bps（位/秒）或B/s（字节/秒） 计算公式基于存储器时频率和数据总线位数的计算方法公式：带宽存储器时频率存储器数据总线位数 / 8 基于存取周期和每…

阅读更多...

./configure 放开OPENSSL_X509_H宏定义

./configure 放开OPENSSL_X509_H宏定义

在使用 ./configure 脚本编译软件时，可以通过在命令行中添加 --enable-FEATURE、–with-PACKAGE 或 --disable-FEATURE 等参数来配置宏。这些参数会设置配置变量，进而可能影响编译时的宏定义。例如，如果你想启用某个特性，可以使…

阅读更多...

智慧园区：打造未来城市的新模式

智慧园区：打造未来城市的新模式

随着城市化进程的加速和科技创新的推动，城市面临着诸多挑战和机遇。如何提升城市的竞争力和可持续性，是一个亟待解决的问题。在这个背景下，智慧园区作为一种新型的城市发展模式，引起了越来越多的关注和探索。什么是智慧园区&…

阅读更多...

天若OCR 识别 (本地文字识别转换工具)

天若OCR 识别 (本地文字识别转换工具)

前言天若OCR文字识别本地版是一款在天若OCR文字识别工具v5.0免费开源版的基础上采用Chinese-lite框架和Paddle-ocr框架本地化识别接口编译而成,无需联网也无需申请密钥，纯本地运算，识别准确度和速度很快，操作和天若OCR免费版一样&#xff0…

阅读更多...

如何将短信从 iPhone 传输到计算机 - 5 种灵活的方式

如何将短信从 iPhone 传输到计算机 - 5 种灵活的方式

概括与他人交流的多种方式之一是发送短信。对于那些包含珍贵回忆或重要信息的消息，您需要将它们发送到另一台设备（例如计算机）进行备份。将短信文件发送到计算机是保存宝贵数据的最佳方法之一。继续阅读本文，了解如何将短信从 i…

阅读更多...

工作五年后的程序员，一般怎样了?

工作五年后的程序员，一般怎样了?

本科一般是22岁毕业，5年开发经验一般是指27岁。这个阶段，不少程序员可能通过多次跳槽，薪资有一定涨幅，但真有可能还在小公司甚至外包公司做增删改查的业务，然后坐等30岁的到来。就以Java为例，一些发展情况…

阅读更多...

gitlab将本地文件项目上传至gitlab服务

gitlab将本地文件项目上传至gitlab服务

打开gitlab网页界面，登陆管理员账号 （测试服务器安装的gitlab，浏览器输入ip或配置的gitlab地址） 创建新项目使用gitlab创建项目创建一个新项目（忽略分组） （忽略分组） 在创建工…

阅读更多...

【文末附gpt升级方案】数据虚拟化技术的优势

【文末附gpt升级方案】数据虚拟化技术的优势

数据虚拟化技术的优势主要体现在以下几个方面： 提高资源利用率和降低成本： 数据虚拟化可以显著减少物理硬件的需求，从而降低硬件成本。通过虚拟化，企业可以利用数据中心提供的规模经济优势，使用更少的服务器来完成相同…

阅读更多...

vue2如何父组件对象双向绑定子组件

vue2如何父组件对象双向绑定子组件

对于Vue 2，你不能直接用v-model绑定对象，但可以通过在子组件内部处理value prop的变化并触发input事件来模拟这一行为。父组件A 1<template> 2 <ComponentB v-model"item" prop-names"addressId,date,startTime,endTime&quo…

阅读更多...

Python中的多线程

Python中的多线程

第1章：多线程基础线程的定义和作用线程是操作系统能够进行运算调度的最小单位。它允许程序在执行过程中同时执行多个任务，提高程序的执行效率。线程与进程的区别进程是资源分配的最小单位，而线程是程序执行的最小单位。一个进程可以包…

阅读更多...

决策树算法实战

决策树算法实战

本实战主要目标是讲解如何使用sklearn库来构造决策树，包括其中的一些参数的使用，以及参数调优对模型精确度的影响。 1. 数据处理导入Pandas和Matplotlib两个库。 # 导入Pandas和Matplotlib两个库 %matplotlib inline import matplotlib.pyplot as pl…

阅读更多...

动态规划part02 Day42

动态规划part02 Day42

LC62不同路径 LC63不同路径II(超时10min) 超时原因分析：思路想错了，即便是正确思路初始化也有点问题，应该将不必要的判断逻辑引入初始化的过程中初始化： 从左上角到[i][0]和[0][j]都只有一条路径dp[i][0]1和dp[0][j]1引入故障&am…

阅读更多...

URL跳转

URL跳转

1.URL介绍开放重定向（Open Redirect），也叫URL跳转漏洞，是指服务端未对传入的跳转url变量进行检查和控制，导致诱导用户跳转到恶意网站，由于是从可信的站点跳转出去的，用户会比较信任。 2.URL跳…

阅读更多...

监控云安全的9个方法和措施

监控云安全的9个方法和措施

如今，很多企业致力于提高云计算安全指标的可见性，这是由于云计算的安全性与本地部署的安全性根本不同，并且随着企业将应用程序、服务和数据移动到新环境，需要不同的实践。检测云的云检测就显得极其重要。如今，很多企业…

阅读更多...

公司预防文件泄密的常见手段 | 文件防泄密软件推荐排行榜

公司预防文件泄密的常见手段 | 文件防泄密软件推荐排行榜

在当今信息化社会，企业面临着越来越多的文件泄密风险。为了保护企业的核心信息和资产，公司需要采取一系列手段来预防文件泄密。本文将介绍公司预防文件泄密的常见手段，并推荐五款优秀的防泄密软件，帮助企业构建更为严密的数据安全…

阅读更多...

【Umi】umi-max 中使用 Dva

【Umi】umi-max 中使用 Dva

前置介绍 Umi 是一个基于 React 的可插拔企业级前端应用框架，Umi 提供了一系列的插件和约定，使得开发者能够以约定大于配置的方式进行开发，同时还支持丰富的功能扩展和插件机制。 Dva 是一个基于 Redux、Redux-Saga 和 React-Router 的数据…

阅读更多...

ArcGIS中离线发布路径分析服务,并实现小车根据路径进行运动

ArcGIS中离线发布路径分析服务,并实现小车根据路径进行运动

ArcGIS中离线发布路径分析服务，您可以按照以下步骤操作： 准备ArcMap项目： 打开ArcMap并加载包含网络分析图层的项目。在ArcMap中，使用 Network Analyst Toolbar 或 Catalog 创建网络数据集（Network Dataset&#xff09…

阅读更多...

Unity3D 主城角色动画控制与消息触发详解

Unity3D 主城角色动画控制与消息触发详解

前言在游戏开发中，角色动画控制和消息触发是非常重要的一部分，它可以让游戏更加生动和互动。本文将详细介绍如何在Unity3D中实现主城角色动画控制与消息触发。对惹，这里有一个游戏开发交流小组，大家可以点击进来一起交流一下开…

阅读更多...

二零二四充能必读 | 618火热来袭，编程书单助你提升代码力

二零二四充能必读 | 618火热来袭，编程书单助你提升代码力

文章目录 📘 Java领域的经典之作🐍 Python学习者的宝典🌐 前端开发者的权威指南🔒 并发编程的艺术🤖 JVM的深入理解🏗 构建自己的编程语言🧠 编程智慧的结晶🌟 代码效率的提升亲爱的…

阅读更多...

最新文章