超越AnimateAnyone, 华中科大中科大阿里提出Unimate,可以根据单张图片和姿势指导生成视频。

阿里新发布的UniAnimate,与 AnimateAnyone 非常相似,它可以根据单张图片和姿势指导生成视频。项目核心技术是统一视频扩散模型,通过将参考图像和估计视频内容嵌入到共享特征空间,实现外观和动作的同步。

相关链接

项目:unianimate.github.io

论文:arxiv.org/abs/2406.01188

代码:github.com/ali-vilab/UniAnimate

论文阅读

利用统一视频传播模型实现一致的人体图像动画

摘要

最近基于扩散的人体图像动画技术在合成完全遵循给定参考身份和所需运动姿势序列的视频方面取得了令人印象深刻的成功。

尽管如此,仍然存在两个限制:

  • 需要额外的参考模型来将身份图像与主视频分支对齐,这显著增加了优化负担和模型参数;

  • 生成的视频通常时间较短(例如24帧),阻碍了实际应用。

为了解决这些缺点,我们提出了一个 UniAnimate 框架来实现高效和长期的人体视频生成。

首先,为了降低优化难度并确保时间连贯性,我们通过结合统一的视频扩散模型将参考图像与姿势指导和噪声视频一起映射到一个共同的特征空间中。

其次,我们提出了一种统一的噪声输入,它支持随机噪声输入以及第一帧条件输入,从而增强了生成长期视频的能力。

最后,为了进一步有效地处理长序列,我们探索了一种基于状态空间模型的替代时间建模架构,以取代原始的计算耗时的 Transformer。

大量实验结果表明,UniAnimate 在定量和定性评估中都取得了优于现有最先进技术的合成结果。值得注意的是,UniAnimate 甚至可以通过迭代采用第一帧调节策略来生成高度一致的一分钟视频。代码和模型将公开提供。

方法

所提出的 UniAnimate 的整体架构。

首先,我们利用 CLIP 编码器和 VAE 编码器提取给定参考图像的潜在特征。为了便于学习参考图像中的人体结构,我们还将参考姿势的表示纳入最终的参考指导中。

随后,我们使用姿势编码器对目标驱动姿势序列进行编码,并将其与沿通道维度的噪声输入连接起来。噪声输入来自第一帧条件视频或噪声视频。

然后,将连接的噪声输入与参考指导沿时间维度堆叠,并输入到统一视频扩散模型中以消除噪声。统一视频扩散模型中的时间模块可以是时间 Transformer 或时间 Mamba。

最后,采用 VAE 解码器将生成的潜在视频映射到像素空间。

实验

为合成模型角色制作动画

真实模型角色动画

制作粘土风格角色动画

人物:Yann LeCun & Elon Musk

动画其他跨域角色

更多

结论

在本文中,我们介绍了 UniAnimate,这是一种用于生成高保真、时间平滑的人体图像动画视频的新方法。通过引入统一视频扩散模型、统一噪声输入和时间 Mamba,我们解决了现有方法的外观错位限制,并提高了视频生成质量和效率。大量实验结果定量和定性地验证了所提出的 UniAnimate 的有效性,并强调了其在实际应用部署中的潜力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Scala入门【安装与使用、变量与数据类型、运算符、函数、条件判断、循环、字符串、面向对象、数组】

视频地址:Scala大专/本科专用课程_哔哩哔哩_bilibili 目录 P01【01Scala安装与使用】16:15 P02【02变量与数据类型】17:14 P03【03运算符】12:41 P04【04函数】16:40 P05【05条件判断】10:56 P06【06循环】13:33 P07【07字符串】19:09 P08【08面向对象】17:27 P09【0…

DVWA-CSRF-samesite分析

拿DVWA的CSRF为例子 接DVWA的分析,发现其实Impossible的PHPSESSID是设置的samesite1. 参数的意思参考Set-Cookie SameSite:控制 cookie 是否随跨站请求一起发送,这样可以在一定程度上防范跨站请求伪造攻击(CSRF)。 下面用DVWA CS…

使用Python进行数据分析和自动化

组织严重依赖数据分析和自动化来提高运营效率。在本文中,我们将使用 Python(一种用于通用编程的高级编程语言)的示例来研究数据分析和自动化的基础知识。 什么是数据分析? 数据分析是指检查、清理、转换和建模数据的过程&#xf…

FydeOS导入VMware虚拟机之后,如何扩展系统硬盘大小?

前言​ 最近查询FydeOS系统的小伙伴不在少数啊!可见这个系统是相当nice的,小伙伴们都是尝试尝试。 看到有不少小伙伴通过VMware虚拟机使用FydeOS,那么你就肯定知道官方包导入VMware之后,硬盘只显示分区了20GB。 如果这时候使用Fy…

物理服务器会不会被DDOS攻击?

物理服务器同样可能遭受分布式拒绝服务(DDoS)攻击。DDoS攻击的目的是通过大量的请求淹没目标服务器或网络,使其无法处理合法用户的请求,从而导致服务不可用。这种攻击并不区分服务器是物理的还是虚拟的,只要服务器连接…

同城跑腿小程序的崛起与用户体验革新

随着移动互联网的飞速发展,人们的生活方式正在发生深刻的变化。在这个快节奏的时代,时间成为了最宝贵的资源。在这样的背景下,同城跑腿小程序应运而生,以其高效、便捷的服务特性,迅速赢得了广大用户的青睐。本文将探讨…

puppet运维自动化

在现代信息技术管理中,自动化运维工具的应用已成为企业提升效率、降低成本的关键手段之一。Puppet作为一种强大的运维自动化工具,因其高效、灵活和可扩展的特点,受到越来越多企业的青睐。本文将探讨Puppet在运维自动化中的应用,包…

SpringBoot使用滑动窗口限流防止用户重复提交(自定义注解实现)

在你的项目中,有没有遇到用户重复提交的场景,即当用户因为网络延迟等情况把已经提交过一次的东西再次进行了提价,本篇文章将向各位介绍使用滑动窗口限流的方式来防止用户重复提交,并通过我们的自定义注解来进行封装功能。 首先&a…

代码随想录算法训练营第三十三天|452. 用最少数量的箭引爆气球、 435. 无重叠区间、 763.划分字母区间

452. 用最少数量的箭引爆气球 题目链接:452. 用最少数量的箭引爆气球 文档讲解:代码随想录 状态:没想出来 思路:对气球终点位置排序,从第一个气球终点位置射出箭,看这支箭可以尽可能穿过几个气球&#xff0…

Excel 宏录制与VBA编程 —— 12、日期相关

代码1 - 获取当前时间日期信息 代码2 - 时间日期格式 代码3 - 时间日期计算 代码4 - 时间日期案例 关注 笔者 - jxd

免费悬浮翻译器哪个好?测评5款悬浮翻译器

在享受休闲时光时,我们通常都希望不被打扰,对吧? 然而,有时打扰我们的并非是外界的干扰,而是在观看外语视频时,无法理解视频内容的烦躁感。 不过,今天本文将为大家揭开几款屏幕悬浮翻译软件的…

基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝10W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟感兴趣的可以先收藏起来,还…

ctr/cvr预估之WideDeep模型

ctr/cvr预估之Wide&Deep模型 在探索点击率(CTR)和转化率(CVR)预估的领域中,我们始终追求的是一种既能捕获数据中的线性关系,又能发现复杂模式的模型。因子分解机(Factorization Machines, …

微服务SpringCloud,SpringAliBaBa(2)

微服务02 1.网关路由 网络的关口,负责请求的路由、转发、身份校验。 有了网关之后,微服务的地址不用在暴露了,就暴露个网关地址。 快速入门 routes代表一套路由,pridicates是规则,对请求做出判断,看是哪…

[C++深入] --- malloc/free和new/delete

1 new运算符的拓展 1.1 自由存储区与堆的概念 在C++中,内存区分为5个区,分别是堆、栈、自由存储区、全局/静态存储区、常量存储区。 自由存储区是C++基于new操作符的一个抽象概念,凡是通过new操作符进行内存申请,该内存即为自由存储区。 new操作符从自由存储区(free st…

今日头条豆包大语言模型api接入python SDK,安装官方库报错,解决方法

豆包python大语言模型库安装指令: pip install volcengine-python-sdk 报错: note: This error originates from a subprocess, and is likely not a problem with pip.ERROR: Failed building wheel for volcengine-python-sdkRunning setup.py clea…

java8 将对象list中的某一个属性取出组成一个list

实体类 public class Sp {String spdm;String spmc;public Sp() {}public Sp(String spdm, String spmc) {this.spdm spdm;this.spmc spmc;}public String getSpdm() {return spdm;}public void setSpdm(String spdm) {this.spdm spdm;}public String getSpmc() {return sp…

数据库讲解---(数据库设计)

目录 一.数据库设计概述 1.1数据库设计的内容 1.1.1数据库的结构设计 1.1.2数据库的行为设计 1.2数据库设计方法 1.2.1直观设计法 1.2.2规范设计法 1.2.3计算机辅助设计法 1.2.4自动化设计法 1.3数据库设计的基本步骤 1.3.1需求分析 1.3.2概念结构设计 1.3.3逻辑结…

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述

气象站的种类和应用范围可以根据不同的分类标准进行详细的划分和描述。以下是从不同角度对气象站的种类和应用范围的介绍: 一、气象站的种类 根据用途和安装环境分类: 农业气象站:专为农业生产服务,监测土壤温度、湿度等参数&am…

替代LTC3855双通道多相带差分遥测DC-DC同步控制器

特性:双通道、180 定相控制器降低了所需的输入电容和电源感应噪声高效率:达 95%RSENSE 或 DCR 电流检测可编程 DCR 温度补偿0.75%、0.6V 输出电压准确度可锁相固定频率:250kHz 至 770kHz真正的远端采样差分放大器双路 N 沟道 MOSFET 同步驱动宽 VIN 范围…