零样本身份保持:ID-Animator引领个性化视频生成技术新前沿

在最新的研究进展中,由Xuanhua He及其团队提出的ID-Animator技术,为个性化视频生成领域带来了突破性的创新。这项技术的核心在于其零样本(zero-shot)人物视频生成方法,它允许研究者和开发者根据单一的参考面部图像生成具有特定身份特征的视频,而无需进行额外的训练步骤。

ID-Animator的设计基于两个主要组件:一个预训练的文本到视频(Text-to-Video, T2V)扩散模型,以及一个轻量级的面部适配器。

ID-Animator技术的基础是一个预训练的文本到视频扩散模型,该模型能够根据文本提示生成视频。然而,这种通用的视频生成模型并不擅长于生成特定身份人物的视频。为了解决这一问题,研究者们引入了一个面部适配器,以增强模型对特定身份特征的捕捉能力。

面部适配器是ID-Animator框架的关键部分,它负责编码与身份相关的嵌入。这一适配器通过学习面部潜在查询来获取身份相关的特征,并将这些特征嵌入到视频生成过程中。面部适配器的设计是轻量级的,这意味着它不会显著增加模型的计算负担。

为了提高模型在视频生成中对身份信息的提取效率,研究者们构建了一个以身份为导向的数据集。这个流程包括以下几个步骤:

  1. 解耦的人类视频字幕生成:研究者们设计了一种新的字幕重写技术,将字幕分解为两个部分:描述人物属性的“人类属性字幕”和描述人物动作的“人类动作字幕”。这两种字幕分别由不同的模型生成,然后通过一个大型语言模型整合成一个统一的、全面的字幕。

  2. 面部图像池的构建:与以往直接使用视频帧作为参考图像的方法不同,ID-Animator从视频中提取面部区域作为身份参考图像。这种策略减少了与身份无关特征对视频生成的影响。

为了减少参考图像中与身份无关特征的影响,研究者们开发了一种随机面部参考训练方法。在训练过程中,模型不是使用与生成目标相同的图像作为条件,而是随机选择面部图像池中的图像作为参考。这种方法有效地将ID相关的特征与图像中的其他内容解耦,使得适配器能够专注于与身份相关的特征。

在实现ID-Animator时,研究者们采取了以下步骤:

  • 模型选择:选择AnimateDiff作为基础的文本到视频生成模型。

  • 数据预处理:对训练数据进行裁剪、中心裁剪和调整大小,以适应模型的输入要求。

  • 训练策略:在训练过程中,只有面部适配器的参数会被更新,而预训练的文本到视频模型参数保持不变。

  • 优化技术:应用分类器自由引导技术,通过一定概率使用空文本嵌入来替代原始文本嵌入,以增强生成性能。

在实验部分,研究者们使用了开源的AnimateDiff作为文本到视频生成模型的基础,并在NVIDIA A100 GPU上进行了训练。

实验的基础是使用开源的AnimateDiff模型作为文本到视频生成的核心。为了适应ID-Animator的需要,研究者们对模型进行了适当的修改,特别是在面部适配器部分。训练数据集来源于CelebV,经过预处理,包括裁剪到16帧、中心裁剪到512x512像素等步骤,以确保数据的一致性和模型的输入要求。

在训练ID-Animator时,只有面部适配器的参数会被更新,而预训练的文本到视频模型则保持固定。这样的设计旨在减少训练成本,同时保持模型的视频生成能力。训练过程中,使用了单个NVIDIA A100 GPU,并采用了1e-4的学习率。为了进一步提升生成性能,研究者们还采用了分类器自由引导技术,通过一定概率使用空文本嵌入来替代原始文本嵌入。

研究者们对ID-Animator进行了定性评估,将其生成的视频与几个现有的方法进行了比较。他们选择了名人和普通个体的图像作为测试案例,并通过大型语言模型(LLM)随机生成了六个与人类语言风格一致的提示。这些提示用于评估模型遵循指令的能力。结果显示,ID-Animator在面部结构、动作丰富性以及遵循文本指令的能力上均优于对比方法。

ID-Animator的应用潜力在多个方面得到了展示。研究者们展示了模型在重新情境化方面的应用,即在保持人物身份的同时改变视频的上下文信息。这包括改变人物的发型、服装、背景、执行特定动作以及调整年龄或性别。此外,模型还能够混合不同人物的身份特征,生成具有混合特征的视频。这证明了面部适配器在学习能力上的高效性。

ID-Animator还展示了与现有模型的兼容性。研究者们将其与ControlNet结合,展示了如何通过单帧或多帧控制图像生成具有特定身份特征的视频。此外,ID-Animator还能够与社区模型(如Lyriel和Raemumxi)结合使用,即使这些模型从未在ID-Animator的训练中使用过。这些实验结果表明,ID-Animator不仅能够生成高质量的个性化视频,还能够无缝地与现有的视频生成框架集成。

通过这些实验,研究者们证明了ID-Animator在生成特定身份人物视频方面的优越性能。模型能够生成稳定且具有高度身份保真度的视频,同时保持与文本提示的一致性。此外,ID-Animator的训练方法和数据集构建流程为零样本个性化视频生成提供了一个有效的解决方案,展示了其在实际应用中的广泛潜力。

论文链接:https://arxiv.org/abs/2404.15275

GitHub 地址:https://github.com/ID-Animator/ID-Animator

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/12239.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解刨性能测试工具Locust

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 Locust安装 …

gin框架学习笔记(三) ——路由请求与相关参数

参数种类与参数处理 查询参数 在讲解查询参数的定义之前,我们先来看一个例子,当我打开了CSDN,我现在想查看我的博客浏览量,那么我就需要点击我的头像来打开我的个人主页,像下面这样: 我们现在把浏览器的网址取下来,…

【35分钟掌握金融风控策略27】贷中风控策略与客户运营体系

目录 贷中风控策略与客户运营体系 贷中风控日标 贷中风控数据源 贷中风控策略与客户运营体系 贷中是风控的第二道防线,贷中阶段风控的重点工作就是存量客户风控及运营。在当下,新客市场趋于饱和且获客成本越来越高,所以,在做好…

基于Java的俄罗斯方块游戏的设计与实现

关于俄罗斯方块项目源码.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89300281 基于Java的俄罗斯方块游戏的设计与实现 摘 要 俄罗斯方块是一款风靡全球,从一开始到现在都一直经久不衰的电脑、手机、掌上游戏机产品,是一款游戏规则简单…

在React中利用Postman测试代码获取数据

文章目录 概要名词解释1、Postman2、axios 使用Postman测试API在React中获取并展示数据小结 概要 在Web开发中,通过API获取数据是一项常见任务。Postman是一个功能强大的工具,可以帮助开发者测试API,并查看API的响应数据。在本篇博客中&…

【C语言】—— 动态内存管理

【C语言】——动态内存管理 一、动态内存管理概述1.1、动态内存的概念1.2、动态内存的必要性 二、 m a l l o c malloc malloc 函数2.1、函数介绍2.2、应用举例 三、 c a l l o c calloc calloc 函数四、 f r e e free free 函数4.1、函数介绍4.2、应用举例 五、 r e a l l o …

无列名注入

在进行sql注入时,一般都是使用 information_schema 库来获取表名与列名,因此有一种场景是传入参数时会将 information_schema 过滤 在这种情况下,由于 information_schema 无法使用,我们无法获取表名与列名。 表名获取方式 Inn…

FullCalendar日历组件集成实战(3)

背景 有一些应用系统或应用功能,如日程管理、任务管理需要使用到日历组件。虽然Element Plus也提供了日历组件,但功能比较简单,用来做数据展现勉强可用。但如果需要进行复杂的数据展示,以及互动操作如通过点击添加事件&#xff0…

SwiftUI中的常用图形(Shapes)

概述 在SwiftUI中,常用的图形(Shape)主要有: Circle:圆形 Ellipse:椭圆形 Capsule:胶囊形 Rectangle:矩形 RoundedRectangle:圆角矩形 上面的这些图形都继承了Shape协议…

Hive读写文件机制

Hive读写文件机制 1.SerDe是什么? SerDe是Hive中的一个概念,代表着“序列化/反序列化” (Serializer/Deserializer)。 SerDe在Hive中是用来处理数据如何在Hive与底层存储系统(例如HDFS)之间进行转换的机制…

2024国考行测、申论资料大全,做好备考真的很重要!

1. 国考是什么? 国考,全称国家公务员考试,是选拔国家公务员的重要途径。通过国考,你将有机会进入政府部门,为国家建设贡献力量。 2. 国考难在哪里? 国考之所以难,主要体现在以下几个方面: (1) 竞争激烈 每年国考报名人数都在百万以上,而录取率却不足2%。千军万马过独木桥…

node和npm版本太高导致项目无法正常安装依赖以及正常运行的解决办法:如何使用nvm对node和npm版本进行切换和管理

1,点击下载 nvm 并且安装 进入nvm的github: GitHub - coreybutler/nvm-windows: A node.js version management utility for Windows. Ironically written in Go. 这里下载发行版,Releases coreybutler/nvm-windows GitHub 找到 这个 nv…

洗地机哪款好用?希亦、追觅、顺造、米家等高品质洗地机推荐

家用洗地机已经成为家庭清洁的重要利器,其多功能性能帮助您轻松应对各种清洁任务,从而保持家居环境的清洁整洁。然而,市场上品牌繁多、功能各异的洗地机让人眼花缭乱。为了帮助大家做出明智的选择,我们将在本文中提供全面的选购指…

选择法(数值排序)(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>//声明排序函数sort; void sort(int a[], int n);int main() {//初始化变量值&#xff1b;int i, a[10];//填充数组&#xff1b;printf("请输入10个整数\n&…

蓝桥杯备战22.k倍区间——前缀和

目录 题目 分析 暴力求解 优化思路 AC代码 题目链接&#xff1a; P8649 [蓝桥杯 2017 省 B] k 倍区间 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 题目 分析 很明显这题是一道前缀和的题 暴力求解 只得了28分 #include<iostream> using namespace std; co…

求学生平均成绩(C语言)

一、运行结果&#xff1b; 二、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>//声明平均数函数average; float average(float score[10]);int main() {//初始化变量值&#xff1b;float score[10], aver;int i 0;//填充数组&#xff1b;pr…

探秘WebSQL:轻松构建前端数据库

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 探秘WebSQL&#xff1a;轻松构建前端数据库 前言WebSQL简介WebSQL的基本操作WebSQL的实际应用WebSQL的局限性和替代方案 前言 在Web的世界里&#xff0c;我们总是追求更好的用户体验和更快的响应速度…

添砖Java之路(其八)——继承,final关键字

目录 继承&#xff1a; super关键字&#xff1a; 方法重写&#xff1a; 继承特点&#xff1a; 继承构造方法&#xff1a; final关键字&#xff1a; 继承&#xff1a; 意义&#xff1a;让类于类之间产生父类于子类的关系&#xff0c;子类可以直接使用父类中的非私有成员(包…

Seal^_^【送书活动第4期】——《Web渗透测试技术》

Seal^_^【送书活动第4期】——《Web渗透测试技术》 一、参与方式二、本期推荐图书2.1 前 言2.2 关于本书2.3 本书读者2.4 图书简介2.5 作者荐语2.6 编辑推荐2.7 目 录 三、正版购买 掌握Web渗透测试技术&#xff0c;提高Web应用安全性。 一、参与方式 1、关注博主的账号。 2、点…

Linux下Code_Aster源码编译安装及使用

目录 软件介绍 基本依赖 其它依赖 一、源码下载 二、解压缩 三、编译安装 四、算例运行 软件介绍 Code_aster为法国电力集团&#xff08;EDF&#xff09;自1989年起开始研发的通用结构和热力耦合有限元仿真软件。Code_aster可用于力学、热学和声学等物理现象的仿真分析&…