旷视AI开源新突破:上传照片即可生成表情包视频!

日前,旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频(如演讲、表情包、rap),便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等最新AI视频模型不同,旷视MegActor采用开源方式,供开发者社区使用。MegActor生成的视频画质更出色,面部细节更加丰富自然。

为了展示其泛化性,MegActor甚至可以将VASA中的人物肖像和视频组合生成,得到生动的表情视频。即使与阿里EMO的官方案例相比,MegActor也能生成近似的效果。

总的来说,无论是让肖像开口说话、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的最新研究成果。旷视研究院是旷视公司级研究机构,旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。多年来,旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中,许多工作通常使用高质量的闭源数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作,MegActor采用原始图像进行驱动,这与多数厂商使用的中间表示方法(如sketch、pose、landmark)不同,能够捕捉到细致的表情和运动信息。

旷视科技研究总经理范浩强表示,在AI视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频的保真度也不尽如人意。通过研究发现,使用原视频进行驱动,不仅降低了控制信号的门槛,更能生成保真且动作一致的视频。

具体来说,MegActor主要由两个阶段构成:

使用ReferenceNet对参考图像进行特征提取,获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取,将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息,但也存在ID泄露和背景干扰等挑战。为此,MegActor采用了条件扩散模型,引入了合成数据生成框架,创建具有一致动作和表情但不同身份ID的视频,以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景,并使用CLIP对背景细节进行编码,确保背景的稳定性。

在数据训练方面,旷视研究院团队使用公开数据集(VFHQ和CeleV)进行训练,总时长超过700小时。为了避免ID泄露问题,团队还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致但ID不一致的数据。此外,团队使用注视检测模型处理数据,获取大约5%的高质量数据进行Finetune训练。

通过新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频,确保角色身份一致性;

支持各种驱动视频,如演讲、唱歌、表情包等;

支持不同画风(照片、传统绘画、漫画、AI数字人等);

与音频生成方法相比,MegActor生成的视频不仅能确保表情和动作一致,更能达到自然程度。

目前,MegActor已经完全开源,供开发者和用户即开即用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/45405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

API接口详解及其在电子商务中的应用研究

目录 引言 一、API接口概述 1.1 API接口定义 1.2 API接口的作用 二、API接口分类 2.1 根据使用对象分类 2.2 根据协议和数据格式分类 三、API接口设计原则 四、API接口在电子商务中的应用 4.1 数据交换与集成 4.2 个性化推荐与营销 4.3 库存管理与订单处理 4.4 数…

C++ 数据结构探索:构建高效程序的基础

C 数据结构探索:构建高效程序的基础 在C编程的广阔领域中,数据结构是理解和实现高效、可维护程序的核心。数据结构是计算机存储、组织数据的方式,它们使得数据访问和修改操作更加高效。本文将带您走进C中几种常见且重要的数据结构&#xff0…

数据湖仓一体(一) 编译hudi

目录 一、大数据组件版本信息 二、数据湖仓架构 三、数据湖仓组件部署规划 四、编译hudi 一、大数据组件版本信息 hudi-0.14.1zookeeper-3.5.7seatunnel-2.3.4kafka_2.12-3.5.2hadoop-3.3.5mysql-5.7.28apache-hive-3.1.3spark-3.3.1flink-1.17.2apache-dolphinscheduler-3.1.9…

气膜仓储与传统仓储的成本优势对比—轻空间

随着物流和仓储需求的不断增长,企业对仓储设施的要求也日益提高。传统仓储设施虽然具有一定的优势,但在建设和运营成本上往往较高。近年来,气膜仓储作为一种新型仓储方式,以其独特的优势逐渐受到市场青睐。轻空间将详细探讨气膜仓…

Debian 12更新:12.6版本发布 2024年6月29日

Debian 12更新:12.6版本发布 2024年6月29日 Debian项目很高兴地宣布其稳定发行版Debian 12(代号bookworm)的第六次更新。这个点发布主要增加了对安全问题的修正,以及对一些严重问题的调整。安全警告已经单独发布,并且…

spring boot实现短信验证码功能

1、到阿里云网站申请 https://market.aliyun.com/products/5700000 2/cmapi00046920.html2、配置文件,可申请测试 sms:app-code: xxxxxxxxxtemplate-id: xxxxxxx3、使用restTemplate用于第三方接口调用 package com.example.rsocketclient.config;import org.spr…

Altium Designer输出Gerber文件步骤

参考链接 技术指导:Altium Designer输出Gerber文件步骤 (jlc.com)https://www.jlc.com/portal/server_guide_10171.html 特此记录 anlog 2024年7月12日

springboot 程序运行一段时间后收不到redis订阅的消息

springboot 程序运行一段时间后收不到redis订阅的消息 问题描述 程序启动后redis.user.two主题正常是可以收到消息的,发一条收一条,但是隔一段时间后;就收不到消息了; 此时如果你手动调用发送另外一个消息订阅redis.user.two2&…

豆包AI智能助手:知识库整理与智能检索的双重应用

引言 抖音豆包,作为字节跳动开发的AI智能助手,不仅仅是一个简单的虚拟角色,而是集成了深度学习和自然语言处理技术的复杂系统,专门设计来增强用户在抖音平台上的体验。同时,豆包的应用示范了AI智能助手在知识库管理和…

华为HCIP Datacom H12-821 卷38

1.多选题 下面关于 BGP中的公认属性的描述,正确的是 A、公认必遵属性是所有BGP路由器都识别,且必须存在于Updata消息中心 B、BGP必须识别所有公认属性 C、公认属性分为公认必遵和可选过渡两种 D、公认任意属性是所有BGP造由器都可以识别&#xff0c…

怎么拿下Android开发Android面试题?(一)

Hello,之前更新了面试中的Android的Java面试部分,这里会更新关于Android部分的面试题。 怎么拿下Android开发Android面试题?(二) 第一节 Android 四大组件相关1.1 Activity 与 Fragment 之间常见的几种通信方式&#x…

编程参考 - 在C++移动构造函数声明中使用noexcept

在 C 中,noexcept 是用于表示函数不抛出异常的指定符。它既可用于常规函数,也可用于特殊成员函数,包括构造函数和析构函数。使用 noexcept 可以帮助编译器进行优化,提高代码的安全性和正确性。 In C, noexcept is a specifier use…

设计模式的七项原则

文章目录 设计模式的七项原则单一职责原则接口隔离原则依赖倒置里氏替换原则开闭原则迪米特法则复用合成原则 设计模式的七项原则 分别为 单一职责原则接口隔离原则依赖倒置里氏替换原则开闭原则迪米特法则复用合成原则 单一职责原则 一个类负责一个职责,不可以…

解决configure: error: Unexpected output of ‘arch‘ on OSX

最近很好高兴用上了新版的macbook(芯片:Apple M3 Pro,操作系统:14.3)。 不高兴的是遇到了不兼容的问题。所以选型还是成熟的技术是关键。 电脑里用pyenv 工具管理多个版本的python。 命令:pyenv install x…

FX110网:香港证监会对Yomaex等多家虚拟资产交易平台发出警告

近日,香港证券及期货事务监察委员会(香港证监会,SFC)对虚拟资产交易平台Yomaex发出警告,运营网址为yomaexd.com.该平台曾多次被FX110网发文曝光。相关阅读 《Yomaex平台“高额回报”是“高级陷阱”,公务员也…

Mybatis-plus乐观锁的实现

第一步:在springboot启动类 的拦截器中添加乐观锁Bean public MybatisPlusInterceptor plusInterceptor(){MybatisPlusInterceptor mybatisPlusInterceptor new MybatisPlusInterceptor();//分页插件mybatisPlusInterceptor.addInnerInterceptor(new PaginationInn…

Java中Timer定时器的使用

定时器Timer 概述:开发中,有时候我们会需要一些周期性的操作,每隔一段时间去做一件事,在Java中可以通过Timer定时器去实现。Timer是一种工具,线程用其安排以后在后台线程中执行的任务。可安排任务执行一次&#xff0c…

Java Redis多限流

在Java中实现Redis多限流通常涉及使用Redis的某些特性,如INCR、EXPIRE、Lua脚本或者更高级的Redis数据结构如Redis Bitmaps、Redis Streams结合Redis Pub/Sub,或者使用Redis的第三方库如Redis Rate Limiter(基于Lua脚本或Redis自身功能实现&a…

解决WSL2突然没网络问题

解决WSL2突然没网络问题 在使用Windows Subsystem for Linux(WSL)时,有时可能会遇到网络连接问题。以下步骤可以帮助你解决这些问题。 一、启动命令提示符(cmd) 1. 关闭WSL 在开始任何网络配置前,先关闭…

Oracle11g_RAC for vmware workstation 安装教程(on suse11)

一、前言 本文介绍在vmware workstation环境下,基于suse11sp1操作系统安装Oracle11g RACASM 数据库(两节点)。 1.1 RAC中的基本概念 安装ORACLE RACASM前,您可能需要事先简要的了解RAC,CRS,ASM的概念。 1.1…