NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

NLPR、SenseTime 和 NTU 加速自动视频纵向编辑

news/2025/4/29 10:35:00/文章来源:https://blog.csdn.net/virone/article/details/132296436

视频人像编辑技术已经在电视、视频和电影制作中得到了应用，并有望在不断发展的网真场景中发挥关键作用。最先进的方法已经可以逼真地将同源音频合成为视频。现在，来自北京模式识别国家实验室（NLPR）、商汤科技研究和南洋理工大学的研究人员通过一个新的框架将这项技术向前推进了一步，该框架可以实现完全任意的音频 - 视频翻译。

在开发该项目时，研究人员面临着许多挑战：

1、如何在没有源视频的情况下执行从音频到视频的直接映射

2、如何概括同一音频剪辑上不同说话人的面部表情

3、如何保持视频背景的完整性和清晰度，防止扬声器头部移动引起的遮挡等

2023-08-15T03:17:20.png

系统架构概述

为了增加合成视频的真实感，研究人员结合了许多不同的模型和网络。在视频方面，他们应用了参数化3D人脸模型，从每个肖像帧中提取人脸几何形状、姿势和表情参数。在音频方面，他们使用音频到表情的翻译网络来识别特定的音频特征，并将其与面部表情相匹配。

研究人员还设计了一个音频ID去除网络，以降低不同肖像的差异化。然后使用重组的 3D 面部网格修改源和目标参数，创建蒙版肖像。最后，研究人员应用了神经视频渲染网络来实现清晰和不间断的背景场景。

2023-08-15T03:17:42.png

音频到表达网络架构

一对多和多对一平移测试结果表明，所提系统的泛化能力比现有方法产生更自然的外观和运动。

2023-08-15T03:18:02.png

与四种主要的最新方法进行比较。

本文的第一作者是Linsen Song，他是NLPR研究员何然和前商汤科技实习生指导下的研究生。可以在项目页面上查看综合结果的视频演示和解释。

相关论文《Everyone’s Talkin：Let Me Talk as You Want》发表在arXiv上。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/45936.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

OpenAI Function calling

OpenAI Function calling

开篇原文出处最近 OpenAI 在 6 月 13 号发布了新 feature，主要针对模型进行了优化，提供了 function calling 的功能，该 feature 对于很多集成 OpenAI 的应用来说绝对是一个“神器”。 Prompt 的演进如果初看 OpenAI 官网对function ca…

阅读更多...

CloudQuery实战 | 谁说没有一款一体化数据库操作管控云平台了？

CloudQuery实战 | 谁说没有一款一体化数据库操作管控云平台了？

文章目录 CloudQuery询盾的地址CloudQuery主页统一入口数据库归纳SQL编辑器权限管控审计中心数据保护数据变更 CloudQuery文档中心了解CloudQuery快速入门安装步骤社区版v2.1.0操作手册1数据查询更新日志 CloudQuery社区和活动 CloudQuery线上实战线上实战主页面展示及数据操作…

阅读更多...

广义模态控制

广义模态控制

广义模态控制 1. 模态及模态控制的思想2. 控制方法数学推导3. 解的几个条件4. 举例计算温馨提示：在阅读本文之前，读者最好具有一定的模态的相关知识，可以阅读笔者的另一篇博客模态反馈控制中的第1节来了解。 1. 模态及模态控制的思想我们…

阅读更多...

宝塔部署Java+Vue前后端分离项目经验总结

宝塔部署Java+Vue前后端分离项目经验总结

前言之前部署服务器都是在Linux环境下自己一点一点安装软件，听说用宝塔傻瓜式部署更快，这次浅浅尝试了一把。确实简单！ 1、买服务器咋买服务器略，记得服务器装系统就装 Cent OS 7系列即可，我装的7.6。 2、创建…

阅读更多...

Linux面试笔试题（1）

Linux面试笔试题（1）

1、以长格式列目录时，若文件test的权限描述为：drwxrw-r–，则文件test的类型及文件主的权限是__A____。 A.目录文件、读写执行 B.目录文件、读写 C.普通文件、读写 D.普通文件、读在这个问题中，我们需要解析文件权限的描述&…

阅读更多...

ChatGPT在智能城市规划和交通优化中的应用如何？

ChatGPT在智能城市规划和交通优化中的应用如何？

智能城市规划和交通优化是应对城市化挑战、提高城市可持续性的重要领域。在这方面，ChatGPT作为一种强大的自然语言处理模型，可以发挥重要作用，帮助实现更智能、高效的城市规划和交通管理。本文将详细探讨ChatGPT在智能城市规划和交通优化中的…

阅读更多...

Python typing函式庫和torch.types

Python typing函式庫和torch.types

Python typing函式庫和torch.types 前言typingSequence vs IterableCallableUnionOptionalFunctionsCallableIterator/generator位置參數 ＆ 關鍵字參數 Classesself自定義類別ClassVar\_\_setattr\_\_ 與 \__getattr\_\_ torch.typesbuiltins 參數前的＊ …

阅读更多...

[RDMA] 高性能异步的消息传递和RPC :Accelio

[RDMA] 高性能异步的消息传递和RPC :Accelio

1. Introduce Accelio是一个高性能异步的可靠消息传递和RPC库，能优化硬件加速。 RDMA和TCP / IP传输被实现，并且其他的传输也能被实现，如共享存储器可以利用这个高效和方便的API的优点。Accelio 是 Mellanox 公司的RDMA中间件，用…

阅读更多...

Visual Studio 2022 你必须知道的实用调试技巧

Visual Studio 2022 你必须知道的实用调试技巧

目录 1、什么是bug？ 2.调试是什么？有多重要？ 2.1我们是如何写代码的？ 2.2又是如何排查出现的问题的呢？ 编辑 2.3 调试是什么？ 2.4调试的基本步骤 2.5Debug和Release的介绍 3.Windows环境调试介绍…

阅读更多...

基于Java+SpringBoot的房源出租信息管理系统【源码+论文+演示视频+包运行成功】

基于Java+SpringBoot的房源出租信息管理系统【源码+论文+演示视频+包运行成功】

博主介绍：✌csdn特邀作者、博客专家、java领域优质创作者、博客之星，擅长Java、微信小程序、Python、Android等技术，专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推…

阅读更多...

【腾讯云Cloud Studio实战训练营】用Vue+Vite快速构建完成交互式3D小故事

【腾讯云Cloud Studio实战训练营】用Vue+Vite快速构建完成交互式3D小故事

👀前置了解：(官网 https://cloudstudio.net/) 什么是Cloud Studio？ Cloud Studio 是基于浏览器的集成式开发环境（IDE），为开发者提供了一个永不间断的云端工作站。用户在使用 Cloud Studio 时无需安装&#…

阅读更多...

FPGA_学习_16_IP核_ROM（延迟一拍输出）

FPGA_学习_16_IP核_ROM（延迟一拍输出）

在寻找APD最合适的偏压的过程中，一般会用到厂商提供一条曲线，横坐标是温度的变化，纵坐标表示击穿偏压的变化，但每个产品真正的击穿偏压是有差异的。为了能够快速的找到当前温度下真实的击穿偏压，我们可以这样做&#…

阅读更多...

5.5.webrtc的线程管理

5.5.webrtc的线程管理

今天呢，我们来介绍一下线程的管理与绑定，首先我们来看一下web rtc中的线程管理类，也就是thread manager。对于这个类来说呢，其实实现非常简单，对吧？ 包括了几个重要的成员，第一个成员呢就是ins…

阅读更多...

小研究 - Android 字节码动态分析分布式框架（三）

小研究 - Android 字节码动态分析分布式框架（三）

安卓平台是个多进程同时运行的系统，它还缺少合适的动态分析接口。因此，在安卓平台上进行全面的动态分析具有高难度和挑战性。已有的研究大多是针对一些安全问题的分析方法或者框架，无法为实现更加灵活、通用的动态分析工具的开发提供支持。此…

阅读更多...

五款拿来就能用的炫酷表白代码

五款拿来就能用的炫酷表白代码

「作者主页」：士别三日wyx 「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「推荐专栏」：小白零基础《Python入门到精通》五款炫酷表白代码 1、无限弹窗表白2、做我女朋友好吗，不同意就关机3、…

阅读更多...

无涯教程-PHP - XML GET

无涯教程-PHP - XML GET

XML Get已用于从xml文件获取节点值。以下示例显示了如何从xml获取数据。 Note.xml 是xml文件，可以通过php文件访问。 <SUBJECT><COURSE>Android</COURSE><COUNTRY>India</COUNTRY><COMPANY>LearnFk</COMPANY><PRICE…

阅读更多...

c#设计模式-结构型模式之桥接模式

c#设计模式-结构型模式之桥接模式

前言桥接模式是一种设计模式，它将抽象与实现分离，使它们可以独立变化。这种模式涉及到一个接口作为桥梁，使实体类的功能独立于接口实现类。这两种类型的类可以结构化改变而互不影响。桥接模式的主要目的是通过将实现和抽象分离，…

阅读更多...

excel 核心快捷键用法

excel 核心快捷键用法

1、wps怎样只复制公示计算出来的数据 1.1、按下快捷键“CtrlC”，复制该单元格。 1.2、按下快捷键“ShiftCtrlV”，即“粘贴为数值”，即可只复制数字而不复制该单元格的公式 1.3、wps怎样只复制公示计算出来的数据_百度知道https://zhidao.baid…

阅读更多...

数据结构之并查集

数据结构之并查集

并查集 1. 并查集原理2. 并查集实现3. 并查集应用3.1 省份数量3.2 等式方程的可满足性 4. 并查集的优缺点及时间复杂度 1. 并查集原理并查表原理是一种树型的数据结构，用于处理一些不相交集合的合并及查询问题。并查集的思想是用一个数组表示了整片森林&#xff0…

阅读更多...

如何将图片应用于所有的PPT页面？

如何将图片应用于所有的PPT页面？

问题：如何快速将图片应用到所有PPT页面？ 解答：有两种方法可以解决这个问题。第一种用母板。第二种用PPT背景功能。解决有时候汇报的时候，ppt中背景图片修改不了以及不知道如何查找，今天按照逆向过程进行操作方法1…

阅读更多...

最新文章