【论文阅读】AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion

AADiff:基于文本到图像扩散的音频对齐视频合成。

code:没开源

paper:[2305.04001] AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion (arxiv.org)

一种新的T2V框架,额外使用音频信号来控制时间动态,使现成的T2I扩散能够生成音频对准的视频。我们提出了基于音频的区域编辑和信号平滑,平衡了时间灵活性和连贯性。

1 介绍

文本到视频模型仍处于起步阶段。例如,完全依赖文本提示来指导整个生成过程,因此建模详细的时间动态方面困难。此外,输出缺乏音频,更接近动画gif而不是视频。即使在有音频先验的情况下,也不容易将视频输出与这个附加条件同步。

作者希望地将音频模态合并到传统T2I中,实现更可控的时间扩展。具体来说,给定一个T2I扩散模型,如stable diffusion 1,使用文本和音频来指导视频合成,前者侧重于可视化场景语义,而后者更负责时间动态的细粒度控制。

总结贡献:

  • 第一个使用文本和音频的组合来指导视频合成的扩散模型。
  • 提出了一个简单而有效的框架,用于文本到图像模型的音频同步视频生成,无需额外的训练或配对数据。
  • 制作与音频输入同步的视频,提供内容创建应用程序。

应用:媒体创作者可以使用公共声源制作短视频,同时使用不同的文本提示操作场景构图和外观。与Null inversion等图像反演技术相结合时,可以将音频对应的图像动画化。框架与其模型组件是正交的,因此可以不断地从生成模型的进步中受益。方法建立在稳定扩散的基础上,在512 × 512的尺度下进行高质量的视频合成。

2 方法

图1方法概述。给定音频信号和文本提示,首先分别由音频编码器和文本编码器嵌入。选择具有最高相似度的文本标记并用Prompt-to-prompt编辑图像,其中平滑的音频幅度控制注意力强度。 

2.1 先验知识

对比式语言-音频预训练(CLAP):通过使用两个编码器和CLIP中的对比学习,来整合文本和音频。

Latent Diffusion Model (LDM):计算效率高的扩散模型,使用Variational Auto-Encoder,首先将像素值映射到潜在码,然后在潜在空间中进行顺序去噪操作。

2.2 Audio-aligned扩散

目标是生成一个与提示相对应的视频,在此提示上,添加基于声音的精细动态效果。

采用了三种预训练基础模型:文本编码器、音频编码器和扩散主干。对于文本编码器和扩散生成器,使用Stable diffusion和CLIP。

CLAP用于生成音频嵌入,根据两两相似度,突出显示top-k文本标记。有了感兴趣的文本标记,得到如Prompt-to-prompt所示的空间注意力图。一般选择k = 1。

2.3 带有注意力图控制的局部编辑

Prompt-to-prompt是一种通过注意图控制进行文本驱动图像编辑的方法。使用图像翻译执行视频合成时,用音频查询的top-k文本token进行局部语义编辑。为了模拟音频信号的时间动态,沿时间轴取输入音频的幅值,并将其用作控制每个时间帧图像编辑强度的乘子。具体来说,音频幅度乘以目标文本标记与图像之间的注意图,当音频信号较强时,突出显示的区域会发生急剧变化。这限制了输出视频与音频信号的同步。

2.4 用滑动窗口平滑音频

使用音频幅度作为引导信号提供了时间上的灵活性。但,利用每个时间框架的原始值会导致输出不稳定。为了克服这个问题,在音频幅度上应用一个大小为5的滑动窗口。这平滑了音频信号的变化,并有助于制作更自然和连贯的动态视频。不同窗口大小的影响如图2所示。

图2。可变滑动窗口。较小的窗口大小可以有效地捕捉动态变化,例如打雷。较大的窗口大小则擅长于表示渐变,例如野火蔓延。这个超参数允许内容创建者灵活地控制视频的时间动态。

 

3 实验

 

 图3。不同声源的定性结果。

 图4。剪辑相似度和音频大小。这两个值是一致的,表明我们的模型忠实地反映了视频语义中的音频动态。

图5。零反演的定性结果。我们的方法可以将真实图像和音频源结合起来,创造出更加身临其境的视听内容。

 图6。窗口大小分析。无窗口(s = 1)导致过度波动,而无限窗口(s = 150)过度限制了时间动态。我们在中档找到最佳点。

没有窗口,时间动态太不稳定,导致时间不一致的输出。应用无限窗口时,视频被过度的动量拖动,产生类似于静止图像的样本。我们在中间找到一个最佳点,在不过度损害动态灵活性的情况下保证一定程度的时间一致性。

图7。视频合成从多个音频信号。AADiff可以利用混合在音频输入中的不同语义,并生成自然结合这些概念的视频。 

图8。通过不同的音频幅度,可以进一步控制变形的程度。 

 

图9。与传统的文本到视频模型不同,AADiff结合了音频输入的时间动态,当给出同一类的不同声音时产生不同的视频。 

框架是如何整合音频信号的:尽管被赋予相同的声音类别(如雷雨),但由于音频内容的不同,输出的视频也具有不同的视觉动态。这将我们的方法与纯文本驱动的视频合成方法区别开来,后者通常缺乏以细粒度方式控制时间动态的手段。

4 结论

提出了一个新的框架,将文本和音频作为输入并生成音频同步视频。由于不需要额外的训练或任何形式的配对数据,它可以以简单的方式充分利用最先进的多模态基础模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594187.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL中的六种日志你都懂么?不懂!那就必须看看

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

docker 安装可视化工具 Portainer 以及 汉化

安装portainer是最新版本,汉化指定版本2.9.1 。如果要安装汉化版,可直接跳转步骤四 一、拉去镜像 安装网址:Install Portainer BE with Docker on Linux - Portainer Documentation docker pull portainer/portainer二、根据portainer镜像创建…

常用rtmp、m3u8、flv、mp4直播流在线测试地址

✍️作者简介:小北编程(专注于HarmonyOS、Android、Java、Web、TCP/IP等技术方向) 🐳博客主页: 开源中国、稀土掘金、51cto博客、博客园、知乎、简书、慕课网、CSDN 🔔如果文章对您有一定的帮助请&#x1f…

CMake入门教程【基础篇】CMake+Linux gcc构建C++项目

文章目录 1.概述2.GCC与CMake介绍3.安装CMake和GCC4.代码示例 1.概述 在Linux环境下,使用CMake结合GCC(GNU Compiler Collection)进行项目构建是一种常见且高效的方法。CMake作为一个跨平台的构建系统,可以生成适用于不同编译器的…

基于SSM的网络游戏交易平台设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

湖南大学-算法设计与分析-2023期末考试【原题】

前言 21:00刚刚结束的考试,凭着回忆把题目重现出来了,在复习的时候根本找不到往年的试卷,希望这张回忆的试卷能帮助到下一届的同学。知道题目基本上就能做出来了,但是不知道是真的做不出来,我就不给答案了…

【软件工程】走进敏捷开发:灵活、协作、迭代的软件工艺之旅

🍎个人博客:个人主页 🏆个人专栏: 软件工程 ⛳️ 功不唐捐,玉汝于成 目录 前言: 正文 敏捷开发(Agile Development) 详细介绍: 优缺点: 优点&#xf…

【Mybatis】深入学习MyBatis:高级特性与Spring整合

🍎个人博客:个人主页 🏆个人专栏: Mybatis ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 高级特性 1 一级缓存和二级缓存 一级缓存 二级缓存 2 延迟加载 5 整合Spring 1 MyBatis-Spring模块 2 事务管理 结…

pytest conftest定义一个fixtrue获取测试环境地址

方便全局切换地址 pytest.fixture() def config():data {测试环境: {A环境: 127.0.0.1,B环境: 127.0.0.2,C环境: 127.0.0.3,D环境: 127.0.0.4},}return data.get(测试环境, {}).get(A环境)import pytestdef test_case001(config):url http://str(config):8080/api/user/logi…

(2023|AABI,多模态信息瓶颈,变分近似,视觉语言模型可解释性)通过多模态信息瓶颈归因对图像文本表示的视觉解释

Visual Explanations of Image-Text Representations via Multi-Modal Information Bottleneck Attribution 公和众和号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料) 目录 0. 摘要 3. 通过多模态…

Leetcode11-快乐数(202)

1、题目 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为: 对于一个正整数,每一次将该数替换为它每个位置上的数字的平方和。 然后重复这个过程直到这个数变为 1,也可能是 无限循环 但始终变不到 1。 如果这个过程 结果为 1…

8K自动化测试面试题分享(有答案,非常详细)

关于自动化测试面试,会问到哪些问题呢?给大家简单总结了一下,每一个都是学员反馈过来的企业真题,相信对大家有帮助,最近有面试机会的,快来背一下答案吧 1、你会封装自动化测试框架吗? 这个问得…

华为月薪25K的自动化测试工程师到底要会那些技能!

​前言 3年自动化测试软件测试工程师职业生涯中,我所经历过的项目都是以自动化测试为主的。由于自动化测试是一个广泛的领域,我将自己的经验整理了一下分享给大家,话不多说,直接上干货。 自动化测试的目标和实践选择合适的自动化…

【Linux Shell】2. Shell 变量

文章目录 【 1. 变量命名规则 】【 2. 变量的使用 】【 3. 只读变量 】【 4. 删除变量 】【 5. 变量类型 】【 6. Shell 字符串 】6.1 字符串的分类6.2 字符串操作 【 7. Shell 数组 】7.1 定义数组7.2 读取数组7.3 获取数组的长度 【 8. Shell 注释 】8.1 单行注释8.2 多行注释…

Hi5 2.0 虚拟手与追踪器(Tracker)的位置修正

问题描述 使用环境与工具:Unity 2022.3.4fc1,steam VR(2.7.3),steamvrSDK(1.14.15),HTC vive pro专业版,Hi5 2.0数据手套 首先按照Hi5 2.0的使用说明(可参考:HI5 2.0 交…

Netty使用SSL实现双向通信加密

最近项目有个需求,TCP服务器实现基于证书通信加密,之前没做过,花了一些时间调研,今天整理下。 SSL(Secure Sockets Layer 安全套接字协议) 1、原理 算法原理 简而言之就是非对称加密算法 私钥自己持有,公钥发给对方,对方在发送信息的时候使用公钥进行加密数据,当接收到…

IPA打包过程中的Invalid Bundle Structure错误如果解决

在iOS应用程序开发中,打包和发布应用程序是一个必要的步骤。有的时候在打包的过程中可能会遇到一些错误,其中一个比较常见的错误是"Invalid Bundle Structure"。这个错误通常意味着应用程序的文件结构不正确,而导致的无法成功打包应…

【NLP】2024年改变人工智能的前六大NLP语言模型

在快速发展的人工智能领域,自然语言处理已成为研究人员和开发人员关注的焦点。作为这一领域显著进步的证明,近年来出现了几种开创性的语言模型,突破了机器能够理解和生成的界限。在本文中,我们将深入研究大规模语言模型的最新进展…

简单Diff算法

简单Diff算法 渲染器的核心 Diff算法 解决的问题 比较新旧虚拟节点的子节点,实现最小化更新。 虚拟节点key属性的作用 就像虚拟节点的“身份证号”,在更新时,渲染器会通过key属性找到可复用的节点,然后尽可能地通过DOM移动操…

GraalVM Native学习及使用

概述 在开发Spring Boot 应用或者其他JAVA程序的过程中,启动慢、内存占用大是比较头疼的问题,往往需要更多的资源去部署,成本大幅提高。为了优化上述问题,常常使用优化程序、使用更小消耗的JVM、使用容器等措施。 现在有一个叫做…