VALSE 2024 Workshop报告分享┆探索短视频生成与编辑的前沿技术

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

本文对微软亚洲研究院的罗翀博士所做的Workshop报告《探索短视频生成与编辑的前沿技术》进行总结和分享。

1.报告人简介

罗翀,上海交通大学信号与信息处理专业博士,现任微软亚洲研究院智能多媒体组高级研究员,中国科学技术大学兼职教授、博士生导师,研究领域包括计算机视觉、智能语音、跨模态视频分析、视频通信等。

2.报告概览

首先,罗博士在报告中首先对近年图像和视频生成做了简要回顾,包括过去几年中图像/视频生成领域的发展和技术进本。随后,他介绍了最近的创新应用,旨在通过讨论最新技术和展望未来发展,为相关研究人员提供图像和视频生成领域的全面了解。

3.内容整理

罗博士的报告主要分为三个部分,下面逐一加以详细介绍

(1)图像和视频生成的简要回顾

1)文本生成图像

报告中呈现了文本生成图像领域的发展历程,从2016年基于生成对抗网络的方法,到2024年3月Stability AI发布的最强图片生成模型Stable Diffusion3。从图像结果和技术视角两个方向,罗博士介绍了图像生成的发展趋势。从图像结果来看,视觉上更吸引人:从“基本上是我想要的”到 “看起来惊人”;图像的分辨率得到提升:从256x256 到 1024x1024 ,再到超过2k;模型能够更好的理解提示:包括对象关系、数量和属性等;模型能够更好的进行符号控制:能够正确地拼写复杂文本。从技术视角来看,模型的规模扩大:Stable Diffusion3最大可达到8B;此外,扩散模型成为该领域的主流技术;最新的技术已经可以实现矫正流、噪声调度等高级操作。

2)文本生成视频

罗博士总结了文本生成视频领域从2021年到2024年的关键技术,从微软亚洲研究院和北京大学于2021年11月联合提出的NUWA模型,到2024年3月OpenAI发布的震惊业界的Sora。随后讨论了Sora发布之前,视频生成技术的现状和挑战。例如,存在场景单一、动作简单或者细微、难以在大幅度运动时保持表现的一致性等问题。

(2)图像和视频生成的技术进展

1)MicroCinema

MicroCinema是一个用于文本生成视频的有效框架,引入了一种分而治之的策略,将文本到视频的过程分为两个阶段:文本生成图像和图像/文本生成视频。这种策略具有两个显著优势:一是充分利用了Stable Diffusion、Midjourney 和 DALLE 等文本生成图像模型的最新技术;二是利用生成的图使模型可以较少关注细粒度的外观细节,更优先考虑运动动力学的高效学习。图1展示了MicroCinema创建连贯且高质量视频的能力。

论文下载链接:https://arxiv.org/abs/2311.18829。

视频样本下载链接:https://wangyanhui666.github.io/MicroCinema.github.io/。

图 1 MicroCinema生成的样本视频

MicroCinema目前面临的关键挑战包含两个方面,一是如何将图像条件注入到视频生成网络中,以确保图像条件得到忠实保留、视频生成能力不受影响;二是如何确保稳定生成,避免外观损坏或动作不一致。

2)CCEdit

CCEdit是一种基于扩散模型的多功能生成性视频编辑框架,采用了一种三叉网络结构,包括文本到视频(T2V)主分支、外观分支和结构分支。模型区分了结构和外观控制,从而确保精确和创造性的编辑能力,通过ControlNet架构保持编辑过程中视频的结构完整性。增加的外观分支使用户能够对关键帧进行细粒度控制。模型的主分支基于现有的文本到图像(T2I)生成模型构建,然后将两个侧分支无缝地整合到主分支中,并通过可学习的时间层进行连接。CCEdit在多项评估指标上取得了目前最优表现,图2展示CCEdit强大而灵活的视频编辑额能力。

论文下载链接:https://arxiv.org/abs/2309.16496。

视频样本下载链接:https://ruoyufeng.github.io/CCEdit.github.io/。

图 2  CCEdit为用户提供了一套强大而灵活的视频编辑功能,包括风格迁移(第1 ~ 3行)、前景修改(第4行)和背景替换(第5行)。

(3)讨论与展望

1)讨论

尽管已解决了一些存在的问题,但关于自动编码器/分词器的重要性、高描述性文本标题, DiT相比于U-net在强度和扩展性方面的优势等仍需进一步研究。此外,视频生成模型在可控性、一致性以及多轮视频生成与编辑方面的问题依然存在,这些都是当前亟需克服的技术难题。

2)展望

视频生成技术正处于一个多元化创新和快速发展的阶段,正面临着多种技术挑战和行业变革的机遇。在资源有限的情况下,解耦外观与动作建模是一种有效的可行策略。当前,视频生成模型还需要解决可控性、场景与物体一致性及多轮编辑的可行性等问题。研究统一理解与生成、多模态融合的最佳模型是重点方向之一。此外,视频生成技术对人工通用智能的发展具有重要推动作用,但仍需评估Sora技术作为实现世界模拟器的潜在有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/8505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python高级编程-DJango1

Python高级编程 灵感并不是在逻辑思考的延长线上产生 而是在破除逻辑或常识的地方才有灵感 目录 Python高级编程 1.python学习之前的准备 ​编辑 2.DJango 开发网站 3.创建项目 4.djang项目结构介绍 1&…

Linux-信号保存

1. 概念 进程执行信号的处理动作,称为 信号递达(Delivery) 信号从产生到递达之间的状态,称为 信号未决(Pending) 进程可以选择 阻塞(Block)某个信号 过程: 信号产生 ——…

linux上go项目打包与部署

1.第一步把项目打包 1.确保本地goland的操作系统为linux go env找到GOOS如果为window就修改为Linux 修改命令为 go env -w GOOSlinux2.打包 在项目根目录下输入 go build main.go然后项目根目录下会出现一个mian的二进制文件 3.上传包 将 main 程序包放到服务的目录下&…

鸿蒙开发接口Ability框架:【 (ServiceExtensionAbility)】

ServiceExtensionAbility ServiceExtensionAbility模块提供ServiceExtension服务扩展相关接口的能力。 说明: 本模块首批接口从API version 9开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 本模块接口仅可在Stage模型下使用。 导入…

【栈】Leetcode 1047. 删除字符串中的所有相邻重复项

题目讲解 1047. 删除字符串中的所有相邻重复项 算法讲解 使用栈这个数据结构,每一次入栈的时候观察此时的字符和当前栈顶字符是否相等,如相等:栈顶出栈;不相等:入栈 class Solution { public:string removeDuplica…

Linux-进程管理类命令实训

实训1:进程查看,终止,挂起及暂停等操作 1.使用ps命令显示所有用户的进程 2.在后台使用cat命令。查看进程cat,并杀死进程 3.使用top命令只显示某一用户的进程。 4.执行命令cat,把Ctrlz挂起进程,输入jobs命令…

「网络流 24 题」最小路径覆盖 【最小路径覆盖】

「网络流 24 题」最小路径覆盖 思路 具体可以看 这篇博客 对于有向无环图,我们只需要将假装将点裂成左点和右点(实际没有裂开),然后连边; 在上面跑二分图最大匹配后,剩下没有匹配的左点就是终点&#xff…

python与java用途区别有哪些

区别: 1.Python比Java简单,学习成本低,开发效率高。 2.Java运行效率高于Python,尤其是纯Python开发的程序,效率极低。 3.Java相关资料多,尤其是中文资料。 4.Java版本比较稳定,Python2和3不…

【第14章】spring-mvc之ajax

文章目录 前言一、准备二、单个值1.前端2.后端3. 结果 三、对象1.前端2.后端3. 结果 四、JSON对象1.前端2.后端3. 结果 五、JSON数组1.前端2.后端3. 结果 总结 前言 AJAX(Asynchronous JavaScript and XML)是一种用于创建快速动态网页的技术&#xff0c…

学习和“劳动”相关的谚语,柯桥俄语培训

1. Бог труды́ лю́бит. 天道酬勤。 2. В ми́ре нет тру́дных дел, ну́жно лишь усе́рдие. 世上无难事,只怕有心人。 3. У́тро вечера мудренее. 一日之计在于晨。 4. Что посе́ешь,…

cesium 雷达遮罩(电弧球效果)

cesium 雷达遮罩(电弧球效果) 以下为源码直接复制可用 1、实现思路 通过修改“material”材质来实现轨迹球效果 2、代码示例 2.1 index.html <!DOCTYPE html> <html lang="en"><head><!

【初阶数据结构】栈

目录 栈的概念及结构栈的实现栈的结构栈的初始化栈的销毁入栈出栈取栈顶元素判断栈是否为空取栈中元素个数代码测试 完整代码Stack.hStack.ctest.c 栈的概念及结构 栈&#xff1a;是一种特殊的线性表&#xff0c;它只允许在固定的一端进行插入和删除元素的操作。   栈顶&…

[MDK] 介绍STM32使用C和C++混合编程的方法

目录 [MDK] 介绍STM32使用C和C混合编程的方法前言业务场景步骤1基础工程步骤2写代码步骤3添加cpp文件步骤4配置与编译上机现象后记 [MDK] 介绍STM32使用C和C混合编程的方法 前言 搞单片机编程大多数还是使用MDK编程&#xff0c;自己对MDK这个软件也比较熟悉&#xff0c;在网络…

【通信】电子科协通信专题

数字通信 最直观的通信方式-基带通信 问题&#xff1a;①无限大的带宽②天线体积

java回调机制

目录 一、简介二、示例2.1 同步回调2.2 异步回调2.3 二者区别 三、应用场景 一、简介 在Java中&#xff0c;回调是一种常见的编程模式&#xff0c;它允许一个对象将某个方法作为参数传递给另一个对象&#xff0c;以便在适当的时候调用该方法。 以类A调用类B方法为例: 在类A中…

KMP + Compose 跨平台 Android IOS 实战入门

KMP&#xff08;Kotlin Multiplatform&#xff09;是一种面向移动端开发的跨平台框架&#xff0c;使用 Kotlin 语言编写&#xff0c;可实现在 Android 和 iOS 平台上共享代码和逻辑。通过 KMP 框架&#xff0c;我们可以编写一次代码&#xff0c;然后在不同的平台上进行部署和运…

python能够干什么?

python有哪些用途&#xff1f; Python是一种高级编程语言&#xff0c;它被广泛用于各种不同的领域。以下是Python的一些常见用途&#xff1a; 网络应用开发&#xff1a;Python可以用于编写Web应用程序、API、爬虫、网络服务器等。数据科学和机器学习&#xff1a;Python拥有许…

深究muduo网络库的Buffer类!!!

最近在学习了muduo库的Buffer类&#xff0c;因为这个编程思想&#xff0c;今后在各个需要缓冲区的项目编程中都可以用到&#xff0c;所以今天来总结一下&#xff01; Buffer的数据结构 muduo的Buffer的定义如下&#xff0c;其内部是 一个 std::vector&#xff0c;且还存在两个…

Shell编程之条件语句

条件测试 文件测试与整数测试 字符串测试与逻辑测试 if语句 if单分支语句 if双分支语句 if多分支语句 case分支语句 条件测试操作 条件测试操作 1 条件判断 test命令测试表达式是否成立&#xff0c;若成立返回0.否则返回其它数值。 格式 1 test 条件表达式 格式 2 …

【Redis7】了解Redis

1.常见数据库 1.1.键值存储数据库 如 Map 一样的key-value 对&#xff0c;典型代表就是 Redis。 1.2.列存储数据库 关系型数据库是典型的行存储数据库&#xff0c;按行存储的数据在物理层面占用的是连续存储空间&#xff0c;不适合海量数据存储。而按列存储则可实现分布式存储&…