谷歌推大语言模型VideoPoet:文本图片皆可生成视频和音频

Google Research最近发布了一款名为VideoPoet的大型语言模型(LLM),旨在解决当前视频生成领域的挑战。该领域近年来涌现出许多视频生成模型,但在生成连贯的大运动时仍存在瓶颈。现有领先模型要么生成较小的运动,要么在生成较大运动时出现明显的伪影。

VideoPoet的创新之处在于将语言模型应用于视频生成,支持多种任务,包括文本到视频、图像到视频、视频风格化、修复和修复以及视频到音频。与当前主流的扩散模型不同,VideoPoet将这些视频生成功能融合在一个大型语言模型中,而不是依赖于分别针对每个任务进行训练的组件。

图片

该模型通过多个分词器(MAGVIT V2用于视频和图像,SoundStream用于音频)进行训练,以学习跨视频、图像、音频和文本模态的知识。通过将模型生成的令牌转换为可视化表示,VideoPoet能够输出动画、风格化视频,甚至生成音频。模型支持文本输入,以指导文本到视频、图像到视频等任务的生成。

为了展示VideoPoet的多功能性,研究人员提供了一些生成示例。

图片

文字生成视频

模型能够根据文本提示生成可变长度的视频,也可以将输入图像转化为动画视频。此外,模型还具备视频风格化的能力,通过输入光流和深度信息,以及一些额外的文本提示,生成独特风格的视频。最令人印象深刻的是,VideoPoet还可以生成音频,实现了从单一模型生成视频和音频的目标。

图片

图像生成视频

图片

视频风格化

图片

可生成音频

研究人员指出,VideoPoet的训练方式使其具有生成较长视频的潜力,通过在上一个视频的最后1秒的基础上预测下一个1秒,可以实现视频的不断延伸。此外,模型还支持对已生成视频进行交互式编辑,用户可以改变物体的运动,实现不同的动作,从而具有高度的编辑控制。

评价结果

研究人员使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

图片

文本保真度

基于上述情况,平均而言,人们选择 VideoPoet 中24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为8-11%。评分者还更喜欢 VideoPoet 中41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为11-21%。

VideoPoet作为大型语言模型,通过集成多种视频生成任务,为零镜头视频生成提供了新的可能性,为艺术创作、影视制作等领域带来了潜在的创新机遇。

官方博客:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

项目网址体验:https://top.aibase.com/tool/videopoet

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/364076.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java scala 获取类_在Scala 2.10中获取java.lang.Class [T]的Scala类型

您可以像这样实现您的方法:def getType[T](clazz: Class[T])(implicit runtimeMirror: ru.Mirror) runtimeMirror.classSymbol(clazz).toType然后像这样调用它:implicit val mirror ru.runtimeMirror(getClass.getClassLoader)getType(classOf[String])…

解决ios8下coreData没有NSPersistentContainer的问题

用Xcode8.1默认创建ios app的时候,使用coreData的话,要10.0以上的版本才行。因为NSPersistentContainer只有10.0以上的版本才有,10.0以下的版本是没有的,那怎么办呢?有办法,专为8.0版本加写的INSPersistent…

spring 与 guice 的区别好玩的好法(转)

看下边对于不同社会形态下一个人(java对象,调用者)需要一把斧子(java对象,被调用者)的例子:(1)原始社会时,劳动社会基本没有分工,需要斧子的人&am…

PyCon大会Python主题演讲摘要

PyCon 是全国际最大的以 Python 编程言语 为主题的技能大会。大会由 Python 社区组织,每年举行一次。在大会上,来自国际各地的 Python 用户与中心开发者齐聚一堂,共同同享 Python 国际的新鲜事、Python 言语的应用案例、运用技巧等等内容。 I…

欢迎使用Java 8之前要重温的10个JDK 7功能

Java 8发布已经快一个月了,我敢肯定,大家都在探索JDK 8的新功能。但是,在您完全研究Java 8之前,是时候重新审视Java 7上引入的一些很棒的功能了。记住,Java 6并没有什么功能,它只与JVM的更改和性能有关&…

java版本号管理_微服务项目中如何管理依赖版本号?

本文是微服务项目代码组织形式三部曲中的第三篇,也是最后一篇,通过这三篇文章,相信大家对于如果组织微服务中的代码已经有了一个基本认知,前面两篇分别是:第三篇相对来说要简单一些,本来没打算写&#xff0…

React之函数中的this指向

我们都知道在React中使用函数时,有两种写法,一是回调函数,二是直接调用,但需要在构造函数中绑定this,只有这样,函数中的this才指向本组件 总结一下没有绑定this的函数中的this指向 不管是在本组件的元素上调…

对于刚开始使用该软件,应该在熟悉基本的markdown语法的基础上,再进行快捷键的使用!...

一级标题 # 空格 编写内容 二级标题 ## 空格 编写内容 有序内容 1.Tab 无序内容 -Tab 代码块 print("hello wrold") typora快捷键 ctrl1一级标题 添加图片 表格 CtrlT 姓名年龄职业谢国宏20IT文字加粗 24期的小伙伴们你们好 文字斜体 你好 又粗又斜 粗斜* 3**2 -- 幂…

struct和byte[]相互转换(用Marshal类实现)

转自[DotNet笔记]相当于序列化与反序列化,但是不用借助外部文件1、struct转换为byte[] 1staticbyte[] StructToBytes(objectstructObj) 2{ 3 int size Marshal.SizeOf(structObj); 4 IntPtr buffer Marshal.AllocHGlobal(size); 5 …

Get-CrmSetting返回Unable to connect to the remote server的解决办法

摘要: 微软动态CRM专家罗勇 ,回复302或者20190125可方便获取本文,同时可以在第一间得到我发布的最新博文信息,follow me!我的网站是 www.luoyong.me 。 在Dynamics 365部署管理器所在的服务器上执行Get-CrmSetting,最近…

使用ReentrantLock和Lambdas进行干净同步

最近,我在阅读一篇内容丰富的文章,内容涉及Javin Paul 1 synchronized和ReentrantLock之间的区别。 他强调了后者的优点,但并未保留一些缺点,这些缺点与正确使用所需的繁琐的try-finally块有关。 在同意他的陈述的同时&#xff0…

java 二维数组奇数金字塔_二维数组:奇数阶魔方 | 新思维:C语言程序设计

幻方,有时又称魔方,由一组排放在正方形中的整数组成,其每行、每列以及两条对角线上的数之和均相等。通常幻方由从到的连续整数组成。Siamese方法(Kraitchik 1942年,pp. 148-149)是构造奇数阶幻方的一种方法,说明如下&a…

react-性能优化

开发中遇到一个需要优化的性能,页面需要渲染很多table,而且可以自己添加table,所以就导致router改变时,清除这些DOM结构就会很慢,这就给用户造成不好的体验。 问题所在:清除渲染过多的DOM结构才导致迟缓&a…

Node.js学习(篇章一)

<node.js的特点> 采用了异步式I/O与事件驱动的架构设计&#xff0c;架构为单线程模型。 <supervisor包的作用> node.js开发项目&#xff0c;当修改项目时&#xff0c;需要终止进程重启Node.js之后才可以看到修改后的效果&#xff0c;为了解决这个问题&#xff0c;我…

WinXP启动时自动打开上次关机时未关闭的文件夹

不能自动打开上次关机时未关闭的文件夹解决方法&#xff1a; 首先运行注册表&#xff0c;解决方法&#xff1a;打开[\HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Explorer\Advanced] 在右面的窗口中新建DWORD类型键值“PersistBrowsers”&#xff0c;数据为…

机器学习前沿02

自动机器学习 https://mbd.baidu.com/newspage/data/landingsuper?context%7B%22nid%22%3A%22news_9244479631915180647%22%7D&n_type1&p_from3 卷积网络的综述 https://mbd.baidu.com/newspage/data/landingsuper?context%7B%22nid%22%3A%22news_979691604239366144…

java 判断闰年和月份_java----根据输入的年月判断闰年和打印日历

import java.util.Scanner;import java.text.ParseException;import java.util.Calendar;public class Calendar {public static void main(String[] args) throws ParseException {Scanner sc new Scanner(System.in);System.out.println("请输入年份&#xff1a;"…

反应灵敏且性能卓越的Spray + Akka解决方案,以“在Java和Node.js中发挥并发性和性能”...

在我以前的文章中&#xff0c;我研究了一个虚拟的交易引擎&#xff0c;并将基于Java的阻止解决方案与基于Node.js的非阻止解决方案进行了比较。 在文章的结尾&#xff0c;我写道&#xff1a; 我怀疑在Node.js近期取得成功之后&#xff0c;越来越多的异步Java库将开始出现。 这…

百度蜘蛛(BaiduSpider)IP段详细情况介绍

123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了&#xff0c;或被者降权。 220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。 220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访&#xff0c;准备抓取你东西。 121.14.89.*这个ip段作为度过新站考察期。 2…

iframe关于滚动条的去除和保留

iframe嵌入页面后&#xff0c;我们有时需要调整滚动条&#xff0c;例如&#xff0c;去掉全部的滚动条&#xff0c;去掉右边的滚动条且保留底下的滚动条&#xff0c;去掉底下的滚动条且保留右边的滚动条。那么我们应该怎么做呢&#xff1f; 一&#xff1a;去掉全部的滚动条 第一…