为什么2023年是AI视频的突破年,以及对2024年的预期#a16z

2023年所暴露的AI生成视频的各种问题,大部分被OpenAI发布的Sora解决了吗?以下为a16z发布的总结,在关键之处,我做了OpenAI Sora的对照备注。

推荐阅读,了解视频生成技术进展。


Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024

作者:Justine Moore

Posted January 31, 2024

2023年被认为是AI视频的突破年。一年前,几乎没有公开的文本到视频生成模型存在,但在仅仅12个月后,已经有数十种视频生成产品被广泛使用,全球数百万用户可以通过文本或图像提示创建短视频片段。

尽管这些产品仍然相对有限,大多数只能生成3到4秒的视频,输出的质量参差不齐并且角色的一致性等问题尚未解决。我们离能够通过单个文本提示(甚至多个提示)创作出皮克斯级别的短片还有很长的路要走。

然而,过去一年在视频生成领域取得的进展表明,我们正处于一场巨大变革的早期阶段,类似于图像生成领域所见的情况。我们看到文本到视频模型的持续改进,以及图像到视频和视频到视频等相关领域的兴起。

为了帮助理解这场创新爆发,我们追踪了迄今为止的最重要进展、值得关注的公司以及这一领域中尚未解决的核心问题。

99730e84ab36ab229b8f0b09a9151e3c.png

在哪里可以使用AI生成视频的产品?

Products

今年我们追踪了21个公开产品

4bf3e928f74eb738f1f1d3172e9e14c8.png

其中大多数产品来自初创公司,其中许多公司最初都是从Discord机器人开始的,这样做有一些优势:

  • 不需要构建自己面向消费者的界面,可以专注于模型质量

  • 利用Discord每月活跃用户达1.5亿的基础进行分发

  • 公共频道为新用户提供了一个方便的方式,可以通过观察其他人生成的内容来获得创作灵感,并为产品提供社交证明

然而,我们开始看到越来越多的视频产品构建自己的网站,甚至推出移动应用程序,尤其是在产品成熟后。虽然Discord提供了一个很好的起点,但其在纯生成之上添加工作流程的能力有限,团队对消费者体验几乎没有控制权。还值得注意的是,有很大一部分人口不使用Discord,可能会对其界面感到困惑,或者不经常使用。

谷歌、Meta和其他公司在哪里?在公开产品的列表中,这些公司明显缺失,尽管你可能已经看到过它们发布的一些响亮的帖子,宣布了Meta的Emu Video、谷歌的VideoPoet和Lumiere,以及字节跳动的MagicVideo等模型。

迄今为止,除了阿里巴巴之外,大型科技公司选择不公开发布他们的视频生成产品。相反,他们在各种形式的视频生成上发表论文,并在不宣布模型何时会公开的情况下发布演示视频。

这些公司都拥有庞大的用户群体,具有巨大的分发优势。为什么他们不发布视频模型,当他们的演示看起来很强大,并且他们有机会在这个新兴领域占据有意义的市场份额呢?

重要的是要记住,这些公司行动缓慢。大多数公司甚至还没有发布文本到图像的产品,尽管Instagram在去年底推出了一个用于故事的AI背景生成器,而TikTok一直悄悄地推出AI滤镜。法律、安全和版权问题通常使得这些公司将研究转化为产品变得困难,并延迟发布,这给新进入者有机会获得先发优势。

AI视频是什么样子的?

如果你曾经使用过这些产品,你就会知道在AI视频准备就绪之前还有很多需要改进的地方。偶尔会有“魔法时刻”,模型生成了与你的提示相匹配的精美视频片段,但这种情况相对较少。更常见的情况是需要多次重新生成并裁剪或编辑输出,以获得专业级的视频片段。

可控性——你能否控制场景中发生的事情(例如,如果你提示“男人向前走”,动作是否正如描述的那样?)以及“摄像机”的移动方式?在后者方面,许多产品已经添加了功能,允许你缩放或平移摄像机,甚至添加特效。

动作是否如描述的那样?是一个更难解决的问题。这是一个模型质量问题(模型是否理解并能够执行你的提示),尽管一些公司正试图在生成之前给用户更多的控制权。

Runway的运动画笔就是一个很好的例子,它允许你突出显示图像的特定区域并确定它们的移动方式。

时间上的连贯性——如何使角色、物体和背景在帧之间保持一致,而不会变形或扭曲?这是所有公开可用模型中普遍存在的问题。如果你今天看到一个时间上连贯的视频,且超过几秒钟,那很可能是视频到视频的效果,它将一个视频转换为另一个风格,例如使用AnimateDiff提示进行旅行。

### OpenAI的sora具有空间一致性,就像是在3D空间中拍摄的视频一样。

长度——是否能够生成超过几秒钟的视频片段?这与时间上的连贯性密切相关。许多公司限制了你可以生成的视频长度,因为他们无法确保在几秒钟后仍然保持一致。如果你看到一个长形式的AI视频(如下面的视频),你会注意到它由许多短片段组成,可能需要数十个,甚至数百个提示!

### OpenAI的sora解决了长度问题,可以生成60s视频,同时可以为任意两段视频进行插帧,还可以为视频进行补全。

尚未解决的问题

AI视频目前似乎处于GPT-2的水平。在过去一年中,我们取得了很大的进展,但在日常消费者能够每天使用这些产品之前,还有很长的路要走。什么时候会出现类似于“ChatGPT时刻”的视频模型?在该领域的研究人员和创始人中并没有广泛的共识,还有一些问题有待回答:

当前的扩散架构是否适用于视频?目前的视频模型是基于扩散的:它们生成帧并尝试在它们之间创建时间上连贯的动画(有多种策略可以实现这一点)。它们没有对3D空间和物体如何互动的内在理解,这解释了扭曲/变形现象的原因。例如,一个视频片段的前半部分可能是一个人沿着街道走动,然后在后半部分融化到地面上——模型没有“硬”表面的概念。由于缺乏对场景的3D概念化,从不同的角度生成相同的视频片段也很困难(甚至不可能)。

### 如前所述,OpenAI已经解决了这个问题。

有些人认为视频模型基本上不需要对3D空间有所了解。如果它们在足够质量的数据上进行了训练,它们将能够学习对象之间的关系,以及如何从不同角度表示场景。

### OpenAI的Sora再次展示了“暴力美学”,在大规模视频模型的基础上,模型涌现了新的能力:对空间的理解能力。

而其他人则坚信,这些模型需要一个3D引擎来生成时间上连贯的内容,特别是超过几秒钟的内容。

高质量训练数据将从何而来?训练视频模型比其他内容模态更困难,主要是因为这些模型可以从中学习的高质量标记训练数据相对较少。语言模型通常在像Common Crawl这样的公共数据集上进行训练,而图像模型则在像LAION和ImageNet这样的带标签数据集(文本-图像对)上进行训练。

### 目前,可以猜测OpenAI的Sora模型训练数据是由3D引擎来制作的。

视频数据更难获取。虽然在YouTube和TikTok等平台上有大量公开可访问的视频,但它们没有标记,并且可能不够多样化。理想情况下,理想的视频数据可能来自于电影工作室或制片公司,它们拥有从多个角度拍摄的长片,并附有剧本和指导。然而,是否愿意授权这些数据进行训练还有待确定。

这些应用场景将如何在平台/模型之间划分?我们几乎在每个内容模态中都看到一个模型不能胜任所有应用场景的情况。例如,Midjourney、Ideogram和DALL-E都具有独特的风格,并擅长生成不同类型的图像。

我们预计视频也会有类似的动态。如果你测试今天的文本到视频和图像到视频模型,你会注意到它们在不同的风格、运动类型和场景构图方面表现出色(我们将在下面展示两个例子)。围绕这些模型构建的产品在工作流程方面可能会进一步分化,并服务于不同的终端市场。这甚至还不包括那些不仅仅进行纯文本到视频生成,而是处理诸如动画人类化身(例如HeyGen)、视觉特效(例如Wonder Dynamics)和视频到视频(例如DomoAI)等内容的相关产品。

Prompt: “Snow falling on a city street, photorealistic”

8ba453d1fe975ca616edb8c301b9ae7e.gif

Genmo

371aecbb2e3a2657f7b2e1eee00e783e.gif

Runway

b993ab0866260af0149bf71fb5924b68.gif

Stable Video Diffusion

0f0e2ffabf0f9d532c7675183d435a3a.gif

Pika Labs

Prompt: “Young boy playing with tiger, anime style”

22b9bcf4d6aab2852939b5a9041cf24a.gif

Genmo

81c8f6b5b55cb7ca0893908e5d96fd07.gif

Runway

f6b92f315befdc2ad356b70a2e5e2ab6.gif

Stable Video Diffusion

8b5f700b4c2aeee5626d597aaf6de921.gif

Pika Labs

谁将拥有这个工作流程?在纯视频生成之外,制作一个好的片段或电影通常需要编辑,尤其是在当前范式下,许多创作者使用视频模型来为在其他平台上创建的照片添加动画效果。在Capcut或Kapwing等编辑平台上添加配乐和配音(通常是在其他产品上生成的,如Suno和ElevenLabs)是很常见的。

在这么多产品之间来回切换是没有意义的。我们预计视频生成平台将开始添加一些这些功能。例如,Pika现在允许你在他们的网站上提升视频质量。然而,我们对于一个AI原生的编辑平台也抱有乐观态度,它可以方便地在一个地方从不同的模型生成跨模态的内容,并将这些内容组合在一起。

f8de2bfea5fec1d927bcb4c281dc0441.png

a16z.com/why-2023-was-ai-videos-breakout-year-and-what-to-expect-in-2024

原文中文注解已经更新至AIGC知识库

0f6f756395bf35091722ada6b26e51d4.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt|大小端数据转换(补充)

Qt|大小端数据转换-CSDN博客 之前这篇文章大小端数据转换如果是小数就会有问题。 第一个方法&#xff1a; template <typename T> static QByteArray toData(const T &value, bool isLittle) {QByteArray data;for (int i 0; i < sizeof(T); i) {int bitOffset…

vue3 用xlsx 解决 excel 低版本office无法打开问题

需求背景解决思路解决效果将json导出为excel将table导为excel导出样式 需求背景 原使用 vue3-json-excel &#xff0c;导致在笔记本office环境下&#xff0c;出现兼容性问题 <vue3-json-excel class"export-btn" :fetch"excelGetList" :fields"js…

【Python程序开发系列】利用git实现协同开发做开源贡献(完整过程)

一、问题 假如我在gitee或者github上看到了一个优质的项目&#xff0c;我想对这个项目做一些深入的研究&#xff0c;并对其进行优化&#xff0c;并最终提交PR做出贡献。但是这个项目需要或者最好在虚拟机上或服务器上运行&#xff0c;虚拟机或服务器没有IDE这种代码编辑器&…

2024-02-20(DataX,Spark)

1.Oracle利用DataX工具导出数据到Mysql。Oracle利用DataX工具导出数据到HDFS。 只是根据导入导出的目的地不同&#xff0c;DataX的Json文件书写内容有所不同。万变不离其宗。 书写的Json格式的导入导出规则文件存放再Job目录下的。 2.Spark概念 Apache Spark是用于大规模数…

智能风控体系之逻辑回归

逻辑回归就是这样的一个过程&#xff1a;面对一个回归或者分类问题&#xff0c;建立代价函数&#xff0c;然后通过优化方法迭代求解出最优的模型参数&#xff0c;然后测试验证我们这个求解的模型的好坏。在信贷风控领域最常用的广义线性模型就是逻辑回归。其实逻辑回归线性可分…

说一下JVM类加载机制?

Java中的所有类&#xff0c;都需要由类加载器装载到JVM中才能运行。类加载器本身也是一个类&#xff0c;而它的工作就是把class文件从硬盘读取到内存中。 在写程序的时候&#xff0c;我们几乎不需要关心类的加载&#xff0c;因为这些都是隐式装载的&#xff0c;除非我们有特殊…

pc微信逆向最新3.9.8.25版本

朋友让我开发一个关于微信的计数、统计、自动回复功能的机器人&#xff0c;主要是用在win10上面。 先看看结果&#xff01; 之前写过手机端的逆向&#xff0c;PC端逆向很长时间没写了&#xff0c;所以就在网上找了找。基本都是基于3.6&#xff0c;3.7&#xff0c;3.8版本的&a…

虹科方案 | 释放总线潜力:汽车总线离线模拟解决方案

来源&#xff1a;虹科汽车智能互联 虹科方案 | 释放总线潜力&#xff1a;汽车总线离线模拟解决方案 原文链接&#xff1a;https://mp.weixin.qq.com/s/KGv2ZOuQMLIXlOiivvY6aQ 欢迎关注虹科&#xff0c;为您提供最新资讯&#xff01; #汽车总线 #ECU #汽车网关 导读 传统的…

长短期记忆神经网络

目录 LSTM 神经网络架构 分类 LSTM 网络 回归 LSTM 网络 视频分类网络 更深的 LSTM 网络 网络层 分类、预测和预报 序列填充、截断和拆分 按长度对序列排序 填充序列 截断序列 拆分序列 指定填充方向 归一化序列数据 无法放入内存的数据 可视化 LSTM 层架构 …

Find My资讯|苹果Vision Pro无法通过Find My进行远程定位和发声

苹果 Vision Pro 头显现在已经正式开售&#xff0c;不过根据该公司日前发布的支持文件&#xff0c;这款头显目前缺乏一系列关键查找功能&#xff0c;用户无法在 iCloud 网站或Find My应用中获悉头显的位置&#xff0c;也无法让这款头显远程播放声音。 不过支持文件同时提到 V…

【机器学习】数据清洗之处理重复点

&#x1f388;个人主页&#xff1a;豌豆射手^ &#x1f389;欢迎 &#x1f44d;点赞✍评论⭐收藏 &#x1f917;收录专栏&#xff1a;机器学习 &#x1f91d;希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出指正&#xff0c;让我们共同学习、交流进…

C++(18)——适配器概念以及stack、queue、优先队列的模拟实现

上篇文章中&#xff0c;给出了对于模拟实现中功能的补全&#xff0c;本篇文章将优先介绍一个新的容器之后引入什么是适配器&#xff0c;以及适配器的使用方法&#xff0c;再通过适配器的思想来完成对于&#xff0c;、优先级队列_的实现。 目录 1. deque: 1.1 什么是deque&…

Android studio 安装以及第一个程序

一、配置 1、下载JDK&#xff08;JDK&#xff1a;Java Development Kit Java开发工具包&#xff09; 打开Java Downloads | Oracle下载地址下载相应的JDK版本即可&#xff0c;需要注意的是请下载JDK11以上的版本&#xff0c;并且是64位版 2、安装JDK 双击打开已经下载好的安装…

Query Rewrite —— 基于大模型的query扩展改写,PRF+ GRF协同发力减少LLM的幻觉问题(论文)

通过GRF和PRF&#xff0c;可以有效提升召回率&#xff0c;和top的数据质量。两者可以相互互补&#xff0c;发挥更好的作用。 论文&#xff1a;Generative and Pseudo-Relevant Feedback for Sparse, Dense and Learned Sparse Retrieval 什么是PRF &#xff1f; Pseudo-relevan…

python在flask中的请求数据“无限流”

文章目录 一、问题描述二、解决方案 一、问题描述 在flask请求中&#xff0c;有个需求是让调用方一直调接口&#xff0c;并立马返回&#xff0c;而接口方缓存请求&#xff0c;依次执行。 二、解决方案 from flask import Flask, request, jsonify from queue import Queue i…

新年伊始,VR全景释放“强信号”,可以结合哪些行业?

一年之计在于春&#xff0c;各行各业都想抢占在经济的第一线&#xff0c;那么如何抓住新一轮科技革命和产业变革新机遇呢&#xff1f;VR全景释放了“强信号”。对于大部分实体行业来说&#xff0c;都会有VR全景的制作需求&#xff0c;租房买房的&#xff0c;可能都见识过线上VR…

【JGit】分支管理实践

本文紧接【JGit】简述及学习资料整理。 以下梳理了使用 JGit 进行 Git 操作的实践 JGit实践 主函数 public static void main(String[] args) throws Exception {String localDir "D:\\tmp\\git-test\\";String gitUrl "http://192.168.181.1:3000/root/g…

如何邀请媒体参加活动报道?媒体邀约的几大步骤?

传媒如春雨&#xff0c;润物细无声&#xff0c;大家好&#xff0c;我是51媒体网胡老师。 邀请媒体参加活动报道通常需要发送邀请函、提供详细活动信息&#xff0c;并通过电话或邮件进行跟进确认。 在邀请媒体之前&#xff0c;应该制定一个详细的媒体规划表&#xff0c;包括拟…

高级统计方法 第2次作业

概念 1. &#xff08;a&#xff09; 光滑度高的好&#xff0c;样本足够多光滑度越高就越能表征真实情况&#xff0c;也能对预测变量更好的预测。 &#xff08;b&#xff09; 光滑度低的好&#xff0c;因为可能“过拟合”&#xff0c;一些误差大的数可能会较大的影响到预测…

Code-Audit(代码审计)习题记录

介绍&#xff1a; 自己懒得搭建靶场了&#xff0c;靶场地址是 GitHub - CHYbeta/Code-Audit-Challenges: Code-Audit-Challenges为了方便在公网练习&#xff0c;可以随地访问&#xff0c;本文所有的题目均来源于网站HSCSEC-Code Audit 1、习题一 题目内容如下&#xff1a; 1…