AGI|AI到底如何生成视频?Sora究竟为何能引爆科技圈?

目录

一、AI生成视频引发新浪潮

二、生成方法及难点

三、Sora的突破进展

(一)可生成不同尺寸视频

(二)可生成1分钟时长视频

(三)图片生成视频

(四)场景一致性

(五)远距离相干性和物体持久性

(六)与世界互动

四、说在最后


一、AI生成视频引发新浪潮

近日随着一个个视频的爆火,OpenAI 全新发布的文生视频模型 Sora瞬间火爆全网。

经历了2023年AI技术的激烈竞争,多模态大模型在应用端呈现出百花齐放的景象。随着投资者对新技术兴趣的不断增长,聊天、搜索、文生图等传统应用领域已无法满足市场的渴望。在这股热潮中,一个尤为引人注目的领域崭露头角——那就是文生视频。

在OpenAI发布其新模型Sora之前,AI制作视频领域早已不是一片未开垦的处女地。该领域事实上早已聚集了众多竞争者,如Runway、Pika等AI视频生成工具在市场上打得火热。AI行业的领军者Stable AI也在去年末发布了开源模型Stable Video Diffusion,不断重塑着这个领域的格局。

在国内市场,阿里巴巴和字节跳动相继推出了AI视频生成工具Animate Anyone和Magic Animate。这两款工具的共同之处在于,它们都具备将静态图像转化为动态视频的能力。

然而,尽管AI生成视频领域看似热闹非凡,但在OpenAI发布Sora模型之前,它并未像聊天、文生图等常见AI工具那样引起广泛的公众关注。这背后的原因,很大程度上是因为文生视频的技术难度远高于前两者。从静态到动态,从平面到立体,这不仅需要强大的算法支持,还需要解决诸如内容连贯性、逻辑合理性以及用户体验等一系列复杂问题。

二、生成方法及难点

在AI生成视频的早期阶段,主要是依赖于GAN(生成式对抗网络)和VAE(变分自编码器)这两种模型。然而,这两种方法生成的视频内容比较受限,主要是静态、单一的画面,且视频的分辨率往往很低,导致它们的应用范围比较狭窄。

随着技术的进步,现在的AI生成视频主要基于两种技术路线。一种是使用Transformer模型,这种模型在文本和图像生成中非常常见,功能强大。另一种则是专门用于视频领域的扩散模型。

图像与视频生成方法流派概览

目前,扩散模型已成为文生视频的主流技术路线,代表性的模型有Gen、Dreamix以及Sora。扩散模型的优势在于其强大的语义理解和内容生成能力,这使得它能够从文本中提取关键信息,并将其转化为生动、逼真的图像和视频。

在扩散模型中,生成过程通常从预训练模型开始,这些模型首先对文本进行特征提取,以捕捉其中的关键语义信息。随后,这些特征被输入到扩散模型中,模型通过逐步添加高斯噪声,再执行反向操作,从而生成与文本描述相匹配的图像。在文生视频的情况下,这一过程进一步扩展到视频生成,通过在文生图的基础上增加时间维度,模型能够将一系列静态图像转化为动态、连贯的视频。

尽管AI视频生成技术已经取得了不小的进步,但概括性的来看,它们还是存在许多待突破的难点问题:

1. 复杂的文本控制:虽然现在的技术可以通过文本嵌入和图像特征的交叉注意力机制来控制生成的图像或视频的体态,但当输入的文本描述非常复杂时,生成的结果可能并不准确,甚至可能丢失部分物体或属性,或者出现物体与描述性属性混淆的情况。

2. 编辑的不连续性:当用户想对生成的图像进行定制化的编辑时,现有的技术可能无法实现连续的编辑,甚至会出现“灾难性遗忘”现象,即模型会忘记之前学到的概念。

3. 缺乏用户反馈:如果生成的结果不符合用户的期望,模型目前还无法直接获取用户的反馈来修正自身的缺陷。用户只能通过不断地修改输入的描述来尝试得到更满意的结果。

4. 视频生成的不成熟:与图像生成相比,视频生成的技术还不够成熟和稳定。生成的视频可能会出现帧间抖动较大的问题,尤其是当需要生成时间较长、物体和场景动态变化较大的视频时,现有的技术往往难以胜任。

AI视频制作已展现出逐步发展的趋势。然而,要实现如文生图等类型工具的大规模应用,仍需跨越一些障碍,特别是解决当前面临的技术难题。

三、Sora的突破进展

上述内容简要概述了AI生成视频的传统方法及其所面临的挑战。但随着Sora模型的崭露头角,我们可以从官网发布的Sora技术报告看到许多长期存在的难题正在逐步得到解决。

(一)可生成不同尺寸视频

Sora 可以对宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频进行采样。这使 Sora 可以直接以原始纵横比为不同设备创建内容。也就是说我们可以以同一个视频为基础创造不同尺寸的视频,而视频还能够保持同一个主题风格。

(二)可生成1分钟时长视频

不同于以往部分模型仅能生成几秒的视频或是需要不断提示叠加视频时长,Sora可以根据提示词直接生成1分钟左右的视频场景,同时兼顾视频中人物场景的变换以及主题的一致性。

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

(三)图片生成视频

Sora 能够生成视频,提供图像和提示作为输入,模型根据我们所输出的图片来生成一段视频。这意味着其可以创建完美循环的视频、为静态图像制作动画、在时间上向前或向后扩展视频等。

根据图片生成动画

根据主角骑行扩展前后画面

(四)场景一致性

Sora 可以生成具有动态相机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

航拍视角展现场景变化

(五)远距离相干性和物体持久性

生成视频有一个很大的困难,就是在选择长视频片段时,要确保时间的连贯性。Sora模型大多数情况下都能很好地处理这个问题。它能记住视频里的人和东西,即使他们暂时被挡住或者不在画面里。甚至,它还能让同一个角色在不同的画面里看起来都一样,这样整个视频就更连贯了。

小狗在中途被遮挡后仍能保持主体一致

(六)与世界互动

Sora 有时可以以简单的方式模拟影响世界状态的动作。例如,画家可以在画布上留下新的笔触,这些笔触会随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。这意味着模型具备一定的通识能力,能够预测到画面的下一步会发生什么。

模仿人物画画的笔触

当然,在研究报告中OpenAI也指出Sora作为一款模拟器,目前仍存在许多局限性。举例来说,它无法精确模拟许多基本相互作用的物理特性,如玻璃破碎等。在模拟其他交互行为时,如吃食物,也不总是能正确反映物体状态的变化。除此之外,模型也存在其他常见的失效模式,如在长时间样本中可能出现的不连贯性或物体的自发出现等问题。

四、说在最后

随着科技的不断进步,AI生成视频领域正迎来前所未有的发展机遇。尽管在目前阶段,这些模型面临着种种挑战和局限,但正如ChatGPT从3.5到4.0所展示的巨大进步,我们有理由相信,这些问题和难题将在不断的研究与创新中得以攻克。

随着模型性能的逐步提升,它们将能够生成更加逼真、生动的视频内容,满足不同领域的需求。无论是影视制作、广告创意,还是虚拟现实、游戏设计,AI生成视频技术都将发挥巨大的潜力,为我们的工作和生活带来更多可能性。

当然,技术的发展不仅仅停留在模型的完善上。如何将这些先进的模型真正应用到实际工作中,创造实际价值,将是我们面临的下一个重要课题。

注:

文中图片均来自OpenAI官网,因平台限制未能呈现完整视频。

参考资料:

1、《AI生成视频比ChatGPT难在哪》-张书琛

2、《从感知到创造:图像视频生成式方法前沿探讨》-林倞,杨斌斌

3、 Video generation models as world simulators-OpenAI

更多AI小知识欢迎关注“神州数码云基地”公众号,回复“AI与数字化转型”进入社群交流

版权声明:文章由神州数码武汉云基地团队实践整理输出,转载请注明出处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/697530.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Window部署Exceptionless

Exceptionless Elasticsearch 版本: Exceptionless:8.1.0 Elasticsearch:7.17.5 JDK:11.0.10 目录 一、Elasticsearch运行 二、 Exceptionless 一、Elasticsearch运行 bin目录下elasticsearch.bat 直接运行 访问 http://lo…

使用gstreamer和opencv实时识别LED数码管数字的测试demo(QT)

效果演示: 效果1:静态识别 效果2:动态实时识别 可以看到,虽然不太稳定,但是好歹还是识别出来了的,就是需要调参,然鹅我不是专业的,目前还没有调好。。。 T_T 先这样吧。以后再说。 觉得文章质量可以的,请点个赞哦,谢谢。 前言 最近需要完成使用op…

ElementUI组件的安装和使用

Element UI 是一款基于 Vue 2.0 的桌面端组件库,主要用于快速构建网站的前端部分。它提供了丰富的组件,如按钮、输入框、表格、标签页等,以及一些布局元素,如布局容器、分割线等。Element UI 的设计风格简洁,易于上手&…

【前端素材】推荐优质后台管理系统Airmin平台模板(附源码)

一、需求分析 系统定义 后台管理系统是一种用于管理和监控网站、应用程序或系统的在线工具。它通常是通过网页界面进行访问和操作,用于管理网站内容、用户权限、数据分析等。后台管理系统是网站或应用程序的控制中心,管理员可以通过后台系统进行各种管…

第四十二回 假李逵翦径劫单身 黑旋风沂岭杀四虎-python读写csv和json数据

李逵答应了宋江三件事:不可吃酒,独自前行,不带板斧。李逵痛快答应了,挎一口腰刀,提着朴刀,带了一锭大银子,三五个小银子就下山去了。 宋江放心不下,于是请同乡朱贵也回家一趟&#…

arcgisPro制图输出

1、设置地图底图 2、导入数据 3、 设置图形颜色,如下:右键“浙江省”数据层,选择符号系统 4、在右侧可看到打开的符号系统栏,进行如下设置: 5、移除“其他所有值”项,如下: 6、设置图形轮廓,如下…

【MATLAB】CEEMD_ MFE_SVM_LSTM 神经网络时序预测算法

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 CEEMD_MFE_SVM_LSTM神经网络时序预测算法是一种结合了多种先进技术的复杂预测方法,旨在提高时序预测的准确性和稳定性。下面是对该算法的详细介绍: CEEMD&#xff…

ES项目应用

配置: ES存储了2-3亿条,几百GB ES集群有5 个节点 2主2副 ES返回数据量窗口大小设置 index.max_result_window 深度翻页 1.from size 方式 2.scroll相当于维护了一份当前索引段的快照信息,这个快照信息是你执行这个scroll查询时的快照。在这个查询后的任…

kali虚拟机桥接模式快速设置

第一步:选择 虚拟机 > 设置 > 虚拟机设置,设置桥接模式 不选择复制物理网络连接状态选项: 如果采用DHCP的方式来分配IP地址,当电脑网络从有线或无线网络之间进行移动时,DHCP会重新分配ip地址,即虚拟机…

泰迪智能科技大模型数据智能实验室

自2022年11月ChatGPT问世以来,大模型开始备受关注,科技巨头们纷纷推出大模型实验室解决方案。大模型的价值不知在于互联网场景,而在于大模型能力垂直化,能够与具体的业务需求深度融合。 大模型实验室是在学校现有的实验室建设基础…

leetcode hot100 买卖股票的最佳时机1

本题之前采用贪心算法来解决,现在可以采用动态规划来解决,通过dp数组记录每次的状态从而获取到最大的利润。 这里dp数组定义为二维数组 dp[price.length][2],其中price.length表示第i天,[2]其中有0/1两种状态,[0]表示…

六、回归与聚类算法 - 欠拟合和过拟合

目录 1、定义 2、原因及解决方法 2.1 正则化 线性回归欠拟合与过拟合线性回归的改进 - 岭回归分类算法:逻辑回归模型保存与加载无监督学习:K-means算法 1、定义 2、原因及解决方法 2.1 正则化

电路设计(26)——速度表的multisim仿真

1.设计要求 设计一款电路,能够实时显示当前速度。 用输入信号模拟行驶的汽车,信号频率的1hz代表汽车速度的1m/s。最后速度显示,以km/h为单位。 2.电路设计 当输入信号频率为40HZ时,显示的速度应该为144KM/h,仿真结果为…

HTTP基本概念-HTTP 常见的状态码有哪些?

资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) HTTP 常见的状态码有哪些? 1xx 类状态码属于提示信息,是协议处理中的一种中间状态,实际用到的比较少。 2xx 类状态码表示服务器成功处理了客户端的请求,也是我们最愿…

第一个 Angular 项目 - 添加服务

第一个 Angular 项目 - 添加服务 这里主要用到的内容就是 [Angular 基础] - service 服务 提到的 前置项目在 第一个 Angular 项目 - 动态页面 这里查看 想要实现的功能是简化 shopping-list 和 recipe 之间的跨组件交流 回顾一下项目的结构: ❯ tree src/app/…

Linux freezer机制

一、概述 系统进入suspended或进程被加入到cgroup冻结或解冻分组,用户进程和部分内核线程被冻结后,会剥夺执行cpu资源,解冻或唤醒后恢复正常。 二、进程冻结与解冻原理 2.1 进程冻结 用户进程和内核线程冻结的基本流程: 内核态…

2024开年,手机厂商革了自己的命

文|刘俊宏 编|王一粟 2024开年,AI终端的号角已经由手机行业吹响。 OPPO春节期间就没闲着,首席产品官刘作虎在大年三十就迫不及待地宣布,OPPO正式进入AI手机时代。随后在开年后就紧急召开了AI战略发布会,…

GaussDB SQL调优:建立合适的索引

背景 GaussDB是华为公司倾力打造的自研企业级分布式关系型数据库,该产品具备企业级复杂事务混合负载能力,同时支持优异的分布式事务,同城跨AZ部署,数据0丢失,支持1000扩展能力,PB级海量存储等企业级数据库…

昨天Google发布了最新的开源模型Gemma,今天我来体验一下

前言 看看以前写的文章,业余搞人工智能还是很早之前的事情了,之前为了高工资,一直想从事人工智能相关的工作都没有实现。现在终于可以安静地系统地学习一下了。也是一边学习一边写博客记录吧。 昨天Google发布了最新的开源模型Gemma&#xf…

电商数据采集的几个标准

面对体量巨大的电商数据,很多品牌会选择对自己有用的数据进行分析,比如在控价过程中,需要对商品的价格数据进行监测,或者是需要做数据分析时,则需要采集到商品的价格、销量、评价量、标题、店铺名等信息,数…