人工智能专题: Sora,世界模拟器的视频生成器

今天分享的是人工智能系列深度研究报告:《人工智能专题: Sora,世界模拟器的视频生成器》。

(报告出品方:华泰证券

报告共计:16

来源:人工智能学派

Sora 能做什么?60s 文生视频功能惊艳,可以理解和模拟真实世界

根据 OpenAI 官方介绍,目前 Sora 具备生成包括多个角色、特定类型的运动、准确细节的 主体和复杂场景的能力。同时,还能够创建多个镜头,模拟复杂的摄像机运镜效果,使得 生成的视频更加生动。此外,由于 OpenAI 将扩散模型与 LLM 相结合,使得 Sora 具备了 理解和模拟真实世界的能力,因此 Sora 所生成的视频中已经可以展现出空间以及空间内物 体之间的真实物理关系。目前 Sora 除了文生视频功能外,还具备图生视频、视频扩展、视频拼接、视频编辑、图像生成等功能,具体功能如下:

文生视频:基于用户的自然语言描述准确地生成相应视频内容。以 OpenAI 官方发布的范例视频为例,输入提示词:“一位时尚的女士漫步在东京街头,街上充满了温暖的霓虹灯和 生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子,手中提着一个黑色手提包。 她戴着太阳镜,涂着红色口红。走路时自信而随意。街道潮湿且反光,形成了彩色灯光的 镜面效果,许多行人来来往往。”输出作品参考下图。

图生视频:基于用户提供的参考图片及文本指令,衍生出视频内容。

视频扩展:Sora 具备了能够将视频沿着时间线向过去或未来扩展的功能。即从一个生成视频的片段出发,向时间的倒退或前进方向进行延伸,从而生成视频的开头或结尾部分。

视频拼接:用户可以使用 Sora 在两个输入视频之间逐渐进行插入补充视频,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

视频编辑:Sora 可以将用户输入的基础视频,基于用户的文本指令,在零样本的情况下改变原视频的风格、环境、拍摄手法等。

图像生成:根据给出的文本提示,Sora 可通过将高斯噪点的补丁安排在一个空间网格中, 时间维度设为单一帧,进而生成不同尺寸的图像,分辨率最高可达 2048x2048。例如下列图片的提示词为“一个女人在秋天的特写肖像,每一个细节都被捕捉得淋漓尽致,浅景深 的应用使得主体脱颖而出”,“充满生机的珊瑚礁吸引了五颜六色的鱼类和海洋生物”。

Sora 有何优势?视频质量优势显著,突破视频时长及镜头切换限制

Sora 生成视频质量较 Pika、Runway 具有显著优势。相较于 Pika、Runway 等之前的 AI 文生视频工具,Sora 除了拥有视频向前扩展、视频拼接等功能外,还可以通过多镜头等方 式生成相较于其他 AI 文生视频工具更加复杂的视频,同时在时长、流畅度以及逻辑性方面 表现出了显著的优势,并且初步具备了理解和模拟真实物理世界的能力。OpenAI 认为,视 频生成模型是构建通用物理世界模拟器的一条有前景的道路,它使人工智能理解和模拟运 动中的物理世界,迈向了一个新的高度。Sora 的发布也意味着 AGI 有望加速到来,是 AGI 实现过程里的重大里程碑事件,而不仅仅只是视频生成。Sora 具体优势如下:

突破视频时长及镜头切换限制:由于受到 AI 算法和学习能力的限制,RunWay、Pika 等之 前的头部 AI 文生视频工具,无法完成镜头切换后的衔接,因此生成的作品往往都局限于 10 秒内的单一镜头视频。而 Sora 不仅可以实现不同镜头之前流畅的切换,还能生成 60 秒的 超长视频。

更加自由的视频尺寸:基于 OpenAI 公布的 Sora 技术报告,Sora 模型可以生成 1920x1080 与 1080x1920 之间所有尺寸的视频。而 Runway Gen2,仅支持长宽比为 4:3、3:4、16:9、 9:16、1:1、21:9 的视频。

背景角色稳定:过往的 AI 文生视频工具通常会出现背景角色不稳定的情况,即在背景中有 许多的人或动物的情况下,画面经常出现失真、混乱的情况。而这个问题在 Sora 的视频中 也得到了改善,以“东京漫步的女士”视频为例,在 Runway 中输入同样的提示词后,背 景人物会做出一些怪异的走路姿势,而 Sora 视频中背景角色表现非常稳定。

理解和模拟真实世界:由于 Sora 初步具备了理解和模拟真实世界的能力,因此 Sora 生成 的视频通常具备一些新兴特征,主要包括 3D 一致性、物体持久性、模拟物理交互等,这些 特征也使得 Sora 生成的视频更加的生动、逼真。

报告共计:16页

来源:人工智能学派

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693402.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苍穹外卖——第一天nginx

放到全是英文路径的打不开 到安装路径进入cmd,输入nginx -t nginx: the configuration file E:\Astudy\nginx-1.20.2/conf/nginx.conf syntax is ok nginx: [emerg] bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way forbid…

Fiddler工具 — 18.Fiddler抓包HTTPS请求(一)

1、Fiddler抓取HTTPS过程 第一步:Fiddler截获客户端发送给服务器的HTTPS请求,Fiddler伪装成客户端向服务器发送请求进行握手 。 第二步:服务器发回相应,Fiddler获取到服务器的CA证书, 用根证书(这里的根证…

UI自动化之使用poco进行元素的唯一定位

直接选择: 1.poco(text买入).click() 2.poco("android.widget.ImageView").click()相对选择、空间选择: 3.poco(text/name).parent().child()[0].click()正则表达式: 4.listpoco(textMatches".*ETF")今天主要想记录下…

《剑指Offer》笔记题解思路技巧优化 Java版本——新版leetcode_Part_5

《剑指Offer》笔记&题解&思路&技巧&优化_Part_5 😍😍😍 相知🙌🙌🙌 相识😢😢😢 开始刷题🟢1. LCR 158. 库存管理 II——数组中出现次数超过一…

SQL数据库基础语法-增删改

SQL数据库基础语法-增删改 数据库是 ​ “按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 GeekSec专注技能竞赛培训5年,包含网络建设与运维和信息安全管理与评估两大赛项,…

synchronized原理Callable接口

synchronized原理 特点 1.synchronized既是一个悲观锁,又是个乐观锁,自适应的! synchronized默认是乐观锁,但是如果发现锁竞争比较激烈,就会变成悲观锁!!2.synchronized既是轻量级锁,又是一个重量级锁,自适应! synchronized默认是轻量…

字符串算法(算法竞赛)--最小表示法与最详细的字符串哈希

1、B站视频链接&#xff1a;F01 最小表示法_哔哩哔哩_bilibili 题目链接&#xff1a;【模板】最小表示法 - 洛谷 #include <bits/stdc.h> using namespace std; const int N7e5; int n; int s[N];int get_min(){for(int i1;i<n;i)s[ni]s[i];//字符串复制一倍int i1,j…

车载软件架构Adaptive AUTOSAR —— 身份和访问管理和加密技术

车载软件架构Adaptive AUTOSAR —— 身份和访问管理和加密技术 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自己。…

辽宁博学优晨教育科技有限公司视频剪辑培训靠谱吗?

在数字媒体日益繁荣的今天&#xff0c;视频剪辑已成为一项炙手可热的技能。不少培训机构纷纷涉足这一领域&#xff0c;辽宁博学优晨教育科技有限公司便是其中之一。然而&#xff0c;面对众多的选择&#xff0c;很多人不禁要问&#xff1a;辽宁博学优晨教育科技有限公司的视频剪…

【深度学习每日小知识】交并集 (IoU)

交并集 (IOU) 是一种性能指标&#xff0c;用于评估注释、分割和对象检测算法的准确性。它量化数据集中的预测边界框或分段区域与地面实况边界框或注释区域之间的重叠。 IOU 提供了预测对象与实际对象注释的对齐程度的衡量标准&#xff0c;从而可以评估模型准确性并微调算法以改…

中科大计网学习记录笔记(十四):多路复用与解复用 | 无连接传输:UDP

前言&#xff1a; 学习视频&#xff1a;中科大郑烇、杨坚全套《计算机网络&#xff08;自顶向下方法 第7版&#xff0c;James F.Kurose&#xff0c;Keith W.Ross&#xff09;》课程 该视频是B站非常著名的计网学习视频&#xff0c;但相信很多朋友和我一样在听完前面的部分发现信…

人形机器人专题:传感器,人形机器人实现“具身感知”的关键

今天分享的是人形机器人系列深度研究报告&#xff1a;《人形机器人专题&#xff1a;传感器&#xff0c;人形机器人实现“具身感知”的关键》。 &#xff08;报告出品方&#xff1a;浙商证券股份有限公司&#xff09; 报告共计&#xff1a;44页 来源&#xff1a;人工智能学派…

Redis篇----第十篇

系列文章目录 文章目录 系列文章目录前言一、Redis 集群如何选择数据库?二、怎么测试 Redis 的连通性?三、怎么理解 Redis 事务?四、Redis 事务相关的命令有哪几个?五、Redis key 的过期时间和永久有效分别怎么设置?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易…

备考2025年AMC8数学竞赛:2000-2024年AMC8真题练一练

对于想了解或者加AMC8美国数学竞赛的孩子来说&#xff0c;熟悉AMC8的历年考试真题&#xff0c;既可以了解考试的内容、形式、难度&#xff0c;还可以看看自己的掌握程度&#xff0c;发现自己的短板查漏补缺&#xff0c;毕竟&#xff0c;这个比赛考察的知识点相对固定&#xff0…

14. rk3588自带的RKNNLite检测yolo模型(python)

首先将文件夹~/rknpu2/runtime/RK3588/Linux/librknn_api/aarch64/下的文件librknnrt.so复制到文件夹/usr/lib/下&#xff08;该文件夹下原有的文件librknnrt.so是用来测试resnet50模型的&#xff0c;所以要替换成yolo模型的librknnrt.so&#xff09;&#xff0c;如下图所示&am…

【Python爬虫】requests库get和post方法使用

requests库是一个常用于http请求的模块&#xff0c;性质是和urllib&#xff0c;urllib2是一样的&#xff0c;作用就是向指定目标网站的后台服务器发起请求&#xff0c;并接收服务器返回的响应内容。 1. 安装requests库 使用pip install requests安装 如果再使用pip安装python…

kali linux出现添加源无法更新的问题:更新时显示签名无效和没有数字签名

kali linux更新源时显示签名无效和没有数字签名 一、出现显示签名无效和没有数字签名二、 解决办法三、几种开源镜像站 一、出现显示签名无效和没有数字签名 原因&#xff1a;因为没有下载签名&#xff0c;所以显示签名无效和没有数字签名 二、 解决办法 wget archive.kali.o…

OpenCV边缘检测与视频读写

原理 OpenCV中的边缘检测原理主要基于图像梯度的计算&#xff0c;包括一阶梯度和二阶梯度。 一阶梯度&#xff1a;它反映了图像亮度变化的速度。Sobel算法就是一种以一阶梯度为基础的边缘检测算法。它通过计算图像在水平和垂直方向上的梯度来检测边缘。这种方法简单有效&…

命令行窗口文本复制到 Word 格式保持不变

命令行窗口文本复制到 Word 格式保持不变 References 标题栏右键 -> 编辑 -> 标记 / 全选 标题栏右键 -> 编辑 -> 复制 粘贴到 Notepad 中&#xff0c;语言栏设置对应语言&#xff0c;格式可以保持不变 复制文本粘贴到 Excel 中 选中 Excel 中文本复制&#xf…

基于qt的图书管理系统----01数据库设计

参考b站&#xff1a;视频连接 目录 1、数据库设计2、数据库增删改查2.1 book表操作2.2 user表操作2.3 record表的操作&#xff08;重点&#xff09; 3、数据表导出 1、数据库设计 使用sqlite3&#xff0c;新建一个book的表&#xff0c;并且都让主键自增 NmaeValuebookid书本…