突破性创新:OpenAI推出Sora视频模型,预示视频制作技术的未来已到来!

一、前言

此页面上的所有视频均由 Sora 直接生成,未经修改。

OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions.

在这里插入图片描述

2024 年 2 月 16 日,OpenAI 发布 AI 视频模型 Sora,60 秒的一镜到底,惊艳的效果生成。AI 视频生成可能要变天?


二、主要内容

能力

OpenAI 正在教授 AI 理解和模拟运动中的物理世界,目标是训练出能帮助人们解决需要与现实世界互动的问题的模型。目前的成果是 Sora,OpenAI 最新发布的从文本生成视频模型。Sora 能够生成长达一分钟的视频,同时保持视觉品质和对用户提示的遵循。

2024 年 2 月 26 日,Sora 即将向红队人员开放,以评估关键领域的潜在危害或风险。OpenAI 还允许一些视觉艺术家、设计师和电影制作人使用,以便获得反馈,进一步优化模型,使其对创意专业人士更有帮助。OpenAI 提早分享他们的研究进展,以便开始与 OpenAI 之外的人们合作并从他们那里获取反馈,同时让公众对即将到来的 AI 能力有所了解。

Sora 能够生成包含多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。这个模型不仅理解用户在提示中请求的内容,还理解这些事物在物理世界中的存在方式。该模型对语言有着深刻的理解,使其能够准确解读提示并生成表情丰富的引人入胜的角色。Sora 还能在单个生成的视频中创造出多个画面,准确地保持角色和视觉风格的一致性。

当前模型有缺陷。它可能在准确模拟复杂场景的物理现象方面遇到困难,也可能无法理解特定的因果关系。例如,一个人可能会咬一口饼干,但之后,饼干可能不会留下咬痕。该模型也可能会混淆提示的空间细节,例如,将左和右搞混,而且可能难以准确描述随时间发生的事件,比如遵循特定的摄像机轨迹。

安全

在将 Sora 应用于 OpenAI 产品之前,OpenAI 将采取几个重要的安全措施。OpenAI 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。OpenAI 还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。如果在 OpenAI 产品中部署该模型,OpenAI 计划在未来加入 C2PA 元数据。

除了开发新技术为部署做准备外,OpenAI 还在利用现有的安全方法,这些方法是 OpenAI 为使用 DALL-E 3 的产品建立的,也适用于 Sora。例如,一旦进入 OpenAI 产品,OpenAI 的文本分类器就会检查并拒绝违反 OpenAI 使用政策的文本输入提示,例如要求输入极端暴力、性内容、仇恨图像、名人肖像或他人知识产权的内容。OpenAI 还开发了强大的图像分类器,用于审查生成的每段视频的帧数,以帮助确保视频在播放给用户之前符合使用政策。

OpenAI 将与世界各地的政策制定者、教育工作者和艺术家接触,以了解他们的担忧,并确定这项新技术的积极应用案例。尽管进行了广泛的研究和测试,但 OpenAI 无法预测人们使用这项技术的所有有益方式,也无法预测人们滥用技术的所有方式。这就是为什么 OpenAI 相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。

研究技术

Sora 是一种扩散模型,它从一个看起来像静态噪音的视频开始生成视频,然后通过多个步骤去除噪音,逐渐转换视频。Sora 能够一次性生成整个视频,或延长生成的视频,使其更长。通过让模型一次预见多帧画面,OpenAI 解决了一个具有挑战性的问题,那就是即使主体暂时离开视线,也要确保主体保持不变

与 GPT 模型类似,Sora 也采用了 Transformer 架构,释放了卓越的扩展性能。OpenAI 将视频和图像表示为更小的数据单元集合,称为 “补丁”(patches),每个补丁类似于 GPT 中的令牌(token)。通过统一数据表示方式,我们可以在比以往更广泛的视觉数据上训练 diffusion transformers,包括不同的持续时间、分辨率和宽高比。

Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础之上。它采用了 DALL-E 3 中的重述技术,即为视觉训练数据生成高度描述性的字幕。因此,该模型能够在生成的视频中更忠实地遵循用户的文字说明。该模型不仅能根据文字说明生成视频,还能根据现有的静止图像生成视频,并能准确、细致地对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。更多信息,请参阅 OpenAI 的技术报告。

Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。


三、总结

OpenAI 发布其首个 AI 视频生成模型 Sora:这是一个能够根据文本指令生成逼真而富有想象力的视频的模型,它使用了扩散模型和 Transformer 架构,能够生成长达一分钟的超长视频,还能保持多镜头的一致性。

Sora 展现了对世界的理解和模拟:这个模型能够学习到关于 3D 几何、物理规律、语义理解和故事叙述的知识,它甚至能够创造出类似皮克斯作品的动画效果,有着世界模型的雏形。

Sora 颠覆了视频生成领域:这个模型的效果远超过了目前的 AI 视频工具,如 Runway Gen 2 和 Pika,它能够实现视频和现实的无缝对接,让普通人也能在社交媒体上制作出高质量的视频内容。

Sora 可能为实现 AGI 奠定了基础:这个模型是对真实世界和虚构世界的模拟,是通用人工智能的重要步骤,也是 OpenAI 的核心使命。


最新消息:本文是设想的方式,但 Sora 目前还未正式对外上线。后续预计先在 ChatGPT Plus 会员覆盖。

如果你想体验 ChatGPT4 服务,可以查看这篇文章:ChatGPT4.0升级教程

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/693407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

XML Map 端口进阶篇——常用关键字和格式化器详解

XML Map 端口是用于在不同XML之间建立关系映射的工具,允许通过拖拽操作实现源XML和目标 XML之间的数据字段映射,除此之外,XML Map 端口还提供了其它丰富多彩的功能,使用户能够更加灵活和高效的处理XML 数据映射任务,让…

以程序员的视角,看前后端分离的是否必要?

Hello,我是贝格前端工场,本篇分享一个老生常谈的话题,前后端分离是必然趋势,但也是要区分具体的场景,欢迎探讨,关注,有前端开发需求可以私信我,上车了。 一、什么是前后端分离和不分…

Bert-VITS-2 效果挺好的声音克隆工具

持中日英三语训练和推理。内置干声分离,切割和标注工具,开箱即用。请点下载量右边的符号查看镜像所对应的具体版本号。 教程地址: sjj​​​​​​​CodeWithGPU | 能复现才是好算法CodeWithGPU | GitHub AI算法复现社区,能复现…

分享一个背英语单词的方法

目录 前言 乱序记忆法 结语 前言 这是我现在正在用的背单词方法,我觉得是不错的,分享一下,希望对你有帮助。也欢迎评论点赞哟。 乱序记忆法 这种方法需要我们准备好纸,是需要我们动笔的。我坚持认为,动笔去记单词的…

人工智能专题: Sora,世界模拟器的视频生成器

今天分享的是人工智能系列深度研究报告:《人工智能专题: Sora,世界模拟器的视频生成器》。 (报告出品方:华泰证券) 报告共计:16页 来源:人工智能学派 Sora 能做什么?…

苍穹外卖——第一天nginx

放到全是英文路径的打不开 到安装路径进入cmd,输入nginx -t nginx: the configuration file E:\Astudy\nginx-1.20.2/conf/nginx.conf syntax is ok nginx: [emerg] bind() to 0.0.0.0:80 failed (10013: An attempt was made to access a socket in a way forbid…

Fiddler工具 — 18.Fiddler抓包HTTPS请求(一)

1、Fiddler抓取HTTPS过程 第一步:Fiddler截获客户端发送给服务器的HTTPS请求,Fiddler伪装成客户端向服务器发送请求进行握手 。 第二步:服务器发回相应,Fiddler获取到服务器的CA证书, 用根证书(这里的根证…

c# Contains方法-检查集合中是否包含指定的元素

Contains 是 .NET 集合框架中许多集合类&#xff08;如 List、Array、HashSet 等&#xff09;提供的一种方法&#xff0c;用于检查集合中是否包含指定的元素。对于 List<int> 类型&#xff0c;Contains 方法会遍历列表中的所有元素&#xff0c;并判断传入的方法参数是否存…

UI自动化之使用poco进行元素的唯一定位

直接选择&#xff1a; 1.poco(text买入).click() 2.poco("android.widget.ImageView").click()相对选择、空间选择&#xff1a; 3.poco(text/name).parent().child()[0].click()正则表达式&#xff1a; 4.listpoco(textMatches".*ETF")今天主要想记录下…

c编译器学习05:与chibicc类似的minilisp编译器(待续)

minilisp项目介绍 项目地址&#xff1a;https://github.com/rui314/minilisp 作者也是rui314&#xff0c;commits也是按照模块开发提交的。 minilisp只有一个代码文件&#xff1a;https://github.com/rui314/minilisp/blob/master/minilisp.c 加注释也只有996行。 代码结构&a…

《剑指Offer》笔记题解思路技巧优化 Java版本——新版leetcode_Part_5

《剑指Offer》笔记&题解&思路&技巧&优化_Part_5 &#x1f60d;&#x1f60d;&#x1f60d; 相知&#x1f64c;&#x1f64c;&#x1f64c; 相识&#x1f622;&#x1f622;&#x1f622; 开始刷题&#x1f7e2;1. LCR 158. 库存管理 II——数组中出现次数超过一…

vue.js前端框架应用案例

Vue.js 是一种流行的前端框架&#xff0c;它可以帮助开发者构建单页应用&#xff08;SPA&#xff09;和复杂的用户界面。以下是几个 Vue.js 的案例&#xff0c;涵盖了不同领域的应用&#xff1a; Vue.js 官方文档&#xff1a;Vue.js 的官方文档本身就是一个使用 Vue.js 构建的…

SQL数据库基础语法-增删改

SQL数据库基础语法-增删改 数据库是 ​ “按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。 GeekSec专注技能竞赛培训5年&#xff0c;包含网络建设与运维和信息安全管理与评估两大赛项&#xff0c;…

synchronized原理Callable接口

synchronized原理 特点 1.synchronized既是一个悲观锁,又是个乐观锁&#xff0c;自适应的&#xff01; synchronized默认是乐观锁,但是如果发现锁竞争比较激烈,就会变成悲观锁!!2.synchronized既是轻量级锁,又是一个重量级锁,自适应&#xff01; synchronized默认是轻量…

字符串算法(算法竞赛)--最小表示法与最详细的字符串哈希

1、B站视频链接&#xff1a;F01 最小表示法_哔哩哔哩_bilibili 题目链接&#xff1a;【模板】最小表示法 - 洛谷 #include <bits/stdc.h> using namespace std; const int N7e5; int n; int s[N];int get_min(){for(int i1;i<n;i)s[ni]s[i];//字符串复制一倍int i1,j…

png图片转换tif图片格式(只有目标和背景两种颜色)

在这里以红色目标为例子&#xff0c;我的背景里面有很多颜色&#xff0c;但是我只想要红色的目标部分 &#xff08;注&#xff1a;这里的程序是将图片中的红色目标提取出来&#xff0c;其余背景全是黑色&#xff0c;如果想要其他颜色&#xff0c;请根据阈值自行修改&#xff09…

车载软件架构Adaptive AUTOSAR —— 身份和访问管理和加密技术

车载软件架构Adaptive AUTOSAR —— 身份和访问管理和加密技术 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师(Wechat:gongkenan2013)。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 本就是小人物,输了就是输了,不要在意别人怎么看自己。…

辽宁博学优晨教育科技有限公司视频剪辑培训靠谱吗?

在数字媒体日益繁荣的今天&#xff0c;视频剪辑已成为一项炙手可热的技能。不少培训机构纷纷涉足这一领域&#xff0c;辽宁博学优晨教育科技有限公司便是其中之一。然而&#xff0c;面对众多的选择&#xff0c;很多人不禁要问&#xff1a;辽宁博学优晨教育科技有限公司的视频剪…

android密集架移动动画效果开发

机缘 因公司需要开发密集架相关项目,涉及相关项目需求设计,市场上并未有相关动画效果流出,基于设计开发相关需求 多列密集架情况: 密集架固定列在最左侧密集架固定列在最右侧密集架固定列在最中间收获 最终完成初步效果 实例展示: android密集架移动效果 部分核心代码…

【深度学习每日小知识】交并集 (IoU)

交并集 (IOU) 是一种性能指标&#xff0c;用于评估注释、分割和对象检测算法的准确性。它量化数据集中的预测边界框或分段区域与地面实况边界框或注释区域之间的重叠。 IOU 提供了预测对象与实际对象注释的对齐程度的衡量标准&#xff0c;从而可以评估模型准确性并微调算法以改…