Sora一出 哪里又要裁员了?

        

        上班前夕迎来大新闻,那就是Sora了,Sora是什么,有什么牛逼之处,怎么实现的,我们跟着官方文档透露出来的一点点信息,简单的捋一捋。

一、Sora是什么

        官方给出的定义是:世界模拟器。这很明显有夸大的成分,实际一点来说Sora就是OpenAI用GPT的能力将视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后密集训练,最后大力出奇迹,达到你想看什么就生成什么视频的效果。

二、Sora为什么受追捧

        第一个牛逼之处是持久。虽然文生视频已不是新鲜事,但相比于Sora,此前的文生视频大模型所能生成的视频时间很短。比如去年Pika Labs发布的Pika 1.0曾轰动一时,但只能生成3秒以内的视频。而Sora生成的视频足足1分钟,基本达到了实际使用的要求,毕竟某音上很多小姐姐的视频还达不到1分钟。

        第二就是连贯。视频内容的语义连贯性已经非常完美,前景、背景的镜头感和融合程度非常好,甚至连光影、物理碰撞都有模有样。它已经很好的模拟了真实世界中的物理规则,已经不是不是文生图这样的小玩意儿了,来看个例子吧。

title_0

三、训练过程

        关于算法的信息,作者只公布了一点点信息,任何细节都没有透露,我们只能根据只言片语大概得还原一下训练过程。

1.把图像数据转化为 patches(也许可以翻译成面片),patches是从LLM里面得到的灵感,相当于LLM中的token,作者使用Visual Patches来统一不同尺寸的视频。因为视频就是图片帧序列,Visual Patches的的维度应该和视频帧数相关。

2.为了统一不通过尺度和时长的视频,作者训练了一个视频压缩网络,将视频压缩成统一且低纬度的特征表示。

3.将2中的特征送入一个diffusion transformer模型(具体结构未知)中进行编解码,编码阶段得到类似Transformer中token的Spacetime latent patches(时空隐补丁?实在不会翻译),解码阶段生成“干净的”patches。既然是diffusion 模型,编解码的过程中可定会掺入提示词的token和随机马赛克。

四、视频数据

1.使用大分辨率视频进行训练:第一个好处:抽样的灵活性,Sora可以采样宽屏1920x1080p视频,垂直1080x1920视频以及介于两者之间的所有视频。所有的尺寸都使用相同的模型。

sampling_0

sampling_2

2.使用完整的视频进行训练:作者发现这样可以改善构图,使视频的语义更统一,传统做法是将最视频进行随机的裁剪成正方形或者矩形,这样有可能丢掉很多内容,是语义不完整,像下面着这样,左面的是传统的财裁剪方式,右面是作者使用的方式。

sampling_3

sampling_4

五、文本数据

1.训练了一个高度描述性的字幕模型,然后使用它为训练集中的所有视频生成文本字幕。作者发现,对高度描述性的视频字幕进行训练可以提高文本保真度以及视频的整体质量。

2.利用GPT将简短的用户提示转换为更长的详细字幕,并将其发送到视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

        关于模型和数据的介绍官方只放出这么多,其实也没有什么颠覆性的创新,也许是​压箱底的东西没有拿出来?但从这些信息来看,只能用四个字来形容​:力大砖飞

六、还能做什么

        除了文本生成视频,Sora还有很多玩法:

        (1)图片+prompt生成视频

prompting_1

        (2)扩展视频:Sora还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从一个生成的视频片段开始向后扩展的。因此,这四个视频的开始都不同,但四个视频的结局都是一样的。

extend_1

extend_2

extend_4

        (3)编辑视频:根据prompt修改视频的内容

base

0

        (4)拼接视频:Sora可以在两个输入视频之间进行插帧,在具有完全不同主题和场景构图的视频之间创建无缝过渡。在下面的例子中,中间的视频在左边和右边对应的视频之间插入。

a0

a1

a2

七、涌现的能力

        除此之外Sora还有许多有趣的突发能力,类似于“涌现”。

        比如Sora可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人物和场景元素在三维空间中始终如一地移动。

simulation_0

        Sora经常(虽然不是总是)能够有效地为短期和长期依赖关系建模。例如,模型可以保存人物、动物和物体,即使它们被遮挡或离开了框架。同样,它可以在单个样本中生成同一角色的多个镜头,在整个视频中保持其外观。

simulation_2

        Sora有时可以用简单的方式模拟影响世界状态的行为。例如,画家可以在画布上留下新的笔触,随着时间的推移,或者一个人吃汉堡时留下咬痕。

simulation_5

        Sora还能够模拟人工过程,比如视频游戏。Sora可以在高保真度渲染世界及其动态的同时,用基本策略控制《我的世界》中的玩家。

simulation_6

八、写在最后

        其实Sora还有很多不足,它不能准确地模拟许多基本相互作用的物理过程,比如玻璃破碎。就连官方也给出了“自黑”视频。

        但我认为国人的重点不应该放在Sora生成的视频好或者不好,也不用提多少行业会被颠覆。而是应该冷静思考一下,为什么别人家的公司在这么短的时间内能做出如此震惊世界的产品。

        确实我们在很多领域正以肉眼可见的速度追赶世界一流水平,包括各类顶会也越来越多国人的身影。这是好事,但在我看来,我们在人工智能领域与世界顶尖水平的差距确实越来越远了,无论软件还是硬件。

        努力吧!希望下次引爆朋友圈的是我们自己的公司,而不是盯着别人的东西土嗨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/691543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js 多对象去重(多属性去重)

需求中发现后端可能没有处理重复数据,这个时候前段可以直接解决。 在 JavaScript 中,可以使用 Set 数据结构来进行多对象的去重。Set 是 ES6 新引入的集合类型,其特点是元素不会重复且无序。 下面是一个示例代码,展示如何通过 S…

three.js 物体下落动画(重力加速度)

效果&#xff1a; <template><div><el-container><el-main><div class"box-card-left"><div id"threejs" style"border: 1px solid red"></div><el-button click"loopFun"> 物体下落…

kubuntu 解决 kwallet 弹窗问题

问题 启动 kubuntu 后, 自动弹框要求验证 kwallet 的密码 查看本次启动中与 kwallet 有关的日志 $ journalctl -b | grep kwallet解决 开启 sddm/gdm 登录后自动解锁 kwallet 的功能 安装 kwallet-pam 模块 一般来说系统自带该模块 $ sudo apt install libpam-kwallet5 l…

机器学习基础(二)监督与非监督学习

导语&#xff1a;更深入地探讨监督学习和非监督学习的知识&#xff0c;重点关注它们的理论基础、常用算法及实际应用场景。 上一节我们深入探索机器学习的根本原理&#xff0c;包括基本概念、分类及如何通过构建预测模型来应用这些理论&#xff0c;详情可见&#xff1a; 机器学…

京东数据分析|京东销售数据怎么查|京东销售数据查询软件分享!

京东销售数据分析对商家来说具有多方面的重要作用&#xff0c;主要体现在以下几个方面&#xff1a; 市场趋势分析&#xff1a; 分析京东平台上的商品销量、销售额和价格走势等数据&#xff0c;可以帮助商家了解当前市场的整体需求趋势&#xff0c;以及不同品类的季节性变化、…

面向未来的全面预算管理,财务团队应具备的技能

当企业置身于当今这个瞬息万变的市场环境中时&#xff0c;每一次的数据分析和战略决策都至关重要。财务团队作为企业提升盈利能力和保持可持续发展的核心&#xff0c;不仅要适应不同的管理需求和不断变化的市场环境&#xff0c;还需要协助企业保持竞争优势和领先地位。经济世界…

「函数递归小课堂」~(C语言)

先赞后看&#xff0c;不足指正! 这将对我有很大的帮助&#xff01; 所属专栏&#xff1a;C语言知识 阿哇旭的主页&#xff1a;Awas-Home page 目录 引言 1. 什么是递归&#xff1f; 2. 递归的限制条件 3. 递归应用举例 3.1 求 n 的阶乘 3.2 图例演示 3.3 代码实现 4…

基于JAVA+SpringBoot+Vue的前后端分离的电影院售票管理运营平台

✌全网粉丝20W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ &#x1f345;文末获取项目下载方式&#x1f345; 一、项目背景介绍&#xff1a; 该系统研究背景聚焦于…

解密短视频上火爆的“私董会”现象

关注卢松松&#xff0c;会经常给你分享一些我的经验和观点。 最近“私董会”一词再一次上了热门&#xff0c;先是一夜暴火的商业博主dada管培生翻车暴雷&#xff0c;后面是三言财经、互联网大V纷纷发表了自己的看法。 国内领先的私董会服务机构通常每年的收费都在3万元起步。…

Stable Diffusion系列(六):原理剖析——从文字到图片的神奇魔法(潜空间篇)

文章目录 LDM概述原理模型架构自编码器模型扩散模型条件引导模型图像生成过程 实验结果指标定义IS&#xff08;越大越好&#xff09;FID&#xff08;越小越好&#xff09; 训练成本与采样质量分析不带条件的图片生成基于文本的图片生成基于语义框的图片生成基于语义图的图片生成…

Open3D在点云上画直线

想在点云上做一些标识&#xff0c;发现画直线比较方便&#xff0c;下面是我画了一个三角形。可以根据自己的情况改变坐标画出不同的形状 pcd.translate(np.array([0,0,20])) points np.asarray(pcd.points) centroid points.mean(axis0) x1 length1[1] y1 centroid[1] z1…

virtualbox虚拟机运行中断,启动报错“获取 VirtualBox COM 对象失败”

文章目录 问题现象排查解决总结 问题现象 2月7日下午四点多&#xff0c;我已经休假了&#xff0c;某县的客户运维方打来电话&#xff0c;说平台挂了&#xff0c;无法访问客户是提供的一台Windows server机器部署平台&#xff0c;是使用virtualbox工具安装的CentOS7.9虚拟机和运…

Mysql事务原理与优化

概述 我们的数据库一般都会并发执行多个事务&#xff0c;多个事务可能会并发的对相同的一批数据进行增删改查操作&#xff0c;可能就会导致我们说的脏写、脏读、不可重复读、幻读这些问题。 这些问题的本质都是数据库的多事务并发问题&#xff0c;为了解决多事务并发问题&…

华为配置旁挂二层组网隧道转发示例

配置旁挂二层组网隧道转发示例 组网图形 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读 业务需求 企业用户通过WLAN接入网络&#xff0c;以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时&#xff0c;不影响用户的业务使用。 组网需求 AC组…

【python学习篇1】python基本语法

目录 一、第一个python程序 二、基本语法&#xff0c;数据类型&#xff0c;字面量&#xff0c;循环语句等内容 2.1字面量 2.2注释 2.2.1单行注释 2.2.2多行注释 2.3变量 2.3.1认识变量 2.3.2查看数据类型 2.3.3数据类型转换 2.3.4字符串的三种定义方式 2.3.5字符串…

Flutter开发环境和打包流程

Flutter开发环境和打包流程 1.本地开发环境 1.1.安装flutter 官网安装flutter有2种方式&#xff0c;一种是下载flutter的sdk包&#xff0c;一种是VS Code直接安装&#xff0c;照着官网的安装flutter的流程走没有什么问题 1.2.安装Android Studio 去Android Studio的官网直…

若依不分离版本部署流程

一、分离与不分离的区别 参考博客&#xff1a;前后端分离与不分离的本质区别&#xff01;_前后端分离本质-CSDN博客 概念适用场景前后端不分离前端页面看到的效果都是由后端控制&#xff0c;由后端渲染页面或重定向适合纯网页应用前后端分离后端仅返回前端所需的数据&#xf…

Android widget基础指南

widget的概念最早是由一名叫Rose的苹果工程师提出&#xff0c;后来经过多方面机缘巧合的发展下&#xff0c;便有了今天Android平台上的小组件widget&#xff0c;一般APP开发可能应用场景较少&#xff0c;最常见的莫过于天气APP的widget。但对于从事IOT或车载方向的同学&#xf…

WebRTC最新版报错解决:FileNotFoundError: LASTCHANGE.committime (二十五)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

图形渲染基础学习

原文链接&#xff1a;游戏开发入门&#xff08;三&#xff09;图形渲染_如果一个面只有三个像素进行渲染可以理解为是定点渲染吗?-CSDN博客 游戏开发入门&#xff08;三&#xff09;图形渲染笔记&#xff1a; 渲染一般分为离线渲染与实时渲染&#xff0c;游戏中我们用的都是…