聊聊国内「类Sora模型」发展现状,和 Sora 的差距到底有多大?

2024 年 2 月 16 日。

就在谷歌发布他新一代的多模态大模型 Gemini 1.5 Pro 的同一天,OpenAI 带着新一代的文生视频模型 Sora 再次抓住了全世界人们的眼球

“颠覆”、“炸裂”、“变天”、“疯狂”,类似的形容词一夜之间簇拥在 Sora 周围,可能不同于 ChatGPT,我们还需要与其“促膝长谈”才能惊觉它的与众不同,Sora 几乎是以一种所见即所得的方法将震撼输入到我们的眼眶

如果说从文本到文本的一问一答,从输入到输出模型为我们提供与增加的信息量我们尚且可以想象的话,Sora 这样从文本到视频的输入输出可能只有用“创造”一词可以概括。

而同时,已经被 ChatGPT 的成功培养过的 AI 创业者投资者们马上看到了隐藏在这意为“天空”的四个字母组合下巨大的商业机遇,风口之下,转回自身,我们可能马上会想到:“伴随着 Sora 的出现,国内的 AI 企业呢?有无类似 Sora 的产品?有无相应的技术积累?有无快速组建团队跟进文生视频技术的能力?

那么今天,我们就对国内视频生成模型的现状来一次“工业大摸底”,看看当下国内的视频生成模型究竟如何到底怎样,与 Sora 差距几何又有无亮眼之处。我们整体介绍了国内包含字节、腾讯、百度、阿里以及两家创业企业的 9 个视频生成模型,整体汇总如下:

OK,在介绍国产模型之前,让我们先从 Sora 开始讲起……

OpenAI:Sora

事实上,就像大语言模型,文生视频并不是一个 OpenAI “独创”的领域,而是伴随着如文生图技术的进步与发展衍生出的,具有更高技术难度与复杂度的“子领域”。在 Sora 之前,我们就已经报道过不少关于文生视频的工作,简单列举几个譬如:

  • 谷歌重磅发布零样本视频生成模型!效果惊艳,赶超扩散模型?

  • 字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

  • 短视频界的变革者:上海 AI lab 发布 Vlogger,几句话生成分钟级视频

  • 文生视频 Pika 1.0 全面开放测试!

  • AI自导自演的电视剧,每个角色都是一个大模型,斯坦福25人小镇精神续作

  • ……

可以看到,在视频生成领域,很早就有 Pika、Runway、Gen-2 等等珠玉在前,那么面对这么多视频生成的工作,为什么只有 Sora 成功破圈了呢?

面对这个问题,就让我们首先来快速过一下 Sora 的技术报告,文章题为《Video generation models as world simulators》,在开篇伊始,OpenAI 强调的反而不是其卓越的视频生成能力,而是其作为“世界模拟器”的潜力

这里其实划重点,区别于以往的视频生成工作,Sora 在生成高清精美的视频背后,事实上为 AGI 探索了一条“模拟真实世界模型”的技术进路,Sora 生成的视频惊人的展现了模型对“物理世界”这个抽象概念的理解,复述英伟达人工智能研究院 Jim Fan 的评论:“如果你还是把Sora当做DALLE那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物理引擎。”

从技术架构的角度,目前大部分学者仍然是认为 Sora 展现的 World Simulators 功能仍然是很有 OpenAI 风格的参数量增加导致的“涌现”的结果。其实先不说是大模型,哪怕是最先进的仿真软件在建模物理世界这件事上都面临着极大的困难,从视频生成的角度,模型理解物理世界需要做到比如三维一致性,物体持久性,长距离连贯性等等,而这一切是如何从目前技术报告中公布的 VAE编码器 + ViT + 条件扩散 + DiT模块 + VAE解码器中得到似乎还是一个未解之谜。

而除了充满科幻色彩的“世界模拟器”,作为一个“文生视频大模型”,Sora 最突出也是最令人震撼的一点在于,它可以根据 Prompt 文字直接生成 60 秒的连贯视频,60 秒看似不长,但是在 Sora 出现以前,AI 生成视频的平均长度仅仅在 4 秒左右,而如果再给这个数字一个参照物,人均单日使用时长超 2.5 小时的抖音短视频的平均长度仅仅在 20-30 秒之间,对于商业电影,60 秒意味着 15 个镜头,对于优秀导演而言甚至足够叙述一个完整的故事。

此外,在视频时长这个可以被量化对比的指标以外,Sora 给人更直观的感受是其绝佳的“连贯性”,

不是面向阅读论文关注量化指标的审稿人而是面向大众,高清连贯的视频更能给人带来以最为直观的视觉冲击。

同时,Sora 的“逼真度”也着将视频生成上升到了一个新的高度,如下图所示,如果不是央视特殊标注“模型生成视频”,有几个人可以从这个眼睛中看到一丝破绽?

而除了这些最直观的颠覆以外,Sora 还带来了诸如更强的语义理解能力、对不同宽高比和分辨率的适应能力、优秀的视频扩展能力等等,也无怪于 Sora 横空出世就可以为视频生成带来“ChatGPT 时刻”。

OK,先入为主看完 Sora 实现的神奇功能,那么再让我们站在更高的视角带着批判的眼光看看过去半年内国产视频生成模型现状!

字节:MagicVideo-V2/PixelDance

在国内大厂中,视频生成领域布局最多的还是当属靠短视频发家致富的字节跳动,事实上在 Sora 面世前的一个月,字节其实刚刚推出了一款文生视频模型 MagicVideo-V2,通过将文生图像、图像生成视频、视频到视频和视频帧插值四大模型集成在一个框架内,使得 MagicVideo-V2 有能力生成高清、流畅与连贯的视频。

在论文中字节强调这是一款在视频高清度、润滑度、连贯性、文本语义还原等方面击败主流的如 Runway, Pika 1.0, Morph, Moon Valley and Stable Video Diffusion 等的先进文生视频模型

从官网(https://magicvideov2.github.io)的例子中来看,视频的清晰度、逼真程度与动作的连贯性其实都相当不错,举例来看,让 MagicVideo-V2 生成一只弹吉他的北极熊,视频高清度、文本语义还原程度与连贯性都相当不错

▲A polar bear is playing guitar

而再如希望生成不是卡通而是更加真实一点的视频,一个小男孩在公园小路上骑自行车,这里我们可以看到对比 Sora “以假乱真” 式的结果,MagicVideo-V2 则略显“卡通”,仍然有不真实的感觉存在,并且一些细节部位的处理的仍然不到位:

当然,前面说的不够逼真与略显卡通事实都无伤大雅,对比 Sora 真正让 MagicVideo-V2 一败涂地的还是视频时长,从上面的例子中也可以看出,MagicVideo-V2 生成的视频时长仍然在 3-4 秒之内,我们往往只能看到“图片”确实动起来了,但远没有 Sora 带给我们大片式的震撼。

除了最新的 MagicVideo-V2,去年 11 月字节也发布了一款文字 + 首帧指导(图片)+ 尾帧指导(图片)生成视频的工具 PixelDance。

区别于完全的文本到视频的转换,PixelDance 的模式是从指导图片+文本描述到视频的转换,尽管也是 GIF 画风,但是清晰度与流畅度已经可以让人眼前一亮,比如下面这段“铜雕夫妻接吻并旋转”

但是视频整体风格仍然有点“虚假”,认人物动作有时候也比较僵硬,比如下面这个“女孩慢慢转过头,微笑,头发”:

而除却上面这些三四秒的动画,也许是得益于有“图片”信息的辅助,在官网(https://makepixelsdance.github.io)中,PixelDance 令人惊喜的制造了一部“超越” Sora 的三分钟微电影:

不过从上面这部“电影”来看,动作不自然、转场僵硬,角色突然的形变等等这类问题数不胜数,还远远未达到“颠覆短视频业”的程度。

而其实事实上在去年 11 月 PixelDance 面世之初,也就是三四个月前,视频生成业界的观点还停留在:“生成有高度一致性且有丰富动态性的视频,让视频内容真正地动起来,是目前视频生成领域中的最大挑战”。而对比当时的观点与这些“旧模型”,Sora 带给人们的震撼可能也并不难以理解。

除了 MagicVideo-V2 与 PixelDance 以外,这两天抖音旗下的剪映也宣布文生图工具 Dreamina 即将上线文生视频的功能,并且正在内测,当下 Sora 热度未减,不知道 Dreamina 能否带给大家不同于 MagicVideo-V2 的惊喜,让我们一起期待。

腾讯:VideoCrafter2

非常有意思的是,在字节发布 MagicVideo-V2 仅仅一天后(1 月 17 日),国内大厂像玩起萝卜蹲式的推出自己的视频生成模型,前有腾讯的 VideoCrafter2,后有百度的 UniVG,先来说说腾讯的 VideoCrafter2。

顾名思义,VideoCrafter2 是与 PixelDance 同期发布的 VideoCrafter 的续作,先来简单看看这个 VideoCrafter 的“成片”,比如“宇航员骑马”:

效果其实与同期的几个模型大同小异,不过 VideoCrafter 在个性化视频生成与视频生成控制上做了文章,支持在一组特定的视频片段或图像中对模型进行微调以迁移视频风格与更深度的控制生成结果的能力

值得注意的是,VideoCrafter 使用的是被 Sora 用Diffusion Transformer(DiT)“扬弃” 了的 U-net 网络,而这一点在 VideoCrafter2 中也没有改变。而事实上,VideoCrafter2 的主要贡献集中在了“如何用低质量视频和高质量图像数据生成高质量视频”上(https://github.com/AILab-CVC/VideoCrafter)。

当然,对比原始的 VideoCrafter,VideoCrafter2 在视频清晰度与动态效果上也有极大的提升,比如“一个孩子兴奋地在有点生锈的秋千上荡秋千”

再如:“一位戴眼镜的年轻女子戴着粉红色的头带在公园慢跑”

整体来看视频的清晰度,流畅程度其实都可圈可点,这种在低质量数据中训练高质量视频的方法也非常有可取之处。不过遗憾的是,如果我们先入为主首先看过了 Sora 生成的视频,无论是从视频长度、动作质量,还是人物形变等等方面,总会令人感觉这二者仿佛不在一个维度进行竞争。

百度:UniVG

说完了腾讯的 VideoCrafter2,再来看看百度同天上线的 UniVG(https://univg-baidu.github.io),区别于腾讯主要在从低质量数据到高质量数据上做文章,百度 UniVG 的卖点主要在于“Unified-Model”,期望构建一种文字与图片任意组合输入的更加灵活的视频生成模型

从生成结果来看,UniVG 的清晰度非常令人惊喜,比如“一只猫正在吃胡萝卜”

“小女孩与鱼”

整体来看清晰度、真实性都相当不错,但可能最大的问题仍然在“太短了”,生成的视频仍然像是多张图片的“拼凑”,而似乎没有一个构建统一故事的可能。UniVG 生成效果的整体演示如下面的视频所示:

阿里:I2VGen-XL/EMO

再来看阿里,其实在 Sora 面世前的五个月,阿里就在其魔搭社区上线了视频生成大模型 I2VGen-XL(https://i2vgen-xl.github.io),区别于文字生成视频,阿里 I2VGen-XL 的主要方向是图像生成视频,同样是基于 Latent Diffusion Models(LDM),阿里与腾讯一样也使用的是 U-net 网络,而在模型架构以外,I2VGen-XL 在数据集上也下了功夫,收集了约 3500 万单镜头文本-视频对与 60 亿文本-图像对优化模型。

从视频生成效果来看,I2VGen-XL 也确实对的起“High-Quality”的评价。比如输入一张这样的猫咪图片:

I2VGen-XL 生成的视频效果是这样的:

输入三只狼:

I2VGen-XL 也能让他们“跑起来”:

其实 I2VGen-XL 在问世之初也被冠以“里程碑”的名号,在视频的动作丰富度,还原度,流畅度等等方面也都做到了当时最佳,然而 I2VGen-XL 也仍然只是让图片“动了起来”,也远未达到 Sora “World Simulators”级别的震撼

除了 I2VGen-XL,也就是在最近几天,阿里又推出了其图片+声音生成视频的 EMO 框架 (Emote Portrait Alive,EMO)。相比 I2VGen-XL,不得不说阿里这个 EMO 要更为好玩一点:

如上图所示,对一张图片任意输入一段音频,就可以让蒙娜丽莎讲话,让赫本开口唱歌:

这里还有一个和 Sora 的小小联动,输入一个 Sora 生成的虚拟决策,再加一段 OpenAI 首席技术官 Mira Murari 接受访谈的音频,就可以惟妙惟肖的以假乱真:

除了单纯的从图像到视频,EMO 更令人惊喜的功能在于无论输入音频的长度如何,EMO 都可以生成相应时长的视频,并且保持角色的个性与特征。而从上面的视频中也可以看到,这次由 EMO 生成的视频超越了之前几家“GIF”的特征,面部表情和头部姿态都可以保持长时间的生动与稳定,也有大佬揪住细节甚至发现 EMO 生成的视频耳朵、眉毛与喉咙的还原度都非常之高:

创业公司:HiDream/PixVerse……

除了这些大厂巨头,国内也有不少创业公司在发力视频生成这一领域,比较有代表的有智象未来(HiDream.ai)的 HiDream 与爱诗科技的 PixVerse。这两款应用都可以方便的在线体验:

HiDream:https://hidreamai.com/ PixVerse:https://app.pixverse.ai/

先来看 HiDream,HiDream 可以直接通过微信进行登录,输入一段文字 HiDream 可以在一两分钟内生成出对应的视频,比如我们以“一只弹吉他的北极熊”进行测试:

HiDream 可以生成出 4 秒左右的视频,视频清晰度,动作流畅度也都相当不错

再来看 PixVerse,在输入提示词,选择各种风格之后,PixVerse 在几分钟内也可以生成对应的视频,不过其指令遵循能力似乎并不太能得到信赖,同样以 “一只弹吉他的北极熊” 为输入,当风格勾选“现实”时,PixVerse 生成了一个女生在弹吉他而没有北极熊的影子,而当风格勾选“动画”时,PixVerse 却生成了两只北极熊

其生成的视频质量如下所示,可以明显看出一些细节的处理仍然不到位:

Sora 之后

放在一个更大的视角,综合来看国产的视频生成模型与 Sora 的对比,尽管这些模型问世时都或多或少的为我们带来了惊喜,在论文与技术报告中宣称超越了各种 benchmark,在没有 Sora 的对比之前,或许我们都可以一个个赞美与表扬过去这里有创新那里有亮点

但是一旦当我们先行看过 Sora,再去审视这些年龄仅仅比 Sora 大一两月与两三月的模型,我们就会看到其实它们与我们想象中的,也是 OpenAI 带给我们的“真正变革”相距甚远。英国近代史大师艾瑞克·霍布斯鲍姆如此评价工业革命:“一旦工业化进程开始,变革就成为了常态”,而目光转向我们现在经历的这场 AI 革命,我们却总是发现国产模型在“常态的变革”中,完成最多的似乎又总是一些“小修小补”的工作,而一次又一次与里程碑式的进步失之交臂。

在国内一家又一家自诩或被人们称为“中国的 OpenAI”的公司中,在所谓“中美平分 AI 的半壁江山”的论调下,我们似乎总是在进行“赶超战略”,但是就像谷歌在发布它的 Gemini 1.5 Pro 当天 Sora 横空出世那样,如此继续在歌舞升平中“常态化变革”至“长期性平庸”,我们总会一次又一次的看着 ChatGPT、Sora 这样的技术不断重复着他们出现、我们追赶、他们打压、我们落后的循环

我们需要看到,在我们认为“视频生成最大的挑战在于‘让视频内容动起来’”时,Sora 瞄准的是视频生成背后的“世界模拟器”的功能,我们的视频生成模型与 Sora 的差距可能也不仅仅是我的 4 秒它的 60 秒。也许只有当我们的企业我们的创新不是单单瞄准一个领域圈定的范围画好的边界去集中力量办大事,而是抱着对“智能”而非“智能应用”真正的“好奇”去指导我们想象智能的边界,探索的未知的可能,我们才有可能不再紧随其后,而是弯道超车吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/719675.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络传输基本流程(封装,解包)+图解(同层直接通信的证明),报头分离问题,协议定位问题,协议多路复用

目录 网络传输基本流程 引入 封装 过程梳理 图解 报文 解包 过程梳理 图解 -- 同层直接通信的证明 总结 解包时的报头分离问题 举例 -- 倒水 介绍 自底向上传输时的协议定位问题 介绍 解决方法 协议多路复用 介绍 优势 网络传输基本流程 引入 首先,我们明确…

VS查看C++头文件(.h文件)的函数列表

这里使用的是VS2019举例 如下图查看Actor.h文件中的函数列表 设置步骤如下图

【d35】【Java】【力扣】28. 找出字符串中第一个匹配项的下标

题目 给你两个字符串 haystack 和 needle ,请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标(下标从 0 开始)。如果 needle 不是 haystack 的一部分,则返回 -1 。 示例 1: 输入:haystac…

【大数据】通过 docker-compose 快速部署 MinIO 保姆级教程

文章目录 一、概述二、MinIO 与 Ceph 对比1)架构设计对比2)数据一致性对比3)部署和管理对比4)生态系统和兼容性对比 三、前期准备1)部署 docker2)部署 docker-compose 四、创建网络五、MinIO 编排部署1&…

【SQL】608. 树节点(流控制语句 CASE + IF语句)

前述 知识点推荐学习: sql中的 IF 条件语句的用法 MySQL:if语句、if…else语句、case语句,使用方法解析 题目描述 leetcode 题目:608. 树节点 思路 关键点:如何确定有没有子节点 根节点:父节点为空内节…

基于Redo log Undo log的MySQL的崩溃恢复

基于Redo log & Undo log的MySQL的崩溃恢复 Redo log Undo log Redo log 重做日志,记录,修改过的数据 Undo log 回滚日志,记录修改之前的数据 两个我不做详细的介绍了,redo log就是记录哪些地方被修改了 undo log是记录修改之前我们的数据长什么样 更新流程 我们来捋一…

python封装,继承,复写详解

目录 1.封装 2.继承 复写和使用父类成员 1.封装 class phone:__voltage 0.5def __keepsinglecore(self):print("单核运行")def callby5g(self):if self.__voltage > 1:print("5g通话开启")else:self.__keepsinglecore()print("不能开启5g通…

Redis集群(主从)

1.主从集群 集群结构: 一.单机安装redis 1.上传压缩包并解压,编译 tar -xzf redis-6.2.4.tar.gz cd redis-6.2.4 make && make install 2.修改redis.config的配置并启动redis # 绑定地址,默认是127.0.0.1,会导致只能在本地访问。…

Tomcat布署及优化-----JDK和Tomcat

1.Tomcat简介 Tomcat 是 Java 语言开发的,Tomcat 服务器是一个免费的开放源代码的 Web 应用服务器,Tomcat 属于轻量级应用服务器,在中小型系统和并发访问用户不是很多的场合下被普遍使用,是开发和调试 JSP 程序的首选。一般来说&…

C++ //练习 10.2 重做上一题,但读取string序列存入list中。

C Primer(第5版) 练习 10.2 练习 10.2 重做上一题,但读取string序列存入list中。 环境:Linux Ubuntu(云服务器) 工具:vim 代码块 /******************************************************…

【前端面试题5】利用 border 属性画一个三角形

举例1:利用 border 属性画一个三角形(小技巧) 完整代码如下: div{width: 0;height: 0;border: 50px solid transparent;border-top-color: red;border-bottom: none; }步骤如下: (1)当我们设…

【QT+QGIS跨平台编译】之五十六:【QGIS_CORE跨平台编译】—【qgsmeshcalclexer.cpp生成】

文章目录 一、Flex二、生成来源三、构建过程一、Flex Flex (fast lexical analyser generator) 是 Lex 的另一个替代品。它经常和自由软件 Bison 语法分析器生成器 一起使用。Flex 最初由 Vern Paxson 于 1987 年用 C 语言写成。 “flex 是一个生成扫描器的工具,能够识别文本中…

Android 拍照本地图片选择框架适配

前言 通常技术方案的选择、会带来后续一些不可控的东西,这也是没法避免的,程序开发者中同时面对、测试、领导、产品各种要求。同时在网络上查找的资料也只是很旧的,不一定适合新设备,需要推倒重新弄 1、解决方案通过意图选择器做…

day6 数组 嵌套循环

1&#xff1a;打印杨辉三角 91 int arr[6][6];92 int i,j0;93 for(i0;i<6;i)94 {95 for(j0;j<i;j) 96 {97 if(j0||ij)98 {99 arr[i][j]1; …

推特API(Twitter API)对接说明,用户code To Token换取

前期准备 提前准备、说明&#xff1a;目前对接推特api开发门户分为3个版本&#xff0c;分别是免费的&#xff0c;100美金一个月的基础版以及5000美金一个月的企业版&#xff0c;免费的目前就两个接口可以调用&#xff0c;所以想要对接和使用推特最基本的也需要付100美元一个月…

百度百科人物创建要求是什么?

百度百科作为我国最大的中文百科全书&#xff0c;其收录的人物词条要求严谨、客观、有权威性。那么&#xff0c;如何撰写一篇高质量的人物词条呢&#xff1f;本文伯乐网络传媒将从内容要求、注意事项以及创建流程与步骤三个方面进行详细介绍。 一、内容要求 1. 基本信息&#…

Studio One 6永久激活版 附完整图文安装破解教程

Studio One 6是一款功能强大的音乐制作和录音软件&#xff0c;专为Mac操作系统设计。它提供了多轨录音和混音、MIDI音乐制作、实时效果和处理、VST插件支持以及高级编辑和编排等丰富的功能。无论是专业音乐制作人还是音乐爱好者&#xff0c;都可以使用Studio One 6来创建和编辑…

基础真空技术外国文献Fundamentals of Vacuum Technology

基础真空技术外国文献Fundamentals of Vacuum Technology

道路积水监测站——确保道路畅通和行车安全

TH-JS1道路积水监测站是一种专门用于监测城市道路积水情况的设备&#xff0c;旨在保障城市道路安全和防止水患对交通造成的不利影响。这些监测站通过实时检测和记录道路积水数据&#xff0c;为城市管理部门提供重要信息&#xff0c;以便及时采取应对措施&#xff0c;确保道路畅…

MATLAB环境下基于离散小波变换的心电信号伪影去除及PQRST波检测

可穿戴个人健康监护系统被广泛认为是下一代健康监护技术的核心解决方案。监护设备不断地感知、获取、分析和存储大量人体在日常活动中的生理数据&#xff0c;为人体的健康状况提供必要的、准确的、集成的和长期的评估和反馈。在心电监测领域&#xff0c;可穿戴传感器具有以下应…