在 AI 技术日新月异的今天,我们再次见证了历史性的突破。
昆仑万维 SkyReels 团队于近日正式发布了全球首款支持无限时长的电影生成模型——SkyReels-V2,并免费开源。这无疑为 AI 视频领域掀开了崭新的一页,标志着 AI 视频正式迈入长镜头时代。
突破时长限制:AI视频的里程碑式跨越
SkyReels-V2 模型集成了多模态大语言模型(MLLM)、多阶段预训练、强化学习以及创新的扩散强迫(Diffusion-forcing)框架,实现了在提示词遵循、视觉质量、运动动态以及视频时长等方面的全面突破。
此前,视频生成大模型往往存在时长的限制。因此,生成的视频大多为几秒到一分钟左右的短视频,以 Sora 这样的行业标杆为例,虽然能生成 60 秒视频,但也受限于闭源和物理规律模拟的不足。
而 SkyReels-V2 通过扩散强迫框架和多阶段优化技术,首次实现了单镜头 30 秒、40 秒的流畅输出,并通过“Extend”无限延伸,彻底打破了时长枷锁。
那么 SkyReels-V2 是如何实现无限时长的呢?
举个例子,我们可以先通过一句提示词生成 30 秒视频,然后基于这个视频,通过“Extend”增加下一个镜头的提示词:
视频将在原有内容不变的基础上,增加几秒的片段,最后,通过一次次的提示,不断增加视频时长,直至生成一个具有电影级效果的长视频。
这一技术突破不仅将 AI 视频生成从几秒的碎片化动态推向了影视级长镜头时代,更在提示词理解、运动连贯性、镜头语言表达等维度实现了质的飞跃。
在视觉质量上,SkyReels-V2 达到了好莱坞级别的画质,为观众带来了极致的观影体验。
【图片来源于网络,侵删】
而在运动动态方面,通过强化学习训练,模型能够生成流畅且逼真的视频内容,满足电影制作中对高质量运动动态的需求。
值得一提的是,SkyReels-V2 支持无限时长的视频生成这一特性彻底打破了现有技术在视频时长上的限制,为长视频的逼真合成和专业电影风格的生成提供了可能性。
技术内核:如何实现电影级理解?
为了提高提示词遵循能力,团队设计了一种结构化的视频表示方法,将多模态 LLM 的一般描述与子专家模型的详细镜头语言相结合。这种方法能够识别视频中的主体类型、外观、表情、动作和位置等信息,从而更准确地理解并生成符合要求的视频内容。
传统 AI 视频模型依赖通用多模态大语言模型(MLLM),难以解析电影专业术语。为此,团队训练了一个统一的视频理解模型 SkyCaptioner-V1,它能够高效地理解视频数据,生成符合原始结构信息的多样化描述。这相当于让 AI 首次用导演的视角,根据文本指令生成具备专业叙事感的画面。
在视频理解测试集上的模型综合性能比较中,SkyCaptioner-V1 表现优异,超越了 SOTA 的模型。
在运动质量优化方面,SkyReels-V2 采用了强化学习训练,通过偏好优化提升运动动态质量。同时,为了降低数据标注成本,团队设计了一个半自动数据收集管道,能够高效地生成偏好对比数据对,进一步提升模型在运动动态方面的
效果。
同时,为了实现长视频生成能力,SkyReels-V2 提出了一种创新的扩散强迫后训练方法。通过微调预训练的扩散模型,并将其转化为扩散强迫模型。这一创新使得 SkyReels-V2 能够生成几乎无限时长的高质量视频内容,为长视频的逼真合成提供了强有力的技术支持。
SkyReels-V2 的开源,为 AI 创作带来了新的转变。
当 AI 模型能够完成难度更高的细节处理,且视频时长不受限制时,人类就可以将更多精力投入到更高层次的思维活动中,从而创作出更能体现人类独特性的艺术作品。
AI视频的长镜头时代已经到来
SkyReels-V2 的发布和开源,标志着 AI 视频迈入了长镜头时代。这一突破性的技术成果不仅为观众带来了更加逼真和流畅的观影体验,还为创作者提供了更加便捷和高效的创作工具。
随着技术的不断进步和应用场景的不断拓展,相信 AI 视频将在未来发挥更加重要的作用和影响,AI 创作的边界也将不断被打破。