可灵重大升级!新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

快手视频生成大模型“可灵”(Kling),作为全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测版的用户数量已突破70万大关,累计生成的视频作品更是高达700万,其中,“老照片复活”系列作品尤为引人注目,以其深邃的情感共鸣席卷网络,成为现象级话题。

可灵再进化,新增Web端上线、首尾帧控制、单次生成视频时长增加至10s!

可灵在持续创新的道路上不断加速,6月6日正式发布文本生成视频,随后又马不停蹄地推出了图生视频、视频续写等多项新功能。在世界人工智能大会(WAIC)期间,可灵再进化,迎来重大升级。新功能包括:

  • 可灵Web端上线:为用户提供新一代创意生产力平台,支持AI图像和视频以及视频编辑功能;

  • 基础模型效果升级提供更佳精细的人物面部和高清画质;

  • 图生视频支持首尾帧:允许用户通过设置首尾帧来控制视频的起始和结束;

  • 相机镜头控制功能:新增多种镜头运动控制,如旋转运镜、水平摇镜等;

  • 单次生成时长增至10s,是业内对用户开放使用可实现的最长时长。

在本届WAIC快手大模型生态论坛上,快手视觉生成与互动中心负责人万鹏飞就「可灵大模型能力亮点」和「可灵大模型技术方案」分别做了细致介绍,并分享了对视频生成未来发展趋势的观点。

图片

一、可灵大模型能力亮点

大幅度且合理的运动生成能力。可灵采用了3D时空联合注意力机制,能够更好地建模视频中的复杂时空运动。因此,可灵大模型不仅能够生成较大幅度的运动,且更符合客观运动规律,能够真正做到让想象力动起来。得益于更充分的模型训练,可灵的运动生成效果得到进一步提升。视频中的小猫能够灵活的转动身体,爪子和身体的摆动逼真,运动轨迹自然流畅,为我们展现了小猫憨态可掬的形象。

图片

prompt:一只小猫在温馨的房间内转动身体,形态憨态可掬

分钟级的长视频能力。可灵大模型的自研3D VAE能够将视频编码到紧凑的隐空间并解码成带有丰富细节的视频,可以生成高达1080p分辨率30fps的视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。下面是小男孩吃汉堡的生成视频,汉堡被咬出一个明显的缺口,在视频的每一帧中都清晰可见。我们还能看到小孩咀嚼汉堡的享受表情,特别是逼真的脸部肌肉动态。得益于算法和工程的深度联合优化,单次生成的视频长度从5s提升到10s。

图片

prompt:一个戴眼镜的中国男孩在快餐店内闭眼享受美味的芝士汉堡

能够模拟真实物理世界的特性。得益于自研模型架构及Scaling Law激发出的强大建模能力,可灵能够生成符合物理规律的视频。得益于更充分的模型训练,可灵对复杂物理规律的建模能力有提升。在视频中,厨师握刀的手法与日常生活中的场景别无二致,在切菜的过程中还有短暂的停顿和姿势的调整,节奏变化使其更符合真实世界中日常做饭的行为习惯。

图片

prompt:一名厨师在厨房用菜刀在案板上熟练地切着洋葱

概念组合和指令响应能力强。基于对文本-视频语义的深刻理解和 Diffusion Transformer 架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的场景。得益于效果更优的文本数据和编码方案,可灵对用户提示词的响应能力有提升。在构建的虚拟场景里,浓烟的光影和细节处理使人如临其境,随后从浓烟中缓缓走出的机器人极其富有视觉冲击力,能够将心中的虚拟世界精准表达。

图片

prompt:一个高大的金属机器人从滚滚浓烟中走出来

电影级的画面生成。基于自研3D VAE,可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。视频中的特写镜头细腻地展现了小狗毛发的质感和光泽,同时还原了现实世界中小狗的眼神和动作,显得尤为生动可爱。得益于更高的训练时空分辨率,视频生成细节、构图和运镜美观性、以及光影表现得到了显著提升。

图片

prompt:一只戴眼镜的小狗在房间内看书,时不时抬头看向镜头

领先的图生视频效果。支持设置首帧和尾帧,动作自然流畅,且画质显著升级。可灵图生视频模型以卓越的图像理解能力为基础,将静态图像转化为生动的5秒精彩视频。只需上传首尾两张图片,配上创作者不同的文本输入,即生成多种多样的运动效果,让视觉创意无限延展。画面中的面条从两张静态图生成为一小段栩栩如生的视频,面条被撒上了各种调味料,这段视频不仅构建了清晰合理的逻辑线,也生动形象地展示了美味佳肴。

图片

prompt:盘子里的面条被撒上了芝士和番茄酱

优秀的视频生成可控性。得益于灵活扩展的网络架构,可灵支持对视频生成进行精准的相机镜头控制。赋予创作者前所未有的自由度与精细度,目前可灵已支持旋转运镜、垂直摇镜、水平摇镜在内的六种镜头控制方式。随着参数输入的变化,视频运动幅度将展现出更加生动、激烈的效果。在下方的视频中,一个小女孩开心地坐在草地上看书,一边往后拉远相机,一边先轻微下移,然后大幅度上移镜头。而跟随着镜头的变化,不仅展现了小女孩真切的笑容,也让我们看到了一幅生机勃勃的大自然景象。

图片

prompt:一个面带笑容的外国小女孩坐在大树下看书,镜头逐渐拉远展现出周围生机勃勃的大自然环境。

二、可灵大模型技术方案

可灵大模型呈现出的这些能力亮点,离不开技术上的洞察和创新,可灵大模型整体的技术方案如下:

1、模型设计方面

一个至关重要的步骤是进行信号的表征转换。鉴于三维视频信号中掺杂着大量的信息冗余,这些冗余对模型学习构成不利影响,因此首要任务是通过隐空间编解码技术处理这一问题。这一方法不仅可以剔除不必要的信息冗余,还能显著提升计算效率。为此,可灵团队自主研发了一种3D的VAE架构,该架构能够实现对视频数据的高效压缩,并展现出多项附加的有益特性。在网络基础架构层面,可灵采用了基于Transformer的网络框架,以执行扩散模型的复杂计算,实践验证显示,该模型展现出卓越Scaling Law特性。针对时序信息的精准建模,可灵创新性地引入了时空融合的3D注意力机制。这一机制在时间和空间两个维度上全面部署attention计算,极大地拓宽了模型的感知范围,并显著增强了其对复杂动态场景的建模能力。此外,文本的编码与处理同样不容忽视,作为信息传递的关键一环,可灵部署了专有的大语言模型(LLM),该模型对于文本信息进行编码、注入以及扩展,确保文本与视频内容的深度融合与精准映射,从而进一步提升整个系统的综合性能。

2、数据保障方面

对于大型模型而言,数据是基石,尤其是在视频处理领域,数据的规模、量级及处理的复杂性都达到前所未有的高度。为此,可灵构建了一个海量数据平台,该平台能够全流程、自动化、高效率对数据进行管理和处理,这显著地提升了数据处理效率。此外可灵团队自研了一套多维度的标签系统,用于深入理解、感知、处理和筛选视频数据,确保数据质量和分布合理,为后续模型训练奠定了坚实基础。对于视频生成模型,除了视频数据本身,精准的文本描述也是不可或缺的。可灵自研了视频Captioner模型,该模型能够生成高完整度、高准确度的视频文本描述。在效果评估模型阶段,可灵采用了数据驱动的视频质量评价方案,以指导模型迭代优化,确保模型性能稳定提升。

3、计算效率方面

视频处理的数据量和计算量相较于其他模态来说要大得多。因此,如何保证高效的计算效率成为了一个重要课题。首先,在算法层面,可灵没有采用DDPM等传统扩散模型计算方案,转而采用了从原始分布到目标分布的传输路径更短的flow-based模型,提升了训练和推理的效率。其次,在工程层面,可灵构建了一套的分布式训练集群,快手工程师对计算显存带宽进行了深度的优化,同时支持自动故障恢复,保障了训练的连续性和稳定性。最后,在训练策略方面,可灵采用了一个分阶段训练策略,这使得在有限的算力和时间下,模型能够充分利用好数据量和质的优势。

4、能力扩展方面

能力扩展方面,可灵支持各种各样可变的视频的分辨率,在输入端保障视频结构在训练过程不会被破坏,在输出端可以灵活输出各类不同的宽高比的视频,以适配不同的应用场景需求。此外,可灵天然具备视频时序延展能力,支持多种应用模式,包括视频续写、图像生视频等。正如先前所展示,可灵具备丰富的控制能力,涵盖了相机、结构、ID识别等多个维度,为用户提供了灵活多变的操作空间。

三、展望未来

展望未来,视频生成的效果和技术将持续高速进化。随着视频生成的效果逐步逼近传统图形渲染与相机拍摄,将为泛视频行业带来巨大的机遇与变革。随着效果提升与成本降低,视频内容的创作与消费界限趋于模糊,这一变化将极大地促进内容供给的多元化与视频平台生态的繁荣。更为深远的是,视频生成技术有望成为高度仿真的“世界模拟器”,为具身智能提供仿真环境,推动AI与机器人技术深度融合。生成式AI基础算法也将持续迭代升级,未来会出现综合性能更优的生成算法与网络结构。另外,多模态理解与生成技术的融合趋势也日益明显,未来统一的多模态输入输出系统将进一步推动AI技术的效果提升与应用拓展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/44483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

修正版头像上传组件

修正版头像上传组件 文章说明核心源码展示运行效果展示源码下载 文章说明 在头像剪切上传一文中,我采用div做裁剪效果,感觉会有一些小问题,在昨天基于canvas绘制的功能中改进了一版,让代码变得更简洁,而且通用性相对高…

【WebGIS】从设计层面设计系统

本项目在通过现代信息技术手段,对古村古镇进行多方位、多角度的数字化记录、展示与传播,实现文化遗产的数字化保护、活化利用与共享。项目内容主要包括:1)古村古镇数据库的建立:通过多种渠道收集古村古镇的各类信息&am…

如何从 PDF 中删除背景

您是否曾经收到过充满分散注意力背景的扫描 PDF 文档?也许是带有繁忙水印的旧收据或背景光线不均匀的扫描文档。虽然这些背景可能看起来没什么大不了的,但它们会使您的工作空间变得混乱,并使您难以专注于重要信息。轻松删除这些不需要的元素并…

短视频SEO矩阵系统:源码开发与部署全攻略

在数字化时代,短视频已成为人们获取信息、娱乐休闲的重要方式。随着短视频平台的兴起,如何让自己的内容在众多视频中脱颖而出,成为每个创作者和内容运营者关注的焦点。本文将为您深入解析短视频SEO矩阵系统的源码开发与部署,助您在…

MT6825磁编码IC在智能双旋机器人中的应用

MT6825磁编码IC在智能双旋机器人中的应用,无疑为这一领域的创新和发展注入了新的活力。作为一款高性能的磁性位置传感器,MT6825以其独特的优势,在智能双旋机器人的运动控制、定位精度以及系统稳定性等方面发挥了关键作用。 www.abitions.com …

Midjourney v6.5 可能会在“7月底”发布,并改进了真实感和皮肤纹理

Midjourney v6.5即将发布,这一更新将大幅提升图像的真实感和皮肤纹理,为用户带来更逼真的视觉体验。首席执行官David Holz在电话会议中宣布,新版本将提高图像清晰度,特别是在手部和皮肤细节上,同时改进Web应用程序和个…

ABAP调用BAPI时COMMIT WORK AND WAIT未按照预期同步提交问题分析

背景: 在做ABAP开发时,经常会有连续调用BAPI的需求,比如先创建销售订单,再依据销售订单创建交货单,再对交货单进行过账等类似的一连串调用,这种类似的场景往往需要前一步操作的数据完全写入数据库才能进行…

编译打包自己的云手机(redroid)镜像

前言 香橙派上跑云手机可以看之前的文章: 香橙派5plus上跑云手机方案一 redroid(带硬件加速)香橙派5plus上跑云手机方案二 waydroid 还有一个cuttlefish方案没说,后面再研究,cuttlefish的优势在于可以自定义内核且selinux是开启的&#xf…

Aop切面编程(2)--代理模式

1、代理模式的理解:不修改A对象的代码的基础上,对A代码块进行拓展。通过创建ProxyA代理对象,拓展A对象并调用A对象的核心功能; 即:不修改对象的源码基础上,创建代理对象,进行功能的附加和增强&…

端到端拥塞控制的本质

昨天整理了一篇 bbr 的微分方程组建模(参见 bbr 建模),算是 bbr 算法终极意义上的一个总结,最后也顺带了对 aimd 的描述,算是我最近比较满意的一篇分享了。那么接下来的问题,脱离出具体算法,上升到宏观层面&#xff0c…

uniapp微信小程序 TypeError: $refs[ref].push is not a function

我的写法 this.$refs.addPopup.open();报错 打印出来是这样的 解决 参考未整理 原因 在当前页面使用的v-for循环 并且循环体内也有组件使用了ref(而我没有把每个ref做区别命名) 这样就导致了我有很多同名的ref,然后就报错了 解决办法&a…

AI人工智能作词,为音乐注入未来之力

在当今的音乐世界中,创新的力量不断推动着边界的拓展,而人工智能作词正以其独特的魅力,成为引领音乐走向未来的强大动力。 “妙笔生词智能写歌词软件(veve522)”无疑是这股浪潮中的璀璨明星。它利用先进的人工智能技术…

input上传--upload

1.HTML <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>上传文件</title><link rel"…

数据结构——线性表(C语言实现)

写在前面&#xff1a; 在前面C语言的结构体学习中&#xff0c;我提及了链表的操作&#xff0c; 学习数据结构我认为还是需要对C语言的数组、函数、指针、结构体有一定的了解&#xff0c;不然对于结构体的代码可能很难理解&#xff0c;特别是一些书籍上面用的还是伪代码&#xf…

OpenGL笔记一之基础窗体搭建以及事件响应

OpenGL笔记一之基础窗体搭建以及事件响应 总结自bilibili赵新政老师的教程 code review! 文章目录 OpenGL笔记一之基础窗体搭建以及事件响应1.运行2.目录结构3.main.cpp4.CMakeList.txt 1.运行 2.目录结构 01_GLFW_WINDOW/ ├── CMakeLists.txt ├── glad.c ├── main…

Linux基于centos7指令初学3

date指令 作用&#xff1a; date指令可以查看时间 这个指令可以进行格式化 格式&#xff1a;date %想要的内容 Y&#xff1a;年份 m&#xff1a;月份 d&#xff1a;日 H&#xff1a;时 M&#xff1a;分 S&#xff1a;秒 时间分界线可以由…

LabVIEW比例压力控制阀自动测试系统

开发了一套基于LabVIEW编程和PLC控制的比例控制阀自动测试系统。该系统能够实现共轨管稳定的超高压供给&#xff0c;自动完成比例压力控制阀的耐久测试、流量滞环测试及压力-流量测试。该系统操作简便&#xff0c;具有高精度和高可靠性&#xff0c;完全满足企业对自动化测试的需…

安装jenkins最新版本初始化配置及使用JDK1.8构建项目详细讲解

导读 1.安装1.1.相关网址1.2.准备环境1.3.下载安装 2. 配置jenkins2.1.安装插件2.2.配置全局工具2.3.系统配置 3. 使用3.1.配置job3.2.构建 提示&#xff1a;如果只想看如何使用jdk1.8构建项目&#xff0c;直接看3.1即可。 1.安装 1.1.相关网址 Jenkins官网&#xff1a;https…

Hadoop-25 Sqoop迁移 增量数据导入 CDC 变化数据捕获 差量同步数据 触发器 快照 日志

章节内容 上节我们完成了如下的内容&#xff1a; Sqoop MySQL迁移到HiveSqoop Hive迁移数据到MySQL编写脚本进行数据导入导出测试 背景介绍 这里是三台公网云服务器&#xff0c;每台 2C4G&#xff0c;搭建一个Hadoop的学习环境&#xff0c;供我学习。 之前已经在 VM 虚拟机…

计算机的错误计算(二十九)

摘要 &#xff08;1&#xff09;讨论近似值的错误数字个数。有时&#xff0c;遇到数字9或0, 不太好确认近似值的错误数字个数。&#xff08;2&#xff09;并进一步解释确认计算机的错误计算&#xff08;二十八&#xff09;中一个函数值的错误数字个数。 理论上&#xff0c;我…