快手可灵视频生成大模型全方位测评

快手视频生成大模型“可灵”(Kling),是全球首个真正用户可用的视频生成大模型,自面世以来,凭借其无与伦比的视频生成效果,在全球范围内赢得了用户的热烈追捧与高度评价。截至目前,申请体验其内测版的用户数量已突破70万大关,累计生成的视频作品更是高达700万。

可灵在持续创新的道路上也从未停下脚步,在七月份举办的世界人工智能大会(WAIC)期间,可灵再次迎来重大升级。新功能包括上线web端、基础模型效果升级、图生视频支持首尾帧、增添相机镜头控制功能、单次生成时长增至10s等。

大模型落地的实际效果如何离不开用户的体验与感知,来自中科院计算所数字内容合成与伪造检测实验室的唐帆副研究员及黄子尧、徐子艺等同学对可灵AI视频生成大模型进行了测评。该团队致力于生成式AI的正向应用与反向监管工作,近年来在人工智能和图形学顶级会议和期刊(ACM TOG/CVPR等)上发表了多个图像视频生成成果。团队本次对可灵AI的评测,是为了评估现有视频生成模型能力,探索视频生成技术在学术和现实场景里的新方向和应用潜力。本文转自 数字内容合成与伪造检测 帐号,已获得作者授权转载,本文发表在新功能上线之前,目前可灵最新功能已更新,欢迎爱好者朋友至https://klingai.kuaishou.com 体验)

六个角度:

团队主要从画面质量、内容可控与运动生成三方面进行评测,并与当下最火热的Stable Video Diffusion、Sora和Dream Machine进行比较。画面质量考量视频画面的真实感,包括细节刻画的逼真度与物理世界的一致性两个角度;内容可控从多主体生成、特定内容风格与模型创造力三个角度测试;最后,从运动生成的角度测试了生成结果中动态场景的流畅性和时空关系的合理性。

测评情况:

1、细节刻画:超乎想象

细节决定着一个视频是否会被一眼“打假”,一年前,网上还在大呼“图像生成的场景虽然宏大,但仔细一看完全是东拼西凑”。而可灵对细节的刻画,超出我们的想象。

精美自然界 晶莹剔透的水珠,微微摆动的湿润绿叶,虚化的背景,这个画面真的太美了。不过这里也体现出了后续会说的一个问题——运动不符合提示词。

“一滴雨水滑落叶片的边缘,特写水珠的表面张力和反射的光芒。”

对动物的刻画也十分细致,透明的小翅膀,在花蕊上采蜜的动作,不细看像是真的一样。

“一只蜜蜂在花瓣上采蜜,特写其细腻的翅膀和花粉粘附在腿上的情景。”

精准手和脸 我们知道脸部崩坏,手指抽象是生成模型的老问题了,而可灵的结果看起来不错。看起来画面中的演员真的很痛苦,完全符合我们的提示词。

“一位演员在舞台上表演悲剧角色,特写脸上的悲伤表情和流下的泪水。”

纸张纹理、手部青筋、握笔方式都刻画得十分到位,甚至在纸面上留下了持续新增的笔触。

“一位画家的手在画布上细致地勾勒出人物的轮廓,特写手指的灵活运动。” 

总之,可灵对细节的把控比较到位,不管是自然界的花花草草还是人的面部情绪、手部动作,在视频生成领域有很大的进步。

2、物理世界:表象or内核

人工智能是否能够真正地理解物理世界?我们认为可灵仍然停留在视频的表象。我们发现它对自然界有着细致入微的观察,并且面对镜子、光影可以生成一些令人惊叹的视频,不过在视频中偶尔会发生不合理的事情。

绽放的花朵 两朵花缓慢绽放,花蕊的细节清晰可见,像真是用延时摄影拍摄的一样。“两朵黄色的花在黑色背景下缓慢绽放,展示出细腻的花瓣和花蕊。”

令人惊叹的镜子 这个视频仿佛是在真实场景中发生的,特别是耳部动作的刻画。虽然最后几秒镜子里的动作有问题,但瑕不掩瑜,整体质量十分好。

“一只狗在照镜子,背景是房间内的物品。”

越来越满的咖啡 这是一个特别常见的画面,然而模型完全没有理解我们的意思,蒸汽不减少,咖啡却越来越多。

“一杯满是热咖啡的透明玻璃杯,慢慢地冷却,蒸汽逐渐消失。”

3、想象力:生成不可能

到了可灵主打的想象力环节,我们来看看它能不能生成天马行空的内容。

海底探险 海底、发光宝藏、潜水员和海洋生物该有的元素都有了,镜头不断推进,仿佛我们也深陷海底。

科幻都市 这里的光影令人惊喜,倒影、反光都随着小猫的前进不断变化。整个场景也充满科技风,以后设计画面都可以来这找灵感了。

活灵活现的画面 这里动静之间的处理得特别好,跃出纸面的动物、画板和画家之间的空间关系完全正确。

更具想象力 可灵没有成功生成这个充满想象力的画面,丢失了很多元素。

“一只猫坐在一本打开的书上,书页上的文字围绕着猫身形成漩涡。”

总之,可灵在想象力上中规中矩,能生成让人眼前一亮充满想象力的大场景,但偶尔面对过于超脱的提示词时不知道如何创意地组合各个概念。不过以现在生成的总体质量来看,再改进一下提示词,应该就可以实现想要的内容。

4、多主体:更丰富的内容

谁是狮子 可灵成功生成了两只老虎、两只狮子,但让它生成一只老虎和一只狮子时,却生成了两只老虎。

猫狗合体 小猫小狗作为最常见的动物,可灵却分不清,第一个视频猫变身狗,第二个视频猫狗直接合体。另外可以看到,可灵不会数数但对颜色的把控到位。

“一只白猫,一只黑狗,两只黄色鸭子在一起玩。”“一只白猫,一只黑狗,两只绿色鸭子在一起玩。”

对模型来说,模拟多个角色之间的复杂交互具有挑战性,在多主体上可灵稍显逊色,可能会生成错误的内容。

5、角色和风格:个性化生成

指定角色 可灵在软件上禁止生成现实中存在的名人,因此我们简单地尝试了几个常见角色。

在角色、动作、场景上符合提示词,生成的质量还可以。

“圣诞老人将礼物递过来。”

虽然生成了猴子形象,并且吃东西的动作也很生动,但生成了一行字幕,也完全不符合我们心中孙悟空的样子。在这方面希望国产模型可以认识更多国内文化,让用户可以生成含有优秀传统文化的视频。

“孙悟空吃饭。”

指定风格 我们尝试了不同的风格,模型能够根据提示词生成对应风格,尤其是科幻风较好。

“熊猫弹吉他,赛博朋克风格。”

“熊猫弹吉他,迪士尼动画风格。”

“熊猫弹吉他,写实风格。”

总之,在指定角色和风格上,生成的视频还是令人满意的。不过,生成更加个性化的内容有广泛需求,比如用户自己、家养宠物。如何通过微调或无需训练的方法实现完全的定制化是一个值得深入探讨的话题。

6、运动:复杂的时空关系

相对于图像生成,视频生成最大的难点就在于建模复杂的时空关系,可灵官方声明“可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容”。

常见运动 首先看看官方提示词的生成对比:

景色不错,但我们的马没有官方的跑得快。

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(官方)

“一个男人骑着马在戈壁沙漠飞奔,背后美丽的夕阳,电影级别画面。”(我们)

猎豹跑得没马快。

“一只猎豹在草原上全速奔跑,追逐猎物。”

飞机飞得可以,但是没有体现出“急速俯冲和爬升”,只是常见的飞行。

“一架喷气式飞机在蓝天中做出急速俯冲和爬升的动作。”

复杂场景 完美生成了场景,但是完全不符合动作。

“一只猫在书架上跳跃,书本、装饰品和其他物品之间的空间关系清晰可见。”

交互式动作 模型在拿出来还是放进去反复横跳。

“一个人打开冰箱,拿出里面的可乐。”

看得出来,可灵对于一些常见的动作可以按照提示词生成一致的运动,但存在运动幅度较小的问题,对“飞快、急速”等词的响应有一点问题。而面对复杂场景时,可灵生成的结果也较差,无法生成对应的动作。

模型对比

可灵 vs. SVD

Stable Video Diffusion是Stability公司在2023年底公布并开源的视频生成模型,凭借其出色的性能和应用潜力,吸引了全球技术圈的目光。由于SVD是图生视频模型,我们首先利用SDXL生成图片,再用SVD基于图片生成视频。与SVD相比,时隔半年的可灵生成质量如何?

"The waves crash against the beach, the sunset slowly sets in the distance,Beautiful view,the afterglow."(SVD)

“海浪拍打着沙滩,夕阳在远处缓慢落下,美景,余晖。”(可灵)

"A Chinese man sits at a table and eats noodles with chopsticks."(SVD)

“一个中国男人坐在桌前,用筷子吃面条。”(可灵)

可灵生成的海浪拍打沙滩、吃面条的动作十分真实,而SVD似乎只是简单的镜头移动。在视频连续性、真实性方面,可灵有着飞跃进展。

可灵 vs. Sora

今年2月,OpenAI研发的Sora横空出世,60秒的视频时长,影视级的画面质量一度盖过其它视频生成模型的风头。我们将可灵与Sora进行对比,由于Sora尚未开放测试,我们选取官方公布的测试样例进行对比,因此对比结果可能有失偏颇。

可灵生成的视频中,大象的每一步都会掀起一阵雪花,对阳光、影子都有准确的刻画,虽然后面的小象出现了问题,但还是凸显出可灵对光影的理解。而Sora对猛犸象的生成更加准确,但大象背后雪花造成的烟雾略显夸张。

"Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow-covered trees and dramatic snow-capped mountains in the distance, mid-afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field." (Sora)

“几只巨大的毛茸茸的猛犸象在白雪皑皑的草地上踩踏,它们长长的毛茸茸的皮毛在风中轻轻吹拂,远处白雪皑皑的树木和壮观的雪山,午后的阳光与缕缕的云彩和远处的太阳高高地营造出温暖的光芒。低相机视角令人惊叹,以精美的摄影捕捉大型毛茸茸的哺乳动物,深度。”(可灵)

在Sora展示的一个失败例子中,可灵也失败了。同样是让篮球爆炸,Sora虽然在结尾又冒出了一个篮球,但确实让篮球爆炸了,而可灵的篮球像橡皮泥捏的。

"Basketball through hoop then explodes."(Sora)

“篮球穿过篮筐然后爆炸。”(可灵)

相比于Sora,可灵没有完全败下阵来,二者都有可圈可点的地方,等Sora放出Demo才能进行更全面的对比。

可灵 vs. Dream Machine

6月13日,Luma AI发布视频生成模型Dream Machine,用户可以通过文字或图片生成高质量的高清视频。不需要申请,登录就可以免费使用,但目前限制每天生成十个视频。下面是它与可灵生成的视频对比(使用Dream Machine文生视频功能):

"It was raining heavily outside the window, and the rain was sliding down the window, leaving water lines."(Dream Machine)

“窗外下着大雨,雨水在窗户上滑落,留下水流纹路。”(可灵)

"A cute cat is looking at a mirror through the water surface with fish swimming in it."(Dream Machine)

“一只可爱的猫通过水面照镜子,水里有游动的鱼。”(可灵) 

在上面两个例子中,可灵在画面展现、物理规律上还是完全胜于Dream Machine的。在用户使用上,可灵的生成速度比Dream Machine慢,可灵通常是3分钟生成一个5秒的视频,而Dream Machine官方称2分钟即可生成120帧5秒的视频。

合成 vs. 检测

视频生成技术不断进步,生成的视频质量越来越接近真实内容。这也引发了对视频内容真实性的关注,特别是在新闻、法律和安全等敏感领域。我们用中科睿鉴研发的视频伪造检测小程序对可灵生成的40个视频进行检测,在检测模型未针对可灵模型进行调优时,检出率为85%。

被识别为真的视频画面

我们利用可灵生成的这些视频,具有逼真的画面,较高的一致性和连续性,很少存在抖动情况。被检测出来的视频通过肉眼看也很难判别真伪,大多数视频很少存在失真、变形。可灵AI视频生成大模型的表现展示了AI在视频生成领域的巨大潜力,同时也突显了确保数字内容真实性的挑战。这一领域的未来发展将是技术创新和伦理责任并行的结果。

总结

总的来说,可灵的生成质量还是很不错的,支持中文输入极大提高了用户体验感。视频时长、分辨率、流畅度大幅提升,在细节、人体上有着很大进步,在动作幅度、想象力上还略显不足。本文采用的提示词都不是经过精心挑选的,有时甚至能达到随手出片的效果。

今年,Sora、可灵和Dream Machine等高质量视频生成模型不断涌现,各大科技机构纷纷投入视频生成赛道。目前,视频生成落地面临多重难点,快速高质量的生成技术、昂贵的算力成本都是亟需解决的问题。在这一背景下,快手推出面向公众开放测试的产品级应用,一键生成视频,直接剪辑发布,形成了一套完整流程,极大推动了视频生成的实际落地。在未来,如何形成一个完善的AIGC生态体系,以及完整的产业链与现有产品进行联动,都是长期关注的焦点。另外,随着Sora类的生成技术不断成熟,整个视频生成研究领域会进入到下一个阶段:不仅会关注视频内容的真实性,还会更加注重视频中的物理规律和运动幅度等“幻觉”问题。这意味着,未来的视频生成技术不仅要在视觉上令人信服,还要在物理动作和逻辑上保持一致,以产生更加自然和流畅的视觉效果。此外,随着技术的发展,我们还可能看到更多的交互式视频内容生成,其中用户可以指定某些参数或直接与视频内容互动,从而创造出独一无二的个性化视频体验。这将极大地扩展视频生成技术的应用范围,比如娱乐、教育、专业培训和模拟等多个领域。

总之,视频生成技术的未来发展将不仅仅局限于提高图像质量,更将涉及到如何创造出符合物理规律、具有高度互动性和个性化的视频内容。这将是一个充满挑战但也极具潜力的新阶段。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/49066.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能:大语言模型提示注入攻击安全风险分析报告下载

大语言模型提示注入攻击安全风险分析报告下载 今天分享的是人工智能AI研究报告:《大语言模型提示注入攻击安全风险分析报告》。(报告出品方:大数据协同安全技术国家工程研究中心安全大脑国家新一代人工智能开放创新平台) 研究报告…

stats 监控 macOS 系统

Stats 监控 macOS 系统 CPU 利用率GPU 利用率内存使用情况磁盘利用率网络使用情况电池电量 brew install stats参考 stats github

59、mysql存储过程

存储过程 一、存储过程: 1.1、存储过程的概念 概念:完成特定功能的sql语句的集合。把定义好的sql集合在一个特定的sql的函数当中 每次执行调用函数即可。还可以实现传参的调用。 1.2、存储过程的语法: delimiter $$ ##delimiter开始和结…

支持4K高分辨率,PixArt-Sigma最新文生图落地经验

PixArt-Sigma是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同开发的一个先进的文本到图像(Text-to-Image,T2I)生成模型。 PixArt-Sigma是在PixArt-alpha的基础上进一步改进的模型,旨在生成高质量的4K分辨率图像。…

2024牛客暑期多校第四场

A-LCT 带权并查集&#xff0c;维护一下每个点在当前树的深度和以它为根能找到的最深的深度。‘ #include<bits/stdc.h>using namespace std; typedef long long ll; const int N 1e6 100;int fa[N],ans[N],val[N];int find(int x){if(fa[x]x)return x;int tfa[x];fa[x…

C++初学(3)

面向对象编程&#xff08;OOP&#xff09;的本质是设计并拓展自己的数据类型&#xff0c;设计自己的数据类型就是让类型与数据匹配。内置的C类型分为两组&#xff1a;基本类型和复合类型。这里我们将介绍基本类型的整数和浮点数 3.1、简单变量 3.1.1、变量名 C必须遵循几种简…

场外期权如何报价?名义本金是什么?

今天带你了解场外期权如何报价&#xff1f;名义本金是什么&#xff1f;投资者首先需要挑选自己想要进行期权交易的沪深上市公司股票。选出股票后&#xff0c;需要将股票信息、预期的操作时间&#xff08;如期限&#xff09;、看涨或看跌的选择以及预计的交易金额等信息报给场外…

计算机网络(四)数字签名和CA认证

什么是数字签名和CA认证&#xff1f; 数字签名 数字签名的过程通常涉及以下几个步骤&#xff1a; 信息哈希&#xff1a;首先&#xff0c;发送方使用一个哈希函数&#xff08;如SHA-256&#xff09;对要发送的信息&#xff08;如电子邮件、文件等&#xff09;生成一个固定长度…

全链路追踪 性能监控,GO 应用可观测全面升级

作者&#xff1a;古琦 01 介绍 随着 Kubernetes 和容器化技术的普及&#xff0c;Go 语言不仅在云原生基础组件领域广泛应用&#xff0c;也在各类业务场景中占据了重要地位。如今&#xff0c;越来越多的新兴业务选择 Golang 作为首选编程语言。得益于丰富的 RPC 框架&#xff…

Golang实现Word模板内容填充导出

这里我们使用一个广泛使用且免费处理 .docx 文件的库&#xff0c;github.com/nguyenthenguyen/docx. 安装 github.com/nguyenthenguyen/docx 库 首先&#xff0c;确保你已经安装了 docx 库&#xff1a; go get github.com/nguyenthenguyen/docx使用 docx 库处理 Word 模板 …

ubuntu实践

目录 扩容 本机上ping不通新建立的虚拟机 ssh连接 装sshd ssh客户端版本较低&#xff0c;会报key exchange算法不匹配问题 ubuntun上装docker 将centos7下的安装包改造成适配 ubuntu的包 参考文章 扩容 Hyper-V 管理器安装的ubutun扩容磁盘空间说明_hype-v磁盘扩容-…

复现open-mmlab的mmsegmentation详细细节

复现open-mmlab的mmsegmentation详细细节 1.配置环境2.数据处理3.训练 1.配置环境 stage1&#xff1a;创建python环境 conda create --name openmmlab python3.8 -y conda activate openmmlabstage2&#xff1a;安装pytorch&#xff08;这里我是以torch1.10.0为例&#xff09…

VINS-Fusion 回环检测pose_graph_node

VINS-Fusion回环检测,在节点pose_graph_node中启动。 pose_graph_node总体流程如下: 重点看process线程。 process线程中,将订阅的图像、点云、位姿时间戳对齐,对齐后分别存入image_msg、point_msg、pose_msg。pose_msg为VIO后端优化发布的位姿。 一、创建关键帧keyFram…

mac|安装PostgreSQL

1、官网下载&#xff1a;EDB: Open-Source, Enterprise Postgres Database Management 选择需要的版本&#xff1a; 双击得到的.dmg文件 双击&#xff0c;弹窗选择打开&#xff0c;一路next&#xff0c;然后输入你要设置的密码&#xff0c;默认账号名字为&#xff1a;postgres…

项目一缓存商品

文章目录 概要整体架构流程技术细节小结 概要 因为商品是经常被浏览的,所以数据库的访问量就问大大增加,造成负载过大影响性能,所以我们需要把商品缓存到redis当中,因为redis是存在内存中的,所以效率会比MySQL的快. 整体架构流程 技术细节 我们在缓存时需要保持数据的一致性所…

面试场景题系列--(2)短 URL 生成器设计:百亿短 URL 怎样做到无冲突?--xunznux

文章目录 面试场景题&#xff1a;短 URL 生成器设计&#xff1a;百亿短 URL 怎样做到无冲突&#xff1f;1. 需求分析2. 短链接生成算法2.1 自增法2.2 散列函数法2.3 预生成法 3. 部署模型3.1 其他部署方案 4. 设计4.1 重定向响应码4.2 短 URL 预生成文件及预加载4.3 用户自定义…

个人百度百科怎么创建?

百度百科词条分为企业词条、品牌词条、人物词条等&#xff0c;个人百度百科创建的需求量很大&#xff0c;各式各样的人物需求都有。现在凡是要推广个人的人&#xff0c;创建百度百科都是其中一个必要的步骤。 作为一个有知名度的人物&#xff0c;拥有一个百度百科从侧面也证明了…

基于微信小程序+SpringBoot+Vue的自习室选座与门禁系统(带1w+文档)

基于微信小程序SpringBootVue的自习室选座与门禁系统(带1w文档) 基于微信小程序SpringBootVue的自习室选座与门禁系统(带1w文档) 本课题研究的研学自习室选座与门禁系统让用户在小程序端查看座位&#xff0c;预定座位&#xff0c;支付座位价格&#xff0c;该系统让用户预定座位…

CentOS搭建Apache服务器

安装对应的软件包 [roothds ~]# yum install httpd mod_ssl -y 查看防火墙的状态和selinux [roothds ~]# systemctl status firewalld [roothds ~]# cat /etc/selinux/config 若未关闭&#xff0c;则关闭防火墙和selinux [roothds ~]# systemctl stop firewalld [roothds ~]# …

ARM功耗管理之autosleep和睡眠锁实验

安全之安全(security)博客目录导读 ARM功耗管理精讲与实战汇总参见&#xff1a;Arm功耗管理精讲与实战 思考&#xff1a;睡眠唤醒实验&#xff1f;压力测试&#xff1f;Suspend-to-Idle/RAM/Disk演示&#xff1f; 1、实验环境准备 2、软件代码准备 3、唤醒源 4、Suspend-…