快手可灵大模型开放视频续写功能,可生成最长约3分钟视频

6月21日,可灵再度进化,正式推出图生视频功能,支持用任意静态图像生成5s视频,并且可搭配不同的文本内容,实现丰富的视觉叙事 。

同时,可灵还发布了业内领先的视频续写功能,可为已生成的视频(含文生视频及图生视频)提供便捷的一键续写和连续多次续写,将视频最长可延伸至约3分钟,充分显示了可灵强大的想象力与精细的可控性,极大地拓展了视频大模型的创作边界。

化静为动,按需定制视觉叙事

此前,“可灵”在文生视频方面已经展现出了创造逼真运动场景、精确模拟物理特性的强大能力,以及将复杂概念巧妙融合的高超技艺,其输出堪比电影级画质,并允许用户自由调节视频的纵横比。

而这些卓越特性,如今都被完美融入到了图生视频模型。用户只需上传一张图片,“可灵”即能基于对图像的深度解析,变静为动,赋予其5秒的鲜活生命力。

上传经典的蒙娜丽莎,可灵能够让蒙娜丽莎戴上墨镜,并赋予她灵动的眼神交流。让名画中的人物活灵活现。

得益于其基础模型架构中的3D时空联合注意力机制,可灵在构建复杂时空运动方面也展现了卓越能力。这使得模型在转换静态图像为动态视频时,能够细腻而准确地实现大幅度运动场景。

例如,只需上传一张牧羊犬追球的静止照片,模型就能生成一段生动的视频:牧羊犬活灵活现地奔跑追逐网球,其耳朵轻轻晃动,毛发随风飘扬,而网球则在空中弹跳,视频整体自然而流畅。

再以一张汽车飞驰的图片为素材,可灵能创造出身临其境的驾驶场景。在这段视频中,汽车不仅在公路上展现出疾速前行的姿态,而且巧妙地融入了对向车道上连续不断的车流。

同时,道路两旁的树木快速向后掠去,模拟出强烈的行驶速度感,而虚化处理的隔离带进一步增强了视觉上的动态效果与速度印象,整体画面宛如出自精心策划的广告大片。

可灵图生视频模型还融入了强大的提示词融合技术,深化了对图像语义与用户指令的理解整合。这意味着,模型能够根据用户提供的不同文本指令,精妙地变换视频中的动态表现。

举例来说,当使用一张女孩的照片生成视频,模型默认生成的效果可能是轻风中她发丝轻轻飘动,周遭花朵摇曳,水面闪烁着细腻的波纹。而如果用户具体输入“女孩转身背对镜头”,视频便会智能添加女孩优雅转身的动作,并细腻捕捉到转身瞬间的微笑和眨眼,展现了自然而生动的细节处理能力。

再比如用巨龙图片生成视频,输入“正在捕食的巨龙,飞扬的沙子,奇幻风格的电影”,视频便呈现巨龙昂首展翅掀起漫天黄沙,嘴部开合仿佛在咆哮的生动效果与奇幻场景。通过这种文本与图像意义的紧密联动,可灵将按需定制的视觉叙事提升到了一个新高度。

此外,可灵图生视频模型支持不同风格的图像输入,不论是自然写实还是风格化图像都能轻松处理,同时兼容各种长宽比的图像输入,展示出强大的灵活性和适应性。例如这张骑士拿剑的竖版图片,生成视频中骑士黑袍飞舞,亮剑仙气环绕,拉满氛围感。

业内领先,视频续写可生成最长约3分钟视频

可灵大模型还新推出了业内领先的视频续写功能,用户只需一键操作,即可在已生成视频的基础上延续生成约5秒内容,该功能同时适用于文生视频和图生视频。更令人瞩目的是,通过连续多次续写,能够最长生产约3分钟的连贯视频。基于对物理运动的深入理解,视频续写不仅确保新生成部分与原视频间的运动连贯性及物理合理性,还能巧妙融入大幅度的动作变化,提升视频的生动性。

此次升级的一大亮点是集成文本控制机制于视频续写中,这意味着用户能够通过自定义提示词,为每段视频续写注入个性化创意。

得益于此,模型利用高效的提示词融合技术,平滑地在场景间过渡,响应用户的每一个灵感火花。

举例来说,一个关于古堡的视频片段,用户既可以选择让它先“太阳落下去,天空变暗”,继而“太阳升起来,天空变亮”,亦可探索另一路径:“太阳落下去,天空变暗,灯光渐亮”,随后“灯光亮起,雾气氤氲”,以此创造出各具特色的连续视觉叙事,完美贴合用户的多样化需求。

注:视频前5秒为输入视频,后9秒为续写两次后的结果

6月6日,可灵文生视频大模型正式亮相(可灵官网:https://kling.kuaishou.com),不仅在效果上比肩Sora,还即时在快影App上启动了邀测体验,截至目前,已有累计超过14万人排队申请。

此次进化,可灵文生视频基础大模型的强大能力被无缝整合到图生视频和视频续写功能中,将为用户带来更为丰富、灵活的视频创作体验。

恰逢近日CVPR2024在美国举行,在这一国际顶级计算机视觉和模式识别领域学术盛会上,快手也同步发布了可灵大模型的图生视频和视频续写等最新功能,引起现场的强烈反响。公开资料显示,今年快手共有8篇论文入选CVPR2024,彰显了其在该领域的深厚研究功底。

据「TMT星球」了解,快手还将在下月召开的2024世界人工智能大会(WAIC)上,举办以“新AI·新应用·新生态”为主题的大模型技术生态论坛。届时,快手将发布最新的大模型技术与应用战略,包括快手大模型技术矩阵全景、基座模型技术创新、应用和落地情况等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/32203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Chromium 开发指南2024 Mac篇-开始编译Chromium(五)

1.引言 在之前的指南中,我们已经详细介绍了在 macOS 上编译和开发 Chromium 的准备工作。您学会了如何安装和配置 Xcode,如何下载和配置 depot_tools,以及如何获取 Chromium 的源代码。通过这些步骤,您的开发环境已经搭建完毕&am…

如何级联移位寄存器(74HC595)

在这个项目中,我们将使用 74HC595 移位寄存器将 2 个移位寄存器级联在一起。这样级联移位寄存器现在可以控制 16 个输出。 当然您可以级联任意数量的移位寄存器。如果您要级联第三个移位寄存器,它可以控制 24 个输出。如果您级联第四个移位寄存器&#x…

任务3.8.4 利用RDD实现分组排行榜

文章目录 1. 任务说明2. 解决思路3. 准备成绩文件4. 采用交互式实现5. 采用Spark项目实战概述:使用Spark RDD实现分组排行榜任务背景任务目标技术选型实现步骤1. 准备数据2. 数据上传至HDFS3. 启动Spark Shell4. 读取数据生成RDD5. 数据处理6. 计算TopN7. 输出结果8…

学习es6

1、let变量 2、const常量 3、解构赋值 4、模板字符串 5、简化对象写法 6、参数默认值 7、rest参数 8、扩展运算符 9、扩展对象方法 10、扩展数组方法 11、Set 12,Promise 13、Module模块

Leetcode - 周赛402

目录 一,3185. 构成整天的下标对数目 II 二,3186. 施咒的最大总伤害 三,3187. 数组中的峰值 一,3185. 构成整天的下标对数目 II 这里的T1,T2是一个题,这里直接一起讲了, 当我们已知 x%24 的值…

MobileNetV3轻量化YOLOv8

1 轻量化模型 一般而言,模型轻量化有三个途径: 知识蒸馏:大模型引导小模型训练,让其逼近大模型效果 轻量化模块替换:利用一些轻量化模块进行替换,减少模型参数 剪枝:通过优化算法引导模型裁剪无用的参数 MobileNetV3论文如下,自行搜索 2 修改步骤 在nn/modules的文…

qt+halcon实战

注意建QT工程项目用的是MSVC,如果选成MinGW,则会报错 INCLUDEPATH $$PWD/include INCLUDEPATH $$PWD/include/halconcppLIBS $$PWD/lib/x64-win64/halconcpp.lib LIBS $$PWD/lib/x64-win64/halcon.lib#include "halconcpp/HalconCpp.h" #include &quo…

Kubernetes Ingress 简介

前言 Ingress 是 Kubernetes 中的一种资源对象,用于管理从集群外部到内部服务的 HTTP 和 HTTPS 路由。它提供了灵活的路由功能、SSL/TLS 终止、负载均衡和虚拟主机支持。Ingress 需要一个 Ingress 控制器来实际处理路由,并且可以通过配置不同的控制器来…

RedHat9 | Web服务配置与管理(Apache)

一、实验环境 1、Apache服务介绍 Apache服务,也称为Apache HTTP Server,是一个功能强大且广泛使用的Web服务器软件。 起源和背景 Apache起源于NCSA httpd服务器,经过多次修改和发展,逐渐成为世界上最流行的Web服务器软件之一。…

蔚来汽车AI算法工程师,如何理解注意力?

大家好啊,我是董董灿。 今天分享一个上海蔚来汽车的AI算法岗位面试经验总结帖,面试岗位为算法工程师。 这次面试提到的问题,除了与实习相关内容和反问之外,面试官总共问了8个问题,主要集中在深度学习基础概念的理解上…

共93本!全网最全Frontiers旗下期刊2022、2023版影响因子和分区对比完整版目录!

本周投稿推荐 SSCI • 1区,4.0-5.0(无需返修,提交可录) EI • 各领域沾边均可(2天录用) CNKI • 7天录用-检索(急录友好) SCI&EI • 4区生物医学类,0.1-0.5&…

Gotchiverse Alchemica 代币现已在Base上线

​ 朋友们大家好, 继 GHST 成功登陆 Base 之后,我们很高兴地宣布,Gotchiverse的 "Gotchus Alchemica " token 也将登陆 Base! 从今天起,你就可以通过我们由 Socket 协议提供的新链抽象技术,将 Al…

# 消息中间件 RocketMQ 高级功能和源码分析(十一)

消息中间件 RocketMQ 高级功能和源码分析(十一) 一、消息中间件 RocketMQ 源码分析: 拉取消息长轮询机制 1、消息拉取长轮询机制分析 RocketMQ 未真正实现消息推模式,而是消费者主动向消息服务器拉取消息,RocketMQ …

毕业季带给我的五个启示

每到毕业季,校园里总是充满了复杂的情绪。有人欢笑,有人落泪。同样的四年大学生活,为何结局如此不同?本文将从多个角度探讨如何实现综合改变,解释在交友、机会和心态上的关键因素,揭示“慢就是快”的真理。…

go语言day2

使用cmd 中的 go install ; go build 命令出现 go cannot find main module 错误怎么解决? go学习-问题记录(开发环境)go: cannot find main module; see ‘go help modules‘_go: no flags specified (see go help mod edit)-CSDN博客 在本…

MinIO 网络与覆盖网络

云计算和容器化技术的发展改变了应用程序的开发、部署和管理方式。这种转变给网络环境带来了重大变化,为DevOps和SRE工程师带来了新的挑战和机遇。然而,在这种转变中,出现了明显的知识差距,特别是在理解物理网络和硬件背景下网络的…

【自动驾驶】ROS小车系统

文章目录 小车组成轮式运动底盘的组成轮式运动底盘的分类轮式机器人的控制方式感知传感器ROS决策主控ROS介绍ROS的坐标系ROS的单位机器人电气连接变压模块运动底盘的电气连接ROS主控与传感器的电气连接ROS主控和STM32控制器两种控制器的功能运动底盘基本组成电池电机控制器与驱…

Vulnhub--OS-HACKNOS-2.1

渗透复现 目标站点为wordpress,通过wpscan进行漏洞扫描发现漏洞插件 通过漏洞插件存在的目录穿越漏洞成功读取/etc/passwd文件中flag用户的密码 SSH登录flag用户后在备份文件中找到rohit用户的密码 切换rohit用户,rohit用户能够以root权限执行任何文…

mysql自动填写当前时间,添加索引

mysql自动填写当前时间 在navicat操作界面创建表时,如果需要自动填写时间,可以操作如下 CURRENT_TIMESTAMP为表添加索引 ALTER table tableName ADD INDEX indexName(columnName)追加外键 ALTER TABLE tb_commentPhoto ADD CONSTRAINT FK_comment_ph…

Linux-目录和文件

目录 一、Linux目录 1、Linux常见目录 2、常见的Linux文件类型 二、cat-查看文件命令 1、cat命令用法 三、分页查看文件内容 1、 more命令 ​2、less命令 ​3、more和less的区别 四、查看文件开头或末尾 1、head命令 2、tail命令 3、wc-统计文件内容 4、grep 命令…