AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。
卡奥斯智能交互引擎icon-default.png?t=N7T8https://datayi.cn/w/DPWgDgjP

AIGC时代,视频创作这事儿真的不一样了。

就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~

图片

图片

想要调整一下镜头角度,交给AI,同样能一键完成:

图片

还能一键消除、修改目标:

图片

后期再也不用加班加到手抽筋(doge)。

划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。

就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。

这就是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。

演示一出,现场的观众都坐不住了。

图片

而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”:

不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力

“寻梦光影间”

所谓寻光,意指“寻梦光影间”:

即通过人工智能技术,提供全新的视频创作模式。

图片

与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。

达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。

另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。

举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》。

图片

在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:

老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。
这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台?

达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程

具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。

图片

并且在交互方面,主打“让视频编辑像操作PPT一样简单”

以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。

在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。

在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。

图片

而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。

在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力

以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。

图片

寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。

飘动的头发也扣得很精细的那种:

图片

另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。

图片

运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。

图片

在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制:

图片

视频取自国风武侠动漫《少年白马醉春风》第三集

轻轻一拉实现运动控制:

图片

如此看来,寻光可以说集成了市面上最完备的AI编辑功能,把一整个视频制作工作流都给AI化了。相比于在各种工具间跳来跳去,在传统工作流中零散地插入AI能力,属实更加方便、高效了。

重塑视频创作工作流

探索更理解物理世界规律、生成时长更长、生成效果更惊艳的多模态的模型,是当今工业界和学术界都密切关注的方向。

但当更强大的AI面世后,人们能否更快掌握这种新型生产力,同样是值得关注的话题。

在Karpathy挑起话题之后,就有不少网友表示确实戳中痛点:

从一个工具转移到另一个工具会破坏工作状态,说实话,这限制了这些工具对效率的提升。
AI视频创作需要统一的UI。

图片

陈威华也在WAIC现场谈到:

今天我们正处在AI视频生成这场巨大变革之中,“工欲善其事,必先利其器”,我们希望寻光视频创作平台就是每一个人手中的利器,是每一个人的专属视频工作室,在这个平台上,AI与创作者之间能够更紧密高效地协作。

为此,寻光平台背后的达摩院视觉技术实验室已做了大量技术储备。

该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像/视频/3D内容生成,更加可控的图像/视频/3D内容编辑,更加高效的生成框架,多模态的理解-生成框架等。

AIGC在全世界范围内引爆热潮,核心在于带来了生产力彻底变革的想象空间。

现在,解放生产力的第一步,已经开始落地实践,你期待吗?

官网地址:
https://xunguang.damo-vision.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/42937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源模型应用落地-FastAPI-助力模型交互-进阶篇(一)

一、前言 FastAPI 的高级用法可以为开发人员带来许多好处。它能帮助实现更复杂的路由逻辑和参数处理,使应用程序能够处理各种不同的请求场景,提高应用程序的灵活性和可扩展性。 在数据验证和转换方面,高级用法提供了更精细和准确的控制&#…

C语言下结构体、共用体、枚举类型的讲解

主要内容 结构体结构体数组结构体指针包含结构体的结构链表链表相关操作共用体枚举类型 结构体 结构体的类型的概念 结构体实现步骤 结构体变量的声明 struct struct 结构体名{ 数据类型 成员名1; 数据类型 成员名2; ..…

从数据到洞察:DataOps加速AI模型开发的秘密实践大公开!

作者 | 代立冬,白鲸开源科技联合创始人&CTO 引言 在AI驱动的商业世界中,DataOps作为连接数据与洞察的桥梁,正迅速成为企业数据战略的核心。 在WOT全球技术创新大会2024北京站,白鲸开源联合创始人&CTO 代立冬 在「大数据…

严重的OpenSSH漏洞威胁数百万Linux系统

Qualys威胁研究部门(TRU)发现了OpenSSH服务器 (sshd) 中的一个严重漏洞,可能影响全球超过 1400 万个Linux系统。该漏洞被指定为 CVE-2024-6387,允许在基于 glibc 的 Linux 系统上以 root 权限进行远程未经身份验证的代码执行 (RCE)。 此漏洞源于信号处理…

Python 处理Excel 文件, openpyxl 库的使用:

下载&#xff1a; pip install openpyxl 基本使用&#xff1a; 新建一个Excel 工作簿&#xff1a; 使用openpyxl 需要先导入一个Workbook 类&#xff0c; 使用它可以创建一个Workbook<工作簿>对象&#xff0c; 也就是创建一个Excel表文件&#xff0c; web.active 可用来…

5款好用公司监控软件分享|管理者必看

当今社会&#xff0c;企业数据安全和员工工作效率成为了管理者不可忽视的重要议题。 选择合适的公司监控软件&#xff0c;不仅有助于提升管理效率&#xff0c;还能有效保障企业信息安全。 下面小编将为您分享五款备受好评的公司监控软件&#xff0c;助力管理者更好地管理企业…

公司可以拿监控辞退员工吗?有什么法律依据?

李经理&#xff1a;小张&#xff0c;我听说最近人力资源部打算使用我们新安装的安企神软件来监控员工的工作行为&#xff0c;以提高工作效率和确保公司信息安全。不过&#xff0c;我有点担心这会不会触及法律红线&#xff0c;比如如果我们发现某位员工严重违反公司规定&#xf…

ElasticSearch学习篇14_《检索技术核心20讲》进阶篇之大倒排索引

背景 学习极客实践课程《检索技术核心20讲》https://time.geekbang.org/column/article/215243&#xff0c;文档形式记录笔记。 内容 主要是海量数据的大倒排索引的一些原理设计思想&#xff0c;ES底层就是基于这些设计思想以及原理&#xff0c;主要涉及读写分离、索引分层等…

什么是离散化?

离散化 题目 你会这个题 吗&#xff1f; 题目 假定有一个无限长的数轴&#xff0c;数轴上每个坐标上的数都是 0 0 0。 现在&#xff0c;我们首先进行 n n n 次操作&#xff0c;每次操作将某一位置 x x x 上的数加 c c c。 接下来&#xff0c;进行 m m m 次询问&#x…

第十二节 设置默认文本提示

原型中我们常会用到文本框默认提示一些文本&#xff0c;获取焦点后消失文本提示&#xff0c;那如何实现呢&#xff1f;请看下面这个简单案例。 一、添加文本框也可以是矩形或者其他元件 二、添加文本样式 三、设置提示文本 四、元件获取焦点时将以隐藏提示 五、看效果 默认提示…

ShardingSphereConnection@4691d] will not be managed by Spring

boot整合分库分表后启动执行&#xff0c;提示链接不被spring管理&#xff0c; 应该看自己需要&#xff0c; 解决&#xff1a;

vue3+ts 重复参数提取成方法多处调用以及字段无值时不传字段给后端

参数提取前的写法&#xff0c;此写法值为空的时候也会传空字段给后端 会把无值的空字段传给后端 修改后的写法&#xff0c;不会把没有值的字段传给后端 // 列表和导出需要传给后端的公共参数&#xff08;加 || undefined即可过滤空字段&#xff09; const getCurentParam () …

昇思25天学习打卡营第14天|Pix2Pix实现图像转换

Pix2Pix是基于条件生成对抗网络&#xff08;cGAN, Condition Generative Adversarial Networks &#xff09;实现的一种深度学习图像转换模型&#xff0c;该模型是由Phillip Isola等作者在2017年CVPR上提出的&#xff0c;可以实现语义/标签到真实图片、灰度图到彩色图、航空图到…

leetcode--二叉搜索子树的最大键值和

leetcode地址&#xff1a;二叉搜索子树的最大键值和 给你一棵以 root 为根的 二叉树 &#xff0c;请你返回 任意 二叉搜索子树的最大键值和。 二叉搜索树的定义如下&#xff1a; 任意节点的左子树中的键值都 小于 此节点的键值。 任意节点的右子树中的键值都 大于 此节点的键值…

IOC、DI<4> Unity

IOC&#xff08;&#xff09;&#xff1a;控制反转&#xff0c;把程序上层对下层的依赖&#xff0c;转移到第三方的容器来装配 是程序设计的目标&#xff0c;实现方式包含了依赖注入和依赖查找&#xff08;.net里面只有依赖注入&#xff09; DI&#xff1a;依赖注入&#xff0c…

基于jeecgboot-vue3的Flowable流程-集成仿钉钉流程(一)一些样式的调整使用

因为这个项目license问题无法开源&#xff0c;更多技术支持与服务请加入我的知识星球。 1、比如下面的发起人双击后出现的界面不正常&#xff0c; 看它的样式主要是这个里面的margin-left应该太小了&#xff0c; [data-v-45b533d5] .el-tabs__content { margin-top: 50px;mar…

7.1作业6

uart4.h #ifndef __UART4_H__ #define __UART4_H__ #include "stm32mp1xx_gpio.h" #include "stm32mp1xx_rcc.h" #include "stm32mp1xx_uart.h" //rcc/gpio/uart4初始化 void hal_uart4_init(); //发送一个字符 void hal_put_char(const char s…

香橙派编译linux内核支持ebpf和虚拟WIFI

前言 上一篇文章香橙派5plus上跑云手机方案一 redroid(带硬件加速)中说了怎么运行redroid&#xff0c;这篇补一下怎么修改参数编译内核。 补充 上篇文章有个内容需要补充一下&#xff1a;更新完内核需要用下面的命令防止内核被apt更新&#xff0c;不然后面使用apt update又回…

浅析C++引用

浅析C引用"&" ​ C中引入了一个新的语言特性——引用(&)&#xff0c;它表示某一对象的别名&#xff0c;对象与该对象的引用都是指向统一地址。那么我们就来看看关于引用的一些知识点吧&#x1f9d0; 特性 引用在定义时必须初始化一个变量可以有多个引用引…

【Python】一文向您详细介绍 np.inner()

【Python】一文向您详细介绍 np.inner() 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1a;985高校的普通本硕&#xff0c;曾…