AI视频创作一条龙!达摩院“寻光”平台炸场WAIC,突破可控编辑难题

卡奥斯智能交互引擎是卡奥斯基于海尔近40年工业生产经验积累和卡奥斯7年工业互联网平台建设的最佳实践,基于大语言模型和RAG技术,集合海量工业领域生态资源方优质产品和知识服务,旨在通过智能搜索、连续交互,实时生成个性化的内容和智能化产品推荐,为用户提供快速、可靠的交互式搜索服务,首创了聚焦工业领域的智能交互引擎。
卡奥斯智能交互引擎icon-default.png?t=N7T8https://datayi.cn/w/DPWgDgjP

AIGC时代,视频创作这事儿真的不一样了。

就像这样,轻轻一圈,选定目标立刻变身单独图层,再丝滑嵌入不同的背景视频,场景变换so easy~

图片

图片

想要调整一下镜头角度,交给AI,同样能一键完成:

图片

还能一键消除、修改目标:

图片

后期再也不用加班加到手抽筋(doge)。

划!重!点!这还不是实验室里的单一技术demo,而是马上就要开放内测,让创作者们直接可以用起来的一站式AI视频创作平台——“寻光”。

就是说,传统上分散在不同制作流程中的剧本创作、分镜图设计、视频素材编辑等步骤,现在都可以在AI加持下,在同一个平台上流畅完成。

这就是阿里达摩院在上海世界人工智能大会上带来的最新惊喜。

演示一出,现场的观众都坐不住了。

图片

而达摩院官方,也透露出了AI视频领域新成果背后更大的“野心”:

不对标Sora,而是走自己的路,希望更快让AI生产力匹配人类想象力

“寻梦光影间”

所谓寻光,意指“寻梦光影间”:

即通过人工智能技术,提供全新的视频创作模式。

图片

与Sora等今年备受关注的AI视频生成模型不同,寻光关注到的,是“Sora之后,视频工作流的变革”。

达摩院认为,Sora等AI视频生成模型给足了人们对视频生产方式彻底变革的想象力,但一方面,AI视频内容的可控编辑,包括对复杂剧情的理解、生成对象的一致性等,仍然是当前算法所面临的一大挑战。

另一方面,业界尚没有统一的AI视频编辑平台,能让创作者们一站式体验到AI加持的视频创作全流程。

举个例子,OpenAI创始成员Andrej Karpathy最近也玩上了AI视频,整出了个AI版《傲慢与偏见》。

图片

在这个短片的制作过程中,他用到的工具包括Claude、Ideogram、Luma、ElevenLabs、VEED……而他本人也抱怨说:

老实说这个工作流非常混乱,工具与工具之间存在大量的复制粘贴,3个片段的简单小视频就花了我大约1个小时的时间。
这里面存在一个巨大的机会。谁正在打造100%的AI原生视频制作平台?

达摩院打造寻光,定位为PUGC一站式AI视频创作平台,目标正是针对以上问题,用AI能力重塑传统视频制作的全流程

具体来说,寻光可以辅助用户创作剧本、分镜图等,支持对生成及上传素材进行丰富的AI编辑,包括人物控制、场景控制、运镜控制、目标新增/消除/修改等10多种功能。

图片

并且在交互方面,主打“让视频编辑像操作PPT一样简单”

以分镜设计环节为例,上传到寻光的原始视频素材,会由算法切分成多个分镜头。

在创作空间里,用户可以方便地查看到每一个分镜头,并用简单的拖拽操作对其进行调整。

在新建的空白分镜中,除了添加已有素材,寻光平台还支持用户调用多种多模态生成模型,生产新的内容。

图片

而在编辑功能方面,寻光强调的是精细化的编辑和控制:在AI加持下,依据用户意图,在语义层面而不是像素层面实现编辑;同时,视频里的人体、人脸、前景、背景等任意局部目标,都可以进行精细化的编辑和修改。

在现场,达摩院视觉技术实验室高级算法专家陈威华着重提到了基于视频图层的编辑能力

以前景图层功能为例,用户通过文本输入,即可生成符合描述的、具有透明背景的视频,并且一键就能将其融合到其他背景视频当中。

图片

寻光也支持图层拆解功能,用户在视频第一帧选择想要提取的物体,算法就会自动跟踪,把整段视频中对应的目标拆解出来,形成独立的带透明背景的视频图层。

飘动的头发也扣得很精细的那种:

图片

另外,在对视频全局元素的编辑方面,风格迁移上,寻光平台提供了20+不同风格。

图片

运镜控制上,左右平移、上下平移、推进拉远、左右环绕等都能支持。

图片

在对视频局部元素的编辑方面,除了目标消除,寻光平台还能实现人脸的精准控制:

图片

视频取自国风武侠动漫《少年白马醉春风》第三集

轻轻一拉实现运动控制:

图片

如此看来,寻光可以说集成了市面上最完备的AI编辑功能,把一整个视频制作工作流都给AI化了。相比于在各种工具间跳来跳去,在传统工作流中零散地插入AI能力,属实更加方便、高效了。

重塑视频创作工作流

探索更理解物理世界规律、生成时长更长、生成效果更惊艳的多模态的模型,是当今工业界和学术界都密切关注的方向。

但当更强大的AI面世后,人们能否更快掌握这种新型生产力,同样是值得关注的话题。

在Karpathy挑起话题之后,就有不少网友表示确实戳中痛点:

从一个工具转移到另一个工具会破坏工作状态,说实话,这限制了这些工具对效率的提升。
AI视频创作需要统一的UI。

图片

陈威华也在WAIC现场谈到:

今天我们正处在AI视频生成这场巨大变革之中,“工欲善其事,必先利其器”,我们希望寻光视频创作平台就是每一个人手中的利器,是每一个人的专属视频工作室,在这个平台上,AI与创作者之间能够更紧密高效地协作。

为此,寻光平台背后的达摩院视觉技术实验室已做了大量技术储备。

该实验室致力于多模态视觉信号的理解与生成技术研究,当前的重点研究方向包括更加精准的图像/视频/3D内容生成,更加可控的图像/视频/3D内容编辑,更加高效的生成框架,多模态的理解-生成框架等。

AIGC在全世界范围内引爆热潮,核心在于带来了生产力彻底变革的想象空间。

现在,解放生产力的第一步,已经开始落地实践,你期待吗?

官网地址:
https://xunguang.damo-vision.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/42937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源模型应用落地-FastAPI-助力模型交互-进阶篇(一)

一、前言 FastAPI 的高级用法可以为开发人员带来许多好处。它能帮助实现更复杂的路由逻辑和参数处理,使应用程序能够处理各种不同的请求场景,提高应用程序的灵活性和可扩展性。 在数据验证和转换方面,高级用法提供了更精细和准确的控制&#…

Leetcode 3209. Number of Subarrays With AND Value of K

Leetcode 3209. Number of Subarrays With AND Value of K 1. 解题思路2. 代码实现 题目链接:3209. Number of Subarrays With AND Value of K 1. 解题思路 这一题的话整体上是一个滑动窗口的思路,我们维护一个滑动窗口,确保其每一个窗口都…

『大模型笔记』你需要的不是智能体,而是一个适合 AI 的工作流

你需要的不是智能体,而是一个适合 AI 的工作流 文章目录 一. 你需要的不是智能体,而是一个适合 AI 的工作流1. 不要将 AI 的解决方案局限在人类现有的解决方案上2. 不必完全依赖 AI 做决策,而是让 AI 辅助做决策或者做简单的决策3. 结合不同领域的 AI 模型或者工具,设计合适…

RedHat运维-Linux文本操作基础-SED基础

1. 打印出/etc/passwd的第12行的命令为_______________________________________; 2. 打印出/etc/passwd的第12到第18行的命令为________________________________________; 3. 打印出/etc/passwd的总行数的命令为_____________________________________…

低代码研发项目管理流程优化:提效与创新的双重驱动

随着信息技术的迅猛发展,软件项目的规模和复杂度日益增加,传统的软件开发方式已经难以满足快速迭代和高效交付的需求。在这一背景下,低代码平台应运而生,以其高效、灵活、易用的特点,迅速成为软件行业的新宠。然而&…

运行pip出现UnicodeDecodeError: ‘ascii‘ codec can‘t decode

错误: UnicodeDecodeError: ascii codec cant decode byte 0xe2 in position 1025: ordinal not in range(128) ERROR: Exception: Traceback (most recent call last):File "/usr/local/lib/python3.6/dist-packages/pip/_internal/cli/base_command.py", line 22…

C语言下结构体、共用体、枚举类型的讲解

主要内容 结构体结构体数组结构体指针包含结构体的结构链表链表相关操作共用体枚举类型 结构体 结构体的类型的概念 结构体实现步骤 结构体变量的声明 struct struct 结构体名{ 数据类型 成员名1; 数据类型 成员名2; ..…

PostgreSQL的pg_bulkload工具

PostgreSQL的pg_bulkload工具 pg_bulkload 是一个针对 PostgreSQL 提供高性能批量数据加载的工具。相较于内置的 COPY 命令,pg_bulkload 更加灵活并且在许多情况下性能更高。它支持数据的强制加载、数据过滤、数据转换以及错误处理等多种功能,非常适合需…

qt hasPendingDatagrams() 函数

hasPendingDatagrams 是 Qt 框架中 QUdpSocket 类的一个方法,用于检查是否有待处理的数据报到达。在 UDP 通信中,数据以数据报的形式发送,而 QUdpSocket 类提供了用于接收和处理这些数据报的功能。 功能描述 hasPendingDatagrams() 方法用于…

从数据到洞察:DataOps加速AI模型开发的秘密实践大公开!

作者 | 代立冬,白鲸开源科技联合创始人&CTO 引言 在AI驱动的商业世界中,DataOps作为连接数据与洞察的桥梁,正迅速成为企业数据战略的核心。 在WOT全球技术创新大会2024北京站,白鲸开源联合创始人&CTO 代立冬 在「大数据…

严重的OpenSSH漏洞威胁数百万Linux系统

Qualys威胁研究部门(TRU)发现了OpenSSH服务器 (sshd) 中的一个严重漏洞,可能影响全球超过 1400 万个Linux系统。该漏洞被指定为 CVE-2024-6387,允许在基于 glibc 的 Linux 系统上以 root 权限进行远程未经身份验证的代码执行 (RCE)。 此漏洞源于信号处理…

自己写个简单的vite插件

需求:根据使用环境显示对应的标题和icon 先在根目录建个plugins/vite-plugin-title-html.ts 文件内容如下: /*** 替换html里面的标题和icon*/ type HtmlTemplate {title?: string,icon?: string } export default function vitePluginHtmlTitle({ title, icon…

Python 处理Excel 文件, openpyxl 库的使用:

下载&#xff1a; pip install openpyxl 基本使用&#xff1a; 新建一个Excel 工作簿&#xff1a; 使用openpyxl 需要先导入一个Workbook 类&#xff0c; 使用它可以创建一个Workbook<工作簿>对象&#xff0c; 也就是创建一个Excel表文件&#xff0c; web.active 可用来…

智能体重秤pcba方案

智能体重秤应用系统由硬件和软件两部分组成。硬件是指微控制器、扩展存储器、扩展输入输出设备等。软件是各种工作过程的通用名称。硬件和软件只有紧密协调&#xff0c;才能提高系统的性价比。从硬件设计开始&#xff0c;应考虑相应软件的设计方法&#xff0c;软件的设计是基于…

代码随想录算法训练营:26/60

非科班学习算法day26 | LeetCode491:非递减子序列 &#xff0c;Leetcode46:全排列 &#xff0c;Leetcode47:全排列|| 介绍 包含LC的两道题目&#xff0c;还有相应概念的补充。 相关图解和更多版本&#xff1a; 代码随想录 (programmercarl.com)https://programmercarl.com/…

5款好用公司监控软件分享|管理者必看

当今社会&#xff0c;企业数据安全和员工工作效率成为了管理者不可忽视的重要议题。 选择合适的公司监控软件&#xff0c;不仅有助于提升管理效率&#xff0c;还能有效保障企业信息安全。 下面小编将为您分享五款备受好评的公司监控软件&#xff0c;助力管理者更好地管理企业…

C# Winform权限、用户和菜单开发的顺序和注意点

在C# Winform应用程序中&#xff0c;开发权限、用户和菜单功能通常遵循一定的顺序和注意点&#xff0c;以确保功能的连贯性和安全性。下面是一个推荐的开发流程及其注意事项&#xff1a; 开发流程 1. 数据库设计 用户表&#xff1a;存储用户基本信息&#xff0c;如用户名、密…

vue使用HMAC-SHA256签名算法

在 Vue.js 应用中生成签名算法通常涉及以下几个步骤&#xff1a; 收集数据&#xff1a;获取需要签名的数据。整理数据&#xff1a;根据协议或需求对数据进行排序、拼接、编码等处理。计算签名&#xff1a;使用密钥和算法&#xff08;如 HMAC-SHA256&#xff09;计算签名。附加…

微服务通信方式详解

引言 随着互联网应用的不断发展和用户需求的多样化&#xff0c;传统的单体架构已经无法满足现代应用的灵活性和扩展性需求。微服务架构因其模块化、松耦合、易于扩展和部署等优势&#xff0c;逐渐成为现代软件开发的重要趋势。在微服务架构中&#xff0c;各个服务相互独立、自…

公司可以拿监控辞退员工吗?有什么法律依据?

李经理&#xff1a;小张&#xff0c;我听说最近人力资源部打算使用我们新安装的安企神软件来监控员工的工作行为&#xff0c;以提高工作效率和确保公司信息安全。不过&#xff0c;我有点担心这会不会触及法律红线&#xff0c;比如如果我们发现某位员工严重违反公司规定&#xf…