LLM实现视频切片合成 前沿知识调研

1.相关产品

产品链接
腾讯智影https://zenvideo.qq.com/
可灵https://klingai.kuaishou.com/
即梦https://jimeng.jianying.com/ai-tool/home/
Runwayhttps://aitools.dedao.cn/ai/runwayml-com/
Descripthttps://www.descript.com/?utm_source=ai-bot.cn/
Opus Cliphttps://www.opus.pro/not-available?utm_source=ai-bot.cn/
Wondershare Filmorahttps://www.wondershare.com
AI Podcast Clipshttps://app.simplified.com/social-media
Vadoo AIhttps://ai.vadoo.tv/
WUI.AIhttps://www.wui.ai/zh-CN/clip-settings
FunCliphttps://github.com/modelscope/FunClip
AutoCuthttps://github.com/mli/autocut

2. 功能

产品功能
腾讯智影支持在线剪辑、素材库比较多、文生视频、视频解说、数字人播报
可灵文本生成视频、图片生成视频、文字生成图片
即梦文本生成视频、图片生成视频、文字生成图片
Runway图片生成视频、文本生成视频、文本转语音(提供大量音色)、文本生成图片
Descript基于文本剪辑视频
Opus Clip视频切片:自动从长视频中提取精彩片段,生成短视频。AI分析:使用人工智能技术分析视频内容,识别亮点和重要时刻。一键生成短视频:提供快速生成短视频的选项,简化编辑流程。片段选择:允许用户手动选择或调整Al挑选的片段,以确保最多视频符合预期。视频编辑:提供基本的视频编辑功能,如裁剪、排序和调整片段。
Wondershare FilmoraAI助手剪辑:使用个人AI助理编辑视频(分段,有点短),改善编辑流程。AI文字型编辑:将视频转换成文字,并使用基于文字的AI编辑,像编辑文件一样方便。AI缩略图制作:使用有效的缩略图吸引观众目光。AI音乐生成器:立即创作各种风格、情感和节奏的音乐。10,000+高质视频模板:告别枯燥的编辑工作,提升影片品质。创意资源拓展:超过1,500万个文字、音频、转场、特效和贴纸等资源。跨平台支持:在电脑、iPad和手机上编辑、存储和分享内容。
AI Podcast Clips自动分析视频:识别关键时刻和说话人变化。长视频变短视频(精华):自动生成带有字幕的短视频剪辑。 提供视频编辑器以调整视频比例和分辨率预测视频剪辑在社交媒体上的潜在表现(分数)。支持最大500MB的视频文件。
Vadoo AI长视频变短视频
WUI.AI长切短、总结、拆分章节、增加字幕
FunClip阿里开源的基于LLM的智能剪辑
AutoCut基于Markdown的可视化剪辑

3. 使用体验

目前国内大多数聚焦于大模型实现文生图文生视频很少有基于LLM实现智能剪辑的应用。国外关于LLM实现智能剪辑的产品较多,如WUI.AIOpus Clip(国内不能访问),智能剪辑体验起来比较丝滑,但存在剪辑视频断头断尾技术不开源的问题。国内阿里开源的FunClip提供了智能视频剪辑的解决方案,但同样存在剪辑视频断头断尾文字和时间戳不在同一轨道的情况。

4. FunClip底层技术

阿里开源的Funclip技术如下:
1)将视频转化为音频(ffmpeg);
2)使用ASR模型完成音频的转录;
3)基于转录的字幕使用LLM完成精华的提取;
4)根据LLM提取的内容,使用movie完成基于时间戳实现视频的剪辑。
在这里插入图片描述

5. Autocut底层技术

AutoCut 对你的视频自动生成字幕。然后你选择需要保留的句子,AutoCut 将对你视频中对应的片段裁切并保存。你无需使用视频编辑软件,只需要编辑文本文件即可完成剪切。采用的ASR模型是Open AI开源的whisper模型。
在这里插入图片描述
在使用AutoCut的时候,剪辑需要基于Markdown进行点击(费时费眼),且需要自己对视频理解的十分透彻。为此我们可以基于LLM完成精彩片段的提炼,然后编写正则表达式对Markdown内容进行自动点击。

6.未完待续

1)使用OCR实现ASR识别字幕的不准确性。

参考内容 https://zhuanlan.zhihu.com/p/10856868833

2)编写长变短、按照主题提取的Prompt模版。
参考
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI多模态论文解读:LLaVA-CoT:让视觉语言模型逐步推理

本文作者:AIGCmagic社区 猫先生 一、简 介 LLaVA-CoT引入了四个不同的阶段(摘要、标题、推理和结论),使模型能够独立进行系统化的多阶段推理,显著提高了在推理密集型任务上的准确性。 编译了LLaVA-CoT-100k数据集&am…

分布式缓存redis

分布式缓存redis 1 redis单机(单节点)部署缺点 (1)数据丢失问题:redis是内存存储,服务重启可能会丢失数据 (2)并发能力问题:redis单节点(单机)部…

《C++11》nullptr介绍:从NULL说起

在C11之前,我们通常使用NULL来表示空指针。然而,NULL在C中有一些问题和限制,这就是C11引入nullptr的原因。本文将详细介绍nullptr的定义、用法和优点。 1. NULL的问题 在C中,NULL实际上是一个整数0,而不是一个真正的…

供应链数字化转型参考大型供应链系统技术架构设计方案

该文介绍了一个大型供应链系统技术架构的设计方案,包括整体设计、核心技术目录和应用案例。设计采用Choerodon微服务框架,关注海量并发、可伸缩性、安全性等方面。同时,方案符合大型企业结构的HR组织架构,支持多级组织架构和角色、…

STM32F1学习——DMA直接存储器存取

一、DMA直接存储器存取 DMA的全称是 Direct Memory Access 直接存储器存取,他可以提供外设和存储器间或存储器和存储器间的高速数据传输,无需CPU的干预。 STM32有12个DMA通道,由DMA1(7个通道组成)和DMA2(5个通道组成),STM32F103C8…

一个使用 Golang 编写的新一代网络爬虫框架,支持JS动态内容爬取

大家好,今天给大家分享一个由ProjectDiscovery组织开发的开源“下一代爬虫框架”Katana,旨在提供高效、灵活且功能丰富的网络爬取体验,适用于各种自动化管道和数据收集任务。 项目介绍 Katana 是 ProjectDiscovery 精心打造的命令行界面&…

6.2 MySQL时间和日期函数

以前我们就用过now()函数来获得系统时间,用datediff()函数来计算日期相差的天数。我们在计算工龄的时候,让两个日期相减。那么其中的这个now函数返回的就是当前的系统日期和时间。 1. 获取系统时间函数 now()函数,返回的这个日期和时间的格…

用 Python 处理 CSV 和 Excel 文件

💖 欢迎来到我的博客! 非常高兴能在这里与您相遇。在这里,您不仅能获得有趣的技术分享,还能感受到轻松愉快的氛围。无论您是编程新手,还是资深开发者,都能在这里找到属于您的知识宝藏,学习和成长…

vulnhub靶场【IA系列】之Tornado

前言 靶机:IA-Tornado,IP地址为192.168.10.11 攻击:kali,IP地址为192.168.10.2 都采用虚拟机,网卡为桥接模式 本文所用靶场、kali镜像以及相关工具,我放置在网盘中,可以复制后面链接查看 htt…

[云讷科技] 用于软件验证的仿真环境

我们使用Pursuit自动驾驶仪为各种场景设计仿真环境,以便用户可以在模拟环境中直接验证他们的软件,无需现场测试。该环境基于Gazebo引擎。 1. 工作区目录 模拟环境的工作区位于提供的U盘中的~/pursuit_space/sitl_space_pursuit中。用户可以按照用户手册…

【Uniapp-Vue3】页面生命周期onLoad和onReady

一、onLoad函数 onLoad在页面载入时触发,多用于页面跳转时进行参数传递。 我们在跳转的时候传递参数name和age: 接受参数: import {onLoad} from "dcloudio/uni-app"; onLoad((e)>{...}) 二、onReady函数 页面生命周期函数中的onReady其…

iOS 解决两个tableView.嵌套滚动手势冲突

我们有这样一个场景,就是页面上有一个大的tableView, 每一个cell都是和屏幕一样高的,然后cell中还有一个可以 tableView,比如直播间的情形,这个时候如果我们拖动 cell里面的tableView滚动的话,如果滚动到内…

STM32 FreeRTOS移植

目录 FreeRTOS源码结构介绍 获取源码 1、 官网下载 2、 Github下载 源码结构介绍 源码整体结构 FreeRTOS文件夹结构 Source文件夹结构如下 portable文件夹结构 RVDS文件夹 MemMang文件夹 FreeRTOS在基于寄存器项目中移植步骤 目录添加源码文件 工程添加源码文件 …

【ASP.NET学习】Web Forms创建Web应用

文章目录 什么是 Web Forms?ASP.NET Web Forms - HTML 页面用 ASP.NET 编写的 Hello RUNOOB.COM它是如何工作的?经典 ASP ASP.NET Web Forms - 服务器控件经典 ASP 的局限性ASP.NET - 服务器控件ASP.NET - HTML 服务器控件ASP.NET - Web 服务器控件ASP.N…

Linux 常见运营维护,从安装软件开始,到mysql,php,redis,tomcat等软件安装,配置,优化,持续更新中。。。

下载centos7 CentOS 7 完整版(DVD): https://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-2009.isoCentOS 7 最小化版(Minimal): https://mirrors.aliyun.com/centos/7/isos/x86_64/C…

用户界面软件05

已知应用 几乎所有的流行的用户界面架构都使用这种模式。我在这里举三个例子: 1. Seeheim 用户界面架构的特点是有一个应用核心的领域层和一个用户界面层。后者 被分为两层,叫做表示层和对话控制层。因为这个架构和面向事务系统有渊源,没有…

从玩具到工业控制--51单片机的跨界传奇【2】

咱们在上一篇博客里面讲解了什么是单片机《单片机入门》,让大家对单片机有了初步的了解。我们今天继续讲解一些有关单片机的知识,顺便也讲解一下我们单片机用到的C语言知识。如果你对C语言还不太了解的话,可以看看博主的C语言专栏哟&#xff…

LVGL移植高通点阵字库GT30L24A3W

字库芯片: GT30L24A3W MCU:STM32F429 LVGL版本:V8.4 一、实现gt_read_data() 和 r_dat_bat() 请参考下面视频 如何在32位MCU上使用高通点阵字库_哔哩哔哩_bilibili 高通字库使用教程(1)硬件链接与注意事项部分_哔哩哔哩_bilibili 高通字库使用教程(2)SPI底层函数使用_哔哩…

C# OpenCV机器视觉:转速测量

在一个看似平常却又暗藏神秘能量的日子里,阿杰正在他那充满科技感的实验室里,对着一堆奇奇怪怪的仪器发呆。突然,手机铃声如一道凌厉的剑气划破寂静,原来是工厂的赵厂长打来的紧急电话:“阿杰啊,咱们工厂新…

【Vue】Vue组件--上

目录 一、组件基础 二、组件的嵌套关系 1. 基础架构 2. 嵌套 三、组件注册方式 1. 局部注册: 2. 全局注册: 四、组件传递数据 1. 基础架构 2. 传递多值 3. 动态传递数据 五、组件传递多种数据类型 1. Number 2. Array 3. Object 六、组…