Twelve Labs:专注视频理解,像人类一样理解视频内容

在当今数字化世界中,视频已成为人们获取信息和娱乐的主要方式之一。

AI视频生成领域的竞争也很激烈,Pika、Sora、Luma AI以及国内的可灵等,多模态、视频生成甚至也被视为大模型发展的某种必经之路。然而,与文本生成相比,视频生成模型与实际场景的距离似乎更为遥远,Sora在2月份的事件中引起了广泛关注,但至今还未对公众开放试用。

除了视频的生成,视频的理解速度实际上更快,并且在当前阶段也成为了吸引投资的热门领域。

今天要介绍的这家新兴公司Twelve Labs是其中的标志性企业,它成功获得了英伟达的资金支持,并且同时被CB Insights和Fast Company评为最具创新力的AI搜索公司之一。Twelve Labs凭借其先进的技术,致力于打造多模态视频搜索引擎,为用户提供更智能、更高效的视频搜索体验。

959c38bfd959279ba4a9b399f5fb8f27.jpeg

产品介绍

Twelve Labs的目标是,让视频的处理和搜索变得和文本一样容易。

主要观点:

场景式视频内容理解是主流:增加视频数据和高质量视频内容是未来 AIGC 在媒体和娱乐领域规模化采用的基础,场景式理解视频内容 (Context Understanding of Video) 将会成为技术主流。视频内容处理可以细化到每一个瞬间,大大提高了视频内容在不同社交平台的传播效率。AI原生产品的丝滑体验感:自动化视频数据标注和数据生成可以极大的降低成本,把劳动力从重复性的工作中解放出来。Twelve Labs 把标注,搜索和生成端到端的设计起来,创造了极优的产品体验。

产品简介:

Twelve Labs 是一个人工智能平台,帮助开发者创建视频搜索和生成能力。该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

产品功能

Twelve Labs的核心技术是开发多模态的AI大模型,能够像人类一样理解视频内容。它通过三个步骤自动搜索,分类和生成来简化用户的工作流程,但其中包括了几种主要的产品功能,只需通过对接 API 就可以使用:

1、视频搜索

此模型分析视频的语义内容(Sematic search),包括视频,音频,Logo 等数字材料,文字等全面分析场景关联性,以实现高效且准确的特定视频片段检索,帮助用户在无需观看完整内容的情况下精准搜索到大量来自 Youtube, Tiktok,Reels 等视频库的材料。传统的视频搜索主要都是基于标题和特定标签信息来完成的,而 Twelve Labs 的产品可以根据对视频包括音频内容的理解和用户输文字的语义来进行定位。

eceb40bb83a78c36d45466ab36b00975.jpeg

2、视频分类

如果你是一个视频内容平台如抖音,数据库里有海量的视频资源,你有很多的用户,但是每个用户可能只对其中一类或者几类视频感兴趣。那如何只推送用户喜欢的内容呢?传统的内容推荐大多都是根据用户的偏好设置和用户行为数据,根据视频的标题和标签进行匹配来进行的。这种推荐的结果一般初期效果比较差,并且带有很强的不确定性。这个基于AI大模型的分类功能除了能很好地完成个性化内容推荐任务,还可以做精准广告投放,公司内部视频资源的整理。它通过分析视频中的语义特征、对象和动作,将视频自动分类为预定义的类别,如体育、新闻、娱乐或纪录片。这增强了内容发现能力,并提供个性化推荐。同时,此功能基于内容相似性对视频进行分组,而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息,便于测量相似性并将相似视频进行归类。

0b3cd9f41b9d1e4d9f6336491d3c779b.jpeg

3、视频-语言建模

该功能集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。还可以在生成的视频上自由修改和插入视频内容,有提供用户利用细分赛道数据的微调模型的功能,例如客户会需要微调「茄瓜沙律」为「鸡胸肉沙律」。

fbdcb5a49f4a658d7dbf2ac50b712808.jpeg

Twelve Labs商业模式主要做ToB的业务,比如视频内容提供商,媒体资产管理,执法部门的数字证据管理等,目前已经与Vidispine、EMAM、Blackbird等公司建立深度合作。

4、视频描述和摘要

这个模型能够生成自然语言的描述以及视频的简洁摘要,从而捕获关键的信息和重要的时刻。在此基础上,结合深度学习算法实现对语义内容进行理解分析,并以文本形式呈现给用户。特别是对于那些有视觉问题或时间受限的用户来说,这种方法增强了理解能力和参与度。同时,该系统提供一种基于语音识别技术的个性化视频分享平台。你还可以利用自定义的prompt工具来创建具有不同重点的长篇视频总结、故事或自媒体文章等内容。

52be68c4eb84ebbbd5d2908308ef6290.jpeg

产品优势

为了实现大规模莫场景式视频理解搜索和生成,Twelve Labs 建立了两个视频语言大模型,奠定了极大的技术优势:

Pegasus-1(800 亿参数)是 Twelve Labs 的视频语言模型(Video-to-Text),通过「视频优先」策略确保卓越的视频理解,具有高效的长视频处理、多模态理解、原生视频嵌入和深度视频语言对齐的优点。凭借 800 亿参数并在 3 亿视频-文本对的大型数据集上进行训练,它显著超越了之前的模型。在 MSR-VTT 数据集上显示出 61% 的提升,在视频描述数据集上提升了 47%。与 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1 的性能提升高达 188%,在视频转文本的准确性和效率上设立了新标准。

9adf8cb3a5dcdb4c02fe2bd2e2cab2e8.jpeg

Marengo-2.6 是一款最先进的多模态基础模型,擅长执行文本到视频、文本到图像和文本到音频等任意搜索任务。它在 MSR-VTT 数据集上比 Google 的 VideoPrism-G 高出 10%,在 ActivityNet 数据集上高出 3%。具备先进的零样本检索能力,超越现有模型在理解和处理视觉内容上的表现。其多功能性还包括跨模态任务,如音频到视频和图像到视频。该模型通过重新排序模型实现了增强的时间定位,确保更精确的搜索结果,展示了在多种模态下令人印象深刻的感知推理能力。

519b45a9179c5c043757df0db4253b3b.jpeg

小结

除了Twelve Labs之外,谷歌以及微软和亚马逊也推出了能够提供 API 级、人工智能驱动的服务的产品,这些服务可以识别视频中的对象、位置和动作,并在帧级提取丰富的元数据。随着这些技术的不断进步,我们可以预见,未来在视频理解领域的竞争将变得异常激烈。我们正站在一个由 AI 技术引领的新时代的门槛上。在这个时代,视频不再仅仅是动态的视觉记录,而是智能理解与深度学习技术融合的前沿。总之,Twelve Labs凭借其多模态视频搜索引擎,正在改变我们处理和获取视频信息的方式,为数字世界带来更为便捷、智能的体验。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0712_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/870897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析发生 OOM 的三大场景

深入解析 OOM 的三大场景 什么是 OOM?一、堆内存溢出 ( Heap OOM )原因分析解决方案 二、栈内存溢出(Stack OOM)原因分析解决方案 三、方法区内存溢出(Metaspace OOM)原因分析解决方案 在Java应用程序开发中&#xff0…

记录一次Nginx的使用过程

一、Docker安装配置nginx 1.拉取镜像 docker pull nginx2.创建挂载目录 启动前需要先创建Nginx外部挂载目录文件夹 主要有三个目录 conf:配置文件目录log:日志文件目录html:项目文件目录(这里可以存放web文件) 创建挂…

oslo_i18n学习小结

背景 代码均为开源代码 基于yoga版本,需要对openstack某服务做翻译,了解到oslo_i18n有翻译功能,配置oslo_i18n来给组件进行翻译 用法 用法 每个服务自己会带一个i18n.py的文件,如果要对日志进行翻译,从i18n导入_&…

逆变-TI视频课笔记

目录 1、全桥逆变 1.1、全桥逆变SPWM仿真 2、半桥逆变 2.1、本课小结 3、多重逆变(间接的“交-直-交-直”变流) 3.1、多电平逆变的目的 3.2、单逆变桥 3 电平控制时序 3.3、大功率设备的功率因数 3.4、本课小结 视频链接:文字…

Zed 编辑器发布了原生 Linux 版本

由 Rust 编写、GPU 加速的 Zed 文本编辑器终于提供了正式的 Linux 原生版本!在过去的几个月里,Zed 的 Linux 支持取得了长足的进步,现在已经进入了更正式的阶段。 今天,这款由前 Atom 开发人员创建的现代开源代码编辑器现在在 Li…

vue vite+three在线编辑模型导入导出

文章目录 序一、1.0.0版本1.新增2.编辑3.导出4.导入 二、2.0.0版本1. 修复模型垂直方向放置时 模型会重合4. 修复了导出导入功能 现在是1:1导出导入5. 新增一个地面 视角看不到地下 设置了禁止编辑地面 地面设置为圆形6. 新增功能 可选择基本圆形 方形 圆柱形等模型以及可放置自…

网络 闲聊

闲谈 闲话 网络安全——>网络空间安全 网络空间:一个由信息基础设备组成互相依赖的网络 继:海、陆、空、天、的第五大空间 信息安全的一个发展: 通信保密阶段---计算机安全---信息系统安全---网络空间安全 棱镜门事件 棱镜计划&…

Java中的Set系列集合超详解

Set List是有序集合的根接口,Set是无序集合的根接口,无序也就意味着元素不重复。更严格地说,Set集合不包含一对元素e1和e2 ,使得e1.equals(e2) ,并且最多一个空元素。   使用Set存储的特点与List相反:元素…

腾讯云如何设置二级域名?

什么是二级域名? 例如我已申请的域名为: test.com //顶级域名 现在我开发的应用要部署到二级域名: blog.test.com 1、打开腾讯云控制台的我的域名,然后点击解析 2、在我的解析页面点击添加记录,然后需注意红色方框处…

生物素标记的柚皮苷探针;Biotin-Naringin

生物素标记的柚皮苷探针(Biotin-Naringin)是一种结合了生物素(Biotin)和柚皮苷(Naringin)特性的化合物,它在有机合成及药物化学技术领域具有重要意义。以下是对该探针的详细解析: 一…

秋招Java后端开发冲刺——Mybatis

一、基本知识 1. 介绍 MyBatis 是 Apache 的一个开源项目,它封装了 JDBC,使开发者只需要关注 SQL 语句本身,而不需要再进行繁琐的 JDBC 编码。MyBatis 可以使用简单的 XML 或注解来配置和映射原生类型、接口和 Java POJO(Plain …

Everything搜索无法搜索到桌面的文件(无法检索C盘 或 特定路径的文件)

现象描述 在Everything搜索框中输入桌面已存在的文件或随便已知位置的文件,无法找到。 搜索时检索结果中明显缺少部分磁盘位置的,例如无法检索C盘,任意关键字搜索时结果中没有位于C盘的,无论怎样都搜不到C盘文件。 解决方法 在…

图像识别和目标检测在超市电子秤上的应用

目录 前言深度学习的目标检测图像识别技术视觉秤的优势其他应用场景中的技术应用未来展望 前言 随着科技的不断发展,电子秤在生鲜超市中的应用也在不断升级。传统的电子秤需要打秤人员手动输入秤码,这不仅耗时费力,还需要大量的培训以记住各…

工业大数据是什么?应用工业大数据时面临哪些挑战?

在当今快速发展的工业领域,大数据已成为推动企业转型升级的核心动力。工业大数据,以其独特的价值和潜力,正逐渐改变着传统的生产、管理和决策模式。然而,伴随着大数据的快速发展,一系列挑战也随之浮现。本文将深入探讨…

算法日常练习

对于这个题&#xff0c;如何处理同一个方向的问题&#xff0c;且对于同一组的如果间隔太大如何实现离散化 #include<bits/stdc.h> using namespace std;#define int long long typedef long long ll; map<pair<int,int>,vector<pair<ll,ll>>> mp…

关于机械键盘的购买,该怎么选择?

一.关于轴体的选择。 1.青轴&#xff1a;青轴是机械键盘最有段落感的轴&#xff0c;声音比较大&#xff0c;以吵死人别人著称。有人将其比喻为Cherry的春天&#xff0c;爽快清脆的段落感如春天般舒畅。适合在宿舍、咖啡厅&#xff0c;图书馆使用。&#xff08;我装的 &#xf…

linux源码安装mysql8.0的小白教程

1.下载8.x版本的mysql MySQL :: Download MySQL Community Server (Archived Versions) 2.安装linux 我安装的是Rocky Linux8.6 3.设置ip地址,方便远程连接 使用nmcli或者nmtui设置或修改ip地址 4.使用远程连接工具MobaXterm操作: (1)将mysql8版本的压缩包上传到mybaxterm…

一图看懂 | 蓝卓油气行业解决方案

我国是全球最大的能源消费国&#xff0c;保障国家能源安全是我国能源发展的首要任务&#xff0c;油气作为我国能源体系的重要组成部分&#xff0c;是支撑我国工业和经济社会发展的基础和“压舱石&#xff0c;也是必须筑牢的能源安全底线。 蓝卓根据油气田行业发展趋势&#xf…

前端实现一键复制功能

1、下载插件 npm i vue-clipboard32.0.0 2、在需要复制的文件中引入插件并使用&#xff1a; JS: import useClipboard from "vue-clipboard3"; const { toClipboard } useClipboard(); HTML: <el-tooltip content"复制内容" placement"top&…

自然语言处理基本概念

自然语言处理基本概念 所有学习循环神经网络的人都是看这一篇博客长大的&#xff1a; https://colah.github.io/posts/2015-08-Understanding-LSTMs/ import jieba import torch from torch import nns1 "我吃饭了&#xff01;" s2 "今天天气很好&#xff01…