Twelve Labs:专注视频理解,像人类一样理解视频内容

在当今数字化世界中,视频已成为人们获取信息和娱乐的主要方式之一。

AI视频生成领域的竞争也很激烈,Pika、Sora、Luma AI以及国内的可灵等,多模态、视频生成甚至也被视为大模型发展的某种必经之路。然而,与文本生成相比,视频生成模型与实际场景的距离似乎更为遥远,Sora在2月份的事件中引起了广泛关注,但至今还未对公众开放试用。

除了视频的生成,视频的理解速度实际上更快,并且在当前阶段也成为了吸引投资的热门领域。

今天要介绍的这家新兴公司Twelve Labs是其中的标志性企业,它成功获得了英伟达的资金支持,并且同时被CB Insights和Fast Company评为最具创新力的AI搜索公司之一。Twelve Labs凭借其先进的技术,致力于打造多模态视频搜索引擎,为用户提供更智能、更高效的视频搜索体验。

959c38bfd959279ba4a9b399f5fb8f27.jpeg

产品介绍

Twelve Labs的目标是,让视频的处理和搜索变得和文本一样容易。

主要观点:

场景式视频内容理解是主流:增加视频数据和高质量视频内容是未来 AIGC 在媒体和娱乐领域规模化采用的基础,场景式理解视频内容 (Context Understanding of Video) 将会成为技术主流。视频内容处理可以细化到每一个瞬间,大大提高了视频内容在不同社交平台的传播效率。AI原生产品的丝滑体验感:自动化视频数据标注和数据生成可以极大的降低成本,把劳动力从重复性的工作中解放出来。Twelve Labs 把标注,搜索和生成端到端的设计起来,创造了极优的产品体验。

产品简介:

Twelve Labs 是一个人工智能平台,帮助开发者创建视频搜索和生成能力。该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。

产品功能

Twelve Labs的核心技术是开发多模态的AI大模型,能够像人类一样理解视频内容。它通过三个步骤自动搜索,分类和生成来简化用户的工作流程,但其中包括了几种主要的产品功能,只需通过对接 API 就可以使用:

1、视频搜索

此模型分析视频的语义内容(Sematic search),包括视频,音频,Logo 等数字材料,文字等全面分析场景关联性,以实现高效且准确的特定视频片段检索,帮助用户在无需观看完整内容的情况下精准搜索到大量来自 Youtube, Tiktok,Reels 等视频库的材料。传统的视频搜索主要都是基于标题和特定标签信息来完成的,而 Twelve Labs 的产品可以根据对视频包括音频内容的理解和用户输文字的语义来进行定位。

eceb40bb83a78c36d45466ab36b00975.jpeg

2、视频分类

如果你是一个视频内容平台如抖音,数据库里有海量的视频资源,你有很多的用户,但是每个用户可能只对其中一类或者几类视频感兴趣。那如何只推送用户喜欢的内容呢?传统的内容推荐大多都是根据用户的偏好设置和用户行为数据,根据视频的标题和标签进行匹配来进行的。这种推荐的结果一般初期效果比较差,并且带有很强的不确定性。这个基于AI大模型的分类功能除了能很好地完成个性化内容推荐任务,还可以做精准广告投放,公司内部视频资源的整理。它通过分析视频中的语义特征、对象和动作,将视频自动分类为预定义的类别,如体育、新闻、娱乐或纪录片。这增强了内容发现能力,并提供个性化推荐。同时,此功能基于内容相似性对视频进行分组,而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息,便于测量相似性并将相似视频进行归类。

0b3cd9f41b9d1e4d9f6336491d3c779b.jpeg

3、视频-语言建模

该功能集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。还可以在生成的视频上自由修改和插入视频内容,有提供用户利用细分赛道数据的微调模型的功能,例如客户会需要微调「茄瓜沙律」为「鸡胸肉沙律」。

fbdcb5a49f4a658d7dbf2ac50b712808.jpeg

Twelve Labs商业模式主要做ToB的业务,比如视频内容提供商,媒体资产管理,执法部门的数字证据管理等,目前已经与Vidispine、EMAM、Blackbird等公司建立深度合作。

4、视频描述和摘要

这个模型能够生成自然语言的描述以及视频的简洁摘要,从而捕获关键的信息和重要的时刻。在此基础上,结合深度学习算法实现对语义内容进行理解分析,并以文本形式呈现给用户。特别是对于那些有视觉问题或时间受限的用户来说,这种方法增强了理解能力和参与度。同时,该系统提供一种基于语音识别技术的个性化视频分享平台。你还可以利用自定义的prompt工具来创建具有不同重点的长篇视频总结、故事或自媒体文章等内容。

52be68c4eb84ebbbd5d2908308ef6290.jpeg

产品优势

为了实现大规模莫场景式视频理解搜索和生成,Twelve Labs 建立了两个视频语言大模型,奠定了极大的技术优势:

Pegasus-1(800 亿参数)是 Twelve Labs 的视频语言模型(Video-to-Text),通过「视频优先」策略确保卓越的视频理解,具有高效的长视频处理、多模态理解、原生视频嵌入和深度视频语言对齐的优点。凭借 800 亿参数并在 3 亿视频-文本对的大型数据集上进行训练,它显著超越了之前的模型。在 MSR-VTT 数据集上显示出 61% 的提升,在视频描述数据集上提升了 47%。与 Whisper-ChatGPT 等 ASR+LLM 模型相比,Pegasus-1 的性能提升高达 188%,在视频转文本的准确性和效率上设立了新标准。

9adf8cb3a5dcdb4c02fe2bd2e2cab2e8.jpeg

Marengo-2.6 是一款最先进的多模态基础模型,擅长执行文本到视频、文本到图像和文本到音频等任意搜索任务。它在 MSR-VTT 数据集上比 Google 的 VideoPrism-G 高出 10%,在 ActivityNet 数据集上高出 3%。具备先进的零样本检索能力,超越现有模型在理解和处理视觉内容上的表现。其多功能性还包括跨模态任务,如音频到视频和图像到视频。该模型通过重新排序模型实现了增强的时间定位,确保更精确的搜索结果,展示了在多种模态下令人印象深刻的感知推理能力。

519b45a9179c5c043757df0db4253b3b.jpeg

小结

除了Twelve Labs之外,谷歌以及微软和亚马逊也推出了能够提供 API 级、人工智能驱动的服务的产品,这些服务可以识别视频中的对象、位置和动作,并在帧级提取丰富的元数据。随着这些技术的不断进步,我们可以预见,未来在视频理解领域的竞争将变得异常激烈。我们正站在一个由 AI 技术引领的新时代的门槛上。在这个时代,视频不再仅仅是动态的视觉记录,而是智能理解与深度学习技术融合的前沿。总之,Twelve Labs凭借其多模态视频搜索引擎,正在改变我们处理和获取视频信息的方式,为数字世界带来更为便捷、智能的体验。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0712_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/870897.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ajax使用formdata上传通过原始input[type=‘file‘]选择的文件

HTML代码 <input id"daoruInput" type"file"/> JS代码 var formdata new FormData(); formdata.append("file", $("#daoruInput")[0].files[0])$.ajax({url: "xx.xx/upload",type: "POST",dataType: &q…

[ptrade交易实战] 第十二篇 其他信息获取函数 (2)

前言 今天主要讲的是除了板块信息和股票信息之外的其他信息如何获取的函数&#xff01;还是分几个部分来讲 具体的开通渠道可以看文章末尾&#xff01; 一、get_deliver —— 获取历史交割单信息 get_deliver(start_date, end_date) 这个函数用来获取账户历史交割单信息。…

深入解析发生 OOM 的三大场景

深入解析 OOM 的三大场景 什么是 OOM&#xff1f;一、堆内存溢出 ( Heap OOM )原因分析解决方案 二、栈内存溢出&#xff08;Stack OOM&#xff09;原因分析解决方案 三、方法区内存溢出&#xff08;Metaspace OOM&#xff09;原因分析解决方案 在Java应用程序开发中&#xff0…

python实现http get pos download

python实现http get post download 使用requests, 加上重试机制,超时机制. #!/usr/bin/python3 # -*- coding: UTF-8 -*-import requests import sys import json import os import logging import timedef httpGet(urlStr, headers None, params None, data None, isRaise…

记录一次Nginx的使用过程

一、Docker安装配置nginx 1.拉取镜像 docker pull nginx2.创建挂载目录 启动前需要先创建Nginx外部挂载目录文件夹 主要有三个目录 conf&#xff1a;配置文件目录log&#xff1a;日志文件目录html&#xff1a;项目文件目录&#xff08;这里可以存放web文件&#xff09; 创建挂…

oslo_i18n学习小结

背景 代码均为开源代码 基于yoga版本&#xff0c;需要对openstack某服务做翻译&#xff0c;了解到oslo_i18n有翻译功能&#xff0c;配置oslo_i18n来给组件进行翻译 用法 用法 每个服务自己会带一个i18n.py的文件&#xff0c;如果要对日志进行翻译&#xff0c;从i18n导入_&…

逆变-TI视频课笔记

目录 1、全桥逆变 1.1、全桥逆变SPWM仿真 2、半桥逆变 2.1、本课小结 3、多重逆变&#xff08;间接的“交-直-交-直”变流&#xff09; 3.1、多电平逆变的目的 3.2、单逆变桥 3 电平控制时序 3.3、大功率设备的功率因数 3.4、本课小结 视频链接&#xff1a;文字…

算法训练(leetcode)第二十八天 | 509. 斐波那契数、70. 爬楼梯、746. 使用最小花费爬楼梯

刷题记录 509. 斐波那契数递归循环动态规划 70. 爬楼梯746. 使用最小花费爬楼梯 509. 斐波那契数 leetcode题目地址 递归 时间复杂度&#xff1a; O ( n ) O(n) O(n) 空间复杂度&#xff1a; O ( n ) O(n) O(n) // c class Solution { public:int fib(int n) {if(n<2)…

Kafka配置SSL信道加密

kafka配置SASL认证 Kafka单机配置SSL认证 使用脚本生成SSL证书 执行ssl.sh # 配置SSL配置文件 cp server.properties ssl.properties# 修改配置文件SSL内容 listenersSSL://kafka-test:9092 advertised.listenersSSL://kafka-test:9092 ssl.keystore.location/root/config/cer…

linux中vim切换输入中文

linux中vim切换输入中文 遇到问题 在虚拟机linux下vim 编辑器中注释的时候无法使用中文 解决方案 Linux系统中的vim编辑器中安装中文输入法软件包 1.在终端中输入以下命令 sudo apt-get install fcitx fcitx-bin fcitx-table-wubi fcitx-table-wbpy2. 安装完成后&#xf…

Zed 编辑器发布了原生 Linux 版本

由 Rust 编写、GPU 加速的 Zed 文本编辑器终于提供了正式的 Linux 原生版本&#xff01;在过去的几个月里&#xff0c;Zed 的 Linux 支持取得了长足的进步&#xff0c;现在已经进入了更正式的阶段。 今天&#xff0c;这款由前 Atom 开发人员创建的现代开源代码编辑器现在在 Li…

vue vite+three在线编辑模型导入导出

文章目录 序一、1.0.0版本1.新增2.编辑3.导出4.导入 二、2.0.0版本1. 修复模型垂直方向放置时 模型会重合4. 修复了导出导入功能 现在是1:1导出导入5. 新增一个地面 视角看不到地下 设置了禁止编辑地面 地面设置为圆形6. 新增功能 可选择基本圆形 方形 圆柱形等模型以及可放置自…

HUGS环境配置

1. 介绍 HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting 基于 RGB 图像对城市场景进行整体理解是一个具有挑战性但又很重要的问题。它包括理解几何和外观&#xff0c;以实现新颖的视图合成、解析语义标签和跟踪移动物体。尽管取得了长足的进步&#xf…

C# 的TaskScheduler

在C#中&#xff0c;TaskScheduler 是一个抽象类&#xff0c;用于控制任务的执行方式&#xff0c;特别是它们如何被安排到线程池中的线程上执行。 TaskScheduler 负责将 Task 对象排队并决定何时、以何种方式执行这些任务。 TaskScheduler 的作用 调度任务&#xff1a;将任务…

querylist多线程采集curlMulti时,报错Curl error(60)

前言 在使用querylist多线程采集的时候&#xff0c;报错: Curl error(60)。测试了下用http时没有问题&#xff0c;https时有问题。其原因在于多线程采集库引用的另一个库有问题。需要手动更改。 解决 找到&#xff1a;vendor/ares333/php-curl/src/Curl.php 文件&#xff0c…

网络 闲聊

闲谈 闲话 网络安全——>网络空间安全 网络空间&#xff1a;一个由信息基础设备组成互相依赖的网络 继&#xff1a;海、陆、空、天、的第五大空间 信息安全的一个发展&#xff1a; 通信保密阶段---计算机安全---信息系统安全---网络空间安全 棱镜门事件 棱镜计划&…

Visual Studio Code:深度解析与开发者的新宠

在计算机行业中&#xff0c;开发工具的选择至关重要&#xff0c;它直接影响到开发者的效率和项目的质量。近年来&#xff0c;Visual Studio Code&#xff08;简称VSCode&#xff09;凭借其强大的功能和灵活的定制性&#xff0c;在众多编辑器中脱颖而出&#xff0c;成为了开发者…

linux系统php开机自启动 phpfpm

1、关闭当前的php环境&#xff0c;运行命令&#xff0c;下面二选一&#xff0c;根据你自己情况来选 service php-fpm stop 或 systemctl stop php-fpm 2、运行命令vim /etc/systemd/system/phpfpm.service&#xff0c;输入以下代码,注意php-fpm路径需要改成自己的路径 [Unit]…

Redis原子计数器incr,防止并发请求

一、前言 在一些对高并发请求有限制的系统或者功能里&#xff0c;比如说秒杀活动&#xff0c;或者一些网站返回的当前用户过多&#xff0c;请稍后尝试。这些都是通过对同一时刻请求数量进行了限制&#xff0c;一般用作对后台系统的保护&#xff0c;防止系统因为过大的流量冲击…

Twitter API 使用教程:入门到实践

Twitter API为开发者提供了丰富的接口&#xff0c;用于访问Twitter上的公开数据和实现特定功能。从获取推文到用户认证&#xff0c;Twitter API在数据挖掘、社交分析和应用开发中扮演着重要角色。 关键词 Twitter API, 开发者指南&#xff0c;社交媒体&#xff0c;数据访问 …