视频图文理解关联技术与创业团队(二)

上一篇:google gemini1.5 flash视频图文理解能力初探(一)提到了gemini 1.5 flash 可以对视频进行理解以及分析,但是整体在检索任务上效果不佳。

这几天参加了人工智能大会 + 网上收集,看一看有相似能力的一些技术点、创业团队有哪些


1 联汇科技 - OmAgent

现场Live震撼!OmAgent框架强势开源!行业应用已全面开花
我们正处于 L2 级别,并逐步向 L3、L4 迈进的过程中。
在这里插入图片描述
联汇科技全新发布了第二代思考大模型 OmChat V2,一个基于多模态模型原生预训练的生成大模型,不仅提供 8B、40B、60B 多个版本,适配不同需求。更能非常好地支持视频、图文混合、文字等多种复杂输入,完美适配智能体决策过程中所需要的复杂场景。
在这里插入图片描述

OmChat V2 支持高达 512K、50 万的上下文长度,折合视频长度 30 分钟,仅次于 Google Gemin-1.5,并远超 GPT-4o 及微软 LLaVa-1.5。
OmChat V2 不仅能够看准时序关系,更能够看懂多图关系。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
通过 OmAgent,能够快速、准确解决各类场景下的复杂问题。比如,从影视剧中总找出某个问题的答案,尽管影片没有直接呈现答案,但是 OmAgent 依然可以通过对全片的整体理解,掌握剧情并根据原片内容进行思考、作答。

在这里插入图片描述


2 Twelve Labs

AI+视频 | Nvidia 投资的AI公司,通过视频理解开创感知推理,获顶级风投5000万美元融资

Twelve Labs,一家旧金山初创公司,是由一支年轻的工程师团队Jae Lee 和 Aiden L 创立,该产品可在视频中提取特定视频瞬间,包括视觉、音频、文本和上下文信息,以实现语义搜索、分析和洞察。该公司的愿景是创建用于多模式视频理解的基础设施,其自研模型可用于媒体分析并自动生成精彩片段。目前已被从多个顶级风投机构投资。
主要的产品功能,只需通过对接API就可以使用:

1、视频搜索

此模型分析视频的语义内容(Sematic search),包括视频,音频,Logo等数字材料,文字等全面分析场景关联性,以实现高效且准确的特定视频片段检索,帮助用户在无需观看完整内容的情况下精准搜索到大量来自Youtube, Tiktok,Reels等视频库的材料。

在这里插入图片描述
2、视频分类

该模型通过分析视频中的语义特征、对象和动作,将视频自动分类为预定义的类别,如体育、新闻、娱乐或纪录片。这增强了内容发现能力,并提供个性化推荐。同时,此功能基于内容相似性对视频进行分组,而不需要标签数据。它使用视频嵌入来捕捉视觉和时间信息,便于测量相似性并将相似视频进行归类。

图片
3、视频-语言建模

该功能集成文本描述和视频内容,使模型能够理解并生成基于文本的摘要、描述或对视频内容的响应。它弥合了视觉和文本理解之间的差距。

在这里插入图片描述

4、视频描述和摘要

该模型生成自然语言描述和视频的简明摘要,捕捉关键信息和重要时刻。这改善了理解力和参与度,尤其适用于有视力障碍或时间限制的用户。还可以通过自由定义的prompt来生成不同侧重点的长文字型的视频总结,故事或者自媒体文章等。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/868395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安全防御(防火墙)

第二天: 1.恶意程序---一般会具有一下多个或则全部特点 1.非法性:你未经授权它自动运行或者自动下载的,这都属于非法的。那恶意程序一般它会具有这种特点, 2.隐蔽性:一般隐藏的会比较深,目的就是为了防止…

【MySQL备份】Percona XtraBackup压缩备份实战篇

目录 1.前言 2.准备工作 2.1.环境信息 2.2.配置/etc/my.cnf文件 2.3.授予root用户BACKUP_ADMIN权限 2.4.安装qpress 3. 压缩备份 3.1.创建压缩备份 3.2.创建全量备份 3.3.对比两个备份的大小 4.解压备份 5.准备备份 6.备份恢复 ​7.问题分析 8.总结 "实战…

JavaScript 原型链那些事

在讲原型之前我们先来了解一下函数。 在JS中,函数的本质就是对象,它与其他对象不同的是,创建它的构造函数与创建其他对象的构造函数不一样。那产生函数对象的构造函数是什么呢?是一个叫做Function的特殊函数,通过newFu…

单片机软件架构连载(4)-结构体

枚举、指针、结构体,我愿称为C语言"三板斧"。 用人话来讲,几乎所有c语言高阶编程,都离不开这这3个知识点的应用。 今天站在实际产品常用的角度,给大家讲一下结构体。 1.结构体概念 结构体可以用来构建更复杂的数据结…

Rust入门实战 编写Minecraft启动器#3解析资源配置

首发于Enaium的个人博客 在上一篇文章中,我们已经建立了资源模型,接下来我们需要解析游戏的配置文件。 首先我们添加serde_json依赖和model依赖。 model { path "../model" } serde_json "1.0"之后我们在lib.rs中添加解析的tra…

用户画像与相关性分析揭示麦当劳满意度提升关键

1.项目背景 在当今的餐饮行业中,顾客满意度已成为衡量服务质量和市场竞争力的关键指标,准确了解并提升顾客满意度,对于麦当劳制定有效的营销策略和优化产品服务至关重要。通过深入分析影响顾客满意度的主要因素,可以帮助麦当劳更好地理解顾客行为,从而制定更有针对性的策…

springmvc前端jsp与html

在Spring MVC框架中,前端页面既可以使用JSP(JavaServer Pages)也可以使用HTML,具体使用哪一种或哪几种技术,主要取决于项目的需求、团队的熟悉度以及项目的可维护性等因素。下面分别介绍这两种技术的使用场景和优缺点&…

中霖教育怎么样?二建继续教育什么意思?

1. 为什么要继续教育? 根据现行规定,二级建设师在获取资格证书后,若时间超过三年无论是否已进行注册,均需参加继续教育。此举旨在确保专业技术人员能够不断更新和补充其专业知识与技能,进而提升其创新能力、创造能力以及专业技术…

事件mousePressEvent、paintEvent、closeEvent、keyPressEvent】

事件 mousePressEvent、paintEvent、closeEvent、keyPressEvent 鼠标样式的设置 按WSAD通过keyPressEvent事件移动按钮 通过事件mousePressEvent获取鼠标位置的相对位置,绝对位置 cusor 鼠标样式设置成十字星 .h #ifndef DEFAULTHANDLEREXAMPLE_H #define DEFAUL…

C++ 11 智能指针使用详解

文章目录 C++ 11 智能指针使用详解一、智能指针的介绍1. `std::unique_ptr`2. `std::shared_ptr`3. `std::weak_ptr`二、智能指针的基本使用方法1. 创建和初始化智能指针使用 `std::unique_ptr`:使用 `std::shared_ptr`:2. 访问指针指向的对象使用 `std::unique_ptr`:使用 `…

GANs算法简介、学习步骤及具体实现

生成对抗网络(Generative Adversarial Networks,GANs)自从2014年由Ian Goodfellow等人提出以来,已经成为深度学习领域中最活跃的研究方向之一。GAN的基本思想是利用两个神经网络——生成器(Generator)和判别…

供应MT7628AN芯片现货

长期供应各品牌芯片现货: MT7628AN VC7920-11 QM77043 QM78207 QM77043 SD18-0847R8UUB1 QM78207 QPF4588TR13-5K D5DA782M0K2J6 SAYRH725MBA0B0A QM56023TR13-5K D5DA737M5K2H2 HS8443-61 RF5422 QM56021TR13-5K S55643-11 OM8816-61…

做好私域服务就是赢得用户的心

私域流量的概念在当今的商业环境中已经变得极为重要,许多品牌和企业都投入大量资源尝试通过各种策略吸引并保留用户。然而,单纯的流量积累并不足以确保商业成功。当面对用户的沉默、缺乏活跃度以及无法变现的困境时,我们必须重新审视私域流量…

Perforce发布白皮书,解读电动汽车初创公司如何加速进入市场并降低软件开发中的风险和成本

电动汽车(EV)领域的初创企业正迅速崛起,创新速度显著加快。然而,随着消费者对电动汽车需求的激增,老牌汽车制造商正加速进军这一市场,加剧了行业竞争。为在竞争中生存并发展,电动汽车初创企业必…

硬盘错误0x80071ac3如何修复?5大免费修复法,轻松找回硬盘数据

今天我们要聊的是一个让大家头疼不已的问题——硬盘错误0x80071ac3。你是否也曾经遇到过这个烦人的错误代码,导致数据无法读取、文件丢失,甚至整个硬盘都无法正常使用?别担心今天小编就为大家详细解析这个错误的原因,并分享5个免费…

远程Linux机器图形化界面使用及音频转发

对于一些远程Linux云机器,一般我们在使用时通过各种ssh连接工具连接,并使用命令行方式操作,但是部分需要图形化界面验证的应用,必须需要使用到远程机器的图形化功能,本文记录总结一些跟远程使用Linux机器图形化界面以及…

27_电子电路设计基础

电路设计 电路板的设计 电路板的设计主要分三个步骤:设计电路原理图、生成网络表、设计印制电路板。 (1)设计电路原理图:将元器件按逻辑关系用导线连接起来。设计原理图的元件来源是“原理图库”,除了元件库外还可以由用户自己增加建立新的元件&#…

MySQL8之mysql-community-server的作用

MySQL8之mysql-community-server的作用主要体现在以下几个方面: 1. 提供开源的MySQL数据库服务 mysql-community-server是MySQL的一个开源版本,它是MySQL AB在2000年推出并由Oracle公司维护和管理的一个关系型数据库系统。这个服务器软件支持多种类型的…

WAIC | 2024年世界人工智能大会“数学与人工智能”学术会议成功举办!

由斯梅尔数学与计算研究院(Smale Institue of Mathematics & Computation)主办的2024年世界人工智能大会(WAIC)“数学与人工智能”学术会议7月4日在上海世博中心圆满落幕!作为全球性高级别学术研讨会,此次会议由华院计算技术&…

相机光学(二十八)——感光度(ISO)

感光度又称为ISO,是指相机对光线的敏感程度。ISO值越大,感光度越高,拍出来的照片就会越亮,反之就会越暗。但是ISO过高会使照片噪点也随之变高。感光度,又称为ISO值,是衡量底片对于光的灵敏程度,…