大语言模型(Large Language Model,简称 LLM)与多模态大模型(Large Multimodal Model,简称 LMM)是人工智能领域的两个核心发展方向。 LLM 主要致力于处理和生成文本数据,而 LMM 则更进一步,它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。
近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示,LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o,如下图所示:
LLaVA-OneVision 在视频基准测试中的性能表现
LLaVA-OneVision 在多图像基准测试中的性能表现
「LLaVA-OneVision 多模态全能视觉模型 Demo」已上线至 OpenBayes 公共教程界面, 用户只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。
教程地址:
https://go.openbayes.com/SP4pY
Demo 运行
01 Demo 运行阶段
1.登录 http://OpenBayes.com,在「公共教程」页面,选择「LLaVA-OneVision 多模态全能视觉模型 Demo」。
- 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
- 点击右下角「下一步:选择算力」。
- 页面跳转后,选择「NVIDIA RTX A6000」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
小贝总专属邀请链接(直接复制到浏览器打开):https://go.openbayes.com/9S6Dr
- 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。
02 效果演示
- 打开 Demo 界面后,我们先来测试一下它对于图片的理解能力,在红框区域上传 3 张不同情绪的照片,并输入我们的问题「Which image expresses the emotion of fear?」,可以看到它准确的回答了我们的问题,并且提供了图片的描述 (The first image, which shows a woman with her hands on her head and an expression of shock or fear, expresses the emotion of fear)。
图 1 为害怕;图 2 为开心;图 3 为伤心
- 它对于视频的理解能力也是十分优秀的,上传一段奥运会跑步比赛的精彩合集视频,询问「What is this video about?」,可以看到它能够准确的回答出比赛的项目并表述视频场景和细节,例如运动员的肤色,情绪以及体育场周围的赞助商标。
回答翻译:
这段视频似乎是田径赛事的剪辑,主要为 100 米短跑。它展示了运动员们在起跑器上准备比赛,其中一位运动员穿着黄色和绿色的服装,这暗示他可能代表牙买加,因为这些是牙买加国旗的颜色。视频捕捉了运动员们准备起跑时的紧张和专注,他们从起跑器上推起的起始动作,以及随后在跑道上的冲刺。运动员们穿着表明他们国家队或赞助商的制服,体育场周围可以看到各种赞助商的标志,如 TOYOTA 和 TDK。视频还包括对运动员脸部的特写,展示了他们的专注和决心。最后的画面显示运动员们全力冲刺,其中一位运动员领先于其他选手,暗示着一场竞争激烈的比赛正在进行。
新用户福利
注册福利: 点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!
小贝总专属邀请链接(直接复制到浏览器打开):
https://go.openbayes.com/9S6Dr