OpeneBayes 教程上新 | 打败 GPT-4V？超强开源多模态大模型 LLaVA-OneVision 正式上线！

大语言模型（Large Language Model，简称 LLM）与多模态大模型（Large Multimodal Model，简称 LMM）是人工智能领域的两个核心发展方向。 LLM 主要致力于处理和生成文本数据，而 LMM 则更进一步，它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今，LLM 已经相对成熟，ChatGPT 等在文字理解方面已经「对答如流」，人们开始将目光转移到多模态数据的理解上，令模型能够「读图、看视频」。

近期，来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型，该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示，LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o，如下图所示：

在这里插入图片描述

LLaVA-OneVision 在视频基准测试中的性能表现

在这里插入图片描述

LLaVA-OneVision 在多图像基准测试中的性能表现

「LLaVA-OneVision 多模态全能视觉模型 Demo」已上线至 OpenBayes 公共教程界面， 用户只需一键克隆启动，即可轻松处理多样化的视觉任务，无论是静态图像的分析还是动态视频的解析，它都能够提供高质量的输出。

教程地址：

https://go.openbayes.com/SP4pY

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com，在「公共教程」页面，选择「LLaVA-OneVision 多模态全能视觉模型 Demo」。

在这里插入图片描述

页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

在这里插入图片描述

点击右下角「下一步：选择算力」。

在这里插入图片描述

页面跳转后，选择「NVIDIA RTX A6000」以及「PyTorch」镜像，点击「下一步：审核」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

小贝总专属邀请链接（直接复制到浏览器打开）：https://go.openbayes.com/9S6Dr

在这里插入图片描述

确认无误后，点击「继续执行」，等待分配资源，首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」边上的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

因模型过大，容器显示运行中后，需要稍微等待 1 分钟左右的时间再打开 API 地址，否则会显示 BadGateway。

在这里插入图片描述

02 效果演示

打开 Demo 界面后，我们先来测试一下它对于图片的理解能力，在红框区域上传 3 张不同情绪的照片，并输入我们的问题「Which image expresses the emotion of fear?」，可以看到它准确的回答了我们的问题，并且提供了图片的描述 (The first image, which shows a woman with her hands on her head and an expression of shock or fear, expresses the emotion of fear)。

在这里插入图片描述

图 1 为害怕；图 2 为开心；图 3 为伤心

在这里插入图片描述

它对于视频的理解能力也是十分优秀的，上传一段奥运会跑步比赛的精彩合集视频，询问「What is this video about?」，可以看到它能够准确的回答出比赛的项目并表述视频场景和细节，例如运动员的肤色，情绪以及体育场周围的赞助商标。

在这里插入图片描述

回答翻译：

这段视频似乎是田径赛事的剪辑，主要为 100 米短跑。它展示了运动员们在起跑器上准备比赛，其中一位运动员穿着黄色和绿色的服装，这暗示他可能代表牙买加，因为这些是牙买加国旗的颜色。视频捕捉了运动员们准备起跑时的紧张和专注，他们从起跑器上推起的起始动作，以及随后在跑道上的冲刺。运动员们穿着表明他们国家队或赞助商的制服，体育场周围可以看到各种赞助商的标志，如 TOYOTA 和 TDK。视频还包括对运动员脸部的特写，展示了他们的专注和决心。最后的画面显示运动员们全力冲刺，其中一位运动员领先于其他选手，暗示着一场竞争激烈的比赛正在进行。

新用户福利

注册福利： 点击下方邀请链接注册，即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长，永久有效！

小贝总专属邀请链接（直接复制到浏览器打开）：

https://go.openbayes.com/9S6Dr

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/56427.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！