OpeneBayes 教程上新 | 打败 GPT-4V?超强开源多模态大模型 LLaVA-OneVision 正式上线!

大语言模型(Large Language Model,简称 LLM)与多模态大模型(Large Multimodal Model,简称 LMM)是人工智能领域的两个核心发展方向。 LLM 主要致力于处理和生成文本数据,而 LMM 则更进一步,它旨在整合和理解包括文本、图片、视频在内的多种数据类型。如今,LLM 已经相对成熟,ChatGPT 等在文字理解方面已经「对答如流」,人们开始将目光转移到多模态数据的理解上,令模型能够「读图、看视频」。

近期,来自字节跳动、南洋理工大学、香港中文大学和香港科技大学的研究人员共同开源了 LLaVA-OneVision 多模态大模型,该模型在单图像、多图像和视频任务中均展现出了卓越的性能。专为多模态大型模型设计的评估框架 LMMs-Eval 中显示,LLaVA-OneVision-72B 在大多数基准上优于 GPT-4V 和 GPT-4o,如下图所示:

在这里插入图片描述

LLaVA-OneVision 在视频基准测试中的性能表现

在这里插入图片描述

LLaVA-OneVision 在多图像基准测试中的性能表现

「LLaVA-OneVision 多模态全能视觉模型 Demo」已上线至 OpenBayes 公共教程界面, 用户只需一键克隆启动,即可轻松处理多样化的视觉任务,无论是静态图像的分析还是动态视频的解析,它都能够提供高质量的输出。

教程地址:

https://go.openbayes.com/SP4pY

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com,在「公共教程」页面,选择「LLaVA-OneVision 多模态全能视觉模型 Demo」。

在这里插入图片描述

  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

在这里插入图片描述

  1. 点击右下角「下一步:选择算力」。

在这里插入图片描述

  1. 页面跳转后,选择「NVIDIA RTX A6000」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):https://go.openbayes.com/9S6Dr

在这里插入图片描述

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

因模型过大,容器显示运行中后,需要稍微等待 1 分钟左右的时间再打开 API 地址,否则会显示 BadGateway。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

02 效果演示

  1. 打开 Demo 界面后,我们先来测试一下它对于图片的理解能力,在红框区域上传 3 张不同情绪的照片,并输入我们的问题「Which image expresses the emotion of fear?」,可以看到它准确的回答了我们的问题,并且提供了图片的描述 (The first image, which shows a woman with her hands on her head and an expression of shock or fear, expresses the emotion of fear)。

在这里插入图片描述

图 1 为害怕;图 2 为开心;图 3 为伤心

在这里插入图片描述

在这里插入图片描述

  1. 它对于视频的理解能力也是十分优秀的,上传一段奥运会跑步比赛的精彩合集视频,询问「What is this video about?」,可以看到它能够准确的回答出比赛的项目并表述视频场景和细节,例如运动员的肤色,情绪以及体育场周围的赞助商标。

在这里插入图片描述

回答翻译:

这段视频似乎是田径赛事的剪辑,主要为 100 米短跑。它展示了运动员们在起跑器上准备比赛,其中一位运动员穿着黄色和绿色的服装,这暗示他可能代表牙买加,因为这些是牙买加国旗的颜色。视频捕捉了运动员们准备起跑时的紧张和专注,他们从起跑器上推起的起始动作,以及随后在跑道上的冲刺。运动员们穿着表明他们国家队或赞助商的制服,体育场周围可以看到各种赞助商的标志,如 TOYOTA 和 TDK。视频还包括对运动员脸部的特写,展示了他们的专注和决心。最后的画面显示运动员们全力冲刺,其中一位运动员领先于其他选手,暗示着一场竞争激烈的比赛正在进行。

新用户福利

注册福利: 点击下方邀请链接注册,即可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长,永久有效!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56427.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git-本地项目同步到远程仓库

一、Git初始化项目 git initgit init 是 Git 中用于初始化一个新仓库的命令,通常用来在现有目录中创建一个 Git 仓库或重新初始化一个现有的 Git 仓库。通过 git init,你可以将一个普通的目录转变为 Git 受控的项目目录。 在当前目录中初始化一个新的 …

CesiumLab介绍

软考鸭小程序 学软考,来软考鸭! 提供软考免费软考讲解视频、题库、软考试题、软考模考、软考查分、软考咨询等服务 CesiumLab是一个围绕Cesium平台设计的完整易用的数据预处理工具集,它旨在最大化提升三维数据可视化效率。本文将详细介绍CesiumLab的安装、主要功能…

【JavaSE】图书系统

目录 当我们学习完Java的语法后,可以写一个简单的项目进行总结梳理一下,这个项目也会用到我们所学过的Java所有的语法知识:目录是咱们用文件夹包装起来的类。 1.book 在面向对象体系中,提出了一个软件包的概念,即&am…

electron-vite_6js-cookie失效

我们项目是用了js-cookie,后续集成的时候发现,无法进入首页;经过排查是js-cookie无法使用,可能是electron打包后的项目运行的时候是file:/// 猜测原因:因为Cookie是与域名相关联的,而file:///协议没有域名&…

k8s微服务

一 、什么是微服务 用控制器来完成集群的工作负载,那么应用如何暴漏出去?需要通过微服务暴漏出去后才能被访问 Service是一组提供相同服务的Pod对外开放的接口。 借助Service,应用可以实现服务发现和负载均衡。 service默认只支持4层负载均…

斯坦福大学提出电影剧本可视化工具ScriptViz:能够根据剧本中的文本和对话自动检索相关的电影画面,帮助剧作家更好地构思和调整剧情

title:斯坦福大学提出电影剧本可视化工具ScriptViz:能够根据剧本中的文本和对话自动检索相关的电影画面,帮助剧作家更好地构思和调整剧情 斯坦福大学的研究者们开发了一个电影剧本可视化工具ScriptViz工具,ScriptViz的工作原理可以简单地理解…

基于java SpringBoot和Vue校园食堂网站管理系统设计

摘要 本文旨在探讨一种基于Java Spring Boot和Vue框架的校园食堂网站管理系统的设计。首先,介绍了系统开发的背景及意义,即为了提高校园食堂的管理效率和改善学生的就餐体验。接着,详细阐述了系统的技术选型,包括后端采用Spring …

vue+ElementUI—实现基础后台管理布局(sideBar+header+appMain)(附源码)

后台管理的模板很多,vue本身就提供了完整的vue-template-admin,vue-admin-beautiful等后台管理系统化框架,但是这些框架正是因为成体系而显得繁重。假如你想搭建一个静态的后台管理模板页面和几个单独的菜单页面,直接就上框架是否…

C#源码安装ZedGraph曲线显示组件

在软件开发里,数据的显示,已经是软件开发的大头。 如果让数据更加漂亮地、智能地显示,就是软件的核心价值了。 因为不管数据千万条,关键在于用户看到图。因为一个图表,就可以表示整个数据的趋势, 或者整个数据的走向,数据频度和密码。所以图表显示是软件的核心功能,比如…

2.1.ReactOS系统中中断描述符表进行初始化

2.1.ReactOS系统中中断描述符表进行初始化 2.1.ReactOS系统中中断描述符表进行初始化 文章目录 2.1.ReactOS系统中中断描述符表进行初始化 VOID INIT_FUNCTION NTAPI KeInitExceptions(VOID) {ULONG i;USHORT FlippedSelector;extern KIDTEN…

【计网】从零开始理解UDP协议 --- 理解端口号和UDP结构

我依旧敢和生活顶撞, 敢在逆境里撒野, 直面生活的污水, 永远乐意为新一轮的月亮和日落欢呼。 --- 央视文案 --- 从零开始理解UDP协议 1 再谈端口号2 理解UDP 报头结构3 UDP 的特点4 UDP 的缓冲区5 UDP 使用注意事项 1 再谈端口号 之前我…

自然语言处理问答系统

自然语言处理(NLP)问答系统是一种自动化系统,旨在接收自然语言查询并提供相应的答案。以下是对自然语言处理问答系统的详细描述,包括其架构、关键组件、实现方法、挑战与解决方案等。 1. 系统架构 自然语言处理问答系统通常由以…

Ubuntu 24.04 在 BPI-F3 上通过 SD 卡安装并从 NVME 运行

github 代码: https://github.com/rcman/BPI-F3 Ubuntu 24.04 现在正在我的 BPI-F3 上运行。很快会为 YouTube 制作一个视频。 这应该适用于任何版本的 Linux,仅在 Ubuntu 24.04 上测试过 入门 下载 Bianbu映像并使用您最喜欢的工具将其映像到微型 SD 卡…

服务器、jvm、数据库的CPU飙高怎么处理

服务器 CPU 飙高处理 排查步骤: 监控工具:使用操作系统自带的监控工具,比如 top、htop、sar、vmstat 等,查看哪些进程占用了大量的 CPU 资源。进程排查:通过 top 等工具找到消耗 CPU 最高的进程,确定是哪…

如何在冻结的MSA内部更改q,k,v的形状

在冻结多头自注意力(MSA)层的参数的情况下,若希望更改 q(查询)、k(键)、v(值)的形状,可以通过修改这些矩阵的输出维度或重新排列它们的维度,而不需…

【MongoDB】mongodb | 部署 | 常用命令

一、概述 基于mongodb的tcp连接无数据上报,服务器强踢监测。 物联网项目,tcp协议,基于4G卡,设备由于某些原因会断开重连,但是tcp没有断开,导致tcp持续累加,浪费资源。 建立机制: 当t…

解决一个android service启动无法开文件的问题

问题描述 android hal层一般是通过service给系统提供服务的。一般需要将service配置为开机启动。调试阶段,我直接将service push到板卡上,进行调试,未出现问题无法开的问题。在最后集成完成后,放到板卡上,出现启动无法…

【win10】VMware Workstation 16安装win10专业版及安装VMware Tools操作说明

参考链接 VMware虚拟机安装win10系统教程(巨细)_vmware安装win10-CSDN博客https://blog.csdn.net/gdidea/article/details/129523700 win10专业版安装说明 下载win10安装包 百度网盘 链接: https://pan.baidu.com/s/1kf4ORdXYgcqwAz2j86LSZw?pwdk4…

MySQL-数据库的基础操作 o(´^`)o

文本目录: ❄️一、数据库操作: ☑ 1、查看所有的数据库: ☑ 2、创建数据库: ☑ 3、使用数据库: ☑ 4、删除数据库: ❄️二、常用的数据类型: ➷ 1、数值类型: ➷ 2、字符串类型&a…

【2D/3D-Lidar-SLAM】 Cartographer详细解读

【2D/3D-Lidar-SLAM】 Cartographer详细解读 1. 摘要2. Cartographer系统数据处理流程2.1. 数据获取(Input Sensor Data)2.2 姿态外推器(PoseExtrapolator)2.3 局部建图(Local SLAM) 3. 关键模块实现 3.1 局…