这个开源的多模态模型无敌。。。

InternVL 由 OpenGVLab 开发,是一个开源的多模态对话模型,其性能接近商业化的 GPT-4V 模型。

GPT-4V 是 OpenAI 去年推出的多模态模型,使用它你可以分析所需的任何类型的图像并获取有关该图像的信息。

2c5fe8e19876938b6acf662a8065ac23.png

1. InternVL 开源模型

而今天的主角研究成果 InternVL 发布在 CVPR 2024 上,并提供了多种模型版本以适应不同的应用场景,如 InternVL−Chat−V1.5 支持 4K 图像和强大的光学字符识别(OCR)功能。

开源地址:https://github.com/OpenGVLab/InternVL

2. 支持特性

InternVL 家族通过提供多种模型版本,支持从图像分类到多模态对话的多种功能。以下是一些关键特性:

多语言支持:InternVL 能够支持超过 110 种语言的生成。

高性能:在多个基准测试中,InternVL-Chat-V1.5 接近 GPT-4V 和 Gemini Pro 的性能。

多种模型选择:提供了不同参数规模的模型,从 6B 到 19B 不等,以适应不同的计算资源和应用需求。

跨模态检索:支持英文和中文的零样本图像-文本检索,以及多语言零样本图像-文本检索。

以下是 InternVL 在不同任务上的性能对比图:

2287c5278e24b33ee3a9e13da606083b.png

3. 效果怎么样?

我把上图给到开源模型,让他自己介绍一下图片中的内容:

1007ed9d2e8ede60a2ffd18f09fba185.png

算个数学题:

09f786ff8382481021ed2b2856e31e36.png

还能感知颜色:

c328e9ca6a46319dac2c02b59a41e344.png

智能 OCR:

ea917f7cfefd10734aedb7f4f4b2a18e.png

4. 代码示例

以下是使用 InternVL-Chat 模型进行单轮对话的示例代码:

from transformers import AutoTokenizer, AutoModel
import torch
import torchvision.transforms as T
from PIL import ImageIMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)def build_transform(input_size):MEAN, STD = IMAGENET_MEAN, IMAGENET_STDtransform = T.Compose([T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),T.Resize((input_size, input_size), interpolation=T.InterpolationMode.BICUBIC),T.ToTensor(),T.Normalize(mean=MEAN, std=STD)])return transform# 省略部分代码...model = AutoModel.from_pretrained("OpenGVLab/InternVL-Chat-V1-5",torch_dtype=torch.bfloat16,low_cpu_mem_usage=True,trust_remote_code=True).eval().cuda()tokenizer = AutoTokenizer.from_pretrained("OpenGVLab/InternVL-Chat-V1-5", trust_remote_code=True)pixel_values = load_image('./examples/image1.jpg', max_num=6).to(torch.bfloat16).cuda()generation_config = dict(num_beams=1,max_new_tokens=512,do_sample=False,
)# 单轮对话
question = "请详细描述图片"  # Please describe the picture in detail
response = model.chat(tokenizer, pixel_values, question, generation_config)
print(question, response)

历史盘点

逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目,欢迎 Star:

地址:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo

a58804aae2fe0c6d3298b8cce22037ac.png


推荐阅读

1. GitHub 上有什么好玩的项目?

2. 推荐 5 个本周很火的 GitHub 项目

3. 推荐 5 个近期火火火的 GitHub 项目

4.  推荐 5 个令人惊艳的 GitHub 项目

efc37365afa6b0c60af467536d0f1a58.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/18743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

香港苏州商会、香港青年科学家协会博士团参观李良济,加强人才交流,促进科创合作与共赢

近日,香港苏州商会、香港青年科学家协会联合主办的苏港青年科创交流会成功举行,香港青年科学家协会博士团神州行苏州站启动。 5月26日,香港苏州商会及香港青年科学家协会博士团走进李良济,先后参观了李良济中医药文化展厅&#xf…

2024年5月29号PMP每日三题含答案

2024年5月29号PMP每日三题含答案 1.一位团队成员通知项目经理有一个问题可能会破坏项目。项目经理将该问题添加到问题日志中,并要求团队找到解决方案。 项目经理下一步应该怎么做? A.更新风险登记册 B.修订项目管理计划 C.确定适当的风险应对 D.通知干系…

【图论】树的重心

树的重心 删去这一点后每一块中点数最为平均 统计以u为根的子树点数个数&#xff08;加上一个本身&#xff0c;从哪里来的&#xff09;&#xff0c;这里点都是一样的 s846. 树的重心 - AcWing题库 #include <iostream> #include <algorithm> #include <cst…

【Qt之·类QCoreApplication】

系列文章目录 文章目录 前言一、QCoreApplication的概述1.1 QCoreApplication的作用1.2 QCoreApplication在应用程序中的角色和功能1.3 QCoreApplication成员函数 二、QCoreApplication的常用功能2.1 事件循环的概念和作用2.2 处理应用程序事件循环2.3 QCoreApplication如何处理…

16、24年--信息系统工程——软件工程

本章主要靠选择题,4分左右,案例涉及概率不大,论文不会单独考,多看课本原文。 1、架构设计 软件架构为软件系统提供了一个结构、行为和属性的高级抽象,由构件的描述、构件的相互作用(连接件)、指导构件集成的模式以及这些模式的约束组成。软件架构不仅指定了系统的组织架…

前端面试题(14)|求职季面试题分享|答案

1、你知道Xss和Csrf攻击吗&#xff1f; - XSS(跨站脚本攻击)是指攻击者将恶意代码注入到网页中,当用户访问该页面时,恶意代码会在用户的浏览器中执行,从而窃取用户的信息或执行恶意操作。 - CSRF(跨站请求伪造)是指攻击者盗用用户的身份,以用户的名义发送恶意请求,从而执行非法…

Caused by: java.util.ConcurrentModificationException

Caused by: java.util.ConcurrentModificationException 1. 关于 ConcurrentModificationException 报错2. 报错日志3. 代码逻辑doInBackground4. 修改方案5. 方案解析 1. 关于 ConcurrentModificationException 报错 在 Java 中&#xff0c;当尝试在迭代过程中修改对象的结构…

【星海出品】Langchain

Introduction 数学字符大全 | LangChain LLM语言模型 P(Ω1,Ω2,Ω3)N元语法模型:使用统计的方式进行语言模型的建模序列到序列模型(Seq2Seq),采用编码器-解码器的结构设计基于机器学习的语言模型:使用RNN模型进行语言模型的建模使用了 自注意力机制(Self-Attention Me…

游戏联运平台如何助力游戏行业飞速发展?

随着科技的进步和互联网的普及&#xff0c;游戏行业正以前所未有的速度飞速发展。在这个过程中&#xff0c;游戏联运平台凭借其独特的优势和功能&#xff0c;成为了推动游戏行业腾飞的关键力量。本文将探讨游戏联运平台如何助力游戏行业实现飞速发展。 一、游戏联运平台的定义与…

Linux下多线程的相关概念

&#x1f916;个人主页&#xff1a;晚风相伴-CSDN博客 &#x1f496;如果觉得内容对你有帮助的话&#xff0c;还请给博主一键三连&#xff08;点赞&#x1f49c;、收藏&#x1f9e1;、关注&#x1f49a;&#xff09;吧 &#x1f64f;如果内容有误或者有写的不好的地方的话&…

62、 忠北国立大学计算机科学系:FingerNet-专门用于细致MI分类的神经网络模型

本文由泡菜国高校于2024年3月6日发表于arXiv&#xff0c;做了一个专门处理运动想象信号的CNN模型&#xff0c;融合了EEGNet和DeepConvNet。 FingerNet是一种专门用于细致MI分类的网络&#xff0c;利用了时间特征&#xff0c;在相同手部分类任务中表现出比EEGNet和DeepConvNet更…

ts: 类型断言as

类型断言有两种形式 1. 尖括号语法 (value) let someValue: any "this is a string"; let strLength: number (<string>someValue).length;2. as 语法 (value as Type)&#xff1a; let someValue: any "this is a string"; let strLength:…

使用 MySQL 触发器 + 统计学生表实时计算表数据量

要使用 MySQL 触发器实时计算表数据量&#xff0c;您可以创建一个触发器&#xff0c;当插入、更新或删除学生表的数据时&#xff0c;触发器就会更新另一个表中保存的学生表数据量信息。以下是一个示例&#xff1a; 首先&#xff0c;假设您有一个名为 students 的学生表&#x…

低代码开发难吗?

在软件开发的多样化浪潮中&#xff0c;低代码开发平台以其简化的编程模型&#xff0c;为IT行业带来了新的活力。作为一位资深的IT技术员&#xff0c;我对低代码开发平台的易用性和强大功能有着深刻的认识。今天&#xff0c;我将分享我对YDUIbuilder这一免费开源低代码平台的使用…

【如何衡量相机标定结果的精度】相机标定评价函数

相关博客&#xff1a; 【鱼眼&#xff0b;普通相机】相机标定【opencv】图像畸变校正 一、简介 常用的衡量相机标定结果精度的评价标准&#xff1a; 畸变矫正效果&#xff1a;标定过程中会估计畸变系数&#xff0c;畸变矫正的效果可以通过比较矫正前后的图像来评估。如果畸变…

0.25W 1.5KVDC~3KVDC 隔离超小型单输出 DC/DC 电源模块——TKE-W25系列

TKE-W25系列隔离超小型单输出 DC/DC 电源模块是一款超小型单输出电源模块&#xff0c;工业级环境温度&#xff0c;用于PCB安装的国际标准结构。此系列产品小巧&#xff0c;效率高&#xff0c;低输出纹波,用于需要电压转换和隔离的场合&#xff0c;封装有SIP和DIP可选。

出租房水电抄表系统的全面解析

1.系统定义和功能 出租房水电抄表系统是一种智能的可视化工具&#xff0c;关键用于解决房东在经营好几个出租房源时&#xff0c;对水电的使用量统计分析、收费和管理上的问题。通过自动化抄表、收费和通告&#xff0c;此系统减轻了房东的工作负担&#xff0c;提高了效率&#…

达梦数据库安装手册

首先了解达梦数据库相关内容&#xff1a; 达梦在线服务平台 下载windows版本开发版&#xff0c;将下载的文件解压。进行安装 2、安装流程&#xff0c;默认选择下一步。 3、安装引导&#xff0c;默认下一步&#xff0c;安装实例可以进行修改 4、最后一步记录一下创建的摘要 …

JavaDS-学习数据结构之如果从零开始手搓顺序表,顺带学习自定义异常怎么用!

前言 笔者开始学习数据结构了,虽然笔者已经会用了,不管是C 中的stl亦或是Java 中的集合,为了算法比赛多少都突击过,但只知其然而不知其所以然,还是会限制发展的,因此,笔者写下这篇博客.内容是手搓一个顺序表.顺带加一点异常的使用,大伙看个乐子就好了.有错误直接私信喷我就好了…

清华大学提出IFT对齐算法,打破SFT与RLHF局限性

监督微调&#xff08;Supervised Fine-Tuning, SFT&#xff09;和基于人类反馈的强化学习&#xff08;Reinforcement Learning from Human Feedback, RLHF&#xff09;是预训练后提升语言模型能力的两大基础流程&#xff0c;其目标是使模型更贴近人类的偏好和需求。 考虑到监督…