超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源

随着AI从有限数据迈向真实世界,极速增长的数据规模不仅赋予了模型令人惊喜的能力,也给多模态模型提供了更多的可能性。OpenAI在发布GPT-4V时就已经明确表示:

将额外模态(如图像输入)融入大语言模型(LLMs)被认为是 AI 研究和发展的一个关键新领域。

昨天,HyperGAI 研究团队推出了 HPT(Hyper-Pretrained Transformers)系列,包含两个模型,HPT Air 和 HPT Pro。

其中HPT Pro 在部分基准测试中已经超越了 GPT-4V 和 Gemini Pro 的表现。同时,高效的版本 HPT Air 也相当强大,在同等小规模的模型中效果达到了最优,且已经开源。

分享几个自用的Claude 3和GPT-4的镜像站给大家吧,均为国内可用:


hujiaoai.cn(最牛的Claude 3 Opus,注册即用,测评下来完全吊打了GPT4)

higpt4.cn(稳定使用一年的chatgpt-4研究测试站,非商业目的,而且用的是最牛的128k窗口的版本)

图片

图1.HPT(Hyper-Pretrained Transformers)模型结构的介绍。

项目地址:

Github: https://github.com/hyperGAI/HPT

huggingface: https://huggingface.co/HyperGAI/HPT

过去模型只处理单一类型的数据,如文本、图像或者音频,往往单一模态下优化的模型的能力要强于多模态的模型。

去年,许多研究团队推出了自己的多模态大模型,比如DeepMind的Flamingo、Salesforce的Blip、Google的PaLM-E和Gemini等。从输入输出看,多模态可以简单分为模态转换、输入多模态、输出多模态,输入输出多模态。

HyperGAI 研究团队提出了一种名为“Hyper-Pretrained Transformers”(HPT)的新型多模态LLM预训练框架,可以理解多种输入模态。

HPT介绍

HPT的主要部件,如大语言模型和视觉编码器都可以使用开源的预训练模型,而HPT中连接视觉和语言模态的桥梁,称之为H-former,它将视觉数据转换为语言标记。

为了使语言模型能够充分理解视觉信息,H-Former 采用双网络设计,学习视觉—语言对齐的本地特征和全局特征,使 HPT 能够理解细粒度细节和抽象的高层信息。

如下图所示,H-former将图像转换成视觉嵌入,该嵌入具备与文本对齐的信息,可以直接作为视觉嵌入与文本嵌入一齐送入语言模型,如Yi-6B。

图片

图2.H-former在传统的视觉编码器之后对视觉嵌入进行重新表示,生成的视觉嵌入可与文本嵌入组合送入预训练语言模型。

图片

图3. 破案了,其实H-former就是Q-former,或者说是基于Q-former,其全局与局部的视觉—语言对齐应该是体现在对q_feat的处理上。

在原则上,HPT 可以从头开始训练,也可以利用现有的预训练视觉和语言模型。对于开源的 HPT Air 模型,作者利用了一个预训练的语言模型(Yi-6B)和视觉编码器(clip-vit-large-patch14-336),在只有大约 160 万个文本—图像样本的多模态训练数据集上进一步训练,其中文本仅使用英文数据。

实验结果

作者在多个具有挑战性的多模态基准上进行了实验,包括 MMMU、CMMMU、SEED(img)、MMBench 和 MMBench-CN。

这些基准涵盖了各种图像类别,包括图表、图解、肖像和照片,需要对大学水平的学科知识和多学科领域的推理(MMMU 和 CMMMU),或者对各种视觉和语言任务中的常识和空间理解(SEED(img)、MMBench 和 MMBench-CN)。

在许多情况下,HPT Pro 和 HPT Air 在多项基准测试中表现出色,优于 GPT-4V、Gemini Pro 和 Qwen-VL 等。例如,在 SEED(img)基准测试中,HPT Pro 在所有对比的方法里取得了最佳结果(73.1%),而 HPT Air 在性能上超过了 Qwen-VL-Chat(69.7% 比 65.4%),甚至接近 Gemini Pro 的性能水平(69.7% 比 70.7%)。

在 MMBench 和 MMBench-CN 基准测试中也可以观察到类似的结论,唯一的例外是 LLaVA-NeXT 在 SEED(img)基准测试上优于 HPT Air。

图片

对于需要大学级学科知识和深思熟虑的 MMMU 和 CMMMU 基准测试,HPT Pro 和 HPT Air 分别是同类尺寸模型中最好的。截止至2024年3月21日,MMMU官网的验证集leaderboard如下:

图片

据作者介绍,HPT 模型仅基于英语多模态数据进行训练,但在 Bench-CN 和 CMMMU 基准测试上的竞争表明,HPT 模型可以很好地泛到其他语言,比如中文。综合来看,HPT模型在多模态基准测试中的成绩还是非常出色的。

HPT示例效果

在一系列实际的定性示例中,展示了 HPT 的多模态能力,包括理解、推理、艺术表达等方面的能力。以下的示例均来自官方博客:

  1. 查看、描述并遵循指令 HPT可以理解和表达视觉图像的内容。尽管示例 1.1 和 1.2 中的图像具有非常规性质,但 HPT 准确地辨别了主要主题并阐明了其特征。值得注意的是,示例 1.1 与图 1 中的示例相似。HPT 可以根据用户偏好定制其描述的详细程度,在提示关键字“简短答案”时提供简洁的响应。此功能可确保 HPT 可以按照说明满足用户的需求。

图片

图片

  1. 解释和推理。HPT 可以解释图表、图表,并回答基于所提供数据的科学问题。例如,在示例 2.1 中,HPT 演示了其识别与图表数据相对应的数字序列(76、_、68、67、58)的能力,能够通过图表分析推断出缺失的数字。在示例 2.2 中,HPT 可以回答大学水平的问题并提供正确的解释。这些例子说明了HPT从视觉数据中提取和应用信息以解决复杂问题。

图片

图片

  1. 了解概念艺术。HPT还擅长把握艺术表现形式,准确诠释例3.1中传达的情感,并在例3.2中认识到鱼尾狮作为新加坡象征的文化意义。这种能力证明了HPT在分析和理解艺术品中复杂的视觉和概念线索方面的熟练程度。

图片

图片

  1. 创意。 HPT不仅理解力强,而且创造力强。如例 4.1 所示,它不仅了解在爱因斯坦时代不存在智能手机,而且还可以创造性地推测他获得现代技术的可能性。此外,HPT准确地解释了代词的引用,如第二个问题所示,它正确地将“他”识别为阿尔伯特·爱因斯坦并做出适当的回应。这凸显了HPT细致入微的理解和富有想象力的推理。HPT 还可以根据提供的图像编写有趣的小说故事,如示例 4.2 所示。

图片

图片

  1. 推荐和协助。HPT还可以提供有用的建议。尽管示例 5.1 中的视觉外观很棘手,但它理解图像内容,推荐可以使用此类食材烹制的菜肴,以及享用此类餐点的地方。同样,根据用户的图像,HPT 可以帮助规划下一艘游轮并提供缓解晕船的建议(示例 5.2)。这展示了HPT提供可操作的见解和有用建议以增强用户体验的能力。

图片

图片

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761725.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java JVM详解(持续更新)

JVM定义 JVM结构 类装载子系统 双亲委派模型 运行时数据区 方法区(Method Area) 堆区(Heap) 虚拟机栈区 程序计数区 执行引擎子系统 垃圾回收机制 内存分代机制 JVM调优 JVM面试题 JVM定义 JVM它是jre的一部分,也…

静态路由实验(HCIP部分)

1、拓扑信息 2、需求分析 3、IP规划 4、配置截图 5、测试 1、拓扑信息 2、需求分析 1、 R6为isp,接口IP地址均为公有地址;该设备只能配置IP地址,之后不能再对其进行其他任何配置; 分析: R6只需配置一个环回和链路物理接口IP即可 2 、R1-R5为…

导出excel按动态表头导出

一、实现代码 使用Map方式添加head头,对应填充值 /*** 导出查看发车明细* param query* return*/Overridepublic ExportResult monthResourcePlanDepartureProgressDetailsExportExcelData(ResourceSituationListQuery query) {log.info("导出参数:{}",Ds…

FPGA开源项目分享——基于FPGA加速的热扩散模拟器

导语 今天继续分享康奈尔大学FPGA课程ECE 5760的典型案例——基于FPGA加速的热扩散模拟器。 (更多其他案例请参考网站: Final Projects ECE 5760) 1. 项目概述 项目网址 https://people.ece.cornell.edu/land/courses/ece5760/FinalProje…

多区域ISIS路由计算

多区域ISIS路由计算: 1、骨干区域是如何访问非骨干区域?(R4如何学习到200.200/32的路由?) 1.1 默认情况下,L1/2级别路由器会将L1级别LSDB中的叶子信息,作为自己L2级别实节点的叶子信息添加到L2的…

旅游小程序的市场与发展趋势

随着科技的发展,移动互联网已经成为我们生活中不可或缺的一部分。在这个时代,小程序已经成为了一种新的趋势,尤其是在旅游行业。那么,旅游小程序有哪些市场,发展趋势又怎么样呢? 一、旅游小程序的市场 1. 用…

3D高斯泼溅的崛起

沉浸式媒体领域正在以前所未有的速度发展,其中 3D 高斯溅射成为一项关键突破。 这项技术在广泛的应用中看起来非常有前景,并且可能会彻底改变我们未来创建数字环境以及与数字环境交互的方式。 在本文中,我们将通过与摄影测量和 NeRF 等前辈进…

企业用大模型如何更具「效价比」?百度智能云发布5款大模型新品

服务8万企业用户,累计帮助用户精调1.3万个大模型,帮助用户开发出16万个大模型应用,自2023年12月以来百度智能云千帆大模型平台API日调用量环比增长97%...从一年前国内大模型平台的“开路先锋”到如今的大模型“超级工厂”,百度智能…

从相机空间到像素空间的投影和反投影原理和代码

目录 从相机空间到像素空间的投影 效果 ​编辑 公式 ​编辑 代码 像素空间到相机空间的反投影 记录一下从相机空间到像素空间的投影(3D-->2D)和像素空间到相机空间的反投影(2D-->3D)。 推荐blog:SLAM入门之视…

smpl渲染工具

根据3d姿态预测smpl参数 GitHub - Jeff-sjtu/HybrIK: Official code of "HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation", CVPR 2021 GitHub - woo1/Texture_visualize_smpl: smpl texture visualizatio…

ModbusRTU/TCP/profinet网关在西门子博图软件中无法连接PLC的解决方法

ModbusRTU/TCP/profinet网关在西门子博图软件中无法连接PLC的解决方法 在工业生产现场,ModbusRTU/TCP/profinet网关在与西门子PLC连接时,必须要使用西门子的博图软件来进行配置,博图v17是一个集成软件平台,专业版支持300、400、12…

下载 macOS 系统安装程序的方法

阅读信息: 版本:0.4.20231021 难度:1/10 到 4/10 阅读时间:5 分钟 适合操作系统:10.13, 10.14, 10.15, 11.x, 12.x,13.x, 14 更新2023-10-21 添加Mist的介绍支持版本的更新,13.x&#xff0…

JVM内存划分

一、运行时数据区域 堆、方法区(元空间)、虚拟机栈、本地方法栈、程序计数器。 Heap(堆): 对象的实例以及数组的内存都是要在堆上进行分配的,堆是线程共享的一块区域,用来存放对象实例,也是垃圾回收&…

计算机服务器中了faust勒索病毒怎么办,faust勒索病毒解密工具流程

网络是一把利剑,可以方便企业开展各项工作业务,为企业提供极大的便利,但随着网络技术的不断发展与应用,网络数据安全威胁也在不断增加,给企业的正常生产运营带来了极大困扰,近日,云天数据恢复中…

element-ui实现证件照上传预览下载组件封装

element-ui实现证件照上传预览下载组件封装 效果&#xff1a; 参数说明 我只写了两个参数&#xff0c;后续有需求再对其组件进行丰富~ 参数说明fileListProp用来存储上传后后端返回的图片UR了uploadUrl图片上传反悔的URL后端接口地址 父组件调用&#xff1a; <au-upload…

报表生成器FastReport .Net用户指南:关于脚本(下)

FastReport的报表生成器&#xff08;无论VCL平台还是.NET平台&#xff09;&#xff0c;跨平台的多语言脚本引擎FastScript&#xff0c;桌面OLAP FastCube&#xff0c;如今都被世界各地的开发者所认可&#xff0c;这些名字被等价于“速度”、“可靠”和“品质”,在美国&#xff…

The plain HTTP request was sent to HTTPS port

异常信息 原因 错误信息 “The plain HTTP request was sent to HTTPS port” 表明客户端尝试使用未加密的HTTP协议发送请求到一个配置为使用加密的HTTPS协议的端口。 解决方案 要解决这个问题&#xff0c;需要确保使用正确的协议和端口号进行请求。应该使用的HTTPS前缀。例如…

官宣|阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会

摘要&#xff1a;本文整理自阿里云开源大数据平台徐榜江 (雪尽)&#xff0c;关于阿里巴巴捐赠的 Flink CDC 项目正式加入 Apache 基金会&#xff0c;内容主要分为以下四部分&#xff1a; 1、Flink CDC 新仓库&#xff0c;新流程 2、Flink CDC 新定位&#xff0c;新玩法 3、Flin…

【嵌入式硬件】步进电机

1.步进电机简介 1.1步进电机基本原理 步进电机的英文是stepping motor。step的中文意思是行走、迈步。所以仅从字面上我们就可以得知,步进电机就是一步一步移动的电动机。说的官方一点儿,步进电机是一种将电脉冲信号转换成相应角位移或者线位移的电动机(直线电机)。下图为…

灵境矩阵平台x百度---智能体(一)

什么是数据插件 大模型插件:大语言模型插件是随着大语言模型发展而诞生的全新插件。大语言模型插件的核心是Web API独立于大语言模型&#xff0c;插件开发过程不受大语言模型的约束&#xff0c;同时没有开发语言的限制&#xff0c;更加通用&#xff0c;只要WebAPI遵循RESTfuI相…