充分利用视觉信息多问多答合成数据,提升多模态大模型数学推理能力

0d2a8842b417ffe7b2cda7976b202e99.gif

©PaperWeekly 原创 · 作者 | 史文浩

单位 | 电子科技大学

43c75b04762a5210867c3fdf778f1c74.png

论文题目:

Math-LLaVA: Bootstrapping Mathematical Reasoning for Multimodal Large Language Models

论文链接:

https://arxiv.org/abs/2406.17294

开源链接:

https://github.com/HZQ950419/Math-LLaVA

0f132edd9ee9d183c8b7a36cb678cb38.png

动机和背景

近年来,大语言模型在数学推理中取得优异的表现,随着多模态大模型的发展,模型能够处理视觉语言输入进行多模态数学推理。然而,现有的视觉指令数据集中,每张图像对应有限的问题答案数据对,没有充分利用视觉信息来增强多模态大模型的数学推理能力。

为此,我们从多种数据集中收集 4 万张高质量图像和问答数据对。通过对图像各部分视觉信息充分提问,以及对问题数据进行增强,构建了一个高质量、多样化的合成多模态问答数据集,从而增强多模态大模型数学推理的能力。本项工作强调合成高质量的多模态问答数据集在提高多模态大模型数学推理能力方面的重要性。

f8c35c747aed96784ffdc578e6fc98ca.png

e64721c4a4edf4924bd2da0eb24c5b61.png

数据集合成

2.1 源数据收集

我们针对五种需要高水平推理能力的问题任务类型收集了 24 个多模态视觉问答和数学推理源数据集,任务类型包括 Figure Question Answering(FQA),Geometry Problem Solving(GPS),Math Word Problem(MWP),Textbook Question Answering(TQA),Visual Question Answering(VQA)。

在获取源数据集后,我们根据图像清晰质量和理解复杂度从中挑选高质量,理解难度分布合适的图像集。具体地,我们使用 GPT4-V 对随机均匀采样的 1 万张图像的清晰度和理解复杂度进行标注,对于图像清晰度,标签 0 表示图像模糊质量差,标签 1 表示图像清晰质量好。

图像理解复杂度取决于物体数量、位置关系、细节程度、纹理、材料属性以及是否涉及数学计算,分值设为 0 到 3 分。之后根据图像标注数据微调图像分类器,分别对源数据集的图像清晰度和理解复杂度进行打分。如下表所示,包含每个源数据集的任务类型、视觉背景以及图像清晰度和理解复杂度的分布。

4369cff06911864cc185bbac22d0d0a8.png

我们过滤掉低质量的图像,按图像理解复杂度从简单到复杂渐进地采样,由于分值为 3 的图像数量最少,因此收集全部。最终我们根据复杂度 2:3:4:1 的比例均匀选取 4 万张图像,这些数据的图像信息多样且难度逐步递增。

2.2 数据增强

在收集的多模态问答数据中,每个图像对应有限的问题,没有充分利用图像的视觉信息。因此,我们使用 GPT-4V 以 few-shot 的方式为每幅图像生成更多问题答案对。具体地,对于属于某任务类别的图像,首先将属于该类别的每个源数据集内部的问题进行聚类,再从每个源数据集的每个聚类中随机采样一个问题来共同构建注释参考。以此,GPT-4V 新合成与原始问题分布接近,多样的 20 万个问答数据对。

我们再使用 GPT-4V 对原始问题进行增强,生成了 4 万个更复杂的问题,4 万个简化的问题和 4 万个逻辑一致的问题,以进一步提高模型的推理能力和鲁棒性。最终我们构建了 36 万高质量、多样化的合成多模态问答数据集 MathV360K.

f85a51997fef751e15552632ae35b815.png

实验结果

我们使用 MathV360K 对 LLaVA-1.5-13B 进行微调得到我们的模型 Math-LLaVA,并在 MathVista 和 MATH-Vision 数据集上进行了测试。其中 Math-LLaVA 在 MathVista minitest 中达到了46.6%,相对于 base model 提升了 19 个百分点。此外,在更困难的 MATH-Vision 数据集上达到 15.69%,超过了 Qwen-VL-Max(15.59%)。

MathVista minitest 数据集上不同方法模型的测试结果如下:

ffe93206bed3fb019518376d0d456436.png

为了验证 Math-LLaVA 的泛化性以及使用我们的合成数据微调不会削弱模型在其他领域的推理能力,我们在 MMMU 数据集上进行验证。MMMU validation 数据集上不同方法模型的测试结果如下:

0069e368a45a0a94856898296f13267a.png

我们对数据收集和增强方式进行消融实验,结果如下,说明我们的数据收集和不同增强方法都能提高多模态大模型的数学推理能力。

a606b842b6902c1b65a9e1bded282b26.png

此外,为了探究对每种任务类型的源数据进行增强的有效性,结果如下:

174018666baab9a4254ec71d5851b148.png

520302d772bcaccadf05598e173727b0.png

总结

我们构建了一个高质量和多样化的多模态问答数据集 MathV360K,可供社区在多模态大模型上使用,我们的合成数据集充分利用了图像的视觉信息进行提问并对原始问题进行增强,提高了多模态数学问题的广度和深度,可进一步提高多模态数学推理能力和模型鲁棒性。

通过使用 MathV360K,我们对 LLaVA-1.5 进行微调得到 Math-LLaVA,显著提高了其多模态数学推理能力,在 MathVista testmini 上取得 46.6% 的准确率,比基础模型提高了 19%。在 MATH-Vision 数据集上达到 15.69%,超过了Qwen-VL-Max 的 15.59%。此外,Math-LLaVA 还在 MMMU 数据集上展现了一定的泛化性。对于未来的工作,我们将引入带注释的中间步骤,构建更全面、更高质量的数据集,进一步增强多模态大模型的推理能力。

更多阅读

8cfe98012ef144eefa9b554cdba4c103.png

b71ceb9b29193a28cb760d1083c046c9.png

8b0afd38ec16e79d49396440674e8bc4.png

3799d76f167d80c934c3610f03e3585b.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

2b121f76d509d105565900015910eff3.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

9d3204a5379afbd139080569df086e42.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/43352.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最新国内免费使用GPT4o、4.0、3.5 的方法

为了方便大家对GPT有更好的了解,这里特地整理了一个表格做对比 这些模型展示了OpenAI在自然语言处理领域的持续进步,每一代模型都在理解和生成能力、效率和适用性方面进行了显著提升。 网站汇总 这里顺便给大家汇总一下国内同类型的网站,有…

每日一练全新考试模式解锁|考试升级

🙋频繁有小伙伴咨询:我想举办一场历时一个月的答题活动,学生可以每天打开答题,活动完结后可以导出每天的答题成绩 此前我们都会让小伙伴创建30场考试,然后使用批量分享功能组合起来,对外分享一个链接就可以…

【chatgpt消费者偏好】是什么驱动了游客持续旅游意愿?推文分享—2024-07-08

今天推文的主题是【chatgpt&消费者意愿】 第一篇:文章主要研究了什么因素驱动旅游者继续使用ChatGPT进行旅行服务,并从人类拟态的角度探讨了旅游者对ChatGPT的感知和使用意图。第二篇:本文探讨了ChatGPT-4在生成针对TripAdvisor上发布的…

基于门控循环单元 GRU 实现股票单变量时间序列预测(PyTorch版)

前言 系列专栏:【深度学习:算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域,讨论了各种复杂的深度神经网络思想,如卷积神经网络、循环神经网络、生成对…

# 昇思25天学习打卡营第10天 | 使用静态图加速

昇思25天学习打卡营第10天 | 使用静态图加速 文章目录 昇思25天学习打卡营第10天 | 使用静态图加速动态图的开启方式静态图的开启方式基于全局context的开启方式基于修饰器的开启方式 总结打卡 AI编译框架分为两种运行模式: 动态图模式: 计算图的构建和计…

读人工智能全传07智能体

1. 布鲁克斯革命 1.1. 随着科学认知的发展,有时候旧有科学体系会面临全盘崩溃的危机,新的科学体系诞生,取代传统的、既定的科学体系,这就意味着科学的范式将发生变化 1.2. 澳大利亚机器人学家罗德尼布鲁克斯(Rodney Brooks)&…

DS1302实时时钟芯片_读写时间实现电子钟功能

一、前言 1.1 功能说明 本项目以STC90C51单片机为核心,结合DS1302实时时钟芯片和IIC协议的OLED显示屏,设计了一款功能丰富、操作简便的电子时钟。 【1】项目目标 实现高精度的时间显示,包括时、分、秒。提供按键调整时间的功能&#xff0…

[Java]Swing版坦克大战小游戏项目开发(1)——new出一个窗口

highlight: xcode theme: vuepress 前言 本系列文章带领 Java 初学者学习使用 Java 语言结合 Swing 技术以及设计模式开发一款经典小游戏——坦克大战。通过这个小游戏,你可以学会很多实用的设计模式思想,并且提高你的编码水平。 熟悉Frame Frame 类是 J…

【java计算机毕设】基于java的奶茶店管理系统的设计与实现MySQL ssm JSP maven项目代码源码+文档

目录 1项目功能 2项目介绍 3项目地址 1项目功能 【java计算机毕设】奶茶店管理系统java MySQL ssm JSP maven项目源码代码万字文档 小组设计 2项目介绍 系统功能: 奶茶店管理系统包括管理员、用户俩种角色。 管理员功能包括个人中心模块用于修改个人信息和密码、…

UDP通讯实现

服务器端&#xff1a; 1.获取套接字 int fd;fdsocket(AF_INET,SOCK_DGRAM,0);if(fd<0){perror("socket");exit(0);} #include <sys/types.h> #include <sys/socket.h> int socket(int domain, int type, int protocol); -domain: 指定通信域&…

Retrofit框架源码深度剖析【Android热门框架分析第二弹】

Android热门框架解析&#xff0c;你确定不来看看吗&#xff1f; OkHttp框架源码深度剖析【Android热门框架分析第一弹】 Retrofit框架源码深度剖析【Android热门框架分析第二弹】 什么是Retrofit&#xff1f; 准确来说&#xff0c;Retrofit 是一个 RESTful 的 HTTP 网络请求…

Miniconda的常见用法——以Isaacgym为例

1. ubuntu24.04安装minicondda mkdir -p ~/miniconda3 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O ~/miniconda3/miniconda.sh解释下这段代码 bash ~/miniconda3/miniconda.sh -b -u -p ~/miniconda3~/miniconda3/miniconda.sh: 指向Mi…

SHARPNESS-AWARE MINIMIZATION FOR EFFICIENTLY IMPROVING GENERALIZATION--论文笔记

论文笔记 资料 1.代码地址 https://github.com/google-research/sam https://github.com/davda54/sam 2.论文地址 https://arxiv.org/abs/2010.01412 3.数据集地址 论文摘要的翻译 在当今严重过度参数化的模型中&#xff0c;训练损失的值很难保证模型的泛化能力。事实上…

MySQL第三次练习

作业三 一 先创建DB abc&#xff0c;创建table student 1、插入一条记录 2、添加多条记录 3、添加部分记录 4、加0.5 5、删除成绩为空的记录 二 1、创建一个用户test1使他只能本地登录拥有查询student表的权限。 2、查询用户test1的权限。 3、删除用户test1. 全在一张图上…

怎样优化 PostgreSQL 中对日期时间范围的模糊查询?

文章目录 一、问题分析&#xff08;一&#xff09;索引未有效利用&#xff08;二&#xff09;日期时间格式不统一&#xff08;三&#xff09;复杂的查询条件 二、优化策略&#xff08;一&#xff09;使用合适的索引&#xff08;二&#xff09;规范日期时间格式&#xff08;三&a…

逻辑回归模型(非回归问题,而是分类问题)

目录&#xff1a; 一、Sigmoid函数&#xff1a;二、逻辑回归介绍&#xff1a;三、决策边界四、逻辑回归模型训练过程&#xff1a;1.训练目标&#xff1a;2.梯度下降调整参数&#xff1a; 一、Sigmoid函数&#xff1a; Sigmoid函数是构建逻辑回归模型的重要函数&#xff0c;如下…

免费压缩pdf文件大小软件收费吗?pdf如何压缩文件大小?12款压缩应用推荐!

在数字化时代&#xff0c;PDF文件因其跨平台、格式统一的特点而广受欢迎。然而&#xff0c;随着文件内容的增加&#xff0c;PDF文件的大小也逐渐增大&#xff0c;给存储和传输带来了诸多不便。因此&#xff0c;寻找一款合适的PDF压缩软件成为了许多用户的需求。本文将详细介绍1…

电子设备常用的胶水有哪些?

目录 1、502胶水 2、703胶水 3、704胶水 4、AB胶 5、红胶 6、Underfill 7、导电胶 8、UV胶 9、热熔胶 10、环氧树脂胶 11、硅酮胶 12、聚氨酯胶 13、丙烯酸胶 14、丁基胶 1、502胶水 502胶水&#xff0c;也被称为瞬间胶或快干胶&#xff0c;是一种非常常见的粘合…

电动卡丁车语音芯片方案选型:让驾驶体验更智能、更安全

在追求速度与激情的电动卡丁车领域&#xff0c;每一次升级都意味着更加极致的驾驶体验。而今天&#xff0c;我们要介绍的&#xff0c;正是一款能够显著提升电动卡丁车智能化与安全性的语音芯片方案——为您的爱车增添一份独特的魅力与安全保障。 智能化升级&#xff0c;从“听…