SPIQA:一个大规模的计算机科学论文多模态问题回答数据集

        在科学论文挖掘相关信息是一个至关重要的研究领域,因为它能够赋予学生和研究人员高效解决他们在读到科学论文时自然引发的问题的能力。然而,现有基于学术论文的问题回答数据集在规模上受到限制,并且主要分析的是科学文章论文的摘要、结论和文本段落,忽略了精心制作的图表和表格中呈现的丰富信息,因此,未能充分利用和分析这些视觉元素中嵌入的丰富、多维的数据,这些对于全面理解所呈现的研究至关重要。

      本文介绍SPIQA(科学论文图像问题回答),这是第一个专门为解释科学论文中的复杂图表和表格而设计的大型QA数据集,涵盖了计算机科学各个领域。

链接如下:

https://huggingface.co/datasets/google/spiqa

https://github.com/google/spiqa

1 SPIQA数据集

1.1 数据收集

      SPIQA 从 19 个顶级计算机科学会议中收集了 26K 篇论文的 PDF 和 TeX 源文件,涵盖 2018 年至 2023 年发表的论文。SPIQA 包含 27 万个问题,分为训练集、验证集和三个不同的评估集,涵盖了多种图表类型(各种类型的图表、表格、示意图和结果可视化),并设计了三种任务,用于评估模型在不同场景下的理解能力。

1.2 问题生成

SPIQA 的主要问题是通过自动生成的方式获得的,利用了 Gemini 1.5 Pro 多模态大语言模型的能力。

1.2.1 生成过程

  • 将图表或表格与相关的文本段落一起输入模型。
  • 模型生成问题、答案和解释。
  • 人工筛选生成的问题,确保其质量。

1.2.2 人工筛选标准

  • 回答问题需要完全理解图表或表格及其在论文中的重要性。
  • 生成答案是正确且简洁的。
  • 问题既不简单也不过于具体。

1.3 评估任务

SPIQA 设计了三种任务,用于评估模型在不同场景下的理解能力:

  • 直接问答(图表):系统需要根据论文中的所有图表和表格回答问题。任务评估模型对图表和表格的理解能力,以及将信息整合到答案中的能力。
  • 直接问答(全文):系统需要分析整篇论文(包括文本、图表和表格)回答问题。任务评估模型的长文本理解和信息整合能力。
  • 思维链问答:系统需要先识别相关图表和表格,然后回答问题。任务评估模型的思维链推理能力和知识定位能力。

1.4  SPIQA 数据集的价值

  • SPIQA 是第一个大规模的科学论文问答数据集,专注于图表和表格的理解。
  • SPIQA 的设计考虑了科学论文的特点,能够有效评估模型在不同场景下的理解能力。
  • SPIQA 为评估和改进科学论文问答模型提供了重要的基准。

2 实验

2.1 实验设置

2.1.1 模型选择

实验使用了 12 个开源和闭源模型,包括:

  • Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini Pro Vision
  • GPT-4 Vision, GPT-4o
  • Claude 3 (Opus)
  • InstructBLIP-7B, LLaVA-1.5-7B
  • XGen-MM, InternLM-XC, CogVLM
  • SPHINX-v2

2.1.2 任务

  • 直接问答(图表)
  • 直接问答(全文)
  • 思维链问答

2.1.3 指标

实验使用了多种指标评估模型性能,包括:

  • METEOR, CIDEr, ROUGE-L, BERTScore F1
  • L3Score (LLMLogScore)一种用于评估自由式问答 (QA) 的指标,它利用大型语言模型 (LLM) 的能力来评估候选答案与真实答案之间的语义相似度。与传统的 QA 评估指标(例如 BLEU 和 ROUGE)不同,L3Score 不依赖于 token 匹配,而是直接使用 LLM 对候选答案和真实答案的语义相似度进行评估。
  • 思维链问答任务还使用了 top-1 准确率评估图像检索能力。

2.2 主要结果

2.2.1 直接问答(图表)

  • GPT-4o 在所有指标上都取得了最佳成绩,证明了其在科学论文问答领域的强大能力。
  • Claude-3 在部分指标上表现良好,仅次于 GPT-4o。
  • 开源模型的整体表现不如闭源模型,但 InternLM-XC 和 CogVLM 在某些指标上取得了较好的成绩。
  • 精调后的 InstructBLIP 和 LLaVA 1.5 在所有指标上都取得了显著的提升,表明 SPIQA 数据集可以有效地用于模型训练。

2.2.2 直接问答(全文)

  • 所有模型的性能都得到了显著提升,证明了全文信息对科学论文问答的重要性。
  • GPT-4o 仍然在所有指标上取得了最佳成绩,但其领先优势有所缩小。

2.2.3 思维链问答

  • 所有模型的性能都得到了显著提升,证明了思维链推理对科学论文问答的重要性。
  • GPT-4o 仍然在所有指标上取得了最佳成绩,但其领先优势有所缩小。

3 顶级会议

3.1 AI/ML 领域

  • NeurIPS (Neural Information Processing Systems): 人工智能和机器学习领域的顶级会议,涵盖了深度学习、强化学习、优化等多个子领域。
  • ICLR (International Conference on Learning Representations): 机器学习领域的顶级会议,专注于深度学习及其相关领域。
  • ICML (International Conference on Machine Learning): 机器学习领域的顶级会议,涵盖了机器学习的各个方面。
  • AAAI (Association for the Advancement of Artificial Intelligence): 人工智能领域的顶级会议,涵盖了人工智能的各个方面。
  • IJCAI (International Joint Conference on Artificial Intelligence): 人工智能领域的顶级会议,涵盖了人工智能的各个方面。

3.2 NLP 领域

  • ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议,涵盖了自然语言处理的各个方面。
  • EMNLP (Empirical Methods in Natural Language Processing): 自然语言处理领域的顶级会议,专注于实证方法在自然语言处理中的应用。
  • SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • CIKM (Conference on Information and Knowledge Management): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议,专注于计算机视觉在各个领域的应用。

3.3 计算机视觉和计算机图形领域

  • CVPR (Conference on Computer Vision and Pattern Recognition): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • ICCV (International Conference on Computer Vision): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • ECCV (European Conference on Computer Vision): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • SIGGRAPH (Special Interest Group on Graphics): 计算机图形领域的顶级会议,涵盖了计算机图形的各个方面。
  • WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议,专注于计算机视觉在各个领域的应用。

3.4 其他计算机科学领域

  • ICASSP (International Conference on Acoustics, Speech, and Signal Processing): 语音和信号处理领域的顶级会议,涵盖了语音和信号处理的各个方面。
  • KDD (Knowledge Discovery and Data Mining): 数据挖掘领域的顶级会议,涵盖了数据挖掘的各个方面。
  • WebConf (The Web Conference): Web 领域的顶级会议,涵盖了 Web 的各个方面。
  • SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议,涵盖了自然语言处理的各个方面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/46910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

写给大数据开发:为什么我们容易不信任数据

目录 1. 产品经理视角:数据优先级低故事与示例伪代码示例 2. 开发者视角:数据任务缺乏技术挑战故事与示例伪代码示例 3. 测试人员视角:数据的不可见性和逻辑复杂性故事与示例伪代码示例 4. 组织文化视角:缺乏数据意识故事与示例伪…

【Linux杂货铺】期末总结篇2:文件操作命令 | 目录操作命令

🌈个人主页:聆风吟_ 🔥系列专栏:Linux实践室、网络奇遇记 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 第四章4.1 ⛳️Linux与windows的文件系统差别4.2 ⛳️目录相关的常用术语4.3 ⛳️Linux文件类型…

嵌入式人工智能(3-树莓派4B点亮LED灯及LED灯闪烁)

1、LED与树莓派连接 LED是一种常用。廉价、高效的光源,其灯泡长腿为正极,短腿为负极。使用LED的注意如果将其直接连接到高于1.7V的电源上,会产生一个非常大的电流,导致LED甚至树莓派的损坏。通常情况下为LED配备一个串联电阻&…

Attention机制解析

Attention机制解析 1. 引言 Attention机制在自然语言处理(NLP)和计算机视觉(CV)等领域取得了广泛的应用。其核心思想是通过对输入数据的不同部分赋予不同的权重,使模型能够更加关注重要的信息。本文将详细介绍Attent…

最优控制公式推导(代数里卡提方程,李雅普诺夫方程,HJB方程)

本文探讨了线性时不变系统(LTI系统)的最优控制问题,特别是线性二次调节器(LQR)问题。通过Hamilton-Jacobi-Bellman (HJB) 方程的推导,求得了系统的最优控制律,并进一步推导了代数里卡提方程&…

Python新手必学:如何解决Python安装包下载缓慢/无法下载的问题

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 临时使用镜像源📝 永久修改镜像源Windows系统macOS/Linux系统📝 推荐镜像源⚓️ 相关链接 ⚓️📖 介绍 📖 你是否曾在使用Python进行项目开发时,遇到过安装包下载速度如蜗牛爬行般的窘境?尤其是在急…

焊死,这38条命令还不会?难怪你的Windows那么费劲

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部 下午好,我的网工朋友。 我们每天都在和各种设备打交道,而命令提示符(CMD)无疑是我们这些技术宅的得…

玩转HarmonyOS NEXT之IM应用首页布局

本文从目前流行的垂类市场中,选择即时通讯应用作为典型案例详细介绍HarmonyOS NEXT的各类布局在实际开发中的综合应用。即时通讯应用的核心功能为用户交互,主要包含对话聊天、通讯录,社交圈等交互功能。 应用首页 创建一个包含一列的栅格布…

Java进阶之路66问 | 谈谈对熔断,限流,降级的理解

熔断(Circuit Breaker) 熔断机制类似于电路中的保险丝,用于在服务或系统出现异常或超负荷时暂时关闭,防止问题进一步扩大,待问题解决后再逐步恢复。这可以有效保护系统免受过载的影响。 想象你在使用电器时&#xff0…

JAVA 异步编程(异步,线程,线程池)一

目录 1.概念 1.1 线程和进程的区别 1.2 线程的五种状态 1.3 单线程,多线程,线程池 1.4 异步与多线程的概念 2. 实现异步的方式 2.1 方式1 裸线程(Thread) 2.1 方式2 线程池(Executor) 2.1.1 源码分析 2.1.2 线程池创建…

南京邮电大学计算机考研考情分析!专业课均分127分!复试录取比例偏高近2:1!计算机类共录取543人!

南京邮电大学(Nanjing University of Posts and Telecommunications),位于南京市,简称南邮(NJUPT),是教育部、工业和信息化部、国家邮政局与江苏省共建高校,国家“双一流”建设高校&…

软考中级科目包含哪些?应该考哪个?

软考中级包含5个专业方向,分别是:计算机软件、计算机网络、计算机应用技术、信息系统、信息服务。这5个方向又对应15个软考中级科目。 信息系统包括:系统集成项目管理工程师、信息系统监理师、信息安全工程师、数据库系统工程师、信息系统管…

C# 中IEnumerable与IQuerable的区别

目的 详细理清IEnumerator、IEnumerable、IQuerable三个接口之间的联系与区别 继承关系:IEnumerator->IEnumerable->IQuerable IEnumerator:枚举器 包含了枚举器含有的方法,谁实现了IEnuemerator接口中的方法,就可以自定…

力扣Hot100之两数之和

解法一: 双层循环暴力求解,先在数组的一个位置定住然后在这个位置的后续位置进行判断,如果两个数加起来等于目标和那么就返回 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:for i,num in enumerate(num…

Windows 系统利用 SSH 和 WSL2 子系统当服务器

由于最近组内需要将一台 Windows 系统的电脑 W A W_A WA​ 转成能通过 SSH 访问,并且能用 Linux 命令当服务器运行。忙活了一天,终于是把全部东西弄通了。 安装 SSH 首先就是 W A W_A WA​ 先要安装 OpenSSH 服务,直接按照下面的教程安装…

HCIE是什么等级的证书?

HCIE(华为认证互联网专家,Huawei Certified Internetwork Expert)是华为认证体系中的最高等级证书。它要求考生具备在复杂网络环境中规划、设计、部署、运维和优化网络的能力。HCIE认证是华为认证体系中最具挑战性和含金量的认证之一&#xf…

RocketMQ实现分布式事务

RocketMQ的分布式事务消息功能,在普通消息基础上,支持二阶段的提交。将二阶段提交和本地事务绑定,实现全局提交结果的一致性。 1、生产者将消息发送至RocketMQ服务端。 2、RocketMQ服务端将消息持久化成功之后,向生产者返回Ack确…

NDK R25b 交叉编译FFMpeg4,项目集成,附库下载地址

1.准备工作 文件下载: NDK R25b下载地址:Android NDK历史版本下载网址 - 君*邪 - 博客园 (cnblogs.com) FFmpeg4.4.4 下载地址:https://ffmpeg.org/releases/ffmpeg-4.4.4.tar.xz 环境配置: 本次编译环境是在PC虚拟机中使用U…

普通人还有必要学习 Python 之类的编程语言吗?

在开始前分享一些编程的资料需要的同学评论888即可拿走 是我根据网友给的问题精心整理的对于编程的重要性,这里就不详谈了。 未来,我们和机器的交流会越来越多,编程可以简单看作是和机器对话并分发给机器任务。机器不仅越来越强大&#xff0…

C# —— CRC16 算法

CRC16:即循环冗余校验码。数据通信当中一种常用的查错校验码 其特征信息字段和校验字段的长度可以是任意选定的,对数据进行指定多项式计算 并且将得到的结果附加在帧的后面,接受的设备也执行类似的算法,以保证数据传输的正确性和完整性 crc…