SPIQA:一个大规模的计算机科学论文多模态问题回答数据集

        在科学论文挖掘相关信息是一个至关重要的研究领域,因为它能够赋予学生和研究人员高效解决他们在读到科学论文时自然引发的问题的能力。然而,现有基于学术论文的问题回答数据集在规模上受到限制,并且主要分析的是科学文章论文的摘要、结论和文本段落,忽略了精心制作的图表和表格中呈现的丰富信息,因此,未能充分利用和分析这些视觉元素中嵌入的丰富、多维的数据,这些对于全面理解所呈现的研究至关重要。

      本文介绍SPIQA(科学论文图像问题回答),这是第一个专门为解释科学论文中的复杂图表和表格而设计的大型QA数据集,涵盖了计算机科学各个领域。

链接如下:

https://huggingface.co/datasets/google/spiqa

https://github.com/google/spiqa

1 SPIQA数据集

1.1 数据收集

      SPIQA 从 19 个顶级计算机科学会议中收集了 26K 篇论文的 PDF 和 TeX 源文件,涵盖 2018 年至 2023 年发表的论文。SPIQA 包含 27 万个问题,分为训练集、验证集和三个不同的评估集,涵盖了多种图表类型(各种类型的图表、表格、示意图和结果可视化),并设计了三种任务,用于评估模型在不同场景下的理解能力。

1.2 问题生成

SPIQA 的主要问题是通过自动生成的方式获得的,利用了 Gemini 1.5 Pro 多模态大语言模型的能力。

1.2.1 生成过程

  • 将图表或表格与相关的文本段落一起输入模型。
  • 模型生成问题、答案和解释。
  • 人工筛选生成的问题,确保其质量。

1.2.2 人工筛选标准

  • 回答问题需要完全理解图表或表格及其在论文中的重要性。
  • 生成答案是正确且简洁的。
  • 问题既不简单也不过于具体。

1.3 评估任务

SPIQA 设计了三种任务,用于评估模型在不同场景下的理解能力:

  • 直接问答(图表):系统需要根据论文中的所有图表和表格回答问题。任务评估模型对图表和表格的理解能力,以及将信息整合到答案中的能力。
  • 直接问答(全文):系统需要分析整篇论文(包括文本、图表和表格)回答问题。任务评估模型的长文本理解和信息整合能力。
  • 思维链问答:系统需要先识别相关图表和表格,然后回答问题。任务评估模型的思维链推理能力和知识定位能力。

1.4  SPIQA 数据集的价值

  • SPIQA 是第一个大规模的科学论文问答数据集,专注于图表和表格的理解。
  • SPIQA 的设计考虑了科学论文的特点,能够有效评估模型在不同场景下的理解能力。
  • SPIQA 为评估和改进科学论文问答模型提供了重要的基准。

2 实验

2.1 实验设置

2.1.1 模型选择

实验使用了 12 个开源和闭源模型,包括:

  • Gemini 1.5 Flash, Gemini 1.5 Pro, Gemini Pro Vision
  • GPT-4 Vision, GPT-4o
  • Claude 3 (Opus)
  • InstructBLIP-7B, LLaVA-1.5-7B
  • XGen-MM, InternLM-XC, CogVLM
  • SPHINX-v2

2.1.2 任务

  • 直接问答(图表)
  • 直接问答(全文)
  • 思维链问答

2.1.3 指标

实验使用了多种指标评估模型性能,包括:

  • METEOR, CIDEr, ROUGE-L, BERTScore F1
  • L3Score (LLMLogScore)一种用于评估自由式问答 (QA) 的指标,它利用大型语言模型 (LLM) 的能力来评估候选答案与真实答案之间的语义相似度。与传统的 QA 评估指标(例如 BLEU 和 ROUGE)不同,L3Score 不依赖于 token 匹配,而是直接使用 LLM 对候选答案和真实答案的语义相似度进行评估。
  • 思维链问答任务还使用了 top-1 准确率评估图像检索能力。

2.2 主要结果

2.2.1 直接问答(图表)

  • GPT-4o 在所有指标上都取得了最佳成绩,证明了其在科学论文问答领域的强大能力。
  • Claude-3 在部分指标上表现良好,仅次于 GPT-4o。
  • 开源模型的整体表现不如闭源模型,但 InternLM-XC 和 CogVLM 在某些指标上取得了较好的成绩。
  • 精调后的 InstructBLIP 和 LLaVA 1.5 在所有指标上都取得了显著的提升,表明 SPIQA 数据集可以有效地用于模型训练。

2.2.2 直接问答(全文)

  • 所有模型的性能都得到了显著提升,证明了全文信息对科学论文问答的重要性。
  • GPT-4o 仍然在所有指标上取得了最佳成绩,但其领先优势有所缩小。

2.2.3 思维链问答

  • 所有模型的性能都得到了显著提升,证明了思维链推理对科学论文问答的重要性。
  • GPT-4o 仍然在所有指标上取得了最佳成绩,但其领先优势有所缩小。

3 顶级会议

3.1 AI/ML 领域

  • NeurIPS (Neural Information Processing Systems): 人工智能和机器学习领域的顶级会议,涵盖了深度学习、强化学习、优化等多个子领域。
  • ICLR (International Conference on Learning Representations): 机器学习领域的顶级会议,专注于深度学习及其相关领域。
  • ICML (International Conference on Machine Learning): 机器学习领域的顶级会议,涵盖了机器学习的各个方面。
  • AAAI (Association for the Advancement of Artificial Intelligence): 人工智能领域的顶级会议,涵盖了人工智能的各个方面。
  • IJCAI (International Joint Conference on Artificial Intelligence): 人工智能领域的顶级会议,涵盖了人工智能的各个方面。

3.2 NLP 领域

  • ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议,涵盖了自然语言处理的各个方面。
  • EMNLP (Empirical Methods in Natural Language Processing): 自然语言处理领域的顶级会议,专注于实证方法在自然语言处理中的应用。
  • SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • CIKM (Conference on Information and Knowledge Management): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议,专注于计算机视觉在各个领域的应用。

3.3 计算机视觉和计算机图形领域

  • CVPR (Conference on Computer Vision and Pattern Recognition): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • ICCV (International Conference on Computer Vision): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • ECCV (European Conference on Computer Vision): 计算机视觉领域的顶级会议,涵盖了计算机视觉的各个方面。
  • SIGGRAPH (Special Interest Group on Graphics): 计算机图形领域的顶级会议,涵盖了计算机图形的各个方面。
  • WACV (Workshop on Applications of Computer Vision): 计算机视觉领域的顶级会议,专注于计算机视觉在各个领域的应用。

3.4 其他计算机科学领域

  • ICASSP (International Conference on Acoustics, Speech, and Signal Processing): 语音和信号处理领域的顶级会议,涵盖了语音和信号处理的各个方面。
  • KDD (Knowledge Discovery and Data Mining): 数据挖掘领域的顶级会议,涵盖了数据挖掘的各个方面。
  • WebConf (The Web Conference): Web 领域的顶级会议,涵盖了 Web 的各个方面。
  • SIGIR (Special Interest Group on Information Retrieval): 信息检索领域的顶级会议,涵盖了信息检索的各个方面。
  • ACL (Association for Computational Linguistics): 自然语言处理领域的顶级会议,涵盖了自然语言处理的各个方面。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/46910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

写给大数据开发:为什么我们容易不信任数据

目录 1. 产品经理视角:数据优先级低故事与示例伪代码示例 2. 开发者视角:数据任务缺乏技术挑战故事与示例伪代码示例 3. 测试人员视角:数据的不可见性和逻辑复杂性故事与示例伪代码示例 4. 组织文化视角:缺乏数据意识故事与示例伪…

【Linux杂货铺】期末总结篇2:文件操作命令 | 目录操作命令

🌈个人主页:聆风吟_ 🔥系列专栏:Linux实践室、网络奇遇记 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 第四章4.1 ⛳️Linux与windows的文件系统差别4.2 ⛳️目录相关的常用术语4.3 ⛳️Linux文件类型…

linux中 crontab 定时器用法

*/10 * * * * python3 /home/code/haha2.py Crontab 当然,以下是一个简短的博客,介绍了 Cron 和 Crontab 的用法: --- # 简介:使用 Cron 和 Crontab 在 Linux 中进行定时任务调度 在 Linux 系统中,Cron 是一个用于…

嵌入式人工智能(3-树莓派4B点亮LED灯及LED灯闪烁)

1、LED与树莓派连接 LED是一种常用。廉价、高效的光源,其灯泡长腿为正极,短腿为负极。使用LED的注意如果将其直接连接到高于1.7V的电源上,会产生一个非常大的电流,导致LED甚至树莓派的损坏。通常情况下为LED配备一个串联电阻&…

【cnocr的安装使用】

cnocr的安装使用 docker环境运行操作外界调用模型训练及其他操作正在实践中 docker环境 由于docker hub无法正常访问,导致cnocr的docker镜像无法拉取,所以只能自己做一个docker镜像Dockerfile如下 FROM python:3.8RUN pip install cnocr[ort-cpu] -i h…

Attention机制解析

Attention机制解析 1. 引言 Attention机制在自然语言处理(NLP)和计算机视觉(CV)等领域取得了广泛的应用。其核心思想是通过对输入数据的不同部分赋予不同的权重,使模型能够更加关注重要的信息。本文将详细介绍Attent…

最优控制公式推导(代数里卡提方程,李雅普诺夫方程,HJB方程)

本文探讨了线性时不变系统(LTI系统)的最优控制问题,特别是线性二次调节器(LQR)问题。通过Hamilton-Jacobi-Bellman (HJB) 方程的推导,求得了系统的最优控制律,并进一步推导了代数里卡提方程&…

Python新手必学:如何解决Python安装包下载缓慢/无法下载的问题

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 临时使用镜像源📝 永久修改镜像源Windows系统macOS/Linux系统📝 推荐镜像源⚓️ 相关链接 ⚓️📖 介绍 📖 你是否曾在使用Python进行项目开发时,遇到过安装包下载速度如蜗牛爬行般的窘境?尤其是在急…

焊死,这38条命令还不会?难怪你的Windows那么费劲

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部 下午好,我的网工朋友。 我们每天都在和各种设备打交道,而命令提示符(CMD)无疑是我们这些技术宅的得…

玩转HarmonyOS NEXT之IM应用首页布局

本文从目前流行的垂类市场中,选择即时通讯应用作为典型案例详细介绍HarmonyOS NEXT的各类布局在实际开发中的综合应用。即时通讯应用的核心功能为用户交互,主要包含对话聊天、通讯录,社交圈等交互功能。 应用首页 创建一个包含一列的栅格布…

guava cache知识点整理

Guava cache介绍 CacheBuilder 是 Guava 缓存库(Google 提供的一个 Java 工具库)中的一个类,用于创建和配置缓存实例。 Guava 缓存库提供了一套强大且易用的缓存解决方案,可以帮助开发者轻松地添加缓存功能以提高程序性能。而 Cac…

Java进阶之路66问 | 谈谈对熔断,限流,降级的理解

熔断(Circuit Breaker) 熔断机制类似于电路中的保险丝,用于在服务或系统出现异常或超负荷时暂时关闭,防止问题进一步扩大,待问题解决后再逐步恢复。这可以有效保护系统免受过载的影响。 想象你在使用电器时&#xff0…

JAVA 异步编程(异步,线程,线程池)一

目录 1.概念 1.1 线程和进程的区别 1.2 线程的五种状态 1.3 单线程,多线程,线程池 1.4 异步与多线程的概念 2. 实现异步的方式 2.1 方式1 裸线程(Thread) 2.1 方式2 线程池(Executor) 2.1.1 源码分析 2.1.2 线程池创建…

Linux exec 命令和Python exec 函数 区别

在 Linux 中,exec 是一个用于替换当前进程的命令,而在 Python 中,exec 是一个用于动态执行代码的函数。它们有不同的用途和语法。下面是它们的主要区别和解释为什么需要这样的设计。 Linux exec 命令 用途 在 Linux 中,exec 命…

南京邮电大学计算机考研考情分析!专业课均分127分!复试录取比例偏高近2:1!计算机类共录取543人!

南京邮电大学(Nanjing University of Posts and Telecommunications),位于南京市,简称南邮(NJUPT),是教育部、工业和信息化部、国家邮政局与江苏省共建高校,国家“双一流”建设高校&…

软考中级科目包含哪些?应该考哪个?

软考中级包含5个专业方向,分别是:计算机软件、计算机网络、计算机应用技术、信息系统、信息服务。这5个方向又对应15个软考中级科目。 信息系统包括:系统集成项目管理工程师、信息系统监理师、信息安全工程师、数据库系统工程师、信息系统管…

C# 中IEnumerable与IQuerable的区别

目的 详细理清IEnumerator、IEnumerable、IQuerable三个接口之间的联系与区别 继承关系:IEnumerator->IEnumerable->IQuerable IEnumerator:枚举器 包含了枚举器含有的方法,谁实现了IEnuemerator接口中的方法,就可以自定…

力扣Hot100之两数之和

解法一: 双层循环暴力求解,先在数组的一个位置定住然后在这个位置的后续位置进行判断,如果两个数加起来等于目标和那么就返回 class Solution:def twoSum(self, nums: List[int], target: int) -> List[int]:for i,num in enumerate(num…

Laravel队列的魔法:高效异步任务处理指南

Laravel队列的魔法:高效异步任务处理指南 在现代Web应用开发中,异步任务处理是提升用户体验和应用性能的关键技术之一。Laravel框架内置了一个强大的队列系统,允许开发者将耗时的任务如发送邮件、处理数据等放入队列中异步执行。本文将深入探…

Windows 系统利用 SSH 和 WSL2 子系统当服务器

由于最近组内需要将一台 Windows 系统的电脑 W A W_A WA​ 转成能通过 SSH 访问,并且能用 Linux 命令当服务器运行。忙活了一天,终于是把全部东西弄通了。 安装 SSH 首先就是 W A W_A WA​ 先要安装 OpenSSH 服务,直接按照下面的教程安装…