上海AI Lab联合上交推出复杂图表推理多模态评测基准ChartX与基座模型ChartVLM

近期,众多多模态大语言模型(MLLM)相继问世。然而,这些模型对于视觉图表中所包含的信息的感知能力以及推理能力尚未得到充分的挖掘与探索。本研究中,为了对现有的 MLLM 在图表领域的性能进行全方位、严格的评估,我们构建了ChartX评测基准,该基准由涵盖了18种图表类型、7个图表任务、22个学科主题的高质量图表数据构成,以及针对不同的图表任务采用了定制化的评估方式,例如用SCRM评价方式来更全面地评价视觉图表结构化信息提取任务。

此外,我们还开发了ChartVLM,一个全新的图表理解基座模型,用于处理强烈依赖于图像感知、数值可解释的多模态任务,如图表和几何图像等推理任务。我们在所提出的 ChartX 评估基准上对主流的MLLM模型以及我们的 ChartVLM 模型进行了与图表相关的性能评估。实验结果表明,ChartVLM在图表任务上的表现超越了通才模型和开源的图表专才大模型,其性能可与GPT-4V相媲美。我们坚信,本研究将有助于推动未来更全面图表评估集的创建,以及更多强依赖于可解释性的多模态大模型的开发。ChartX评测基准以及ChartVLM模型已向公众开放共享。

image.png

 

论文题目: ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

论文链接: https://arxiv.org/abs/2402.12185 

ChartX评测基准数据集及评测代码:GitHub - UniModal4Reasoning/ChartVLM: Official Repository of ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

ChartVLM模型权重:https://huggingface.co/U4R/ChartVLM-base, https://huggingface.co/U4R/ChartVLM-large

ChartVLM训练代码: GitHub - UniModal4Reasoning/ChartVLM: Official Repository of ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

研究动机

挑战

尽管多模态大语言模型(MLLMs)在多个领域显示出了强大的泛化能力,但在人工智能领域中的应用仍然有限。特别是在处理涉及复杂图表数据的推理任务时,MLLMs的表现与人类的能力相比还有差距。现有的图表任务评价基准未能充分验证和探索MLLMs在图表理解方面的能力,因此,需要构建一个全面且高质量的评价基准来充分评估现有MLLMs的图表理解能力。此外,多模态大语言模型在处理图表相关推理任务时展现出较低的可解释性,这意味着我们难以评估视觉骨架网络与语言模型各自对模型图表理解能力的贡献及影响权重。

我们的方法

  • 1)为了建立图表任务评价基准ChartX,我们精心搜集了一个包含48,000个多模态图表的数据集,这些图表覆盖了22个不同的主题领域、18种图表类型,以及7种具体的任务。每个图表数据均涉及四种不同的数据格式:图像、CSV文件、Python绘图代码以及相应的文本描述。基于任务所需处理的复杂性,我们将其划分为两大类别:一类是感知任务,包括图表结构信息提取(SE)、图表类型分类和图表标题提取三类任务;另一类是认知任务,涵盖了图表相关的问题回答(QA)、图表描述、图表总结以及图表重绘任务。

  • 2)为了提升图表推理任务的可解释性,我们设计了一种创新的模型结构——ChartVLM。该模型的核心特点在于将感知任务(如结构数据提取)的预测与推理任务(如推理任务预测)的预测紧密结合,确保推理任务的执行依赖于感知任务的结果,让多模态大模型做到可以依赖于感知结果提供多任务更合理的解释性。此外,ChartVLM整合了指令适配器技术,能够根据用户指令动态地选择用户期望执行的具体任务。这种设计不仅增强了模型的可解释性,同时也提高了交互性。

整体的ChartX评测集分布以及ChartVLM模型结构请见下图:

image.png
图1 本研究贡献如下:a)ChartX:我们构建了一个涵盖22个学科领域、18种图表类型和7个任务的全面多模态图表评测集,并采用专门设计的任务指标(包括EM、GPT-acc GPT-score、SCRM)来评估模型性能;b)ChartVLM:我们提出了一种新颖的框架,用于在图表领域执行多任务。该框架通过指令适配器动态地选择待执行的任务。特别是对于那些需要依赖图表信息查询的下游任务,我们首先关注图表结构的提取,随后才执行图表推理任务。这种任务执行顺序的设计旨在提升推理结果的解释性。

ChartX:多任务图表评测集

评估集覆盖面分析

ChartX是一个全面的图表任务评测集,它覆盖了广泛的图表类型、图表主题和图表相关任务。

在图表类型方面,ChartX包含了18种类型,其中超过半数是通用类型,如条形图、折线图和饼图,用于展示数据分布;细分图表类型如环形图、雷达图等,能够更生动地展示复杂数据;特定领域图表类型如热力图、漏斗图和烛台图,用于特定数据分布的展示。

图表主题涵盖了商业、工业、社会、文化和生活方式等多个领域,细粒度的主题类型有22个子学科。

在图表相关任务方面,ChartX不仅包括基础的视觉逻辑推理任务,如标题感知、图表类型识别和结构化数据提取(即从图表中提取出CSV格式的数据),还包括复杂的认知任务,如图表问题解答、图表描述、图表汇总和图表重绘,其中图表问题解答需要直接从图表信息中进行推理(不会借助图表外的常识信息),与之前的图表相关QA数据集有所区别,表1详细对比了ChartX以及其他图表相关评测基准,图2提供了ChartX中两组数据的具体构成示例:

image.png
表1 ChartX与其他图表相关评测基准对比。
image.png
图2 ChartX中两组数据构成示例,以气泡图和矩形树图为例。

评测集的分布分析

ChartX的分布多样性由样式分布和内容分布两个方面来体现。在样式分布上,图表样式的多样性通过使用不同的绘图软件包和超参数设置来实现,如matplotlibseabornplotly等,特定领域的软件包如mplfinance也被用于增加多样性。在内容分布上,通过比较不同图表基准数据集的CSV数据长度分布和每个图表的任务标记分布,ChartX在这两个方面都显示出了更高的多样性,我们使用t-sne图和箱线图来可视化了ChartX的一些数据分布:

image.png
图3 ChartX与其他图表相关评测集数据分布比较,包含:1)图表图像分布,2)CSV数据分布,3)QA中问题文本分布 和 4)CSV数据长度分布

两阶段图表数据生成策略

利用GPT-4模型的先进生成能力,我们采用了自动在线生成与手动指令相结合的方法。这一过程体现了以数据中心的两阶段生成范式,涵盖了感知和认知这两阶段的数据生成。具体数据生成所用提示词示例如下图所示,其余细节请参考我们的原论文。

image.png
图4 两阶段整体数据生成提示词示例,其中黄色为感知任务数据,蓝色为认知任务数据。
image.png
图5 两阶段数据生成中特殊类型图表提示词设计,以3D柱状图,玫瑰图,箱线图,烛台图为例。

 

ChartVLM:可解释的图表视觉语言模型

总体架构设计

如下图所示,ChartVLM框架融合了指令适配器、像素级编码器以及文本级联解码器的设计。其中,指令适配器起到初始图表任务路由的作用,根据接收到的用户指令,决定执行哪些图表任务。在执行基础感知任务(如预测图表标题、类型和结构化数据提取)时,仅依赖于基本解码器(base decoder)。然而,面对更复杂的生成式认知任务时,辅助解码器(auxiliar decoder)会在基本解码器的CSV预测结果上进行进一步处理。

级联解码器机制(cascaded mechanism)的设计动机包括两方面:

  • 通过整合中间图表表征(如CSV数据、标题、类型等),提高模型在认知任务中的可解释性;
  • 通过在具有不同参数的解码器之间分配工作量,优化计算效率,其中基本解码器相较于辅助解码器有更简洁的架构。

image.png
图6 ChartVLM模型结构示意图

指令适配器的设计

设计指令适配器的目的在于:1)广泛满足用户指令;2)根据用户指令动态选择适配的解码器。指令适配器的结构设计简洁,仅包含三层线性层,能够有效地将各种用户指令映射到七个图表任务类别中的正确类别。为了训练指令适配器,我们利用GPT-3.5构建了一个简单数据集,该数据集包含7,000对用户指令及其对应的任务标签。所设计的指令适配器在我们构建的验证子集上表现出色,准确率达到了100%。

开源版本

基于上述的模型架构,我们开源了两个不同模型参数的图表基座模型ChartVLM-base-7.3B以及ChartVLM-large-14.3B,具体的模型训练细节请参考原论文。

实验与可视化结果

实验设置

  • 基线选择:我们将所提出的ChartVLM与三类不同的多模态大语言模型在ChartX评测基准上进行比较:1)开源通才模型,包括LLaVA-1.5, CogVLM, Qwen-VL和SPHINX-V2;2)开源图表专才模型,包括Matcha, Deplot, ChartLlama, StructChart和ChartAssistant;3)闭源模型:GPT-4V.
  • 度量标准:对于图表标题识别以及图表类型预测,我们采用EM(Exact Match)作为评价指标,对于结构化数据提取任务,我们沿用了StructChart中的SCRM,对于开放式的生成任务,包括QA,文本描述,文本总结以及代码重绘任务,我们设计了GPT-acc以及GPT-score作为评价指标,评价相关的提示词如图7-图8中所示,其余指标的细节请参考我们的原文。
  • 训练数据:ChartVLM的训练完全没有使用来自chartX的数据

image.png
图7 对图表描述和总结任务进行评价所用提示词

 

image.png
图8 对QA和重绘任务进行评价所用提示词

实验结果

下表总结了ChartVLM与其他模型在ChartX评测基准上的表现。

image.png
表2 感知和认知任务的零样本(zero-shot)测试结果

由上表我们可以发现:

  1. 在我们的级联解码器机制中,基础解码器对结构化数据提取能力的提高与复杂认知任务性能的改善呈正相关。从表2中可以看出,ChartVLM-L模型在SE任务中的表现优于ChartVLM-B,同时在复杂认知任务(包括 QA、总结等)中也表现出色。
  2. 我们的ChartVLM模型在复杂认知任务中表现更为出色,这得益于我们在推理任务中采用了将感知任务获得的文本表征作为辅助输入的创新方法。表2显示,尽管SPHINX-V2的SE性能(32.07%)接近我们的ChartVLM(32.65%),但在下游认知任务(如QA任务,36.46%)中,ChartVLM仍然展现出更优的推理能力。这一改进主要源于我们设计的级联解码器机制的新颖性,即通过整合基本感知结果来增强复杂推理任务的处理。

同时我们对于不同的图表类型也进行了分析,下图以雷达图的形式比较了不同模型在不同图表类型上SE和QA任务的表现。同时,我们可以发现当前的多模态大语言模型在处理特定类型图表问题方面表现出明显的不足。更为详细的实验结果请参考我们的原文。

图9 MLLMs在SE任务上的逐类别结果

图10 MLLMs在QA任务上的逐类别结果

更多可视化结果

我们提供了ChartVLM在更多复杂类型图表上进行认知任务的可视化结果,欢迎大家使用我们开源的模型权重进行测试。

图11 ChartVLM在更多复杂类型图表任务的可视化结果


结论

为了全面评估多模态大语言模型的图表相关能力,我们构建了ChartX评测基准,这是一个高质量、多模态、多类型、多主题和多任务的图表评测集。此外,我们还开发了ChartVLM框架,利用新的级联解码器机制来提高MLLMs在处理科学图表数据时的可解释性。


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/703335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电机Id Iq区别

电机Id Iq区别 交流电机的id和iq是什么 交流电机的id和iq是什么 (初学者必须掌握的交流电机基础知识) 交流电机是现代工业中广泛使用的一种电动机,它具有高效、可靠、节能等优点。但是,对于初学者来说,掌握交流电机的…

pytorch简单新型模型测试参数

import torch from torch.nn import Conv2d,MaxPool2d,Sequential,Flatten,Linear import torchvision import torch.optim.optimizer from torch.utils.data import DataLoader,dataset from torch import nn import torch.optim.optimizer# 建模 model nn.Linear(2,1)#损失 …

【leetcode每日一题】【滑动窗口长度固定】案例

567. 字符串的排列 长度不变 给你两个字符串 s1 和 s2 ,写一个函数来判断 s2 是否包含 s1 ****的排列。如果是,返回 true ;否则,返回 false 。 换句话说,s1 的排列之一是 s2 的 子串 思路:s1长度固定的窗…

Vue项目创建——每一步都有记录和说明

文章目录 1. 首先下载Node2. 全局安装vue/cli3. 创建Vue项目4. 启动Vue项目 1. 首先下载Node 既然都开始创建Vue项目了,想必大家电脑里面都有Node跟npm了,这里就不赘述了。 2. 全局安装vue/cli vue/cli是什么 vue/cli 是一个全局安装的 npm 包&#x…

网络质量分析,DNS解析慢、网页经常打开失败、慢等

抓包统计分析DNS:解析用时、解析结果、解析状态 如图 #_*_ coding:utf8 _*_ ## 网络质量分析,DNS解析慢、网页经常打开失败、慢等 ## 抓包分析DNS:解析用时、解析结果、解析状态 # 2024-02-22 # Linux tcpdump 抓包示例:tcpdump …

Netron可视化工具、Pytorch中文文档等在线工具

一、Netron可视化工具 二、Caffe、ONNX、TensorFlow到NCNN等的转换工具 三、Pytorch中文文档

AIGC学习笔记——DALL-E2详解+测试

它主要包括三个部分:CLIP,先验模块prior和img decoder。其中CLIP又包含text encoder和img encoder。(在看DALLE2之前强烈建议先搞懂CLIP模型的训练和运作机制,之前发过CLIP博客) 论文地址:https://cdn.openai.com/pap…

SpringMVC作用域传递数据

javaEE一共有四个作用域:分别是: application(ServletContext )、session、request、page; jsp中: ${requestScope.message} ${sessionScope.message} ${applicationScope.message} application a…

常用实验室器皿耐硝酸盐酸进口PFA材质容量瓶螺纹盖密封效果好

PFA容量瓶规格参考:10ml、25ml、50ml、100ml、250ml、500ml、1000ml。 别名可溶性聚四氟乙烯容量瓶、特氟龙容量瓶。常用于ICP-MS、ICP-OES等痕量分析以及同位素分析等实验,也可在地质、电子化学品、半导体分析测试、疾控中心、制药厂、环境检测中心等机…

MCU独立按键单控LED实现

##江科大视频学习,并且对具体的一些小细节进行更详细的分析。 什么是独立按键? 轻触按键:相当于是一种电子开关,按下开头接通,松开时开头断开,实现原理是通过轻触按键内部的金属弹片受力弹动来实现接通和断开。 注意…

亿道丨三防平板也有国产,六大特点你知道多少?

国产三防平板是指由国内厂商自主研发和生产的具有防水、防尘和防摔等特性的平板电脑产品。与一般的平板电脑相比,国产三防平板有以下特点: 防护性能更好:国产三防平板采用的材料、密封性能以及相关的防护设计都经过严格测试和认证&#xff0c…

经典枚举算法

解析: 首先答案肯定是字符串的某个前缀,然后简单直观的想法就是枚举所有的前缀来判断,我们设这个前缀串长度为 lenx ,str1 的长度为 len1,str2 的长度为 len2,则我们知道前缀串的长度必然要是两个字符串长…

AI语音系统电销机器人系统搭建,电话机器人源码是干嘛的?

电话机器人是干嘛的?电话机器人有用吗?自从电话机器人的出现,大家对电话销售有了新的认识。是什么黑科技竟然如此厉害,在没有员工操作的情况下,能够快速地筛选意向客户。与此同时,还能将客户的信息整理好。…

SpringBoot源码解读与原理分析(三十二)SpringBoot整合JDBC(一)JDBC组件的自动装配

文章目录 前言第10章 SpringBoot整合JDBC10.1 SpringBoot整合JDBC的项目搭建10.1.1 初始化数据库10.1.2 整合项目10.1.2.1 导入JDBC和MySQL驱动依赖10.1.2.2 配置数据源 10.1.3 编写业务代码10.1.3.1 编写与t_user表对应的实体类User10.1.3.2 编写Dao层代码10.1.3.3 编写Servic…

golang实现一个BasicAuth的HTTP server

之前写的《golang实现一个简单的HTTP server》没有包含认证部分 本例给出了支持BasicAuth的实现,以及如何在一个项目中导入自己定义的package 编写代码 创建项目所在文件夹 adminhpc-1:~/go$ mkdir auth_http adminhpc-1:~/go$ cd auth_http adminhpc-1:~/go/auth…

Oracle内存计算应用模式

前言 内存计算是利用内存来加速数据访问和应用的性能,并降低应用开发复杂度的技术。近十年来,随着软硬件技术的发展和用户需求的成熟,内存计算技术已经得到了广泛地应用。 Oracle在内存计算领域具有非常重要的地位,这主要得益于…

spring(六):事务(概念介绍、基于注解使用、事务属性介绍)

1. 事务基本概念 1.1 什么是事务 数据库事务( transaction)是访问并可能操作各种数据项的一个数据库操作序列,这些操作要么全部执行,要么全部不执行,是一个不可分割的工作单位。事务由事务开始与事务结束之间执行的全部数据库操作组成。 1.2 事务的特…

如果我有一台服务器的话

如果我拥有一台服务器,我可以设想几种不同且具有创新价值的用途,每种用途都充分利用了服务器的计算能力和网络连接优势。 1. 部署个人创意项目 机器学习/数据分析平台: 我可能会选择搭建一个基于服务器的机器学习服务平台,用于训…

数据库应用:Windows 部署 MySQL 8.0.36

目录 一、实验 1.环境 2.Windows 部署 MySQL 8.0.36 3.Windows配置环境变量 4.Navicat链接MySQL 二、问题 1.安装MySQL 报错 一、实验 1.环境 (1)主机 表1 主机 主机软件版本IP备注WindowsMySQL8.0.36localhost 2.Windows 部署 MySQL 8.0.…

最新Sora人工智能视频资源网址分享

1,了解什么是Sora * 什么是 OpenAI Sora? Sora 是由 OpenAI 开发的文本到视频模型。它可以按照用户的提示生成长达一分钟的高质量和一致的视频。 * 如何使用 OpenAI Sora 模型? 目前,OpenAI Sora 模型处于内测阶段,并将…