上海AI Lab联合上交推出复杂图表推理多模态评测基准ChartX与基座模型ChartVLM

近期，众多多模态大语言模型（MLLM）相继问世。然而，这些模型对于视觉图表中所包含的信息的感知能力以及推理能力尚未得到充分的挖掘与探索。本研究中，为了对现有的 MLLM 在图表领域的性能进行全方位、严格的评估，我们构建了ChartX评测基准，该基准由涵盖了18种图表类型、7个图表任务、22个学科主题的高质量图表数据构成，以及针对不同的图表任务采用了定制化的评估方式，例如用SCRM评价方式来更全面地评价视觉图表结构化信息提取任务。

此外，我们还开发了ChartVLM，一个全新的图表理解基座模型，用于处理强烈依赖于图像感知、数值可解释的多模态任务，如图表和几何图像等推理任务。我们在所提出的 ChartX 评估基准上对主流的MLLM模型以及我们的 ChartVLM 模型进行了与图表相关的性能评估。实验结果表明，ChartVLM在图表任务上的表现超越了通才模型和开源的图表专才大模型，其性能可与GPT-4V相媲美。我们坚信，本研究将有助于推动未来更全面图表评估集的创建，以及更多强依赖于可解释性的多模态大模型的开发。ChartX评测基准以及ChartVLM模型已向公众开放共享。

论文题目： ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

论文链接： https://arxiv.org/abs/2402.12185

ChartX评测基准数据集及评测代码：GitHub - UniModal4Reasoning/ChartVLM: Official Repository of ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

ChartVLM模型权重：https://huggingface.co/U4R/ChartVLM-base, https://huggingface.co/U4R/ChartVLM-large

ChartVLM训练代码： GitHub - UniModal4Reasoning/ChartVLM: Official Repository of ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning

研究动机

挑战

尽管多模态大语言模型（MLLMs）在多个领域显示出了强大的泛化能力，但在人工智能领域中的应用仍然有限。特别是在处理涉及复杂图表数据的推理任务时，MLLMs的表现与人类的能力相比还有差距。现有的图表任务评价基准未能充分验证和探索MLLMs在图表理解方面的能力，因此，需要构建一个全面且高质量的评价基准来充分评估现有MLLMs的图表理解能力。此外，多模态大语言模型在处理图表相关推理任务时展现出较低的可解释性，这意味着我们难以评估视觉骨架网络与语言模型各自对模型图表理解能力的贡献及影响权重。

我们的方法

1）为了建立图表任务评价基准ChartX，我们精心搜集了一个包含48,000个多模态图表的数据集，这些图表覆盖了22个不同的主题领域、18种图表类型，以及7种具体的任务。每个图表数据均涉及四种不同的数据格式：图像、CSV文件、Python绘图代码以及相应的文本描述。基于任务所需处理的复杂性，我们将其划分为两大类别：一类是感知任务，包括图表结构信息提取（SE）、图表类型分类和图表标题提取三类任务；另一类是认知任务，涵盖了图表相关的问题回答（QA）、图表描述、图表总结以及图表重绘任务。
2）为了提升图表推理任务的可解释性，我们设计了一种创新的模型结构——ChartVLM。该模型的核心特点在于将感知任务（如结构数据提取）的预测与推理任务（如推理任务预测）的预测紧密结合，确保推理任务的执行依赖于感知任务的结果，让多模态大模型做到可以依赖于感知结果提供多任务更合理的解释性。此外，ChartVLM整合了指令适配器技术，能够根据用户指令动态地选择用户期望执行的具体任务。这种设计不仅增强了模型的可解释性，同时也提高了交互性。

整体的ChartX评测集分布以及ChartVLM模型结构请见下图：

图1 本研究贡献如下：a）ChartX：我们构建了一个涵盖22个学科领域、18种图表类型和7个任务的全面多模态图表评测集，并采用专门设计的任务指标（包括EM、GPT-acc GPT-score、SCRM）来评估模型性能；b）ChartVLM：我们提出了一种新颖的框架，用于在图表领域执行多任务。该框架通过指令适配器动态地选择待执行的任务。特别是对于那些需要依赖图表信息查询的下游任务，我们首先关注图表结构的提取，随后才执行图表推理任务。这种任务执行顺序的设计旨在提升推理结果的解释性。

ChartX：多任务图表评测集

评估集覆盖面分析

ChartX是一个全面的图表任务评测集，它覆盖了广泛的图表类型、图表主题和图表相关任务。

在图表类型方面，ChartX包含了18种类型，其中超过半数是通用类型，如条形图、折线图和饼图，用于展示数据分布；细分图表类型如环形图、雷达图等，能够更生动地展示复杂数据；特定领域图表类型如热力图、漏斗图和烛台图，用于特定数据分布的展示。

图表主题涵盖了商业、工业、社会、文化和生活方式等多个领域，细粒度的主题类型有22个子学科。

在图表相关任务方面，ChartX不仅包括基础的视觉逻辑推理任务，如标题感知、图表类型识别和结构化数据提取（即从图表中提取出CSV格式的数据），还包括复杂的认知任务，如图表问题解答、图表描述、图表汇总和图表重绘，其中图表问题解答需要直接从图表信息中进行推理（不会借助图表外的常识信息），与之前的图表相关QA数据集有所区别，表1详细对比了ChartX以及其他图表相关评测基准，图2提供了ChartX中两组数据的具体构成示例：

评测集的分布分析

ChartX的分布多样性由样式分布和内容分布两个方面来体现。在样式分布上，图表样式的多样性通过使用不同的绘图软件包和超参数设置来实现，如matplotlib、seaborn和plotly等，特定领域的软件包如mplfinance也被用于增加多样性。在内容分布上，通过比较不同图表基准数据集的CSV数据长度分布和每个图表的任务标记分布，ChartX在这两个方面都显示出了更高的多样性，我们使用t-sne图和箱线图来可视化了ChartX的一些数据分布：

图3 ChartX与其他图表相关评测集数据分布比较，包含：1）图表图像分布，2）CSV数据分布，3）QA中问题文本分布和 4）CSV数据长度分布

两阶段图表数据生成策略

利用GPT-4模型的先进生成能力，我们采用了自动在线生成与手动指令相结合的方法。这一过程体现了以数据中心的两阶段生成范式，涵盖了感知和认知这两阶段的数据生成。具体数据生成所用提示词示例如下图所示，其余细节请参考我们的原论文。

图4 两阶段整体数据生成提示词示例，其中黄色为感知任务数据，蓝色为认知任务数据。

图5 两阶段数据生成中特殊类型图表提示词设计，以3D柱状图，玫瑰图，箱线图，烛台图为例。

ChartVLM：可解释的图表视觉语言模型

总体架构设计

如下图所示，ChartVLM框架融合了指令适配器、像素级编码器以及文本级联解码器的设计。其中，指令适配器起到初始图表任务路由的作用，根据接收到的用户指令，决定执行哪些图表任务。在执行基础感知任务（如预测图表标题、类型和结构化数据提取）时，仅依赖于基本解码器（base decoder）。然而，面对更复杂的生成式认知任务时，辅助解码器（auxiliar decoder）会在基本解码器的CSV预测结果上进行进一步处理。

级联解码器机制（cascaded mechanism）的设计动机包括两方面：

通过整合中间图表表征（如CSV数据、标题、类型等），提高模型在认知任务中的可解释性；
通过在具有不同参数的解码器之间分配工作量，优化计算效率，其中基本解码器相较于辅助解码器有更简洁的架构。

指令适配器的设计

设计指令适配器的目的在于：1）广泛满足用户指令；2）根据用户指令动态选择适配的解码器。指令适配器的结构设计简洁，仅包含三层线性层，能够有效地将各种用户指令映射到七个图表任务类别中的正确类别。为了训练指令适配器，我们利用GPT-3.5构建了一个简单数据集，该数据集包含7,000对用户指令及其对应的任务标签。所设计的指令适配器在我们构建的验证子集上表现出色，准确率达到了100%。

开源版本

基于上述的模型架构，我们开源了两个不同模型参数的图表基座模型ChartVLM-base-7.3B以及ChartVLM-large-14.3B，具体的模型训练细节请参考原论文。

实验与可视化结果

实验设置

基线选择：我们将所提出的ChartVLM与三类不同的多模态大语言模型在ChartX评测基准上进行比较：1）开源通才模型，包括LLaVA-1.5, CogVLM, Qwen-VL和SPHINX-V2；2）开源图表专才模型，包括Matcha, Deplot, ChartLlama, StructChart和ChartAssistant；3）闭源模型：GPT-4V.
度量标准：对于图表标题识别以及图表类型预测，我们采用EM（Exact Match）作为评价指标，对于结构化数据提取任务，我们沿用了StructChart中的SCRM，对于开放式的生成任务，包括QA,文本描述，文本总结以及代码重绘任务，我们设计了GPT-acc以及GPT-score作为评价指标，评价相关的提示词如图7-图8中所示，其余指标的细节请参考我们的原文。
训练数据：ChartVLM的训练完全没有使用来自chartX的数据。

实验结果

下表总结了ChartVLM与其他模型在ChartX评测基准上的表现。

由上表我们可以发现：

在我们的级联解码器机制中，基础解码器对结构化数据提取能力的提高与复杂认知任务性能的改善呈正相关。从表2中可以看出，ChartVLM-L模型在SE任务中的表现优于ChartVLM-B，同时在复杂认知任务（包括 QA、总结等）中也表现出色。
我们的ChartVLM模型在复杂认知任务中表现更为出色，这得益于我们在推理任务中采用了将感知任务获得的文本表征作为辅助输入的创新方法。表2显示，尽管SPHINX-V2的SE性能（32.07%）接近我们的ChartVLM（32.65%），但在下游认知任务（如QA任务，36.46%）中，ChartVLM仍然展现出更优的推理能力。这一改进主要源于我们设计的级联解码器机制的新颖性，即通过整合基本感知结果来增强复杂推理任务的处理。

同时我们对于不同的图表类型也进行了分析，下图以雷达图的形式比较了不同模型在不同图表类型上SE和QA任务的表现。同时，我们可以发现当前的多模态大语言模型在处理特定类型图表问题方面表现出明显的不足。更为详细的实验结果请参考我们的原文。

结论

为了全面评估多模态大语言模型的图表相关能力，我们构建了ChartX评测基准，这是一个高质量、多模态、多类型、多主题和多任务的图表评测集。此外，我们还开发了ChartVLM框架，利用新的级联解码器机制来提高MLLMs在处理科学图表数据时的可解释性。

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区