Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
相关链接:arXiv
关键字:Vision-language models、ChartQA、multimodal reasoning、fine-tuning、synthetic data
摘要
本文提出了一种技术,将大型语言模型(LLMs)的能力转移到视觉语言模型(VLMs)上。尽管VLMs在多模态任务上的表现越来越强,但其推理能力,尤其是小型VLMs的推理能力仍然受限。我们的方法在最近引入的ChartQA上取得了最先进的性能,并且在PlotQA和FigureQA上也展现出了更好的性能。我们首先通过改进图表到表格的翻译任务来提升图表表示,然后在原始训练集的基础上构建了一个比原来大20倍的数据集。为了提高通用推理能力和改善数值运算,我们使用图表的表格表示来合成推理路径。最后,我们的模型使用Hsieh等人(2023)介绍的多任务损失进行微调。
核心方法
- 改进图表表示:通过继续使用改进版的图表到表格翻译任务进行预训练,提升模型对图表的内部表示能力。
- 构建大型数据集:创建一个比原始训练集大20倍的数据集,使用LLMs合成带有推理路径的额外问题-答案对。
- 推理路径合成:使用图表的表格表示合成推理路径,以增强模型的数值运算能力。
- 多任务损失微调:使用多任务损失对模型进行微调,平衡答案和推理路径的任务强度。
实验说明
实验在ChartQA、FigureQA和PlotQA三个基准上进行,以评估提出方法的有效性。实验结果显示,使用提出的方法微调后的PaLI-3模型(称为ChartPaLI-5B)在ChartQA上取得了最先进的性能,甚至超过了参数量是其10倍的模型。此外,该方法还在FigureQA和PlotQA任务上展现出了强大的泛化能力。
模型 | ChartQA (RA%) | FigureQA RA% (v1 v2) | PlotQA RA% (v1 v2) | ||
---|---|---|---|---|---|
PaLI-3 (original) | 70.00 | 41.9 | 42.4 | 62.0 | 15.7 |
ChartPaLI-5B | 77.28 | 51.0 | 51.2 | 79.1 | 53.3 |
结论
本文介绍了一种有效的方法,通过预训练任务和使用合成数据集的多任务设置来提升VLMs的推理能力。应用到PaLI-3上,我们的方法显著超越了即使是参数量更大的PaLI-X模型,并在ChartQA基准上建立了新的最先进水平。我们展示了预训练阶段如何提升下游任务的性能。我们的合成数据生成技术和多任务设置成功地将推理能力从更大的LLMs转移到了更小的VLMs。此外,我们的方法还使得预测的推理路径可以通过PaLM 2-S的程序化思维进行计算上的精炼,组合解决方案在ChartQA基准上超越了Gemini Ultra和GPT-4V。