【AI论文】ColorBench：视觉语言模型能否看到并理解多彩的世界？一个全面的色彩感知、推理和鲁棒性基准测试

摘要：颜色在人类感知中起着重要作用，通常在视觉推理中提供关键线索。然而，尚不清楚视觉语言模型（VLMs）是否以及如何像人类一样感知、理解和利用颜色。本文介绍了ColorBench，这是一个精心设计的创新基准，用于评估VLM在颜色理解方面的能力，包括颜色感知、推理和鲁棒性。通过策划一系列不同的测试场景，并以实际应用为基础，ColorBench评估了这些模型如何感知颜色，从基于颜色的线索中推断含义，并在不同的颜色转换下保持一致的性能。通过对具有不同语言模型和视觉编码器的32个VLM进行广泛评估，我们的论文揭示了一些未被发现的发现：（i）缩放定律（更大的模型更好）在ColorBench上仍然成立，而语言模型比视觉编码器起着更重要的作用。（ii）然而，不同模型的性能差距相对较小，表明现有VLM在很大程度上忽视了颜色理解。（iii）尽管是以视觉为中心的任务，但CoT推理提高了颜色理解的准确性和鲁棒性。（iv）ColorBench上的VLM确实利用了颜色线索，但在某些任务中它们也会误导模型。这些发现突出了当前VLMs的关键局限性，并强调了增强颜色理解的必要性。我们的ColorBench可以作为推进多模态人工智能对人类水平颜色理解研究的基础工具。Huggingface链接：Paper page，论文链接：2504.10514

研究背景和目的

研究背景

随着视觉语言模型（Vision-Language Models, VLMs）的快速发展，它们在多种视觉和语言任务中展现出了强大的能力。然而，尽管VLMs在处理图像和文本信息方面取得了显著进展，它们在色彩理解方面的能力却鲜有系统性评估。色彩作为视觉信息的重要组成部分，不仅影响人类的感知，还在多种视觉推理任务中提供关键线索。例如，在医学图像分析中，通过颜色识别病变区域；在艺术创作中，色彩的选择和运用对表达情感和主题至关重要；在日常生活中，人们通过颜色快速识别物体和场景。

然而，现有VLMs在色彩理解上的表现尚不清晰。尽管一些研究尝试通过替换文本输入中的颜色相关词汇来评估模型对颜色的处理能力，但这些方法往往局限于简单的颜色识别任务，缺乏对色彩感知、推理和鲁棒性的全面评估。此外，随着VLMs在更多实际场景中的应用，如自动驾驶、远程监控等，对模型色彩理解能力的需求也日益增长。

因此，迫切需要一个专门的基准测试来全面评估VLMs在色彩理解方面的能力，包括色彩感知、基于色彩的推理以及在不同色彩变换下的鲁棒性。这样的基准测试不仅有助于揭示现有VLMs在色彩理解上的局限性，还能为未来的模型设计和优化提供明确的方向。

研究目的

本文旨在通过引入ColorBench基准测试，全面评估VLMs在色彩理解方面的能力。具体研究目的包括：

构建全面的色彩理解基准测试：设计一套包含多种色彩相关任务的测试集，涵盖色彩感知、推理和鲁棒性三个核心维度，以全面评估VLMs的色彩理解能力。
揭示VLMs在色彩理解上的局限性：通过对多个VLMs在ColorBench上的广泛评估，揭示现有模型在色彩理解方面的不足和局限性。
探索提升色彩理解能力的方法：基于ColorBench的评估结果，分析影响VLMs色彩理解能力的关键因素，并探讨可能的改进方法。
推动VLMs在色彩理解方面的研究进展：通过提供ColorBench这一基础工具，促进VLMs在色彩理解领域的研究进展，推动相关技术的发展和应用。

研究方法

基准测试设计

ColorBench基准测试包含11个色彩相关任务，涵盖色彩感知、推理和鲁棒性三个核心维度。每个任务都包含一系列图像和文本问题，要求模型从提供的选项中选择正确答案。

色彩感知：评估VLMs识别和解释图像中颜色的基本能力。包括颜色识别（识别图像中特定对象的颜色）、颜色提取（提取图像中单一颜色的RGB、HSV或HEX值）和对象识别（识别与文本输入中描述颜色匹配的对象）。
色彩推理：评估VLMs基于色彩信息进行逻辑推理的能力。包括颜色比例（估计图像中特定颜色所占的相对面积）、颜色比较（区分图像中的多种颜色）、颜色计数（识别图像中不同颜色的数量）、对象计数（计数与特定颜色模式匹配的对象）、颜色错觉（在潜在错觉环境中比较颜色）、颜色伪装（检测与周围环境伪装的对象）和颜色盲测试（识别嵌入在颜色模式中的数字或文本）。
色彩鲁棒性：评估VLMs在不同色彩变换下保持性能稳定的能力。通过对图像进行全局、目标区域或最大区域的重新着色，生成一系列颜色变换后的图像，要求模型在这些变换后的图像上保持一致的预测结果。

数据收集与准备

为了构建ColorBench基准测试，我们从多个在线基准和网站手动收集了图像，并使用颜色提取工具生成了颜色统计数据。对于颜色提取、颜色盲测试和颜色错觉等任务，我们使用代码程序生成测试图像以确保问题和答案的可控性。在初步数据收集后，我们进行了三轮人机交互式过滤过程，通过在不同VLM上进行推理并基于模型预测正确性、置信度和人工评估来丢弃挑战性较低的样本。

模型评估

我们对32个VLM进行了广泛评估，这些模型涵盖了不同的语言模型大小和架构，包括开源和专有模型。评估过程在标准化实验设置下进行，以确保不同模型之间的公平比较。对于参数较少的开源模型（少于700亿参数），我们使用单个NVIDIA A100 80GB GPU进行评估；对于参数较多的模型，我们使用四个GPU进行评估。

研究结果

总体性能

评估结果显示，较大的模型在ColorBench上的整体表现优于较小的模型，而专有模型（如GPT-4o和Gemini-2-flash）表现最佳。然而，即使是表现最好的模型，在色彩感知和推理任务上的整体准确率也相对较低（约54%），表明现有VLMs在色彩理解方面仍存在显著局限性。

色彩感知

在色彩感知任务中，大多数模型在颜色识别和对象识别任务上表现良好（准确率超过60%），但在颜色提取任务上表现不佳。这表明现有VLMs在直接提取颜色值方面存在困难，可能需要更多的推理步骤来得出合理答案。

色彩推理

在色彩推理任务中，模型表现差异较大。在颜色比例任务中，即使是表现最好的模型也只能达到约55%的准确率，略高于随机猜测。在颜色比较任务中，较大模型和具有CoT提示的模型表现较好。然而，在颜色计数任务中，所有模型的表现都非常差，准确率远低于50%。

色彩鲁棒性

在色彩鲁棒性任务中，只有少数几个模型（如InternVL2.5系列的模型）超过了80%的准确率，表明大多数VLMs在不同色彩变换下保持性能稳定的能力有限。此外，我们还发现，即使只改变图像的颜色而保持问题不变，增加推理步骤也能显著提高模型的鲁棒性。

其他发现

缩放定律：尽管在ColorBench上缩放定律（更大的模型更好）仍然成立，但语言模型部分比视觉编码器部分起着更重要的作用。
颜色线索的利用：VLMs在大多数ColorBench任务中确实利用了颜色线索，但在颜色错觉和伪装任务中，颜色线索可能会误导模型。
CoT推理的影响：尽管CoT推理在某些任务中提高了模型的准确性和鲁棒性，但在颜色错觉任务中却降低了模型性能。

研究局限

尽管ColorBench基准测试在评估VLMs的色彩理解能力方面取得了显著进展，但仍存在一些局限性：

任务多样性：尽管ColorBench包含了多种色彩相关任务，但可能仍未涵盖所有可能的色彩理解场景。未来的研究可以进一步扩展任务范围，以更全面地评估VLMs的色彩理解能力。
模型多样性：尽管我们评估了多个VLMs，但可能仍未涵盖所有现有的模型架构和变体。未来的研究可以进一步增加评估的模型数量，以更全面地了解不同模型在色彩理解方面的表现。
数据局限性：尽管我们努力收集多样化的图像数据，但某些任务的数据量可能仍然有限。未来的研究可以进一步增加数据量，以提高评估结果的可靠性和泛化能力。
评估指标：目前我们主要使用准确率作为评估指标，这可能无法全面反映模型在色彩理解方面的表现。未来的研究可以探索更多的评估指标，以更全面地评估模型的性能。