【AI】人类视觉感知特性与深度学习模型（1/2）

一、关于人类视觉感知

1.1 视觉关注

1.自上而下（Top-down）的视觉关注

编辑

2.自下而上（Bottom-up）的视觉关注

3.区别和记忆点

1.2 视觉掩盖

1.常见的视觉掩盖效应

2.恰可识别失真（Just Noticeable Difference, JND）

1.3 对比敏感度（Contrast Sensitivity）

1.4 非局部约束

一、关于人类视觉感知

视觉感知特性，即人类视觉系统感知图像信息的特性，是一个高度复杂的信息处理过程。理解人类对视觉信息的处理机制，有助于推动计算机视觉高性能算法研究。下面主要研究视觉关注、亮度及对比敏感度、视觉掩盖、视觉非局部约束这四个特性。

1.1 视觉关注

视觉关注机制（Visual Attention Mechanism）是一个非常重要的概念。视觉关注机制是人类视觉系统的一种特性，它能够帮助我们优先处理视野中最相关或最显著的信息。近年来，深度学习模型，特别是卷积神经网络（CNN），已经成功地模拟了这种机制，以提高在各种计算机视觉任务中的性能。

视觉关注机制，一般分为两种类型：

1.自上而下（Top-down）的视觉关注

英文简称：Top-down Attention
定义：自上而下的视觉关注是指基于观察者的内部状态、知识、期望或任务需求来引导的视觉注意力分配。这种注意力是有意识的、目标导向的，并依赖于大脑的高级认知功能。
详细解释：当我们在寻找特定目标时，比如在一群人中寻找一个熟悉的面孔，我们的视觉系统会根据大脑中已有的信息（如该人的面部特征）来指导我们的眼睛移动，这就是自上而下的视觉关注。在这种情况下，注意力是被主动地、有意识地分配到最有可能包含目标信息的区域。

2.自下而上（Bottom-up）的视觉关注

英文简称：Bottom-up Attention
定义：自下而上的视觉关注是由外部刺激驱动的，它基于图像中的显著性特征（如颜色、亮度、对比度、运动等）来自动吸引观察者的注意力。这种注意力是无意识的、刺激驱动的，并且相对独立于观察者的内部状态或任务需求。
详细解释：想象一下，当你在一个安静的图书馆中突然听到一声巨响，你的注意力会立即被吸引到那个声音来源的方向。这就是自下而上的视觉关注的一个例子，即使你的初衷是专注于阅读，但外部的刺激（巨响）无意识地捕获了你的注意力。在视觉中，显著性的视觉特征，如一个明亮的物体或一个快速移动的物体，可以自动吸引我们的注意力，而无需任何有意识的努力。

3.区别和记忆点

其实很好记忆，自下而上的视觉关注类型，是客观因素驱动的，和你的记忆和意识无关，是被动刺激带来的，这是一种无意识、自发的反应，例如“循声望去”；而自上而下的视觉关注类型，是主观命令指导的，受意识的支配，依赖于特定的指令，例如上面的找人。

这两种类型的视觉关注在人类的视觉处理中相辅相成，共同帮助我们高效地处理复杂的视觉环境。在深度学习中，模拟这两种类型的注意力机制已经成为提高模型性能的一个重要研究方向。例如，通过在神经网络中引入注意力模块，模型可以学会在处理图像或视频时优先关注最相关的信息，从而提高在目标检测、图像识别、视频分析等任务中的准确性。

1.2 视觉掩盖

视觉掩盖（Visual Masking）是一种视觉现象，其中一个视觉刺激（掩盖刺激）的存在使得另一个同时或相近时间出现的视觉刺激（目标刺激）变得难以被察觉或识别。这种掩盖效应可以发生在空间上（两个刺激相邻时）或时间上（两个刺激相继出现时）。

1.常见的视觉掩盖效应

亮度掩盖：当一个高亮度的刺激与一个低亮度的刺激同时出现时，低亮度的刺激可能会被掩盖。
模式掩盖：一个复杂的模式可能会掩盖其中的简单模式或特征。
运动掩盖：运动物体的某些特征可能会因为其他运动物体的存在而被掩盖。
颜色掩盖：在颜色对比强烈的区域，较弱的颜色可能会被较强的颜色所掩盖。
空间频率掩盖：高频的空间信息可能会被低频的空间信息所掩盖。

2.恰可识别失真（Just Noticeable Difference, JND）

人眼无法察觉到一定阈值下的失真，这个阈值，就是JND。

恰可识别失真是指人类观察者能够察觉到的最小刺激变化量。这是心理物理学中的一个关键概念，用于量化人类感觉系统的敏感性和分辨力。在视觉领域中，JND 可以指的是亮度、颜色、大小、方向等属性上的最小可察觉变化。

JND 是基于韦伯定律（Weber's Law）的，该定律指出人类感知到的刺激变化量与原有刺激强度之间存在一定的比例关系。换句话说，人类对刺激的感知并不是绝对的，而是相对的。因此，当刺激发生微小变化时，如果这种变化小于 JND，那么人类观察者就无法区分变化前后的刺激。

例如：

亮度 JND：考虑一个房间里的灯光。如果你逐渐调暗灯光，直到达到一个点，人们刚刚能够察觉到灯光变暗了，那么这个调暗的量就是亮度上的 JND。
颜色 JND：想象你有一组非常相似的颜色样本。你逐个展示给观察者，并要求他们指出哪个样本与其他样本不同。观察者能够准确指出的最小颜色差异就是颜色上的 JND。
大小 JND：在一条线上逐渐增加一个小点的大小，直到观察者能够明确地说出点的大小已经改变了，这个改变的大小就是大小上的 JND。

1.3 对比敏感度（Contrast Sensitivity）

人类的视觉系统具有鲁棒性，无法分辨一定程度以内的边缘模糊，这种分辨能力成为对比灵敏度。它实际是对比度阈值的倒数。

对比灵敏度=1/对比度阈值

对比敏感度是指人眼或图像传感器对图像中亮度差异（对比度）的敏感程度。在视觉科学中，对比敏感度通常用来描述观察者区分两个亮度级别之间细微差异的能力，尤其是当这些差异较小的时候。它是评价视觉功能的重要参数之一，与视觉锐度（视力）不同，但两者密切相关。

人类视觉系统对高对比度刺激的反应比对低对比度刺激的反应更强烈。例如，在完全黑暗的背景上看到一个明亮的点非常容易，但在相似的灰度背景下区分两个相近的灰度级别则可能更具挑战性。对比敏感度通常用一个函数来描述，该函数表示了在不同空间频率下，观察者能够检测到的最小对比度。

考虑一个简单的视觉测试，其中包含一系列具有不同对比度的条纹图案。每个图案的条纹宽度和间距可能不同，代表着不同的空间频率。观察者被要求指出他们能够清晰看到条纹的最低对比度水平。这个测试可以用来测量观察者的对比敏感度，并绘制出对比敏感度函数（Contrast Sensitivity Function, CSF），该函数揭示了在不同空间频率下对比敏感度的变化。

对比敏感度通常通过计算韦伯分数（Weber Fraction）来量化，该分数是引起感觉变化所需的最小刺激强度与基准刺激强度的比值。在视觉领域，这可以表示为：

Weber Fraction = ΔL / L

其中 ΔL 是能够引起感觉变化的最小亮度差异，L 是基准亮度水平。然而，在实际应用中，对比敏感度通常使用更复杂的公式和模型来描述，这些模型考虑了空间频率、观察条件（如光照水平）和个体差异等因素。

1.4 非局部约束

格式塔心理学强调了很多在视觉感知中的非局部性约束特征，如相似性、相近性、连续性和闭合性等。人的视觉感知往往会将符合这些特征的图像信息组织到一起，而通常情况下，这些特征也是区分对象是否属于同一目标的显著标志。

我自己常常认为，这就是看不准。但是为了类似图灵测试这样的人工智能要求，而需要让计算机生成的图像，更接近人的主观感受。AIGC可能给你画了一副非常符合你要求的画，但是你总是感觉不对劲，就是模型并不理解人类的心理，对视觉感受的影响。

越强大的模型，生成的图像，越接近用户的心理预期。

可以参考我这2个AIGC生成图片的探讨。

【AIGC】接着昨天的AI“洗图”骚操作，继续调戏国产大模型_aigc 洗稿-CSDN博客

【AIGC】今天想用AI“洗个图”，失败了，进来看我怎么做的-CSDN博客

在图像处理、计算机视觉和深度学习领域，非局部约束指的是在分析和处理图像或数据时，不仅仅考虑当前像素或位置的局部邻域信息，而是同时考虑图像中其他位置或数据集中其他样本的信息。这种约束有助于捕捉图像或数据中的长距离依赖性和全局结构，从而提高相关任务的性能。

非局部约束的重要性：

全局上下文感知：传统的局部处理方法（如卷积操作）主要关注像素周围的小邻域。然而，许多视觉任务需要理解全局上下文，例如识别一个物体在不同尺度、位置和方向上的出现。非局部约束通过考虑图像中更广泛区域的信息来提供这种上下文感知。
长距离依赖性建模：在许多场景中，图像中的像素或特征之间可能存在长距离依赖性。例如，在识别一个人的姿势时，手臂和腿的位置是相互关联的，即使它们在图像中是分开的。非局部约束有助于捕捉这些依赖性。
提升性能：通过整合更全面的信息，非局部约束可以增强深度学习模型在复杂任务中的性能，如目标检测、语义分割和视频理解等。

（未完待续）