这篇文章将一张图片划分为四个不同细粒度大小的图片,然后输出四个神经网络,这四个神经网络共享权重,得到四个输出,将这四个输出求交叉熵损失和对比学习损失,共同监督模型学习。
通过对比学习,最大化一个Batch中相同类别的相似度,最小化不同类别的相似度。其中通过一张图像进行数据增强的方式产生正样本对。
将损失函数包装在−log()中,这样最小化这个损失函数对应于最大化两个增强图像。其中分母中包含一个批次中的所有负样本对。
这样四个分支通过两两之间进行对比学习,就得到了总的对比损失。
最后通过交叉熵损失和对比损失更新模型参数。