[2020-AAAI] Revisiting Image Aesthetic Assessment via Self-Supervised Feature Learning 论文简析
论文链接:https://arxiv.org/abs/1911.11419
本文探索从自监督的角度进行美学评估。基于一个基本的动机:一个好的美学特征表示应该能够辨别出不同的专家设计的图像篡改的方法。本文设计了一个针对于美学评估的自监督pretext task。
如上图所示,在自监督pretext task预训练阶段,将原图块和进行不同方法不同参数的降质之后的图块输入网络,模型需要完成两项任务,首先是分类,判断输入的降质图块是来自哪一种降质方法,然后是在同样降质方法,不同降质参数的图像上,模型需要最小化一个三元组损失,使得原图块与降质较轻的图块的相似度比重度降质图块的相似度更大,以避免某些降质方法过于容易辨认的问题。
另外,本文还设计了一个基于熵的取样加权策略,熵值更高的图块会有更对不确定的视觉美学因素,因此在训练中应当被分配更小的权重。
在预训练完成后,在固定住特征提取器的参数,在美学数据集上微调分类器,如图所示,本文中将特征提取器的各层的输出都拿出来做了对比,结果如下(表中所展示的指标均为美学二分类准确率)。作者还选取了几种经典的自监督pretext task与本文设计的美学相关任务做了对比。
作者根据各层的性能表现对各中间层特征的层次做了分析。
比较有关键的是low data adaption部分实验,因为这里应该是体现自监督学习的优越性的地方,即在预训练阶段可以使用大量的图像(因为不需要标注),根据自己设计的pretext task来进行训练,在downstream task 微调时,由于根据预训练时的pretext task,已经得到了一个对于下游任务比较有针对性的特征提取器,这样应该只需要较少的有标签训练数据就可以得到比较好的性能。
上面两图是作者汇报的实验结果,可以看到在较少数量的有标签数据时,本文方法基本是全面领先于无预训练和有监督分类预训练的方法的。
作者的另一实验称在使用非线性分类器的情况下,本文的自监督预训练(未使用任何人工标注标签)的最高性能基本能够达到与有监督预训练(用了大量人工标注标签)相近。
最后作者的消融实验分别说明了pretext task,不同image editting operation 和 entropy-based weighting各部分的作用。