效果很好,文本增加一个词,就能找到对应的分割地方,给出的无用标签也不会去错误分割,而且能理解文本意思,例如dog和pet都能把狗给分割出来
image encoder使用DPT分割模型,大致架构为ViT+decoder,decoder的作用是把bottleneck feature慢慢upscale上去,得到特征图
文本和图片的特征图的C一般为512或768
将两个特征矩阵在C维度上相乘,得到HxWxN的矩阵,N是文本标签个数
将最后的矩阵去和ground truth mask去做交叉熵,而不是像CLIP一样做对比学习的loss,因此它不是一个无监督学习的工作,是有监督的
创新点在于把文本特征通过矩阵相乘融入图像特征中
论文中text encoder沿用了冻结的CLIP text encoder,因为分割任务的数据集还是不够大,fine-tune容易带偏CLIP预训练出的参数
spatial regularization block里是conv或者depthwise conv层,目的是为了多理解理解文本和视觉到底应该怎么去交互,2个block效果最好