Reviewing FID and SID Metrics on Generative Adversarial Networks
公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)
目录
0. 摘要
2. 相关工作
3. 方法
4. 实验
0. 摘要
生成对抗网络(GAN)模型的增长增强了图像处理的能力,并为许多行业提供了技术,可以产生逼真的图像转换。然而,由于该领域最近刚刚建立,因此存在一些新的评估指标,可以推动这一研究领域的发展。先前的研究表明,Fréchet Inception Distance(FID)在测试这些图像到图像的 GAN 在实际应用中的表现时是一种有效的度量标准。Signed Inception Distance(SID)是 2023 年创立的一种度量标准,它通过允许无符号距离来扩展 FID。本文使用了包含在 Pix2Pix 和CycleGAN 模型中的建筑外观、城市景观和地图的公共数据集。在训练后,这些模型使用度量生成性能的两个 Inception 距离指标进行评估。我们的研究结果表明,使用 SID 度量标准可以作为一种有效而高效的度量标准,用于补充甚至超过使用 FID 进行图像到图像 GAN 的能力。
2. 相关工作
Pix2Pix,一种早期的图像生成对抗网络(GAN),开创了高质量图像生成并影响了后续的模型。Isola 等人在 [11] 中引入了自动图像到图像的翻译,教授模型图像映射和多功能翻译的损失函数。它采用具有跳跃连接的 U-Net 生成器,避免低级信息瓶颈,如图 1 所示。 Pix2Pix 在小数据集上表现出色,并依赖于成对图像进行监督,并通过使用 dropout 来解决对噪声的利用不足。这提高了 Pix2Pix 在训练数据之外的适应性 [6]。
然而,Pix2Pix GAN 缺乏循环一致性:循环一致性提高在两个领域之间进行图像翻译结果的一致性验证。因此,CycleGAN [12] 被引入,作为 Pix2Pix 的扩展,具有循环一致性。它通过将生成的图像的分布与真实图像匹配来处理无成对数据的图像到图像的翻译。它采用一个70x70 的 PatchGAN [12] 鉴别器和一个带有 6-9 残差块和分数步进卷积的生成器。CycleGAN 引入了对抗性和循环一致性损失,以在领域之间保持图像集的特征,如图 2 所示。与 Pix2Pix 不同,它使用自编码器结构,缺乏跳跃连接,并且不使用条件 GAN [6],[9],[12]。
3. 方法
FID 是一种用于评估 GAN 生成图像质量的流行度量标准。它变得流行,因为 FID 分数与人眼解释之间存在高度相关性 [10]。它测量生成图像数据集的多变量高斯分布与 GAN 试图复制的真实数据(地面真相)之间的距离,其公式等同于 2-Wasserstein 公式[10],[13]。
其中 (𝜇𝑟,𝛴𝑟) 和 (𝜇𝑔,𝛴𝑔) 分别表示地面真实数据和生成数据的特征近似的样本均值和协方差。Tr(·)表示矩阵迹 [10]。使用在 ImageNet 数据集上预训练的 InceptionV3 模型来提取数据集中每个图像的特征向量,从而得到数据集上特征的多变量高斯分布。为了实际目的,只考虑平均值和协方差,将真实数据和生成数据都建模为高斯分布。注意到 FID 不仅评估生成的图像,还评估人类对图像的评价,因为它提供了图像质量和多样性的整体评估 [8],[14],同时获取得分非常简单和快速。所有这些导致 FID 在 GAN 开发领域是一种相当常见的度量标准。FID 分数介于 0 到无穷大之间。当FID 分数低时,生成图像数据集的质量和多样性较大 [10]。图 3 可视化了如何在地面真实数据和生成图像数据集之间计算 Fréchet Inception 距离的过程。
SID 指标扩展了 FID 的基本思想,并融合了 Precision-Recall 分析的改进。具有无符号距离分数的额外复杂性使其成为 FID 的可行替代方案 [8],[14]。SID 是一种现代统计方法,旨在使用公式 [8]捕捉人工生成图像中的变化和多样性。
其中 N 是样本 batch 数量,𝐶'_𝑞,𝑟 是以变换分布 𝜓(𝑐𝑗) 为中心、边长为 r 的超立方体,Mx 是均匀采样在超立方体 𝐶'_𝑞,𝑟 内的测试点数量。 Φ(𝑥𝑙 ,𝜓(𝑐𝑗)) 是一个核函数,用于测量特征空间中两点之间的相互作用,受到它们之间距离和其他因素的影响。
SID 可能特别有帮助,特别是当我们希望评估生成图像中包含的各种内容和风格元素时。因此,SID 在评估 GAN 性能时对于评估介于负无穷到正无穷的区间上具有补充作用。由于 SID 集中于识别生成图像中的多样性和变化,而 FID 只评估生成图像与真实照片的相似程度,因此两者相辅相成。