Unsupervised Out-of-Distribution Detection with Diffusion Inpainting
- 摘要
- 1.介绍
- 2 背景
- 3 3. Lift, Map, Detect
摘要
无监督的异常分布检测(OOD)旨在通过仅从未标记的域内数据中学习来识别域外数据。我们提出了一种用于此任务的新方法——提升、映射、检测(LMD),该方法利用了扩散模型的最新进展。扩散模型是一类生成模型。其核心在于学习一种迭代的去噪过程,逐渐将噪声图像映射到其训练流形上。LMD 利用这一直觉来进行 OOD 检测。具体而言,LMD 通过扰乱图像将其从原始流形上提升出来,然后使用扩散模型将其映射到域内流形上。对于域外图像,映射后的图像会与其原始流形有较大的距离,LMD 会相应地将其识别为 OOD。通过大量实验,我们展示了 LMD 在各种数据集上实现了具有竞争力的性能。代码可以在 https://github.com/zhenzhel/lift_map_detect 找到。
1.介绍
OOD 检测旨在分类数据点是否属于特定的领域。这尤其重要,因为机器学习模型通常假设测试时的样本来自与训练数据相同的分布。如果测试数据不符合训练分布,它们可能会无意中产生无意义的结果。在高风险领域,如医学(Hamet & Tremblay, 2017)和刑事司法(Rigano, 2019)中,机器学习模型的使用增加了OOD检测的重要性。例如,如果医生错误地将胸部X光片输入到脑瘤检测器中,模型可能仍然会返回一个预测 - 这将是无意义的,可能会产生误导。
以往的研究已经在不同的设置下研究了 OOD 检测:有监督和无监督。在有监督的设置中,监督可以来自不同的来源。在最知情的设置中,人们假设可以访问代表性的超出领域的样本。这些样本允许人们训练一个OOD检测器作为一个分类器,区分领域内和领域外的数据,并达到高性能(Hendrycks等人,2018; Ruff等人,2019) - 只要超出领域的数据不偏离假设的超出领域的分布。然而,在许多实际应用中,这样的知识是无法获得的。事实上,超出领域的数据可能非常多样化和不可预测。
一个明显更宽松的假设是只需要访问领域内的分类器或类标签。在这个设置下,像Hendrycks & Gimpel (2016); Liang等人(2017); Lee等人(2018); Huang等人(2021); Wang等人(2022)的方法已经取得了有竞争力的性能。尽管信息较少,但这个设置依赖于两个隐含的假设:领域内的数据有明确定义的类别,且有足够多的带有类注释的数据。然而在实践中,这些假设往往不能满足。未标记的数据不需要昂贵的人工注释,因此通常可以大量地方便地获得。理想情况下,人们希望构建一个OOD检测器,该检测器在训练期间只需要未标记的