论文阅读 (106)：Decoupling maxlogit for out-of-distribution detection (2023 CVPR)

文章目录

1 概述
- 1.1 要点
- 1.2 代码
- 1.3 引用
2 预备知识
3 方法
- 3.1 MaxLogit
- 3.2 改进MaxCosine和MaxNorm
- 3.3 DML+

1 概述

1.1 要点

题目：解耦最大logit分布外检测 (Decoupling maxlogit for out-of-distribution detection)

方法：

提出了一种心机基于logit的OOD方法，解耦最大逻辑 (DML)；
考虑硬样本和紧凑特征空间，提出改进后的DML+；
解耦最大logit (MaxLogit) 为高效的MaxCosine和保证性能的MaxNorm；

1.2 代码

暂无。

1.3 引用

@inproceedings{Zhang:2023:33883397,
author		=	{Zhang, Zi Han and Xiang, Xiang},
title		=	{Decoupling {MaxLogit} for out-of-distribution detection},
booktitle	=	{{CVPR}},
pages		=	{3388--3397},
year		=	{2023},
}

2 预备知识

已知一个 $K$ 类分类器：
$\tag{1} f(x,W_\text{full})=b_L+W_L\delta(\cdots\delta(b_1+W_1x)\cdots),$ 其中 $W$ 表示权重、 $b$ 表示偏置，以及 $\delta(\cdot)$ 表示非线性激活函数。给定属于第 $k$ 类的数据 $x_{k,i}$ ，定义最后一层的特征为 $h_{k,i}\in\mathbb{R}^d,f(x;W_\text{full})=b_L+W_Lh_{k,i}$ 。为了简便，后面的分析将不包含偏置项。然后logit表示为 $z_{k,i}=W_Lh_{k,i}$ 。

给定训练集 $\mathcal{D}_{tr}=\{(x_{k_i},k)\}_{i=1}^N\sim\mathcal{P}_{tr}$ 。首先在训练集上训练模型，OOD检测的目的是决定给定的样本来自于 $\mathcal{P}_{tr}$ 还是其它数据分布。因此，OOD检测的两个关键问题是：

训练一个对OOD数据健壮的数据，即便于区分ID和OOD数据；
设计一个评分函数，使得得分低的是OOD数据；

两个特征坍塌指标定义如下：

类内特征收敛 (WFC)：
$\tag{2} \text{WFC}:=\frac{\text{trace}(\Sigma_W\Sigma_B^\dag)}{K},$
类平均特征收敛 (CFC)：
$\tag{3} \text{CFC}:=\sum_{k=1}^K\left\| \frac{\overline{h}_k}{\|h\|_F} -\frac{w_k}{\|W\|_F} \right\|,$ 其中 $\dag$ 表示伪逆， $h$ 是所有样本的特征矩阵， $\overline{h}_k$ 和 $\overline{h}$ 分别表示第 $k$ 类和所有特征的平均值， $\Sigma_W=\frac{1}{K_n}\sum_{k=1}^K\sum_{i=1}^n(h_{k,i}-\overline{h}_k)(h_{k,i}-\overline{h}_k)^\top$ ，以及 $\Sigma_B=\frac{1}{K}\sum_{k=1}^K(\overline{h}_{k}-\overline{h})(h_{k}-\overline{h})^\top$ 。

3 方法

3.1 MaxLogit

一个样本的MSP得分是其最大softmax值： $\max(\text{Softmax}(z_{k,i}))$ 。MaxLogit则取样本的最大logit值： $max(z_{k,i})$ 。

MaxLogit在很多数据集上优于MSP。评分函数上的单调递增函数变化，例如 $\log$ 和 $\exp$ ，不会影响OOD检测性能。因此，MSP和MaxLogit唯一的差别是求和项 $\sum_{j=1}^K\exp(z_{ij})$ 。当模型收敛后，该项主要受特征范数影响。因此，MSP和MaxLogit的主要区别集中在特征范数。这启发我们研究cosine相似性和特征范数如何影响OOD检测性能。

本文将MaxLogit解耦为两个部分：
$\tag{4} \text{MaxCosine}:\max\left( \cos<h_{k,i},w_j> \right)_{j=1}^K,$ $\tag{5} \text{MaxNorm}:\| h_{k,i} \|.$ MaxLogit得分等价于MaxCosine和MaxNorm得分的乘积。由于应用递增函数变换不会影响OOD检测的性能，因此MaxLogit可以用两个独立的部分来描述： $log(\max(z_{k,i}))=\log(\max(\cos<h_{k,i},w_j>))+\log|h_{k.i}|+\log|w|$ ，其是MaxCosine和MaxNorm的耦合项。注意对于分类器权重 $w_j$ ，其在模型收敛后为常数，因此用常量|w|来代替。

基于以上结果，提出了解耦MaxLogit (DML)：
$\tag{6} \text{DML}=\lambda\text{MaxCosine}+\text{MaxNorm},$ 其中 $\lambda$ 是超参数。

3.2 改进MaxCosine和MaxNorm

尽管MaxNorm使得DML优于MaxCosine，但由于MaxNorm的性能较低，因此改进幅度很小。通过实验发现：

Cosine分类器可以引导更好的MaxCosine、MaxNorm，以及基于logit的方法；
低WFC引导更好的MaxNorm，其通过Center损失获取：
$\tag{7} \mathcal{L}_{center}=\sum_{k=1}^K\sum_{i=1}^n\|h_{k,i}-\mathcal{C}_k\|_2,$ 其中 $\mathcal{C}_k$ 是第 $k$ 类的平均特征；
低CFC引导更好的MaxCosine，其通过Focal损失获取：
$\tag{8} \mathcal{L}_{focal}=-\sum_{k=1}^K\sum_{i=1}^n(1-p_{k_i})^\gamma\log(p_{k,i}),$ 其中 $\gamma$ 是超参数，以及 $p_{k,i}$ 是sofrmax得分。

3.3 DML+

为了进一步提升，一个健壮的方法是：

利用Focal损失训练cosine模型，并获得MaxCosine；
利用Center损失训练cosine模型，并获得MaxNorm；

这样的方法被命名为DML+：
$DML+=\lambda\text{MaxCosine}_F+\text{MaxNorm}_C,$ 其中 $\text{MaxCosine}_F$ 表示使用Focal损失训练模型， $\text{MaxNorm}_C$ 表示使用Center损失训练模型，其分别被记为 $MCF$ 和MNC。