深度学习经典模型之ZFNet

1 ZFNet

1.1 模型介绍

ZFNet是由 $M a tt h e w$ $D . Z e i l er$ 和 $R o b$ $F er gu s$ 在AlexNet基础上提出的大型卷积网络，在2013年ILSVRC图像分类竞赛中以11.19%的错误率获得冠军（实际上原ZFNet所在的队伍并不是真正的冠军，原ZFNet以13.51%错误率排在第8，真正的冠军是 $Cl a r i f ai$ 这个队伍，而 $Cl a r i f ai$ 这个队伍所对应的一家初创公司的CEO又是 $Z e i l er$ ，而且 $Cl a r i f ai$ 对ZFNet的改动比较小，所以通常认为是ZFNet获得了冠军） $^{[3-4]}$ 。ZFNet实际上是微调（fine-tuning）了的AlexNet，并通过反卷积（Deconvolution）的方式可视化各层的输出特征图，进一步解释了卷积操作在大型网络中效果显著的原因。

1.2 模型结构

在这里插入图片描述

图1 ZFNet网络结构图（原始结构图与AlexNet风格结构图）

如图4.4所示，ZFNet与AlexNet类似，都是由8层网络组成的卷积神经网络，其中包含5层卷积层和3层全连接层。两个网络结构最大的不同在于，ZFNet第一层卷积采用了 $7\times7\times3/2$ 的卷积核替代了AlexNet中第一层卷积核 $11\times11\times3/4$ 的卷积核。图4.5中ZFNet相比于AlexNet在第一层输出的特征图中包含更多中间频率的信息，而AlexNet第一层输出的特征图大多是低频或高频的信息，对中间频率特征的缺失导致后续网络层次如图4.5（c）能够学习到的特征不够细致，而导致这个问题的根本原因在于AlexNet在第一层中采用的卷积核和步长过大。

在这里插入图片描述

图2 （a）ZFNet第一层输出的特征图（b）AlexNet第一层输出的特征图（c）AlexNet第二层输出的特征图（d）ZFNet第二层输出的特征图

表3 ZFNet网络参数配置

网络层	输入尺寸	核尺寸	输出尺寸	可训练参数量
卷积层 $C_1$ $^*$	$224\times224\times3$	$7\times7\times3/2,96$	$110\times110\times96$	$(7\times7\times3+1)\times96$
下采样层 $S_{max}$	$110\times110\times96$	$3\times3/2$	$55\times55\times96$	0
卷积层 $C_2$ $^*$	$55\times55\times96$	$5\times5\times96/2,256$	$26\times26\times256$	$(5\times5\times96+1)\times256$
下采样层 $S_{max}$	$26\times26\times256$	$3\times3/2$	$13\times13\times256$	0
卷积层 $C_3$	$13\times13\times256$	$3\times3\times256/1,384$	$13\times13\times384$	$(3\times3\times256+1)\times384$
卷积层 $C_4$	$13\times13\times384$	$3\times3\times384/1,384$	$13\times13\times384$	$(3\times3\times384+1)\times384$
卷积层 $C_5$	$13\times13\times384$	$3\times3\times384/1,256$	$13\times13\times256$	$(3\times3\times384+1)\times256$
下采样层 $S_{max}$	$13\times13\times256$	$3\times3/2$	$6\times6\times256$	0
全连接层 $F_6$	$6\times6\times256$	$9216\times4096$	$1\times1\times4096$	$(9216+1)\times4096$
全连接层 $F_7$	$1\times1\times4096$	$4096\times4096$	$1\times1\times4096$	$(4096+1)\times4096$
全连接层 $F_8$	$1\times1\times4096$	$4096\times1000$	$1\times1\times1000$	$(4096+1)\times1000$

卷积层 $C_1$ 与AlexNet中的 $C_1$ 有所不同，采用 $7\times7\times3/2$ 的卷积核代替 $11\times11\times3/4$ ，使第一层卷积输出的结果可以包含更多的中频率特征，对后续网络层中多样化的特征组合提供更多选择，有利于捕捉更细致的特征。

卷积层 $C_2$ 采用了步长2的卷积核，区别于AlexNet中 $C_2$ 的卷积核步长，所以输出的维度有所差异。