论文阅读(4)--Part-Stacked CNN for Fine-Grained Visual Categorization

这篇文章是来自悉尼科技大学Shaoli Huang等人的工作,与前两篇文章的出发点类似,本篇文章也是在Parts上寻找Fine-Grained的线索,但与前两篇文章相比,在框架中人工的参与更少。同其它Fine-Grained分类任务相似,这篇文章也采用两步走,即object parts localization (where pathway)classification (what pathway),值得一提的是在part定位过程中,利用了FCN(Fully Convolutional Network)。
论文提出的新方法是既可以得到不错的分类准确率,也能提供一个可以解释得了的模型,并且效率也更加高,非常适用于实际应用中。

下面是方法提出的网络结构的示意图:

这里写图片描述

接下来会介绍该方法的实现细节。

Part-Stacked CNN

论文将提出的新的CNN结构命名为Part-Stacked CNN,这个网络结构分为两个子网络,分别是定位网络(Localization Network)和分类网络(Classification Network)。采用的是Caffe框架和经典的AlexNet网络结构作为整个网络的基本结构。

作者提出与基于部件的R-CNN相比,一个最大不同点是,从定位网络到分类网络的一个信息转换运算,也就是使用定位网络中得到的部件位置进行分类的操作,是直接在数据的前向传播过程中直接使用在第五个卷积层输出的特征图上(A unique design in our architecture is that the message transferring operation from the localization network to the classification network, i.e. using detected part locations to perform part-based classification, is conducted directly on the conv5 output feature maps within the process of data forwarding.)。

1. Localization Network

定位网络的整体结构如下图所示:

这里写图片描述

定位网络主要目的是检测到物体部件的位置,论文是使用了最简单的部件标注–每个部件中心位置标注的二维关键点。这里假设M表示数据集中物体部件标签的数量。然后采用全卷积网络(fully convolutional network,FCN)来生成密集的特征图输出。这里使用FCN的理由给出了三点:

1)FCN得到的特征图输出可以直接作为部件定位的结果用于分类网络;

2)FCN可以同时获取多个物件部件的结果;

3)FCN在学习和预测阶段都非常高效。

1.1 Learning阶段

由上图可以知道,定位网络最终的输出是一个带有M个位置点的h×w的特征图。定位网络的前5层跟经典的AlexNet网络结构一样,然后在第五个卷积层后面加一个卷积核大小是1×1,输出是512的第六个卷积层 conv6,接着就是卷积核大小一样,输出是 M+1conv7来实现分类,这里M+1是加上背景。

这里一个实际问题是需要决定FCN的输入图片尺寸以及网络的深度。一般来说,越深的层可以生成更好的定位结果,但是它们的感受野(receptive fields)大小也要大过前面的网络层,比如,CaffeNet(也就是指AlexNet)中,conv5 的感受野是 163×163,而输入图片的尺寸是227×227,这个感受野的尺寸会太大不能模型化一个物体的部件。因此,论文提出了一个简单的方法——上采样输入图片,这样后面深层的感受野是固定尺寸的,那么相对于变大的输入图片就变得没有那么大了。

因此,定位网络的输入图片是一个使用bounding-box裁剪的,将尺寸调整成454×454大小的彩色图片。

1.2 Inference 阶段

学习阶段通过FCN得到的是输出结果是M+1个尺寸为27×27的特定部位的热度图( (M +1) part-specific heat maps in the
size of 27 × 27),接着,会对这个输出结果使用一个高斯核进行高斯滤波来去噪,最后得到最终的输出结果是带有M个位置点的h×w的特征图。

在这个阶段,会设定一个阈值,用来判断一张图片中是否含有某个部件,这里使用FCN层的conv7softmax函数输出结果与高斯核的计算结果来与设定的阈值进行判断,如果低于阈值,则认为这张图片是缺乏这个部件。

2. Classification network

分类网络使用两个输入流结构的方法,分别是Part StreamObject Stream,然后再使用一个包含三个全连接层的子网络作为一个物体分类器。

2.1 Part Stream

Part Stream如作者所说,是其提出的网络PS-CNN结构的核心。在之前的如R-CNN论文中是训练一组部件CNNs,每个CNN专门训练一个部件,这个方法对于拥有多个部件的数据库来说就会需要耗费很多时间和非常大的内存使用量。

因此,论文采用两个策略来提高效率:

1)模型参数的共享。也就是对于前面5个卷积层的参数在所有物体部件中是共享的,这可以减少参数从而降低过拟合的风险;

2)计算量共享策略。这个目的是在卷积层阶段的所有部件的特征提取过程只需要进行一次。

在特征提取完毕后,每个部件都会分别通过一个part crop layer进行裁剪从而得到一个合适尺寸大小的feature map进入后面的三个全连接层,这里是因为其输入是一个454 × 454尺寸大小,而在Object Stream中输入图片只是227 × 227,所以需要调整尺寸大小。

这里的part crop layer的裁剪是提取每个检测到的部件位置的领域,论文中是提取一个6×6大小的领域,从原来大小为27×27conv5 的特征图中提取。

2.2 Object Stream

这一步主要是利用已有的bounding-box的标签来提取物体级别的语义信息,使用的也是经典的AlexNet,然后使用pool 5层的输出–6×6大小的特征图。

2.3 Dimension reduction and fully connected layers.

完成上述两个输入流的网络,后面接着一个3个全连接层的深度神经网络(DNN),这里作为第一个全连接层的fc6就相当于一个部件连接层,因为其输入都是来自Part StreamObject Stream的输出结果,但是这里所需要的内存会比原本的AlexNet网络中的fc6要多出M+1倍。

为了降低内存的使用,这里在Part Stream增加一个卷积核大小为1×1的卷积层 conv5_1,将原本输出是256降到32个,但是这里没有使用标准的PCA方法,因为效果会很差,作者是训练一个辅助的CNN来初始化这个增加的卷积层的权值。

小结

论文最后是通过4个指标来判断其方法的性能的,分别是定位准确率、分类准确率、效率以及模型的可解释性。通过实验结果可以看到,Part_Stacked CNN方法的性能是要优于当前大部分的方法,而且满足了实时性,非常适合实际的应用。

最近看的3篇论文,包括这篇论文在内,关注的重点都是Part,也就是部件或者说部位,并且都是希望尽可能减少人工的参与,利用实验用的数据库已有的部件标注甚至不需要标注,只需要类标签,方法都是主要分为两步,定位或者检测网络,以及分类网络,同时还将这两个网络都整合成在一起,可以同时训练,而不是分别单独训练几个子网络,最后联合特征,使用SVM来进行分类,而且三个方法的性能都比当前绝大数方法要有所提高。

这说明他们的思路也是正确的,自动检测和定位部件,然后用到分类中,所有部件的训练都整合在一个大网络中,这样分类误差可以在反向传播中传回给所有部件,并让它们同时更新权值。

看起来,目前在精确分类方面,利用部位是一个趋势,并且很多工作的结果也表明这个思路是正确的,的确可以取得不错的性能,同时,也应该向无监督学习靠近,即尽可能自动检测部件,而不需要过多的部件标注。不过,现在这方面的工作也挺多了,要想到一个更好的突破点,的确挺难啊,还是要多看几篇论文,看看能否得到更多的想法吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/409008.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

仙元天下试玩感受

仙元天下是安讯网洛旗下的游戏,在官网注册账号的时候就遇到了问题,注册页面无法打开,服务器网址错误,只有返回到官网首页进行快捷注册。 画面2D,有自动打怪,画面感一般,反应比较迟钝&#xff0c…

java打开word文件名乱码怎么解决_Word文档乱码怎么办?解决Word文档乱码的几种常见方法...

最近Word经常出现问题,双击打开后就弹出“文件转换”的对话框,让选择装载此文件时要使用的编码,选择了简体中文,打开文档后还是乱码,遇到这种情况我们应该怎么办呢?解决方法一:把原来的文档另存为*.rtf格式…

python 合并excel 自动更新_手把手教你4种方法用Python批量实现多Excel多Sheet合并

一、前言大家好,我是崔艳飞。前两天给大家分享了Python自动化文章:手把手教你利用Python轻松拆分Excel为多个CSV文件,而后在Python进阶交流群里边有读者遇到一个问题,他有很多个Excel表格,他需要对这些Excel文件进行合…

jQuery布局插件UI Layout简介

UI Layout是一种基于jQuery的布局框架,项目主页http://layout.jquery-dev.net/。该框架的参考原型是ExtJS的border-layout,因此十分适用于将原有使用ExtJS的项目改造成jQuery项目。其核心是一个大小自适应的中心面板(必选)&#x…

淘到了一个不错的TF卡读卡器

最近换手机的时候一时冲动败了个32G的TF卡。买后又觉得手机存储空间还比较充裕,暂时用不上,便打算套个读卡器当U盘用。最开始我用的是以前买手机的时候送的一个读卡器,但其兼容性很差,在以前的那个8G的卡里还能勉强用用&#xff0…

Unity3D For Android 开发教程【转http://game.ceeger.com/Unity/Doc/2011/Unity3D_For_Android.html】...

Unity3D For Android 开发教程 Date:2011-08-01 04:33我自认为抵挡诱惑的能力还是很强大的,关键的时候还能把持住自己。今天逛了一下南京的丹凤街,终于受不住Android这美眉的诱惑。她虽脸蛋不怎么滴,但身材火热,且性感&#xff0c…

CentOS 6.4 编译安装 gcc-4.8.0

1.首先下载源代码 wget http://ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz22.解压 tar -jxvf gcc-4.8.0.tar.bz23.下载编译所需的依赖项 cd gcc-4.8.0  ./contrib/download_prerequisites  cd ..4.建立编译输出目录 mkdir gcc-build-4.8.05.进入此目录,执…