论文阅读: YOLO9000-Better,Faster,Stronger
YOLOv2 是经过改造之后的YOLO
Batch Normalization:在所有的conv layer后加了BN之后提高了2% mAP,BN可以帮助regularize模型,这样的话就可以放弃 dropout。
High Resolution Classifier: 之前的 YOLO是基于224X224,将resolution提高到448,首先在imagenet 上fine tune Network 10 epochs。
Convolutional With Anchor Boxes: 对于之前的YOLO,conv layers之后的 FC layer,YOLOv2 将FC layer移除之后,使用anchor boxes来预测 bounding boxes。
使用了anchor boxes在accuracy有了微小的提高,YOLO只有98 (7 x 7 x 2) 个bboxs,在anchor boxes下可以产生上千个box。
Diminsion Cluster:使用k-means来自动挑选box dimensions,选择非Euclidean distance,而是 distance metric:
在VOC和COCO上的表现:
Direct Location Prediction:在YOLOv2中不直接regression计算offsets,而是predict location of the grid cell,利用 logistic activation来选择 predictions,限制predictions落在range之内。
所以,prediction为:
如图:
Fine-Grained Features
13 x 13 feature map , good for finer grained features for localizing smaller objects.
multi-scale training: change the network every few iterations. (Every 10 batches our network randomly chooses a new image dimension size)
为了Faster,重新修改了网络结构:
YOLO9000, 利用细粒度分类 fine grained, wordTree 来帮助分类。
在train YOLO9000时候使用了 data combination,将COCO和ImageNet两个数据集合并。
ImageNet的WordTree representation为图像分类提供了更加丰富更加细致的输出空间。
本人观点:之前的YOLO出的早,网络结构是很不错,但是这两年的classification、Detection领域发展太快,有太多好的trick和method,作者重新取长补短,将那些好的思想融入到YOLO中。实现了题目中的 Better,Faster, Stronger的特点。不错的paper。