深度学习之 OHEM (Online Hard Example Mining)

  • 论文 《Training Region-based Object Detectors with Online Hard Example Mining》
  • 链接 https://arxiv.org/pdf/1604.03540.pdf

Astract

摘要主要讲了四点:

  • (1) 训练过程需要进行参数的空间搜索
  • (2) 简单样本与难分辨样本之间的类别不平衡是亟需解决的问题
  • (3) 自动地选择难分辨样本来进行训练不仅效率高而且性能好
  • (4) 提出了OHEM算法,不仅效率高而且性能好,在各种数据集上表现优越

1 Introduction

(1) 分类器

由于目标检测套用图像分类的分类思想,但图像分类的数据集和目标检测的数据集存在天然的差距,目标检测的目标框和背景框之间存在严重的不平衡。

在滑动窗口检测器尤为严重,在DPM中甚至达到1:100,000,虽然在其他检测器中有所减缓,但依然高达1:70

(2) hard negative mining

参考:深度学习之 hard negative mining (难例挖掘)

当然,这个类别不平衡问题并不是新问题,之前有个hard nagetive mining的算法是解决这个类别不平衡问题的,它的关键思想是逐渐地增加分辨错误的样本。这个算法需要迭代地交替训练,用样本集更新模型,然后再固定模型 来选择分辨错的目标框并加入到样本集中在传统目标检测中,用SVM做分 类器也用到hard negative mining这个算法来训练;在一些浅层的神经网络和 提升决策树中也用hard negative mining来进行训练。除此之外,使用深度学习的目标检测算法也用到了hard negative mining

(3) why current state-of-the-art object detectors do not use hard negative mining?

那为什么不用hard negative mining,这主要是技术上的难度,hard negative mining需要交替地训练,而这对于使用线上优化的算法来说是不可能的,例如SGD(随机梯度下降算法)。使用SGD来训练网络需要上万次更新网络,如果每迭代几次就固定模型一次,这样的速度会慢得不可想象

(4) online hard example mining(OHEM)

那OHEM是怎样解决类别不平衡的呢,OHEM是选择损失较大的候选ROI, 具体为什么选择损失较大的候选ROI,这个后面再仔细说

作者总结了一下,使用了OHEM之后,不仅避免了启发式搜索超参数,而且提高了mAP。作者发现,训练集越大越困难,OHEM的效果就越好

2 Related work

我们来回顾一下相关的工作

(1) Hard example mining

a. SVMs

优化SVMs时,维持一个工作样本集。交替训练,先训练模型收敛于当前的工作集,然后固定模型,去除简单样本(能够轻易区分的),添加困难样本(不能够区分的),这样的训练方式能使模型达到全局最优

b. non-SVMs

除了优化SVMs类的模型,也优化非SVMs类的模型,例如浅层神经网络和提升决策树

(2) ConvNet-based object detection

基于卷积网络的检测模型已经得到了很大的发展,例如R-CNN、OverFeat。 OverFeat是基于滑动窗口的检测模型,R-CNN是基于选择性搜索的检测模型。 除此之外,还有Fast R-CNN,作者的研究工作就是在Fast R-CNN上展开的

(3) Hard example selection in deep learning

在深度学习方面相关的研究工作有三篇论文,这三篇论文的关注点在于图像分类或者图像识别,而OHEM关注点在目标检测

3 Overview of Fast R-CNN

我们回顾一下Fast R-CNN网络框架,如下图

在这里插入图片描述

(1) framework

图片和候选框做为Fast R-CNN的输入,Fast R-CNN分为两部分,一部分是卷积网络,包括卷积和池化层,另一部分是RoI网路,包括RoI池化层、全连接层和两个损失层(一个是分类,一个检测框回归)

(2) inference

在测试的时候,图片输入到卷积网络得到特征层,选择性搜索算法得到RoIs, 对于每个RoI,得到其对应的特征向量,然后每个特征向量输入到全连接层并得到两个输出,一个是概率,一个检测框的坐标

(3) 那为什么选择Fast R-CNN做为基础的目标检测器呢?

作者给出了几点原因:

a. more broadly applicable

Fast R-CNN由两部分组成,一是卷积网络,二是RoI网络,而这种结构也被其他的检测模型沿用,例如SPPnet 和 MR-CNN

b. allow for training the entire conv network

虽然Fast R-CNN和SPPnet、MR-CNN在结构上相似,但Fast R-CNN允许更新整个卷积网络,而SPPnet、MR-CNN却固定住卷积网络

c. SVM or not

SPPnet、MR-CNN使用SVM做分类器,Fast R-CNN不使用SVM

(4) How it trains

Fast R-CNN是使用SGD来优化模型的,每个RoI的损失包括分类损失和回归损失,其中不断降低分类损失使得模型分类更准确,不断降低回归损失使得预测标注框更准确。

SGD是以mini-batch为单位来更新模型的。对于每个mini-batch,先从数据集中取N张,然后每张图片采样B/N个RoIs

a. Foreground RoIs

一个RoIs怎样才算作一个目标RoI(也就是含有目标的RoI)呢,在R-CNN, SPPnet, and MR-CNN等把RoI与真实框的交叉比(IOU)大于等于0.5即判定为目标RoI,在本文中也是这样的设置

b. Background RoIs

而如果要被判定为背景RoI,则要求该RoI与真实框的交叉比大于等于 bg_lo这个阈值并且小于0.5。虽然这样的设置能加快收敛和检测准确度, 但这样的设置会忽略不怎么出现但又十分重要的比较难分辨的背景。因此,在本文的OHTM方法中,作者去掉了这样的设置。

c. Balancing fg-bg RoIs

为了解决目标框和背景框之间的不平衡,Fast R-CNN设置在一个 mini-batch中,它们之间的比例是1:3。作者发现,这样的一个比例对于Fast R-CNN的性能是十分重要的,增大或者减小这个比例,都会使模型的性能有所下降,但使用OHEM便可以把这个比例值去掉。

4 Our approach

作者认为Fast R-CNN之前选择RoI的方法不仅效率低而且也不是最优的,于是作者提出了OHEM,OHEM不仅效率高而且性能也更优

(1) Online hard example mining

我们知道,基于SVM的检测器,在训练时,使用hard example mining来选择样本需要交替训练,先固定模型,选择样本,然后再用样本集更新模型, 这样反复交替训练直到模型收敛

a. main observation

作者认为可以把交替训练的步骤和SGD结合起来。之所以可以这样,作者认为虽然SGD每迭代一次只用到少量的图片,但每张图片都包含上千个RoI,可以从中选择hard examples,这样的策略可以只在一个mini-batch中固定模型,因此模型参数是一直在更新的。

更具体的,在第t次迭代时,输入图片到卷积网络中得到特征图,然后把特征图和所有的RoIs输入到RoI网络中并计算所有RoIs的损失,把损失从高到低排序,然后选择B/N个RoIs。这里有个小问题,位置上相邻的RoIs通过RoI网络后会输出相近的损失,这样损失就翻倍。作者为了解决这个问题,使用了NMS(非最大值抑制)算法,先把损失按高到低排 序,然后选择最高的损失,并计算其他RoI这个RoI的IoU(交叉比),移除IoU大于一定阈值的RoI,然后反复上述流程直到选择了B/N个RoIs。

(2) Implementation details

how to implement OHEM in the FRCN detector

主要有两种方法

a. An obvious way

直接修改损失层,然后直接进行hard example selection。损失层计算所有的RoIs,然后按损失从大到小排序,当然这里有个NMS(非最大值抑制) 操作,选择hard RoIs并non-hard RoIs的损失置0。虽然这方法很直接,但效率是低下的,不仅要为所有RoI分配内存,还要对所有RoI进行反向传播,即使有些RoI损失为0。

b. A better way

在这里插入图片描述
为了解决这个问题,作者提出了上面这样的架构。这个架构有两个相同的RoI网络,不同的是其中一个只可读,另一个可读可写。我们看到(a) 是只可读的,只对所有RoI做前向计算,所以只需分配内存给前向计算操作,(b)既可读也可写,对被选择的hard RoIs不仅做前向计算也做反向传播计算。

对于一次SGD迭代,计算过程如下:先计算出特征图,可读RoI网络对所有RoI执行前向计算并计算每个RoI的损失,然后选择hard RoIs。把这些hard RoIs输入到可读可写的RoI网络中执行前向前向计算和反向传播更新网络,并把可读可写的RoI网络的参数赋值给只可读的网络,一次迭代就完成了。

这个方式和第一种方式在内存空间是差不多的,但第二种方式的速度快了两倍。

5 Analyzing online hard example mining

(1) Experimental setup

在本文的实验中使用两种标准的卷积网络,一种是VGG_CNN_M_1024,另一种是VGG16。论文实验使用的超参数沿用Fast R-CNN的默认设置。

在这里插入图片描述

(2) OHEM vs. heuristic sampling

为了检验hard example mining的重要性,我们做了两组实验,一组Fast R-CNN 带有hard example mining,bg_lo=0.1,另一组没有hard example mining,即 bg_lo=0。我们发现,对于VGGM网络,mAP降低2.4点,VGG16基本没变化。而使用OHEM,相对于使用了hard example mining的Fast R-CNN,mAP 提高了2.4点,相对于没有使用hard example mining的Fast R-CNN,mAP提 高了4.8点。

(3) Robust gradient estimates

而在实验中,存在一个这样的疑虑,每个mini-batch只取两张图片会不会造成梯度不稳定和收敛慢,因为在一张图片中选择RoI会使RoIs之间的相关性很大。Fast R-CNN的作者认为在训练过程不存在这样的问题,而在OHEM中,由于是在一张图片中选择损失大的RoI,这样可能造成RoIs之间的相关性更大。为了解答这个疑虑,我们把N设置为1,通过做实验发现,传统的Fast R-CNN大概降低一个点,而OHEM却没有太大变化,这说明使用了OHEM的Fast R-CNN是鲁棒的。

(4) Why just hard examples, when you can use all?

那为什么只选择hard examples呢,因为easy examples的损失很小,对梯度影响很小。为了用事实说话,作者做了一个这样的实验,把mini-batch的B分别设置为128和2048,结果表明,B为2048的相对于128的,mAP提高了一个点。不过,这提高的一个点对于使用了OHEM的Fast R-CNN来说是无关紧要的,因为OHEM的mAP提高更大,并且用更小的mini-batch收敛速 度会更快。

(5) Better optimization

作者为了分析使用了不同训练方法的Fast R-CNN的训练损失的情况,做了这样的实验,每优化20K步就记录一下所有RoIs的平均损失,结果显示, bg_lo=0(即没有使用hard example mining)的训练损失最高,bg_lo=0.1(使用 hard example mining)的损失有所降低,增大mini-batch(即设置bg_lo=0, B=2048),损失更低,最后,使用了OHEM的Fast R-CNN损失最低,这表明 Fast R-CNN使用了OHEM会训练得更好。

(6) Computational cost

使用了OHEM的Fast R-CNN相对于没有使用OHEM的Fast R-CNN在内存和每迭代一次所花的时间都有所增加,不过,作者认为这一点增加影响不大。

6 Conclusion

  • (1) 简化训练过程
  • (2) 更好的训练收敛和检测准确度的提高

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/453710.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

音视频 详解

avi文件格式详解 AVI是音频视频交错(Audio Video Interleaved)的英文缩写,它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式,原先用于Microsoft Video for Windows (简称VFW)环境,现在已被Windows 95/98、OS/2等多数操…

c6011取消对null指针的引用_C++| 函数的指针参数如何传递内存?

函数的参数是一个一级指针,可以传递内存吗?如果函数的参数是一个一级指针,不要指望用该指针去申请动态内存。看下面的实例:#include using namespace std;void GetMemory(char *p, int num){p (char *)malloc(sizeof(char) * num…

深度学习目标检测之 YOLO v2

论文名:《YOLO9000: Better, Faster, Stronger》原文:https://arxiv.org/pdf/1612.08242v1.pdf代码:http://pjreddie.com/darknet/yolo/ YOLO v2 斩获了CVPR 2017 Best Paper Honorable Mention。在这篇文章中,作者首先在YOLOv1的…

深度学习目标检测之 YOLO v3

论文名:《YOLOv3: An Incremental Improvement》论文地址 https://pjreddie.com/media/files/papers/YOLOv3.pdfhttps://arxiv.org/abs/1804.02767v1 论文代码 https://github.com/yjh0410/yolov2-yolov3_PyTorchkeras:https://github.com/qqwweee/keras…

30本pdf完整版的经典Linux学习和开发教程和资料下载 android arm java 资料大全

史上最牛的Linux内核学习方法论 点击下载我的arm_linux移植笔记 点击下载S3C2440完全开发流程 点击下载Linux系统命令及其使用详解完整版 点击下载Linux主要shell命令详解 点击下载深入理解Linux内核(第三版 pdf英文版) 点击下载深入分析Linux内核源代码教程pdf完整版 点击下…

Fedex Ship Manager Software安装

本文出自Simmy的个人blog:西米在线 http://simmyonline.com/archives/552.html 这个软件的安装颇费了我一番周章,特地Log之。下载:http://www.fedex.com/apac_english/fsmsoftware/ 安装完后,接着输入用户信息,然后连…

【转】博客美化(3)为博客添加一个漂亮的分享按钮

阅读目录 1.社会化分享2.选择一个分享按钮3.添加到博客园博客博客园美化相关文章目录:博客园博客美化相关文章目录 在前2篇博客“博客美化(1)基本后台设置与样式设置”与"博客美化(2)自定义博客样式细节"中详细介绍了博客样式设置的相关问题,当…

深度学习目标检测之 YOLO v4

论文原文:https://arxiv.org/abs/2004.10934代码 原版c: https://github.com/AlexeyAB/darknetkeras:https://github.com/Ma-Dan/keras-yolo4pytorch:https://github.com/Tianxiaomo/pytorch-YOLOv4 前言 2020年YOLO系列的作者…

[Android] 年年有鱼手机主题

自制的年年有鱼手机主题,希望大家喜欢!~ 下载地址:https://yunpan.cn/cqauQbiM97idd (提取码:d272) 本文转自haiyang45751CTO博客,原文链接: http://blog.51cto.com/haiyang457/1…

mysql 小数做索引_10 分钟掌握 MySQL 的索引查询优化技巧

本文的内容是总结一些MySQL的常见使用技巧,以供没有DBA的团队参考。如无特殊说明,存储引擎以InnoDB为准。MySQL的特点了解MySQL的特点有助于更好的使用MySQL,MySQL和其它常见数据库最大的不同在于存在存储引擎这个概念,存储引擎负…

模块与包

一 模块介绍 1、什么是模块? #常见的场景:一个模块就是一个包含了一组功能的python文件,比如spam.py,模块名为spam,可以通过import spam使用。#在python中,模块的使用方式都是一样的,但其实细说的话&#x…

解决eclipse + pydev 编译过程中有中文的问题

最近在学习python编程,开发环境设置好了,是用eclipse pydev 来做开发的环境,配置好了之后,需要解决的一个关键问题就是老问题了:如何解决代码中的中文问题。。。 其实但我们在配置编程环境的时候,就需要设…

程序员的思考--终于确定了自己的技术发展方向

经过了将近5年的工作沉淀以后,终于确定了自己的职业发展方向。从现在开始终于可以有的放矢了,不再迷茫了。回想以往,找到这个方向,确实不是一件容易的事情,一路也是迷茫的走过来,随着知识和工作经验的积累&…

【原】iOS:手把手教你发布代码到CocoaPods(Trunk方式)

概述 关于CocoaPods的介绍不在本文的主题范围内,如果你是iOS开发者却不知道CocoaPods,那可能要面壁30秒了。直奔主题,这篇文章主要介绍如果把你的代码发布到CocoaPods代码库中,让别人可以使用“pod search yourOpenProject”命令查…

kafka tool 查看指定group下topic的堆积数量_ELK架构下利用Kafka Group实现Logstash的高可用...

系统运维的过程中,每一个细节都值得我们关注下图为我们的基本日志处理架构所有日志由Rsyslog或者Filebeat收集,然后传输给Kafka,Logstash作为Consumer消费Kafka里边的数据,分别写入Elasticsearch和Hadoop,最后使用Kiba…

jquery flot pie画饼图

具体效果如下&#xff1a; 1 <!DOCTYPE html> 2 <html> 3 <head> 4 <meta http-equiv"Content-Type" content"text/html; charsetUTF-8"> 5 <title>Insert title here</title> 6 <script language"javas…

mysql fetch rows_差异mysql_fetch_array()和mysql_fetch_rows()函数_mysql

区别mysql_fetch_array()和mysql_fetch_rows()函数form:http://www.uphtm.com/php/254.html如果我们不仔细看会发现象mysql_fetch_array()和mysql_fetch_rows()函数没有什么区别&#xff0c;但是细细的看你会发现它们区别还是蛮大了&#xff0c;如果各位对于此函数的区别不了解…

解读设计模式----简单工厂模式(SimpleFactory Pattern),你要什么我就给你什么

本文首发于博客园,地址:http://www.cnblogs.com/beniao/archive/2008/08/09/1263318.html 一、模式概述 从设计模式的类型上来说&#xff0c;简单工厂模式是属于创建型模式&#xff0c;又叫做静态工厂方法&#xff08;Static Factory Method&#xff09;模式&#xff0c;但不属…

Memcached常用操作

memcached是一个高性能的、分布式内存对象缓存系统&#xff0c;应用广泛。 通过缓存数据库查询结果&#xff0c;减少数据库访问次数&#xff0c;以提高动态Web应用的速度、 提高可扩展性。 它可以应对任意多个连接&#xff0c;使用非阻塞的网络IO。由于它的工作机制是在内存中开…

android自定义金额输入键盘_Android 自定义控件 - 仿支付宝数字键盘

原标题&#xff1a;Android 自定义控件 - 仿支付宝数字键盘简介在一些带有支付功能的 App 中&#xff0c;输入的密码一般只能是纯数字&#xff0c;虽然我们可以指定 EditText 输入框只能输入数字&#xff0c;但是为了提供用户的使用体验&#xff0c;我们往往更倾向于使用自定义…