在目标检测中如何解决小目标的问题?

作者:Nabil MADALI

来源:AI公园

编译:ronghuaiyang

在深度学习目标检测中,特别是人脸检测中,由于分辨率低、图像模糊、信息少、噪声多,小目标和小人脸的检测一直是一个实用和常见的难点问题。然而,在过去几年的发展中,也出现了一些提高小目标检测性能的解决方案。本文将对这些方法进行分析、整理和总结。

图像金字塔和多尺度滑动窗口检测

一开始,在深学习方法成为流行之前,对于不同尺度的目标,通常是从原始图像开始,使用不同的分辨率构建图像金字塔,然后使用分类器对金字塔的每一层进行滑动窗口的目标检测。

在著名的人脸检测器MTCNN中,使用图像金字塔法检测不同分辨率的人脸目标。然而,这种方法通常是缓慢的,虽然构建图像金字塔可以使用卷积核分离加速或简单粗暴地缩放,但仍需要做多个特征提取,后来有人借其想法想出一个特征金字塔网络FPN,在不同层融合特征,只需要一次正向计算,不需要缩放图片。它也被应用于小目标检测,这将在后面的文章中讨论。

简单,粗暴和可靠的数据增强

通过增加训练集中小目标样本的种类和数量,也可以提高小目标检测的性能。有两种简单而粗糙的方法:

  • 针对COCO数据集中含有小目标的图片数量较少的问题,使用过采样策略:

不同采样比的实验。我们观察到,不管检测小目标的比率是多少,过采样都有帮助。这个比例使我们能够在大小物体之间做出权衡。

  • 针对同一张图片中小目标数量少的问题,使用分割mask切出小目标图像,然后使用复制和粘贴方法(当然,再加一些旋转和缩放)。

通过复制粘贴小目标来实现人工增强的例子。正如我们在这些例子中所观察到的,粘贴在同一幅图像上可以获得正确的小目标的周围环境。

在Anchor策略方法中,如果同一幅图中有更多的小目标,则会匹配更多的正样本。

与ground truth物体相匹配的不同尺度anchor示意图,小的目标匹配到更少的anchor。为了克服这一问题,我们提出通过复制粘贴小目标来人工增强图像,使训练过程中有更多的anchor与小目标匹配。

特征融合FPN

不同阶段的特征图对应不同的感受野,其所表达的信息抽象程度也不同。

浅层特征图感受野小,更适合检测小目标,深层特征图较大,更适合检测大目标。因此,有人提出将不同阶段的特征映射整合在一起来提高目标检测性能,称之为特征金字塔网络FPN。

(a)利用图像金字塔建立特征金字塔。特征的计算是在每个图像的尺度上独立进行的,这是很缓慢的。(b)最近的检测系统选择只使用单一尺度的特征以更快地检测。另一种选择是重用由ConvNet计算出的金字塔特征层次结构,就好像它是一个特征图金字塔。(d)我们提出的特征金字塔网络(FPN)与(b)和©一样快,但更准确。

在这个图中,特征图用蓝色轮廓线表示,较粗的轮廓线表示语义上较强的特征。

由于可以通过融合不同分辨率的特征图来提高特征的丰富度和信息含量来检测不同大小的目标,自然会有人进一步猜测,如果只检测高分辨率的特征图(浅层特征)来检测小人脸,使用中分辨率特征图(中间特征)来检测大的脸。

SSH的网络结构

合适的训练方法SNIP, SNIPER, SAN

在机器学习中有一点很重要,模型预训练的分布应该尽可能接近测试输入的分布。因此,在大分辨率(如常见的224 x 224)下训练的模型不适合检测小分辨率的图像,然后放大并输入到模型中。

如果输入的是小分辨率的图像,则在小分辨率的图像上训练模型,如果没有,则应该先用大分辨率的图片训练模型,然后再用小分辨率的图片进行微调,最坏的情况是直接使用大分辨率的图像来预测小分辨率的图像(通过上采样放大)。

因此,在实际应用中,对输入图像进行放大并进行高速率的图像预训练,然后对小图像进行微调比针对小目标训练分类器效果更好。

所有的图都报告了ImageNet分类数据集验证集的准确性。我们对48、64、80等分辨率的图像进行上采样,在图(a)中绘制出预训练的ResNet-101分类器的Top-1精度。图(b、c)分别为原始图像分辨率为48,96像素时不同cnn的结果。

更密集的Anchor采样和匹配策略S3FD, FaceBoxes

如前面的数据增强部分所述,将一个小目标复制到图片中的多个位置,可以增加小目标匹配的anchor数量,增加小目标的训练权重,减少网络对大目标的偏置。同样,在逆向思维中,如果数据集已经确定,我们也可以增加负责小目标的anchor的设置策略,使训练过程中对小目标的学习更加充分。

例如,在FaceBoxes中,其中一个贡献是anchor策略。

Anchor变的密集例子。为了清晰起见,我们只对一个感受野中心(即中央黑色网格)密集化锚点,并只给对角锚点上色。

Anchor密集化策略,使不同类型的anchor在图像上具有相同的密度,显著提高小人脸的召回率。

总结

本文较详细地总结了一般目标检测和特殊人脸检测中常见的小目标检测解决方案。

英文原文:https://medium.datadriveninvestor.com/how-to-deal-with-small-objects-in-object-detection-44d28d136cbc

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python学习之路day02

一、.pyc是什么? 1. Python是一门解释型语言? 我初学Python时,听到的关于Python的第一句话就是,Python是一门解释性语言,我就这样一直相信下去,直到发现了*.pyc文件的存在。如果是解释型语言,那…

像人一样自然流畅地说话,下一代智能对话系统还有多长的路要走?

来源:机器之心机器之心编辑部作为人工智能的一个子领域,自然语言处理(NLP)指的是机器理解并解释人类书面语和口语的能力,目的在于使计算机像人类一样智能地理解语言和用语言表达,弥补人类交流(自…

机器学习:简单的随机梯度下降(SGD)求解回归问题和用逻辑回归(LR)解决分类问题

20210405作业: 回归问题: 用随机梯度下降法实现,数据用data.csv。分类问题: 用梯度下降实现逻辑回归,可以用批量梯度也可以用随机梯度实现。数据采用西瓜数据3.0α.csv。 1. SGD (Stochastic gradient descent) # 导包 import numpy as np i…

Nature『大脑废物清除系统』已上线,从“痴呆”变聪明或成可能

来源:生物通 利用早发性阿尔茨海默氏症的小鼠模型,研究人员移除了一组小鼠大脑中的一些淋巴管。他们给这些小鼠以及对照组注射了单克隆抗体疗法,包括小鼠版本的Aducanumab。对小鼠大脑的研究显示,脑膜淋巴系统(紫色和粉红色)可以…

Unity3D_(API)Quaternion四元数中的Quaternion.LookRotation()

四元数百度百科:  传送门 四元数官方文档:  传送门 欧拉旋转、四元数、矩阵旋转之间的差异:  传送门 四元数转换为欧拉角eulerAngles  官方文档:  传送门 欧拉角转换为四元数Euler  官方文档:  传送门 Q…

思考:那么些大学生仅凭个人好恶来判断,缺乏是非观

“一切仅凭自己的好恶来判断,是缺乏是非观的体现” 今读某大学Z教授(一位授课严谨认真的老师,在我心中,至少我是这样认为的)的推文,深受触动。文章小中见大,批判了精致的利己主义思想&#xff0…

工业互联网的十大关键传感器

来源:传感器专家网工业互联网(Industrial Internet)是制造业一大热潮。从早期GE提出工业互联网理念被不少人解读为美国的制造业复兴战略,到GE的Predix平台受到热捧,再到西门子推出工业互联网平台Mindsphere,及多家本土的制造业巨头…

抽奖系统的流量削峰方案

如果观看抽奖或秒杀系统的请求监控曲线,你就会发现这类系统在活动开放的时间段内会出现一个波峰,而在活动未开放时,系统的请求量、机器负载一般都是比较平稳的。为了节省机器资源,我们不可能时时都提供最大化的资源能力来支持短时…

SVM支持向量机-手写笔记(超详细:拉格朗日乘数法、KKT条件、对偶性质、最优化、合页损失、核函数...)

SVM支持向量机-手写笔记 作者:某丁 日期:2021.05.21 写完了,发现想要真正理解SVM还需要继续深入学习,以上所写只不过是冰山一角,我的管中窥豹而已。 参考 [1] 一文搞懂支持向量机(SVM)算法 https://zhuanlan.zhihu.co…

扛鼎之作!Twitter 图机器学习大牛发表160页论文:以几何学视角统一深度学习

来源:AI科技评论作者:Michael Bronstein编译:Mr Bear、青暮导语:近日,帝国理工学院教授、Twitter 首席科学家 Michael Bronstein 发表了一篇长达160页的论文(或者说书籍),试图从对称…

情感数据对LSTM股票预测模型的影响研究

情感数据对LSTM股票预测模型的影响研究 作者:丁纪翔 发布时间:06/28/2021 摘要:探究了情感结构化特征数据在LSTM股票预测模型中的影响。利用Pandas对所给数据进行预处理(数据载入、清洗与准备、规整、时间序列处理、数据聚合等&am…

AI芯片发展现状及前景分析

来源:专知1. AI芯片定义及技术架构1.1 AI芯片定义广义上所有面向AI应用的芯片都可以称为AI芯片。目前一般认为是针对AI算法做了特殊加速设计的芯片。现阶段,这些人工智能算法一般以深度学习算法为主,也可以包括其他浅层机器学习算法[7-8]。1.…

Tableau数据分析:NC Retail Order Data(英)Data Science Program Lab#1(GTI)

Tableau数据分析:NC Retail Order Data(英) NCSU 2021 Summer Online Data Science Author:©Sylvan Ding

解读:欧盟委员会2021年《人工智能法》提案

来源:图灵人工智能文:吴沈括(北京师范大学网络法治国际中心执行主任、博导中国互联网协会研究中心副主任)文:胡然(北京师范大学网络法治国际中心研究助理)2021年4月21日,为了将欧洲变…

《2021人脸识别行业白皮书》发布 拥挤安防还有多少空间?

来源:帮尼资讯图片来源:网络人脸识别在内的人工智能技术需求较大,这对传统安防产业带来了巨大的冲击和变革。近日,智慧芽联合罗思咨询,共同发布《2021人脸识别行业白皮书》。白皮书从人脸识别行业现状、企业聚焦和技术…

第一章 计算机系统概述 1.1 计算机发展史 [计算机组成原理笔记]

第一章 计算机系统概述 1.1 计算机发展史 本笔记参考书目: 计算机组成原理(第六版.立体化教材)白中英、戴志涛2021王道计算机组成原理视频公开课 本节重点: 计算机硬件的发展史 转载请注明文章来源! 什么是计算机系…

我国工业互联网 技术路线与发展趋势研究

来源:中国工业和信息化本文发表于《中国工业和信息化》杂志2021年4月刊总第33期作者:许雪荷 中国工业互联网研究院自2017年《国务院关于深化“互联网先进制造业”发展工业互联网的指导意见》发布以来,国家高度重视工业互联网创新发展&#…

【创新应用】小图像,大图景:AI彻底改变了显微镜技术

来源:智能研究院20 年前,计算机生物学家 Anne Carpenter 在读博士时第一次意识到她需要学习计算机编程。Carpenter 说:「在麻省理工学院和哈佛大学的博德研究所 (Broad Institute of MIT and Harvard in Cambridge) 管理实验室的时候。她记得…

历史上12篇最著名的博士论文欣赏

来源 : 学位与写作Ali Gajani在mrgreek网站分享了12篇著名学者的博士论文,分别是居里夫人的博士论文、香浓的博士论文、纳什的博士论文、德布罗意的博士论文、费曼的博士论文、爱因斯坦的博士论文、马克思的博士论文、韦伯的博士论文、萨特兰的博士论文、…