目标检测——PP-PicoDet算法解读

PP-YOLO系列,均是基于百度自研PaddlePaddle深度学习框架发布的算法,2020年基于YOLOv3改进发布PP-YOLO,2021年发布PP-YOLOv2和移动端检测算法PP-PicoDet,2022年发布PP-YOLOE和PP-YOLOE-R。由于均是一个系列,所以放一起解读,方便对比前后改进地方。


PP-YOLO系列算法解读:

  • PP-YOLO算法解读
  • PP-YOLOv2算法解读
  • PP-PicoDet算法解读
  • PP-YOLOE算法解读
  • PP-YOLOE-R算法解读

YOLO系列算法解读:

  • YOLOv1通俗易懂版解读
  • SSD算法解读
  • YOLOv2算法解读
  • YOLOv3算法解读
  • YOLOv4算法解读
  • YOLOv5算法解读

文章目录

  • 1、算法概述
  • 2、PP-PicoDet细节
    • 2.1 Better Backbone
    • 2.2 CSPPAN and Detector Head
    • 2.3 Label Assignment Strategy and Loss
    • 2.4 Other Strategies
  • 3、实验
    • 3.1 消融实验
    • 3.2 与其他检测算法对比


PP-PicoDet(2021.11.1)

论文:PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices
作者:Guanghua Yu, Qinyao Chang, Wenyu Lv, Chang Xu, Cheng Cui, Wei Ji, Qingqing Dang, Kaipeng Deng, Guanzhong Wang, Yuning Du, Baohua Lai, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma
链接:https://arxiv.org/abs/2111.00902
代码:https://github.com/PaddlePaddle/PaddleDetection


1、算法概述

从论文标题可以看出来,该算法主要是针对移动端设备提出来的,所以该算法特点是模型小推理速度快。本文中,作者致力于研究目标检测的关键优化和神经网络架构选择,以提高准确性和推理速度。作者研究了无锚框策略在轻量级目标检测模型中的适用性,并且增强了主干结构,设计了颈部轻量化结构,提高了网络的特征提取能力。改进了标签分配策略和损失函数,使训练更加稳定和高效。通过这些优化,作者建立了一个新的实时目标检测器系列,名为PP-PicoDet,它在移动设备的目标检测上实现了卓越的性能。与其他流行的模型相比,该模型在准确性和延迟之间实现了更好的权衡。只有0.99M个参数的PicoDet-S实现了30.6%的mAP,与YOLOX-Nano相比,mAP值提高了4.8%,同时将移动CPU推理延迟降低了55%;与NanoDet相比,mAP提高了7.1%。当输入大小为320时,它在移动ARM CPU上达到123 FPS(使用Paddle Lite时为150 FPS)。仅使用330万个参数的PicoDet-L实现了40.9%的mAP, mAP提高了3.7%,比YOLOv5s快44%。在COCO数据集上的表现为:
在这里插入图片描述
PP-PicoDet的贡献如下:

  • 1、neck中改进PAN结构,采用CSP-PAN,用1x1卷积减少参数的情况下提升了特征提取能力,用5x5的深度可分离卷积(depthwise separable convolution)替换了3x3的可分离卷积,提升了感受野的大小。
  • 2、采用SimOTA动态标签分配策略,对部分计算细节进行优化。具体来说,使用了变焦损失(VFL)的加权求和与GIoU loss来计算成本矩阵,在不损害效率的前提下提高了准确性。
  • 3、提出了基于ShuffleNetV2改进的Enhanced ShuffleNet(ESNet),性能比原版ShuffleNetV2好。
  • 4、提出一种改进的单次神经网络检测架构搜索(NAS)流水线,自动查找最优的架构进行目标检测。

2、PP-PicoDet细节

PP-PicoDet网络结构图如下所示:
Backbone:基于shuffleNetV2改进,ESNet,输出C3,C4,C5特征图进入neck;
Neck:CSP-PAN,接受C3,C4,C5输入,输出P3,P4,P5,P6;
在这里插入图片描述

2.1 Better Backbone

手工设计的backbone: 基于之前的经验,作者发现ShuffleNetV2在移动端设备上比其他网络更强大,为了进一步提高ShuffleNetV2的性能,作者遵循了PPLCNet的一些方法优化网络结构,构建新的骨干网络,即Enhanced ShuffleNet(ESNet)。ESNet主要由ES Block组成,其结构如下:
在这里插入图片描述
神经网络结构搜索: 作者首次提出了单次搜索目标探测器的方法。配备了用于分类的高性能主干的对象检测器可能不是最优的,因为分类和检测是两个不同的任务。所以作者不是搜索更好的分类器,而是直接在检测数据集上训练和搜索检测超级网络(the detection supernet),这可以节省大量的计算量并优化检测任务而不是优化分类任务。该框架包括两个步骤:(1)在检测数据集上训练单次超级网络;(2)在训练好的超级网络上使用进化算法(EA)进行架构搜索。为了方便起见,作者在这里简单地使用通道搜索主干网。具体来说,作者提供了灵活的比率选项来选择不同的通道比率。比如:[0.5, 0.675, 0.75, 0.875, 1]。

2.2 CSPPAN and Detector Head

本文使用PAN结构获得多层次特征图,使用CSP结构进行相邻特征图之间的特征拼接和融合。具体的使用用1x1卷积减少参数的情况下提升了特征提取能力,用5x5的深度可分离卷积提升感受野大小。具体参考上图CSP-PAN结构图。
在detector head部分,作者也使用5x5的深度可分离卷积提升感受野大小,不像YOLOX解耦了回归分支和分类分支,PP-PicoDet没有将两者解耦,获得的性能相同。

2.3 Label Assignment Strategy and Loss

作者采用了SimOTA动态分配标签策略(和YOLOX一样),SimOTA首先通过中心先验确定候选区域,然后计算预测框和候选区域中gt框的IoU,最后通过对每个gt框的n个最大IoU求和得到参数k。成本矩阵(The cost matrix)是通过直接计算所有预测框的损失与候选区域内的gt框得到的。原始的SimOTA是CEloss和IoUloss加权求和得到成本矩阵。为了使SimOTA中的代价与目标函数保持一致,作者使用Varifocal损失和GIoU损失的加权和作为成本矩阵。公式为:
在这里插入图片描述
实验中λ设置为6
在检测头中,对于分类任务,作者利用Varifocal损失将分类预测和质量预测结合起来;对于回归任务,作者利用GIoU损失和Distribution Focal Loss,公式如下:
在这里插入图片描述

2.4 Other Strategies

激活函数: 作者将检测算法中的激活函数从ReLU替换为H-Swish,在保持推理时间不变的情况下,性能显著提高。
学习率下降策略: 采用Cosine learning rate decay,余弦学习率平稳下降,在batchsize比较大时,有利于训练过程。
数据增强: 过多的数据增强往往会增加正则化效果,使训练更难以收敛。所以在这项工作中,作者只使用随机翻转、随机裁剪和多尺度调整来进行训练中的数据增强。


3、实验

在COCO-2017 training集上训练,在COCO-2017 test-dev集上评估。

3.1 消融实验

关于改进措施的消融实验,如下表所示:
在这里插入图片描述
Base模型为与NanoDet相似的基础模型,主干采用ShuffleNetV2-1x,颈部采用无卷积的PAN,Loss采用标准GFL损失,标签分配策略采用ATSS。所有激活函数都使用LeakyRelu。得到的mAP(0.5:0.95)为25.3%。可以看到PAN经过改进变成CSP-PAN后,性能提升很大。

3.2 与其他检测算法对比

与其他先进检测算法对比,作者使用NCNN库进行延迟测试,并为PP-PicoDet模型添加了Paddle Lite推理延迟,实验结果如下所示:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/757068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java八股文(RabbitMQ)

Java八股文のRabbitMQ RabbitMQ RabbitMQ RabbitMQ 是什么?它解决了哪些问题? RabbitMQ 是一个开源的消息代理中间件,用于在应用程序之间进行可靠的异步消息传递。 它解决了应用程序间解耦、消息传递、负载均衡、故障恢复等问题。 RabbitMQ …

长安链智能合约标准协议第二草案——BNS与DID协议邀请社区用户评审

长安链智能合约标准协议 在智能合约编写过程中,不同的产品及开发人员对业务理解和编程习惯不同,即使同一业务所编写的合约在具体实现上也可能有很大差异,在运维或业务对接中面临较大的学习和理解成本,现有公链合约协议规范又不能完…

软件测试 -- Selenium常用API(java)

写在前面 // 如果文章有问题的地方, 欢迎评论区或者私信指正 目录 什么是Selenium 一个简单的用例 元素定位 id定位 xpath定位 name定位 tag name 定位和class name 定位 操作元素 click send_keys submit text getAttribute 1. 获取元素的 class 属性 2. 获取元素…

Word为图表设置图注并在图表清单中自动生成

1如果需要自动插入题注,请不要自己为文件增加新的标题样式或删除自带的标题1样式 2章节大标题最好是标题1,2,3而不要设置标题一、二、三,否则图例在自动生成时会显示 图一 -1,调整起来会非常不方便 若实在要使用大写中文标题&…

系统资源耗尽对服务器的影响有什么?

在当今数字化时代,服务器作为核心计算设备,为企业和组织的业务连续性提供了重要保障。然而,随着业务的增长和复杂性的提升,服务器也面临着越来越多的挑战。其中,系统资源耗尽是服务器面临的一个重要问题。今天德迅云安…

1、初识JVM

一、JVM是什么? JVM的英文全称是 Java Virtual Machine,其中文译名为Java虚拟机。它在本质上就是是一个运行在计算机上的程序,他的职责是运行Java字节码文件。 JVM执行流程如下 二、JVM有哪些功能? 2.1 解释和运行 对字节码文…

将html网页展示的图表,下载到PPT文档内,以图片的形式展示在PPT内

使用到的工具有: 开发工具:IDEA 报表开发工具:帆软10.0.19 1、针对帆软报表[普通报表]的设置 1.1首先选中在帆软里制作好的报表,选择模板web属性 1.2.选择数据分析模式,添加一个事件设置,该事件应该设置“…

【滑动窗口、矩阵】算法例题

目录 三、滑动窗口 30. 长度最小的子数组 ② 31. 无重复字符的最长子串 ② 32. 串联所有单词的子串 ③ 33. 最小覆盖子串 ③ 四、矩阵 34. 有效的数独 ② 35. 螺旋矩阵 ② 36. 旋转图像 ② 37. 矩阵置零 ② 38. 生命游戏 ② 三、滑动窗口 30. 长度最小的子数组 ② 给…

Android Studio配置buildTypes{}后,gradle中Tasks列表不显示assembleRelease。

打开Files → Settings → Experimental 取消选中 "Do not build Gradle task list during Grafle sync"

CentOS 7.9 常用环境配置

文章目录 环境准备安装docker安装Java安装maven安装git安装MYSQL安装Redis安装RabbitMq安装minio 环境准备 操作系统版本为centos 7.9,内核版本需要在3.10以上 sudo uname -rsudo cat /etc/redhat-release1.确认环境好后,安装工具包并设置仓库 sudo yum…

图书馆管理系统 2.后台系统管理模块编写

后端 1.实体类编写 用户实体类 package jkw.pojo;import com.baomidou.mybatisplus.annotation.TableField; import com.baomidou.mybatisplus.annotation.TableId; import lombok.Data;import java.io.Serializable; import java.util.List;/*** 用户*/ Data public class …

Unity Toggle处理状态变化事件

Toggle处理状态变化事件,有两个方法。 法一、通过Inspector面板设置 实现步骤: 在Inspector面板中找到Toggle组件的"On Value Changed"事件。单击""按钮添加一个新的监听器。拖动一个目标对象到"None (Object)"字段&am…

研究人员发现 OpenAI ChatGPT、Google Gemini 的漏洞

自 OpenAI 推出 ChatGPT 以来,生成式 AI 聊天机器人的数量及其在企业中的采用率在一年多时间里呈爆炸式增长,但网络安全专业人士的担忧也随之增加,他们不仅担心威胁组织对新兴技术的使用,还担心大型网络的安全性及模型&#xff08…

点云预处理——滤波、旋转和平移等处理

目录 一、环境配置 二、步骤 一、环境配置 安装好ubuntu系统和ROS环境 操作系统: Ubuntu 20.04 wget http://fishros.com/install -O fishros && . fishros 二、步骤 打开终端,并在终端命令行输入以下指令: git clone https://gitee.com/wccworld/…

MNN Session 创建执行器(六)

系列文章目录 MNN createFromBuffer(一) MNN createRuntime(二) MNN createSession 之 Schedule(三) MNN createSession 之创建流水线后端(四) MNN Session::resize 之流水线编码&am…

MFC界面美化第三篇----自绘按钮(重绘按钮)

1.前言 最近发现读者对我的mfc美化的专栏比较感兴趣,因此在这里进行续写,这里我会计划写几个连续的篇章,包括对MFC按钮的美化,菜单栏的美化,标题栏的美化,list列表的美化,直到最后形成一个完整…

NLP---Bert分词

目录&#xff1a; Q&#xff1a;bert分词步骤1&#xff1a;构建N * N 的相关性矩阵&#xff0c;计算相邻两个字的相关性&#xff0c;低的话&#xff08;<阈值&#xff09;就切割。2&#xff1a;将A词进行mask计算出A的embedding&#xff0c;然后将AB两个词一起mask&#xff…

4.线性数据结构——3.栈及例题

标准库的栈 定义&#xff1a;stack<typename> myStack;大小&#xff1a;size()压栈&#xff1a;push()弹栈&#xff1a;pop()栈顶&#xff1a;top()判空&#xff1a;empty() #include <cstdio> #include <string> #include <map> #include <algor…

视觉信息处理和FPGA实现第5次作业-Matlab实现图像逆时针旋转90度

一、Matlab2022a安装 链接&#xff1a;https://pan.quark.cn/s/6e177bc7c11d 提取码&#xff1a;dKNN 二、Matlab使用 2.1 新建一个脚本文件&#xff08;.m文件&#xff09; 2.2 另存为到便于归档的地方 考虑到.m文件如果不是全英文路径&#xff0c;也有可能会出问题&#…

Linux 服务升级:MySQL 主从(半同步复制) 平滑升级

目录 一、实验 1.环境 2.Mysql-shell 检查工具兼容性 3.逻辑备份MySQL数据 4.备份MySQL 数据目录、安装目录、配置文件 5.MySQL 升级 6.master节点 使用systemd管理mysql8 7. slave1 节点升级 8. slave2 节点升级 9.半同步设置 二、问题 1.mysqldump备份报错 2.Inn…