五莲做网站/厦门网页搜索排名提升

五莲做网站,厦门网页搜索排名提升,建设集团网站方案,深圳网站建设开发哪家好今天看的文献是《Object Detection in 20 Years: A Survey》,非常经典的一篇目标检测文献,希望通过这篇文章学习到目标检测的基础方法并提供一些创新思想。 论文链接:1905.05055 目录 一、摘要 1.1 原文 1.2 翻译 二、介绍 三、目标检测…

今天看的文献是《Object Detection in 20 Years: A Survey》,非常经典的一篇目标检测文献,希望通过这篇文章学习到目标检测的基础方法并提供一些创新思想。

论文链接:1905.05055


目录

一、摘要

1.1 原文

1.2 翻译

二、介绍

三、目标检测二十年发展

3.1 目标检测发展路线图

3.1.1 里程碑1

3.1.1.1 Viola Jones Detectors

3.1.1.2 HOG Detector

3.1.1.3 DPM

3.1.2 里程碑2

3.1.2.1 RCNN

3.1.2.2 SPPNet

3.1.2.2 Fast RCNN

3.1.2.3 Faster RCNN

3.1.2.4 FPN

3.1.3 里程碑3

3.1.3.1 YOLO

3.1.3.2 SSD

3.1.3.3 RetinaNet 

3.1.3.4 CornerNet

3.1.3.5 CenterNet

3.1.3.6 DETR


一、摘要

1.1 原文

Object detection, as of one the most fundamental and challenging problems in computer vision, has received great attention in recent years. Over the past two decades, we have seen a rapid technological evolution of object detection and its profound impact on the entire computer vision field. If we consider today’s object detection technique as a revolution driven by deep learning, then back in the 1990s, we would see the ingenious thinking and long-term perspective design of early computer vision. This paper extensively reviews this fast-moving research field in the light of technical evolution, spanning over a quarter-century’s time (from the 1990s to 2022). A number of topics have been covered in this paper, including the milestone detectors in history, detection datasets, metrics, fundamental building blocks of the detection system, speed-up techniques, and the recent state-of-the-art detection methods.

1.2 翻译

目标检测作为计算机视觉中最基本、最具挑战性的问题之一,近年来受到了广泛的关注。在过去的二十年里,我们看到了物体检测技术的快速发展及其对整个计算机视觉领域的深远影响。如果我们认为今天的物体检测技术是一场由深度学习推动的革命,那么回到20世纪90年代,我们会看到早期计算机视觉的巧妙思维和长期视角设计。本文从技术发展的角度广泛回顾了这一快速发展的研究领域,跨越了四分之一个世纪的时间(从20世纪90年代到2022年)。本文涵盖了许多主题,包括历史上的里程碑检测器,检测数据集,度量,检测系统的基本构建块,加速技术以及最新的最先进的检测方法。

二、介绍

目标检测的目标是开发计算模型和技术,解决这样两个问题:目标是什么?目标在哪里?(其实就是分类和定位)

目标检测是实例分割、图像字幕、目标跟踪等视觉任务的基础。深度学习的发展也让目标检测取得了巨大的进步,现在目标检测已经广泛应用于许多现实场景如自动驾驶、机器人视觉和视频监控等。下图展示了过去二十年里与“目标检测”相关刊物的出版:

我们可以看到从1998年起刊物出版量逐步提升,2018年后增长幅度明显增加,且直到2021年都在持续增长。

不同检测任务的目标和条件不同导致任务难度有所不同,除了常见挑战如不同视角、光照和不同类物体变化之外,还有包括但不限于物体旋转、尺度变化、精确定位、密集和遮挡目标检测和检测速度的提升等。

本文的目的就是向读者展示相关技术的演变,令读者能够掌握基本概念并找到潜在未来方向,而忽略技术细节。

三、目标检测二十年发展

这个部分主要回顾目标检测历史发展,包括里程碑、数据集、指标和关键技术演变。

3.1 目标检测发展路线图

在前两个世纪,人们普遍认为目标检测经过了两个历史时期:传统目标检测时期(2014年以前)和基于深度学习的检测(2014年以后),如下图展示:

我们可以看到,2014年之前我们采用的是传统目标检测方法如VJ Det、HOG Det和DPM这些,在2014年出现了RCNN、YOLO、SSD这些以深度学习框架为主流的算法。并且深度学习的算法主要分为两类:单阶段检测和双阶段检测。

下面我们将以出现时间和性能为主要指引,重点突出背后的技术所在,如下图所示:

3.1.1 里程碑1

此时主要是传统的检测器。其实我们回顾早期20世纪90年代的检测技术,也是会觉得是视觉的巧妙设计和长期的视角。大多数早期检测算法都是基于手工特征的,由于缺乏有效图像表示,人们不得不设计复杂的特征表示和各种加速的方法。

3.1.1.1 Viola Jones Detectors

2001年,Viola和Jones首次实现不受任何限制的人脸实时检测。同等检测精度下,速度比其他算法快数十倍甚至数百倍。VJ检测器通过滑动窗口:即通过图像中可能的位置和比例,检测某窗口是否包含人脸。主要采用三种技术实现:“积分图像”、“特征选择”和“级联检测”。

3.1.1.2 HOG Detector

2005年,Dala和Triggs提出定向梯度直方图特征(Histogram of Oriented Gradients,HOG)描述符。这是一种对尺度不变特征变换和形状上下文的重要改进。HOG主要用来进行行人检测,通常是保持检测窗口大小不变的情况下,对输入图像进行多次缩放实现。其一直是许多计算机视觉应用的基础。

3.1.1.3 DPM

可变性零件模型(Deformable Part-based Model,DPM)是传统目标检测方法的缩影,最初由Felzenszwalb在2008年提出,属于HOG的一种延伸。其采用的是“分而治之”的思想,训练可以认为是一种合适的分解目标的方法,而推理则是对不同目标部分的检测合集。例如,检测汽车可以分解为检测车窗、车身和车轮。这又被成为“明星模型”,也是F等人提出的。之后,Girshick将该模型扩展到“混合模型”,以处理变化更大的物体。现在许多检测器都受到该模型的影响,如混合模型、硬负挖掘、边界框回归、上下文启动等。

3.1.2 里程碑2

基于卷积神经网络(CNN)的两阶段检测器。随着手工特征性能饱和,目标检测在2010年达到聘平缓期,直到2012年卷积神经网络的诞生。Girshick等人率先提出了带有CNN特征的区域(RCNN),那时之后目标检测发展迅速。基于深度学习的检测算法分为单阶段和双阶段,前者将框架为“一步完成”,后者将其作为“粗-精”的过程。

3.1.2.1 RCNN

RCNN(Region with CNN )首先通过选择性搜索提取一组对象建议(即候选框),然后将每个建议重新缩放成固定大小的图像,并输入在ImageNet上预训练的CNN模型加以提取特征。最后使用线性支持向量机(SVM)分类器预测区域内物体并识别类别。尽管RCNN取得了显著性能提升,但也有明显缺点:大量重叠区域上进行冗余特征计算导致速度较慢。SPPNet解决了该问题。

3.1.2.2 SPPNet

2014年He等人提出空间金字塔池化网络(Spatial Pyramid Pooling Network,SPPNet),引入了空间金字塔池化层,使CNN生成固定长度表示。输入图像只需要计算一次特征映射,然后生成任意区域的固定长度表示用于训练检测器,避免重复计算卷积特征。SPPNet比RCNN快20倍以上。但仍存在一定缺点:训练多阶段,只对全连接层进行微调,忽略之前的层。Fast RCNN解决了这些问题。

3.1.2.2 Fast RCNN

2015年Girshick提出Fast RCNN。该检测器能够在相同网络配置下同时训练检测器和边界框回归器。尽管其速度比RCNN快200倍以上,但仍存在缺陷:速度受到建议区域的限制。

3.1.2.3 Faster RCNN

2015年Ren等人提出了Faster RCNN。Faster RCNN引入了区域建议网络(Region Proposal Network,RPN),使得几乎没有成本的区域建议成为可能。从R-CNN到Faster RCNN,目标检测系统的大多数独立的模块都已经集成到一个统一的端到端学习框架中。尽管如此,后续检测阶段仍存计算冗余。

3.1.2.4 FPN

2017年,Lin等人提出FPN(Feature Pyramid Networks)。FPN开发出一种具有横向连接的自顶向下架构,用在所有尺度上构建高级语义。目前FPN已成为大多数最新检测器基本组成部分。

3.1.3 里程碑3

此部分主要是基于CNN的单阶段检测器。大多数两阶段检测器遵循从粗到精的处理范式,粗的使努力提高召回能力,精的是在粗的检测基础上细化定位,强调区分能力。工程中很少使用两阶段检测器,相反单阶段可以一步推理中检索所有对象,适用于移动设备,在密集和小物体方面性能收到影响。

3.1.3.1 YOLO

Joseph等人在2015年提出YOLO(You Only Look Once)yolo将单个神经网络应用与整个图像,将图像划分为多个区域,同时预测每个预取边界框和概率,检测速度大大提升,但精度有下降。YOLOv7引入动态标签分配和模型结构重新参数化等优化结构,速度和精度更优。

3.1.3.2 SSD

Liu等人于2015年提出SSD(Single Shot MultiBox Detector)。主要引入多参考点和多分辨率检测技术,显著提高对小目标的检测精度。SSD可以检测网络不同层的不同规模目标,其余检测器只能在顶层预测。

3.1.3.3 RetinaNet 

单阶段探测器检测精度一直落后于两阶段,2017年Lin等人提出了RetinaNet,密集检测训练过程中遇到的极端前景-背景类不平衡是主要问题。于是,他们引入新的损失函数:焦点损失(Focal Loss)重塑标准交叉熵损失,使检测器在训练过程中更多的关注难分类、错误分类的例子。

3.1.3.4 CornerNet

Law等人为解决锚框需要提供分类、回归参考等而建立大量参考框路径的问题抛弃了以前的范式,提出CornerNet,该算法将任务视为关键点的预测,获取关键点后,利用额外的嵌入信息对角落点进行解耦和重新分组,形成边界框。

3.1.3.5 CenterNet

Zhou等人于2019年提出CenterNet。它还是遵循基于关键点的检测范例,但消除了代价高昂的后处理,例如基于组的关键点分配和NMS,从而形成完全端到端的检测网络。

3.1.3.6 DETR

Transformers影响了整个深度学习领域,它抛弃了传统卷积算子,转而采用注意力单独计算,以客服CNN的局限性,获得全局尺度感受野,2020年Carion提出DETR,将目标检测视为一个集合预测的问题,并提出一个端到端的变压器检测网络。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/899225.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA 快捷键ctrl+shift+f 无法全局搜索内容的问题及解决办法

本篇文章主要讲解IDEA、phpStrom、webStrom、pyCharm等jetbrains系列编辑器无法进行全局搜索内容问题的主要原因及解决办法。 日期:2025年3月22日 作者:任聪聪 现象描述: 1.按下ctrlshiftf 输入法转为了繁体。 2.快捷键ctrlshiftr 可以全局检…

树状数组【数据结构】

树状数组 简介 1.应用 1.单点修改区间查询 2.区间修改单点查询(差分) 3.区间修改区间查询(差分公式) 总而言之,就是动态维护前缀和。 2.树状结构图 3.lowbit函数 我们知道,任何一个正整数都可以被表示成一个二进制数。如: ( 2 ) 10 ( 10 ) 2 (2)_{10…

pytorch+maskRcnn框架训练自己的模型以及模型导出ONXX格式供C++部署推理

背景 maskrcnn用作实例分割时,可以较为精准的定位目标物体,相较于yolo只能定位物体的矩形框而言,优势更大。虽然yolo的计算速度更快。 直接开始从0到1使用maskrCNN训练自己的模型并并导出给C部署(亲测可用) 数据标注…

PCL配置

1、下载 打开GitHub网站,搜索pcl,选择第一个结果打开,按照下图步骤操作 下载PCL预编译安装程序PCL-1.13.1-AllInOne-msvc2022-win64.exe 和要安装的PCL组件(例如pcl-1.13.1-pdb-msvc2022-win64.zip) 2、安装 双击 P…

VectorBT:使用PyTorch+LSTM训练和回测股票模型 进阶一

VectorBT:使用PyTorchLSTM训练和回测股票模型 进阶一 本文介绍了如何使用PyTorch和LSTM模型进行股票数据的训练和回测。涵盖了数据预处理、特征选择、LSTM模型构建、模型训练与验证、动态阈值策略生成交易信号以及使用VectorBT进行回测和绩效分析。 文中内容仅限技术…

MantisBT在Windows10上安装部署详细步骤

MantisBT 是一款基于 Web 的开源缺陷跟踪系统,以下是在 Windows 10 上安装部署 MantisBT 的详细步骤: 1. 安装必要的环境 MantisBT 是一个基于 PHP 的 Web 应用程序,因此需要安装 Web 服务器(如 Apache)、PHP 和数据…

深入理解K8s与Docker的关系:容器化技术的双雄

友情提示:本文内容由银河易创(https://ai.eaigx.com)AI创作平台gpt-4-turbo模型生成,仅供参考。 在现代云计算及微服务架构的发展中,Docker与Kubernetes(K8s)作为两大核心技术,被广泛…

蓝桥与力扣刷题(蓝桥 蓝桥骑士)

题目:小明是蓝桥王国的骑士,他喜欢不断突破自我。 这天蓝桥国王给他安排了 N 个对手,他们的战力值分别为 a1,a2,...,an,且按顺序阻挡在小明的前方。对于这些对手小明可以选择挑战,也可以选择避战。 身为高傲的骑士&a…

如何查看window电脑的GPU信息

GPU(图形处理器,Graphics Processing Unit)和显卡是两个密切相关但不同的概念 概念 1. ‌基本概念‌ ‌GPU‌:是专门用于处理图像和视频信息的微处理器,拥有强大的并行计算能力,主要负责图形渲染、数值分…

26考研——查找_树形查找_二叉排序树(BST)(7)

408答疑 文章目录 三、树形查找二叉排序树(BST)二叉排序树中结点值之间的关系二叉树形查找二叉排序树的查找过程示例 向二叉排序树中插入结点插入过程示例 构造二叉排序树的过程构造示例 二叉排序树中删除结点的操作情况一:被删除结点是叶结点…

如何在 Postman 中导入和导出 cURL 命令?

cURL 是一款广受欢迎的命令行工具,专门用于执行 HTTP 请求。它在 Web 应用或 API 测试中极为实用,让用户得以借助在 API 开发者社区广为流行的成熟语法,直接通过命令行与 API 进行交互。若你需要在多个环境下运行众多 cURL 命令,可…

用python制作一个贪吃蛇小游戏

文章目录 效果图python源码使用说明效果图 只需要一百多行python代码,就能制作一个贪吃蛇小游戏。效果如下: 操作说明: 你可以使用上下左右箭头键来控制蛇的移动方向。蛇吃到食物后会变长,当蛇撞到墙壁或自己的身体时游戏结束。游戏结束后,你可以按 Q 退出游戏,或按 C…

react 15-16-17-18各版本的核心区别、底层原理及演进逻辑的深度解析

一、React 15(2016) 核心架构:Stack Reconciler(栈协调器) 工作原理: 同步递归渲染:采用深度优先遍历方式递归处理 Virtual DOM,形成不可中断的调用栈渲染流程:1. 触发 …

微信小程序pdf预览

1.示例图 2.代码 fileId:要预览的pdf文件的id viewsFiles(fileId) {wx.showLoading({title: 加载中...});var params {url: "/common/getFile/" fileId ,//后端提供的接口method: "GET",responseType: "arraybuffer",callBack: …

把手搭建vue前后端管理系统-TAB标签通过pinia来进行管理(二十六)

目标&#xff1a;通过pinia的store来进行组件状态的统一管理&#xff0c;这样大家都可以共用到这个组件的状态信息&#xff0c;就可以实现组件的联动 一、添加侧边栏菜单的点击事件&#xff1a; 1、CommonAside.vue里面添加click的事件 <el-menu-itemv-for"item in …

计算机网络——数据链路层的功能

目录 物理链路 逻辑链路 封装成帧&#xff08;组帧&#xff09; 帧定界 透明传输 SDU 差错控制 可靠传输 流量控制 介质访问控制 主机需要实现第一层到第五层的功能&#xff0c;而路由器这种节点只需要实现第一层到第三层的这些功能 假设左边用户需要给右边用户发送…

数据抓取的缓存策略:减少重复请求与资源消耗

在数据采集领域&#xff0c;爬虫效率是决定项目成败的关键因素之一。传统的爬虫架构往往因请求频繁、资源消耗较大以及重复抓取等问题&#xff0c;导致效率低下。这些问题不仅拖慢了数据获取的速度&#xff0c;还可能引发目标服务器的过载风险&#xff0c;甚至导致爬虫被限制。…

k8s部署argocd

前言 ArgoCD是一个基于Kubernetes的GitOps持续交付工具&#xff0c;应用的部署和更新都可以在Git仓库上同步实现&#xff0c;并自带一个可视化界面。本文介绍如何使用GitHelmArgocd方式来实现在k8s中部署和更新应用服务&#xff1b; 安装Argocd 准备一个k8s集群&#xff0c;然…

【Linux】MAC帧

目录 一、MAC帧 &#xff08;一&#xff09;IP地址和MAC地址 &#xff08;二&#xff09;MAC帧格式 &#xff08;三&#xff09;MTU对IP协议的影响、 &#xff08;四&#xff09;MTU对UDP协议的影响 &#xff08;五&#xff09;MTU对TCP协议的影响 二、以太网协议 &…

【Unity3D】摄像机适配场景以及Canvas适配

目录 宽度不变策略 高度不变策略 宽度不变策略 开发分辨率 750*1334 (宽高比:0.56) 真机分辨率 1170*2532 (宽高比:0.46) 真机宽高比<开发宽高比&#xff0c;采用宽度不变策略 理由&#xff1a;小于代表真机高度比开发高度更大&#xff0c;因此不需要担心高度上…