目标检测及锚框、IoU

目标检测及锚框、IoU

news/2025/4/4 11:56:14/文章来源:https://blog.csdn.net/weixin_45682053/article/details/134080317

1. 目标检测

物体检测（目标检测）是计算机视觉和数字图像处理的热门方向，意在判断一幅图像上是否存在感兴趣物体，并给出物体分类及位置等（What and Where）。本文主要进行物体检测研究背景、发展脉络、相关算法及评价指标的概述。

我们要识别中所有我们感兴趣的物体，并且找出每个物体的位置。

边缘框

边缘框是图片中物体的真实位置和范围，有两种表示方式，一种是边角坐标表示法，通过物体左上和右下两个角的坐标表示一个矩形框，还有一种是中心表示法，用物体的中心和宽高表示矩形框。

一个边缘框可以通过4个数字定义
- (左上x，左上y，右下x，右下y)
- (左上x，左上y，宽，高)

在这里插入图片描述

目标检测数据集

每行表示一个物体
- 图片文件名、物体类别、边缘框
COCO数据集
- 80物体，330K图片，1.5M物体

定义两种边缘框之间的转换函数

import torch
def box_corner_to_center(boxes):""" 从（左上，右下）转换到（中间，宽度，高度） """x1,y1,x2,y2 = boxes[:,0],boxes[:,1],boxes[:,2],boxes[:,3]cx = (x1+x2)/2cy = (y1+y2)/2w = x2-x1h = y2-y1boxes = torch.stack((cx,cy,w,h),dim=1)return boxesdef box_center_to_corner(boxes):"""从（中间，宽度，高度）转换到（左上，右下）"""cx,cy,w,h = boxes[:,0],boxes[:,1],boxes[:,2],boxes[:,3]x1 = cx - 0.5 * wy1 = cy - 0.5 * hx2 = cx + 0.5 * wy2 = cy + 0.5 * hboxes = torch.stack((x1, y1, x2, y2), dim=1)return boxes

边缘框实现

from matplotlib import pyplot as plt# 将边界框在图中画出
def bbox_to_rect(bbox,color):return plt.Rectangle(xy=(bbox[0], bbox[1]), width=bbox[2] - bbox[0], height=bbox[3] - bbox[1],fill=False, edgecolor=color, linewidth=2)dog_bbox, cat_bbox = [60.0, 45.0, 378.0, 516.0], [400.0, 112.0, 655.0, 493.0]fig = plt.figure(figsize=(5,8),dpi=100)
ax1 = fig.add_subplot(1,1,1)
image= plt.imread("code/images/catdog.jpg")
ax1.imshow(image)ax1.axes.add_patch(bbox_to_rect(dog_bbox, 'blue'))
ax1.axes.add_patch(bbox_to_rect(cat_bbox, 'red'));
plt.show()

2. 锚框

在众多经典的目标检测模型中，均有先验框的说法，有的paper(如Faster RCNN)中称之为anchor(锚点)，有的paper(如SSD)称之为prior bounding box(先验框)，实际上是一个概念。

锚框的作用：

对于目标检测任务，有这样一种经典解决方案：遍历输入图像上所有可能的像素框，然后选出正确的目标框，并对位置和大小进行调整就可以完成目标检测任务。这些进行预测的像素框就叫锚框。这些锚框通常都是方形的。

同时，为了增加任务成功的几率，通常会在同一位置设置不同宽高比的锚框。锚框的设置形式有很多种。

一类目标检测算法是基于锚框
- 提出多个被称为锚框的区域（边缘框）
- 预测每个锚框里是否含有关注的物体
- 如果是，预测从这个锚框到真实边缘的偏移

在这里插入图片描述

3. IoU - 交并比

IoU用来计算两个框之间的相似度

在这里插入图片描述

0表示无重叠，1表示重合

这是Jacquard指数的一个特殊情况

给定两个集合$\ A\ $和$ \ B\ $
$J(A,B)=\frac{|A \cap B|}{|A \cup B|}$

4. 赋予锚框标号

每个锚框是一个训练样本
将每个锚框，要么标注成背景，要么关联上一个真实边缘框
我们可能会生成大量的锚框
- 这个导致大量的负类样本

在蓝色格子里面寻求IoU的最高值，选中，比如：

第一个最大值为$\ x_{23}\ $,那就用锚框2来预测边缘框3，去除锚框2边缘框3所对应的行列。

继续在剩下的格子里面寻找最大值，如$\ x_{71}\ $，那就用锚框7来预测边缘框1，去除锚框7边缘框1所对应的行列。

在这里插入图片描述

赋予标号的方式有很多种。

5. 使用非极大值抑制（NMS）输出

每个锚框预测一个边缘框
NMS可以合并相似的预测
- 选中的是非背景类的最大预测值
- 去掉所有其它和它IoU值大于$\ \theta\ $的预测
- 重复上诉过程直到所有预测要么被选中，要么被去掉

如：

在这里插入图片描述

首先选取狗类别的最大预测值，为0.9，然后去除该类别预测值小于0.9且IoU大于$\ \theta\ $的值。然后选取猫类别的最大预测值，为 0.9 ，然后去除该类别预测值小于 0.9 且 I o U 大于$ \ \theta\ $的值。
在这里插入图片描述

总结：

一类目标检测算法基于锚框来预测
首先生成大量锚框，并赋予标号，每个锚框作为一个样本进行训练
在预测时，使用NMS来去掉冗余的预测

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/121285.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

nginx 配置错误目录遍历漏洞

nginx 配置错误目录遍历漏洞

nginx 是一款高性能的 web 服务器，使用非常广泛，其不仅经常被用作反向代理在 nginx 中开启 autoindex，配置不规范而造成目录遍历漏洞配置如下： server { listen 80; server_name *.*.*.*; index index.htm index.html; root …

阅读更多...

c语言基础：L1-059 敲笨钟

c语言基础：L1-059 敲笨钟

微博上有个自称“大笨钟V”的家伙，每天敲钟催促码农们爱惜身体早点睡觉。为了增加敲钟的趣味性，还会糟改几句古诗词。其糟改的方法为：去网上搜寻压“ong”韵的古诗词，把句尾的三个字换成“敲笨钟”。例如唐代诗人李贺有名句曰&…

阅读更多...

禁止chrome浏览器更新方式

禁止chrome浏览器更新方式

1、禁用更新服务 WinR调出运行，输入services.msc，进入服务。在服务中有两个带有Google Update字样，双击打开后禁用，并把恢复选项设置为无操作。 2、删除计划任务运行taskschd.msc，打开计划任务程序库，在…

阅读更多...

SDRAM学习笔记（MT48LC16M16A2，w9812g6kh）

SDRAM学习笔记（MT48LC16M16A2，w9812g6kh）

一、基本知识 SDRAM : 即同步动态随机存储器（Synchronous Dynamic Random Access Memory）, 同步是指其时钟频率与对应控制器（CPU/FPGA）的系统时钟频率相同，并且内部命令的发送与数据传输都是以该时钟为基准&#xff…

阅读更多...

【C#】LIMS实验室信息管理系统源码

【C#】LIMS实验室信息管理系统源码

一、系统概述 LIMS(Laboratory Information Management System)即实验室信息管理系统,是通过对样品检验流程、分析数据及报告、实验室资源和客户信息等要素的综合管理,按照标准化实验室管理规范,建立符合实验室业务流程的质量体系,实现实验室信息化管理。是实验室提高分析水平…

阅读更多...

CSS 滚动驱动动画与 @keyframes 新语法

CSS 滚动驱动动画与 @keyframes 新语法

CSS 滚动驱动动画与 keyframes 在 CSS 滚动驱动动画相关的属性出来之后, keyframes 也迎来变化. 以前, keyframes 的值可以是 from, to, 或者百分数. 现在它多了一种属性的值 <timeline-range-name> <percentage> 建议先了解 animation-range 不然你会对 timeli…

阅读更多...

[RISC-V]verilog

[RISC-V]verilog

小明教IC-1天学会verilog(7)_哔哩哔哩_bilibili task不可综合，function可以综合

阅读更多...

4+非肿瘤纯生信。氧化应激+WGCNA+药物预测筛序关键基因

4+非肿瘤纯生信。氧化应激+WGCNA+药物预测筛序关键基因

今天给同学们分享一篇非肿瘤氧化应激WGCNA的生信文章“Identification of oxidative stress-related biomarkers associated with the development of acute-on-chronic liver failure using bioinformatics”，这篇文章于2023年10月10日发表在Scientific Reports期刊…

阅读更多...

数据库数据恢复—Oracle数据库报错ORA-01110错误的数据恢复案例

数据库数据恢复—Oracle数据库报错ORA-01110错误的数据恢复案例

Oracle数据库故障： 北京某公司一台运行oracle数据库的服务器，机房意外断电导致该服务器重启，重启后发现oracle数据库报错。该Oracle数据库没有备份。 Oracle数据库数据恢复过程： 1、北亚企安数据恢复工程师检查该oracle数据库的数…

阅读更多...

input改造文件上传，el-table的改造，点击上传，拖拽上传，多选上传

input改造文件上传，el-table的改造，点击上传，拖拽上传，多选上传

第一个input标签效果第二个input标签的效果 el-table的改造效果 <template><div class"outerBox"><div class"analyze" v-if"status"><div class"unFile"><div class"mainBox"><img clas…

阅读更多...

【Python】【Flask】flask_login的初始化

【Python】【Flask】flask_login的初始化

【背景】想要更高效地用现有的Flask_login包来实现用户管理方面的常用功能会话管理等。不想再手搓了。【要点】首先引入flask_login from flask_login import LoginManager, login_user, login_required, logout_user,current_user然后进行app级别的设置和初始化 login…

阅读更多...

黔院长 | 黄帝内经：人有四经十二从！

黔院长 | 黄帝内经：人有四经十二从！

"人有四经十二从"这句话出自《黄帝内经素问》，“四经”指的是与四时相应的正常脉象，也是指四个主要经络：太阳经、少阳经、太阴经和少阴经。在中医理论当中这些经络被认为是人体气血运行的通道。而“十二从”则表示人体的十二个经脉…

阅读更多...

计算机毕设基于CNN实现谣言检测 - python 深度学习机器学习

计算机毕设基于CNN实现谣言检测 - python 深度学习机器学习

文章目录 1 前言1.1 背景 2 数据集3 实现过程4 CNN网络实现5 模型训练部分6 模型评估7 预测结果8 最后 1 前言 Hi，大家好，这里是丹成学长，今天向大家介绍一个深度学习项目基于CNN实现谣言检测 1.1 背景社交媒体的发展在加速信息传播的…

阅读更多...

ChatGLM3 本地部署的解决方案

ChatGLM3 本地部署的解决方案

大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

阅读更多...

Java 将list集合的字符串格式转为Map

Java 将list集合的字符串格式转为Map

Java 将list集合的字符串格式转为Map List<Object> list new ArrayList<>(); Map<String,String> map1 new HashMap<>(); map1.put("fileName","测试1"); map1.put("level","1"); list.add(map1);Map<S…

阅读更多...

[Java]前中后序遍历二叉树/递归与非递归

[Java]前中后序遍历二叉树/递归与非递归

一、递归方法首先，树形结构都是由递归方式定义的。那么递归是怎么用的？ 1、终止条件；2、调用自身分析 1、什么时候停止？ 当结点值为空的时候，返回null； 2、如何调用自身？ 以前序遍历为例&…

阅读更多...

php之角色的权限管理（RBAC）详解

php之角色的权限管理（RBAC）详解

RBAC（Role-based access control）是一种常见的权限管理模型，通过将用户分配至特定的角色，以及为角色分配访问权限，实现了权限管理的目的。以下是关于RBAC的详细解释： 角色：RBAC模型的核心是角色…

阅读更多...

Ubuntu编译 PCL 1.13.1 详细流程

Ubuntu编译 PCL 1.13.1 详细流程

Ubuntu编译 PCL 1.13. 详细流程一、编译环境二、虚拟机准备1. 虚拟机扩容2. 配置交换分区三、Cmake - gui 生成 MakeFile1. 解决 flann 依赖问题2. 配置 Cmake 四、编译安装1.编译：2. 安装一、编译环境 Ubuntu：Ubuntu 20.04 VMware：VMwar…

阅读更多...

如何学好C++?学习C和C++的技巧是什么？

如何学好C++?学习C和C++的技巧是什么？

如何学好C?学习C和C的技巧是什么？ 你这三个问题，前两个都是意思是差不多的，那么怎么怎么学习C/C我来问答一下：最近很多小伙伴找我，说想要一些C资料，然后我根据自己从业十年经验，熬夜搞了几个通…

阅读更多...

vue中父组件给子组件传递了参数后，什么时候确保子组件中收到的参数更新了

vue中父组件给子组件传递了参数后，什么时候确保子组件中收到的参数更新了

有这样的一个场景，在父组件中给子组件通过props进行了传值如students，然后想在父组件中调用子组件中的方法，这个方法中用到了父组件传递的参数，如何保证在父组件中调用子组件方法时这个值是最新的？ 将父组件调用子组件…

阅读更多...

最新文章