Paper Reading: MixTeacher:半监督目标检测中利用混合尺度教师挖掘有前景的标签

在这里插入图片描述

目录

  • 简介
  • 目标/动机
  • 工作重点
  • 方法
    • 训练
  • 实验
  • 总结

简介

题目:《MixTeacher: Mining Promising Labels with Mixed Scale Teacher for Semi-Supervised Object Detection》, CVPR 2023

日期:2023.3.16

单位:腾讯,上海交通大学,浙江大学,荣旗工业科技公司

论文地址:http://arxiv.org/abs/2303.09061

GitHub:https://github.com/lliuz/MixTeacher

  • 作者

在这里插入图片描述

一作的研究领域方向不是很固定,有关于模型架构研究、重识别、图像生成、目标检测、图像分割、无监督、自监督、半监督都有涉及,我看了一下其为一二作的文章,主要是自监督无监督还有最近的半监督,而且有很多是关于标签或是伪标签的优化方法

  • 其他作者

  • 通讯作者

  • 摘要

对象实例之间的比例变化仍然是对象检测任务中的一个关键挑战。尽管现代检测模型取得了显著进展,但这一挑战在半监督案件中尤为明显。虽然现有的半监督对象检测方法依赖于严格的条件来从网络预测中过滤出高质量的伪标签,但我们观察到,具有极端尺度的对象往往置信度较低,导致对这些对象缺乏积极的监督。在本文中,我们提出了一种新的框架,通过引入混合规模教师来改进伪标签生成和规模不变学习,来解决规模变化问题。此外,我们建议使用跨尺度预测的分数提升来挖掘伪标签,这得益于混合尺度特征的更好预测。我们在各种半监督设置下对MS COCO和PASCAL VOC基准进行的大量实验表明,我们的方法实现了最先进的性能

目标/动机

固有问题:目标检测中不同目标实例之间存在较大的尺度变化,半监督目标检测中尤为明显

现有解决方案:现有的半监督物体检测方法依赖于严格的条件来筛选网络预测中的高质量伪标签

现有方法的不足:尺度极端的物体往往具有较低的置信度,导致这些物体缺乏正向监督

新提出的解决方案:

  1. 引入混合尺度教师来解决尺度变化问题
  2. 引入一个新的指标来挖掘潜在的高质量伪标签

为了保证高精度,大多数现有的半监督对象检测方法采用严格条件(如score>0.9)来过滤得到高置信度的伪标签。产生的问题:对于那些极端尺度的目标,很多低置信度的对象被错误地分配为背景。

表格是关于图像输入尺度对不同大小目标的检测性能的影响:常规尺度1x的输入在整体指标上具有明显优势;缩小尺度0.5x的图像对于大目标具有优势

在这里插入图片描述

输入规则1×尺度和0.5×下采样尺度图像的检测结果。我们绘制了COCO val2017中(a)所有对象和(b)大型对象在不同得分阈值下的精确度和召回率,这些对象具有相同的模型但不同的输入量表。(c)中给出了两个未标记图像的例子。1x输入在总体度量方面具有明显的优势,但下采样图像更适合大型对象。

现有工作已经证明,结合未标记图像的额外下采样视图,并在标签级别(SED)或特征级别(PseCo)上使用一致性约束对网络进行正则化,可以显著提高半监督对象检测的性能

img

**现有的解决方案:**引入一个额外的缩小尺度(0.5x)视图,以获得模型预测结果的尺度不变性。

  1. SED提出从常规尺度到缩小尺度对目标的分类进行预测蒸馏,约束两个尺度上所有proposals的定位的一致性。

  2. PseCo采用从常规尺度生成的相同伪标签作为两个尺度上的标签。

    这些方法主要关注跨尺度预测的一致性,间接改善了模型的性能。

**存在的问题:**高度依赖在常规尺度下教师网络中生成的伪标签,这些方法仍然存在由不恰当尺度引起的错误负样本问题。

在这里插入图片描述

多尺度学习在半监督对象检测方法中的比较。先前的方法[10,17]仅侧重于鼓励对具有不同尺度的输入图像进行一致的预测。所提出的MixTeacher明确引入了混合尺度特征金字塔,以自适应融合来自适当尺度的特征,从而能够检测不同大小的对象。混合尺度特征生成更准确的伪标签,并有助于挖掘有前景的标签,作为一个插件,可以在训练后丢弃。

工作重点

本文提出了一种半监督目标检测框架MixTeacher,该框架利用混合尺度特征金字塔生成高质量的伪标签。

本文提出了一种挖掘伪标签的方法,该方法利用预测的改进作为挖掘有潜力的伪标签的指标。

在各种半监督设置下,本文的方法在MS COCO和PASCAL VOC基准中获得了最先进的性能。

方法

注意:以下大量图片来源于知乎博主的PR,PR地址:https://zhuanlan.zhihu.com/p/649988041

在这里插入图片描述

在这里插入图片描述

在训练过程中,该模型首先使用特征提取模块f(θf)分别为规则尺度1x和下采样尺度0.5x构建两个特征金字塔。接下来,通过特征融合模块g(θg)建立一个额外的混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头h(θh)将教师模型混合尺度生成的伪盒作为监督。此外,使用PLM策略挖掘具有低置信度分数的有前景的标签。教师中的权~θ由学生中的权重θ的EMA更新。在测试中,使用了具有原始架构和常规输入规模的模型。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

请注意,混合尺度金字塔中的第一级是从常规视图直接复制而来,而降采样视图中不存在相应级别

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

训练

在训练过程中,该模型首先分别构建了规则尺度下的特征金字塔和基于特征提取模块的下采样尺度下的特征金字塔。然后,利用特征融合模块,构建混合尺度特征金字塔。学生模型在三个尺度上进行训练,共享检测头,以混合尺度的教师模型生成的pseudo boxes作为监督。
在这里插入图片描述

实验

  • 与SOTA比较
    在这里插入图片描述

指标为在val2017集上的AP50:95。在\textit{部分标记}设置下,结果是五折交叉验证的平均值,±后面的数字表示标准差。在Additional设置下,箭头前面的数字表示有监督基线。†:使用带标签/不带标签的批次大小8/32,*表示32/32,其余结果使用批次大小8/8。 粗体表示最佳结果,而下划线表示次佳结果。

在这里插入图片描述

在COCO数据集上使用FCOS进行的实验结果。在这个设置中不使用PLM。

在这里插入图片描述

关于 VOC Additional 设置的实验结果。

在这里插入图片描述

关于 VOC Mixture 设置的实验结果。

  • 消融实验

在这里插入图片描述

各组成部分的分析。MST 表示从混合尺度特征金字塔生成伪标签,PLM 表示潜在标签挖掘策略

在这里插入图片描述

与其他多视图方法的比较。

SCR表示SED中的尺度一致性正则化。MSIL表示PseCo中的多视图尺度不变学习。MST ‡表示随机丢弃大尺度路径和混合尺度的学生网络损失中的一个,以保持与其他多尺度方法相当的训练时间

在这里插入图片描述

特征融合方法的比较。

“CONV-ADD”表示采用两个3x3卷积层对于常规尺度和下采样尺度的特征进行对齐,然后进行逐元素相加,“CAT-CONV”表示按通道连接后再进行卷积以减少通道数。

在这里插入图片描述

使用不同特征尺度进行测试的模型性能

FPS:检测器每秒能处理图片的张数

在这里插入图片描述

所提出的MixTeacher的不同超参数的比较。

  • 可视化

在这里插入图片描述

MixTeacher中组件的定性可视化。(a) 从规则比例和混合比例特征棱锥体生成的伪标签的比较。(b) 不同得分阈值下伪标签的比较以及我们有希望的标签挖掘结果。绿色方框表示真阳性。红色方框突出显示假阳性,橙色方框表示假阴性。此外,挖掘的标签会用一个青色框高亮显示。

总结

  • conclusion

在这项工作中,我们深入研究了半监督对象检测中的尺度变化问题,并通过引入混合尺度教师来改进伪标签的生成和尺度不变学习,提出了一种新的框架。此外,得益于混合尺度特征的更好预测,我们建议挖掘伪标签,以提高跨尺度预测的分数。在各种半监督设置下对MS COCO和Pascal VOC基准进行的大量实验表明,我们的方法实现了最先进的性能。虽然我们已经展示了MixTeacher的优越性,但该方法是建立在一个旧的时尚检测器上的,具有最简单的FPN和原始的标签分配策略。SSOD中的规模变化问题是否可以用更先进的FPN架构或标签分配方法来解决尚不清楚,这是一项有趣的未来工作


  • 补充材料

在这里插入图片描述

不同设置的培训设置摘要。

在这里插入图片描述

不同特征金字塔中图层的EigenCAM可视化。γ=0.18使P×6与P−5更相似。

在这里插入图片描述

不同数据集和不同设置的训练设置摘要。我们遵循Soft Teacher[40]、STAC[35]和FixMatch[34]的实践,采用不同的超参数进行标记数据扩充和未标记强弱扩充。

在这里插入图片描述

COCO部分标记设置下模型收敛速度的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 将MixTeacher与PseCo[17]在1%的标签比例下进行比较。(c) 在10%的标记比率下,将MixTeacher与MixTexer RD进行比较,该比率在每次迭代中从常规尺度和混合尺度中随机丢弃未标记图像的路径。在图例中,括号中的数字表示最终mAP。根据教师模式评估绩效。

在这里插入图片描述

训练过程中伪标签质量的比较。(a) 将MixTeacher与Soft Teacher[40]在10%的标签比例下进行比较。(b) 比较MixTeacher在不同条件下的伪标签。IoU与gt重叠大于0.5的伪标签被视为正样本

在这里插入图片描述

在COCO基准上与最先进的方法进行比较。报道了val2017集合上的AP50:95。在“部分标记”设置下,结果是所有五次折叠的平均值,±后面的数字表示标准偏差。在附加设置下,箭头前面的数字表示监督的基线。还报告了在每次迭代中使用的未标记图像的视图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/809030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

竞赛 图像识别-人脸识别与疲劳检测 - python opencv

文章目录 0 前言1 课题背景2 Dlib人脸识别2.1 简介2.2 Dlib优点2.3 相关代码2.4 人脸数据库2.5 人脸录入加识别效果 3 疲劳检测算法3.1 眼睛检测算法3.3 点头检测算法 4 PyQt54.1 简介4.2相关界面代码 5 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是…

Android MVVM架构学习——ViewModel DataBinding

关于MVVM架构,我并不想花篇幅去做重复性的描述,网上一搜都是一堆讲解,大家可以自行了解,我所做的只是以最简单的例子,最有效的步骤,从零开始,去实现一个相对有点学习参考价值的项目。 先来看本…

计算机网络——NAT技术

目录 前言 前篇 引言 SNAT(Source Network Address Translation)源网络地址转换 SNAT流程 确定性标记 DNAT(Destination Network Address Translation,目标网络地址转换) NAT技术重要性 前言 本博客是博主用于…

无人新零售引领的创新浪潮

无人新零售引领的创新浪潮 在数字化时代加速演进的背景下,无人新零售作为商业领域的一股新兴力量,正以其独特的高效性和便捷性重塑着传统的购物模式,开辟了一条充满创新潜力的发展道路。 依托人脸识别、物联网等尖端技术,无人新…

Redis中的集群(七)

集群 ASK错误 ASKING命令 ASKING命令唯一要做的就是打开发送该命令的客户端的REDIS_ASKING标识,以下是该命令的伪代码实现: def ASKING(): # 打开标识 client.flags | REDIS_ASKING# 向客户端返回OK回复 reply("OK")在一般情况下,如果客户…

搜维尔科技:【煤矿安全仿真】煤矿事故预防处置VR系统,矿山顶板灾害,冲击地压灾害等预防演练!

产品概述 煤矿事故预防处置VR系统 系统内容: 事故预防处置VR系统的内容包括:火灾的预防措施、火灾预兆、防灭火系统、火灾案例重现、顶板事故预兆、顶板事故原因、顶板事故案例重现、瓦斯概念及性质、瓦斯的涌出形式、瓦斯预兆、瓦斯爆炸条件及预防措…

数据结构之排序了如指掌(一)

目录 题外话 正题 排序概念 稳定性 直接插入排序 直接插入排序代码详解 直接插入排序复杂度分析 希尔排序(缩小增量排序) 希尔排序代码详解 小结 题外话 昨晚肚子疼没睡好,今天博客写的确实有点晚(找个借口),我一定会坚持,不辜负热爱我的家人们!! 正题 排序概念 一串…

苍穹外卖jwt令牌p10

点击小虫(进入断点调试),打上断点,然后前端点击登录(此时前端的数据会作为参数传入): 光标放在字段上还会显示接收到的数据: 若想程序在所希望的地方停止,可以添加断点&a…

《战神4》和《战神5》有什么联系吗 苹果电脑如何运行《战神4》苹果电脑玩战神 Mac玩游戏 战神5攻略 crossover激活码

《战神4》(God of War 2018)和《战神5》(God of War: Ragnark)是一对引人注目的游戏作品,它们不仅在游戏界引起了广泛的关注,也给玩家带来了深入探索北欧神话世界的机会。这两部游戏之间的联系不仅体现在剧…

【力扣】101. 对称二叉树

101. 对称二叉树 题目描述 给你一个二叉树的根节点 root , 检查它是否轴对称。 示例 1: 输入:root [1,2,2,3,4,4,3] 输出:true 示例 2: 输入:root [1,2,2,null,3,null,3] 输出:false 提示…

JavaWeb开发01--Maven-Web入门-请求响应-分层解耦

一、Maven 1.maven概述 Apache Maven是一个项目管理和构建工具,它基于项目对象模型(POM)的概念,通过一小段描述信息来管理项目的构建。 根据提供的插件实现很多功能 maven的作用 管理和构建java项目的工具 依赖管理:可以直接在pom.xml文件…

深入理解MD5算法:原理、应用与安全

title: 深入理解MD5算法:原理、应用与安全 date: 2024/4/11 20:55:57 updated: 2024/4/11 20:55:57 tags: MD5算法数据安全哈希函数摘要算法安全漏洞SHA算法密码学 第一章:引言 导言 在当今数字化时代,数据安全和完整性变得至关重要。消息…

【Leetcode每日一题】 动态规划 - 下降路径最小和(难度⭐⭐)(55)

1. 题目解析 题目链接:931. 下降路径最小和 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了. 2.算法原理 对于这类路径类问题,通常我们首先需要分析状态表示以及状态转移的过程。特别地,本题涉及…

The C programming language (second edition,KR) exercise(CHAPTER 3)

E x c e r c i s e 3 − 1 Excercise\quad 3-1 Excercise3−1:输出结果如图1所示,这里故意让二分搜索算法去寻找一个在数组中不存在在的数,然后去看两种二分搜索算法分别所花费的时间的大小,为了使得所花费的时间更具有可分辨性&a…

【HTML】制作一个简单的线性动画

目录 前言 HTML部分 CSS部分 JS部分 效果图 总结 前言 无需多言,本文将详细介绍一段HTML代码,具体内容如下: 开始 首先新建文件夹,创建一个文本文档,两个文件夹,其中HTML的文件名改为[index.html]&am…

面试经典算法系列之二叉树1 -- 从前序与中序遍历序列构造二叉树

面试经典算法16 - 从前序与中序遍历序列构造二叉树 LeetCode.105 公众号:阿Q技术站 问题描述 给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一棵树的中序遍历,请构造二叉树并返回其根…

VUE typescript 调用stompjs[Rabbit MQ]

npm拉下来最新的2.3.9版本&#xff0c;发现一些原来Js代码已经不能用了。顺便解读了下最新定义的内容 // <reference types"node" />export const VERSIONS: {V1_0: string;V1_1: string;V1_2: string;supportedVersions: () > string[]; };export class C…

airtest-ios真机搭建实践

首先阅读4 ios connection - Airtest Project Docs 在Windows环境下搭建Airtest对iOS真机进行自动化测试的过程相对复杂&#xff0c;因为iOS的自动化测试通常需要依赖Mac OS系统&#xff0c;但理论上借助一些工具和服务&#xff0c;Windows用户也可以间接完成部分工作。下面是…

前端对接fastGPT流式数据+打字机效果

首先在对接api时 参数要设置stream: true, const data {chatId: abc,stream: true,//这里true返回流式数据detail: false,variables: {uid: sfdsdf,name: zhaoyunyao,},messages: [{ content: text, role: user }]}; 不要用axios发请求 不然处理不了流式数据 我这里使用fetch …

PairAug:增强图像-文本对对放射学有什么用?

论文链接 代码链接GitHub - YtongXie/PairAug: [CVPR2024] PairAug: What Can Augmented Image-Text Pairs Do for Radiology? 发表于CVPR2024 机构 1) 澳大利亚机器学习研究所(AIML)&#xff0c;澳大利亚阿德莱德大学 2) 西北工业大学计算机科学与工程学院 3) 西北工业…