优秀博士学位论文分享:复杂场景下高精度有向目标检测的研究

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。

“博士学位论文激励计划”(原优秀博士学位论文奖)是对博士研究生学位论文的一项重大奖励,由各大学会通过严格评选后颁布。中国计算机学会、中国自动化学会、中国人工智能学会等各大学会每年都会颁布该奖项。该奖项的目的是促进学术研究的卓越性,并鼓励产出高质量的博士论文。博士研究生如果能够荣获该奖项,则表明其学术研究生涯早期的成果受到了很高的认可。

本推文主要介绍上海交通大学杨学博士的研究成果,其博士论文《复杂场景下高精度有向目标检测的研究》荣获了2023年中国计算机学会“博士学位论文激励计划”(原优秀博士学位论文奖)。该论文聚焦研究复杂场景下高精度的有向目标检测算法。论文以有向目标检测为研究重点,在鲁棒有向目标检测器搭建、高效位姿参数估计、弱监督算法探索以及有向目标检测工具设计这四个方面来扩展和完善现有的算法。目前该论文已获得“博士学位论文激励计划”奖项。此外,本推文还对其指导老师严骏驰教授进行了介绍,以方便读者了解更多相关信息。本推文的作者为龙佰超,审校为许东舟和朱旺。

一、论文介绍

深度学习作为一门新兴的学科,它在海量数据和复杂数据的处理上展现出了强大的能力,因此被广泛应用于计算机视觉和图像处理任务中。

目标检测作为计算机视觉的基本任务之一,是包括实例分割,目标跟踪、行人再识别等视觉任务在内的基础,并在近二十年得到了广泛研究和快速发展。目标检测是指,针对给定的图像,通过图像处理和计算机视觉等算法,找到图中所感兴趣的目标并定位其精确的位置坐标以及识别出具体的类别信息。目标检测可以分为“通用目标检测”和“检测应用”两个研究课题,前者旨在探索在统一框架下检测不同类型目标的通用方法,以模拟人的视觉和认知,后者则是指特定应用场景下的检测,如行人检测、人脸检测、场景文字检测和遥感检测等。近年来,深度学习技术的飞速发展,促使目标检测领域取得显著突破,进而将目标检测推向空前关注的研究热点。然而,经典的水平框目标检测算法已经无法满足当前许多特殊场景(如遥感影像、场景文字等)的需求,因此有向目标检测技术应运而生。文章主要探究如何在复杂环境下设计高精准的有向目标检测器。

1文章研究内容的整体脉络

鉴于有向目标检测巨大的应用前景、以及现存的困难与挑战,文章以有向目标检测为研究重点,在鲁棒有向目标检测器搭建(基准算法)、高效位姿参数估计(参数优化)、弱监督算法研究(训练数据)以及有向目标检测工具设计(集成工具)这四个方面来扩展和完善现有的算法,图1从这四个方面梳理了文章核心内容的整体脉络。

1. 有向目标检测器的网络架构设计

有向目标检测作为水平目标检测的一个扩展研究方向,其主要特点是估计框的冗余区域较少,在目标表示上更加精准。这对于密集场景非常友好。更重要的是有向目标检测保留了目标的方向信息,能为后续相关的任务提供重要的信息。目前有向目标检测算法均是基于经典水平检测算法改进的。第三章首先介绍了如何简单地将水平目标检测器改进成有向目标检测,包括介绍旋转框的不同定义、不同形式的锚框、旋转框重叠率的计算、回归参数的估计以及损失函数等基础知识。为了追求速度与精度的平衡,第三章提出了一种基于单阶段检测方法的级联有向检测器,该检测器采用了一种从粗到细的渐进式回归方法来快速准确地定位目标。考虑到级联检测器中存在的特征不对齐的问题,还设计了一个用于获得更准确特征的特征精修模块来提高检测性能。在多个公开的有向目标检测数据集上的大量实验结果表明,所提方法均有不错的表现。

第三章介绍了如何从一个水平目标价检测器(如单阶段检测器RetinaNet)到有向目标检测器的搭建,主要介绍了旋转框的不同定义、不同形式的锚框、旋转框重叠率的计算、回归参数的估计以及损失函数等基础知识,并在实验中比较和分析了不同锚框设置下有向目标检测器(RetinaNet-H和RetinaNet-R)的优缺点。然后设计了一个级联检测器R3Det来平衡速度与精度,同时通过设计了一个特征精修模块首次解决了单阶段有向目标检测中特征不对齐的问题。所提方法在众多公开数据集上得到了验证,并在当时的多个数据集上取得了最先进的性能。

2. 有向目标检测器的目标位姿表征

目标检测器定位的精准程度有很大一部分因素取决于检测器定位损失的设计,即位姿参数的估计机制。区别于水平框目标检测,有向目标检测往往会引入角度参数,这使得定位损失的设计变得更为复杂。第四章首先阐述了不同旋转框定义法下由角度参数和长宽两条边参数引起的边界不连续问题,并在特定旋转框定义法下通过将角度估计从回归问题转换成精细的分类问题予以初步解决,同时还通过分类的方式进一步实现了目标头部检测。随后第四章进一步提出了类正方形检测问题以及评估方式和回归损失不一致问题,并通过使用高斯分布建模与距离度量的方法统一解决了不同定义法下的边界不连续问题、类正方形检测问题和不一致问题,还进一步分析了高斯分布建模与距离度量可以实现高精度目标检测的原因。最后,在保留高斯分布建模的优势下继续采用相似性度量完善了对旋转重叠率损失的近似,并通过各类实验对第四章所提方法进行了有效性的验证以及给出总结与讨论。

第四章针对有向目标检测提出了三种亟待解决的问题:边界不连续问题、类正方形检测问题以及评估方式与损失函数不一致问题。第四章主要由三部分组成:

1) 第四章总结了发生边界不连续问题的主要原因是理想的估计结果超出了定义的范围,因此提出了一种在特定旋转框定义下方法,将角度估计从回归转为分类,以初步解决这一问题。同时为了实现精细的角度分类,第四章先提出了兼顾角度周期性和相邻角度容忍性的环形循环标签CSL,随后提出了密集编码标签DCL来降低模型的参数量和计算量,最后通过构建数据集、评价指标和头部分类的方式提出了目标头部检测任务。

2) 第四章提出了高斯分布建模来作为上述三种问题的统一解决方案,并将高斯分布距离(GWD,BCD和KLD)作为回归损失来优化检测器。通过梯度分析和尺度不变性证明,第四章发现使用KLD作为最终的回归损失可以取得显著的性能提升,尤其在高精度指标上表现突出。

3) 保留高斯分布建模优越性的前提下,第四章基于高斯分布相乘提出了相似性度量KFIoU来取代距离度量(如KLD)作为检测器最终的回归损失。相比之下,KFIoU可以更好地近似SkewIoU以更好地解决评估方式与损失函数不一致问题,并且不会引入任何超参数使得模型的训练变得稳定鲁棒。

虽然第四章所提出的方法均取得了不错的效果,但依然存在些许问题:

1) 目前文章分两步实现了头部检测,其流程还可以简化。如根据目标头部定义旋转框,则此时角度范围应该是[0◦,360◦),这样就可以通过CSL或者DCL同时实现有向/头部检测;

2) 第四章中的公式4.16只能进行五参数旋转矩形框的转换,即它不能直接应用于四边形/多边形检测。一种可行的方案是使用极大似然估计来估计点集对应的高斯分布,相关工作目前已在G-Rep中被提出;

3) 正方形目标的高斯分布是一个各向同性的圆形,这不适用于4.1.2小节提出的目标头部检测以及3-D目标检测中行人类别的朝向估计。目前,已有初步的朝向矫正方案在GWD和KLD的期刊扩展版本中被提出,期待未来更好的方法被提出。

3. 有向目标检测器的高效标注训练

目前有向目标检测已经在遥感影像、场景文字、自动驾驶等领域得到了初步的发展,然而许多现有的目标检测数据集均是用成本更低的水平边界框进行标注的,这导致暂时无法将这些数据集直接用到有向目标检测器的训练。第五章提出一种新的弱监督目标检测任务:基于水平边界框标注的有向目标检测。该类方法可以充分利用已有的海量水平框标注的目标检测数据集,减少重新标注的成本,同时提高检测器的性能。第五章首先阐述研究该项弱监督目标检测任务的动机,然后介绍“水平框-掩码-旋转框”和“水平框-旋转框”两种设计范式,最后通过实验分析这两种范式的优缺点并进行方法的总结与讨论。

第五章首次在目标检测领域中提出了基于水平框标注训练的弱监督有向目标检测任务,并提出了“水平框-掩码-旋转框”(HBox-Mask-RBox)和“水平框-旋转框”(HBox-to-RBox)两种范式进行实现。前者主要结合水平框监督的实例分割算法(如BoxInst和BoxLevelSet)和取最小外接矩形的后处理操作进行实现,经过实验分析这类方法存在性能低、速度慢和显存高等诸多问题。而后者采用了自监督的网络架构,通过衡量输入图片在不同视图下估计结果的一致性实现了精准的旋转框估计,实验表明所提出的H2RBox方法不管在精度还是速度方面均优于HBox-Mask-RBox类方法,并与强监督有向目标检测方法在各方面都比较接近。虽然H2RBox已经在在弱监督有向目标检测上取得了初步的进展,但是H2RBox其实在AP75等高精度指标上表现并不好。一个原因是弱监督分支训练的模型所估计的水平框不一定准,另一个原因可能是有些类别水平标注框不一定就是旋转标注框的水平外接矩形,如图 2中的飞机所示。

 2 水平标签框、旋转标签框和旋转标签框水平外接矩形的关系

在后续的研究中,H2RBox-v2通过引入对称自监督学习使得H2RBox的性能进一步提升,在部分数据集上追平甚至超越强监督算法。对称自监督学习近期也被逐渐应用于基于点监督的有向目标检测算法,如Point2RBox和PointOBB,简化流程的同时均有不错的性能。

4. 有向目标检测器的开源工具建设

目前最受欢迎的几个目标检测工具都是专注于水平目标检测,如MMDetection,Detectron2和SimpleDet。相比之下,有向目标检测在发展前期始终缺乏一个整合了大部分先进有向检测模型的工具用于评估和使用。为了解决这个问题,相关的工具陆续被开发出来。AerialDetection是较早基于MMDetection开发的专注于遥感影像的有向目标检测工具,然而它只提供了一些基准方法和有限的先进算法,并且缺乏维护以及后续新算法的集成。OBBDetection是另一个基于MMDetection开发的用于有向目标检测的开源工具,它支持了近9种不同的检测方法以及提供了一系列高效的处理大规模遥感影像的工具。可以看出目前的有向目标检测基准工具都使用PyTorch进行开发,具有深度学习框架类型单一、支持算法/数据集种类少、使用文档缺失、维护不完善等缺陷,阻碍了有向目标检测技术研究的进一步发展。第六章从学术研究、工业部署和国产化三个角度出发,分别基于TensorFlow、PyTorch和Jittor搭建了三种各具特色的有向目标检测工具:MMRotate、AlphaRotate和JDet。

第六章介绍了三种基于不同深度学习框架的有向目标检测工具。先从支持的算法/数据集的数量、使用文档、维护情况等角度将这三个检测工具与其他同类进行了比较。然后介绍了各检测工具的设计亮点以及使用教程,同时也列出了它们所支持的有向目标检测算法。每个检测工具都在标准数据集上比较了不同算法的性能,并且提供了相应权重和配置文件。论文希望所设计的有向目标检测工具能给学术界和工业界带来方便。三个有向目标检测工具还存在许多待提高的地方,会根据社区反应和讨论进行不断完善,也呼吁更多相关研究者加入到有向目标检测相关内容讨论和开发的队伍中来。

二、个人成果

杨学,浙江省绍兴人,电子信息与电气工程学院计算机科学与工程系2023届博士,首届吴文俊人工智能博士班成员,师从严骏驰教授。现任上海人工智能实验室青年研究员,研究方向为基础视觉。累计发表包括TPAMI、IJCV、NeurIPS 、CVPR等在内的CCF-A类论文24篇,其中以第一作者共发表论文16篇。谷歌学术总引用超5500次,2篇入选PaperDigest最具影响力AAAI21论文列表(第1名和第10名)。曾获CCF博士学位论文激励计划(全国9人)、CCF-CV新锐学者奖(全国3人)、上海交通大学优秀博士论文(全校15人/工学8人)、上海交通大学“学术之星”提名奖(全校20人)、并入选2022和2023年度由斯坦福大学评选的全球前2%顶尖科学家榜单。所开源的代码在社区累积获得星数超过万次,包括两个有较大影响力的有向目标检测框架AlphaRotate和MMRotate,同时还参与了国产开源框架Jittor版本有向目标检测框架JDet的维护。更多信息请查阅杨学博士个人主页:https://yangxue0827.github.io/。

、指导老师——严骏驰教授简介

严老师为上海交通大学人工智能学院和电子信息与电气工程学院计算机系教授,研究领域主要集中在计算机视觉、机器学习及人工智能与其它学科的交叉领域。更多关于严老师团队研究工作的介绍,请读者查阅其实验室网站:​​https://thinklab.sjtu.edu.cn/。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838241.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++11 新特性 常量表达式 constexpr

为了解决常量无法确定的问题,C11在新标准中提出了关键字constexpr,它能够有效地定义常量表达式,并且达到类型安全、可移植、方便库和嵌入式系统开发的目的。 一、常量的不确定性 在C11标准以前,我们没有一种方法能够有效地要求一…

LLama3大模型本地部署 仅需6步完成对话模型本地安装部署。附送可视化ui安装、自定义模型目录,修改模型保存地址,第三方微调模型、中文模型下载地址

本篇分为三部分 一:6步完成llama3大模型本地部署 二:8步完成llama3可视化对话界面安装 三:重设模型文件路径 四:微调模型、中文模型下载资源分享 一、LLama3 大模型本地部署安装 首先去mata官网下载ollama客户端 Ollama 选择合适…

linux 环境下 分布式文件搭建fastDFS

1.软件信息 地址:happyfish100 (YuQing) GitHub 1.fastdfs-master.zip 2.fastdfs-nginx-module-master.zip 3.libfastcommon-master.zip 4.libserverframe-master.zip yum install make cmake gcc gcc-c perl 2.安装libfastcommon unzip libfastcommon-mast…

MQTT_客户端安装_1.4

下载地址 MQTTX 下载 下一步直接安装即可 界面介绍

人工智能项目,如何解决大模型的数据私有化

这个问题是最近走访百家企业,客户问的最多的问题。人工智能是对数据集中后,再利用的智能化手段,ChatGPT还在持续的投入,汇集数据、训练模型,微软也不过是做了一个办公客户端的智能工具,那么行业应运之时&am…

基于CentOS-7搭建hadoop3.3.6大数据集群(保姆级教程)

目录 安装虚拟机 为hadoop用户添加权限 关闭防火墙 修改主机名以及ip地址映射 配置ip 连接xshell ,以hadoop用户登录 创建目录并将该文件夹权限赋予hadoop用户 安装配置jdk 关闭虚拟机,克隆其他两个节点 修改主机名和ip地址 配置免密登录 安装…

API低代码平台介绍3-异构数据源的数据查询功能

异构数据源的数据查询功能 在上一篇文章中我们通过API平台定义了一个最基本的数据查询接口,本篇文章我们将上升难度,在原有接口的基础上,实现在MySQL数据库和Oracle数据库同时进行数据查询。   什么场景会需要同时对异构数据源进行查询&…

基于FPGA的NC图像质量评估verilog实现,包含testbench和MATLAB辅助验证程序

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 vivado2019.2和matlab2022a测试,结果如下: 2.算法运行软件版本 vivado2019.2 matlab2022a 3.部分核心程序 timescale …

【C语言习题】6.逆序输出

文章目录 1.描述输入描述:输出描述:示例图: 2.解题思路3.具体代码4.代码讲解 1.描述 输入10个整数,要求按输入时的逆序把这10个数打印出来。逆序输出,就是按照输入相反的顺序打印这10个数。 输入描述: 一…

SDL系列(三)—— SDL2.0 扩展库:SDL_image与SDL_mixer

SDL_image SDL 默认支持的,只能打开 BMP 格式的图片 。 然而我们常见的是 Png jpg 格式的图片,于是我们这节完成 SDL 借用 自带的三方库 ,来 完成加载渲染 png 等其他图片格式。 SDL_image 简介 使用 SDL_image ,您…

[笔试训练](二十三)067:打怪068:字符串分类069:城市群数量

目录 067:打怪 068:字符串分类 069:城市群数量 067:打怪 题目链接:打怪 (nowcoder.com) 题目: 题解: 直接计算结果: 1.一只怪物能抗几次攻击 int m(H/a)(H%a0?0:1); 2.杀死一只怪物,玩家要抗几次攻击 int nm-1; *3.杀死一只…

jmeter指南:JMeter 安装、配置和性能测试

使用 JMeter 进行性能测试 1. Java 版本要求 JMeter 要求与 Java 8 或更高版本兼容。为了确保安全性和性能,建议安装最新次要版本的主要 Java 版本。鉴于 JMeter 仅使用标准 Java API,如果由于 JRE 实现问题而无法运行 JMeter,请不要提交错…

VMware Workstation 安装CentOS Linux操作系统

1.我们已经下载好VMware 创建新的虚拟机 2.选择典型 3.安装程序光盘映像文件 4.配置用户名密码 5.命名虚拟机,并确定位置 6.如图所示设置 7.等待(时间会有点久) 8.输入密码登入账号

工单系统有哪些?

市面上的工单系统真的非常多,一个个列举肯定说不完,我大致给它们按照不同的依据,进行了一下分类: 1、按部署方式分类: 本地化部署工单系统:适用于对数据安全性要求较高的企业,需要企业在本地服…

uniapp小程序控制页面元素滚动指定距离

要实现页面元素滚动,最好还是使用 scroll-view 来实现,官方文档地址:scroll-view | uni-app官网 通过设置scroll事件来实现滚动监听,当滚动的元素的时候,就会触发这个事件,并且事件里面包含有滚动距离&…

PCIE协议-2-事务层规范-Virtual Channel (VC) Mechanism

2.5 虚拟通道(VC)机制 虚拟通道(VC)机制提供了对可以在整个结构中传输使用TC(流量类别)标签区分的流量的支持。VC的基础是独立的结构资源(队列/缓冲区及其相关的控制逻辑)。这些资源…

【Android踩坑】重写onClick方法时,显示Method does not override method from its supperclass

问题 重写onClick方法时,显示Method does not override method from its supperclass 解决 在类上加implements View.OnClickListener

用于WB的抗体一定能用来做IHC吗?

首先,我们来了解下抗原表位。由于蛋白可以折叠成三维结构。 所以抗原表位可以分成两种类型: 线性表位 一般指的是由序列上相连接的一些氨基酸残基通过共价键形成的结构,也称为顺序表位,是蛋白质的一级结构,比较稳定&…

【重生之我在学Android】WorkManager (章一)

相关文章 【重生之我在学Android原生】ContentProvider(Java) 【重生之我在学Android原生】Media3 【重生之我在学Android】WorkManager (章一) 前言 官方文档 官方推荐 - 前台服务、后台服务都可以使用WorkManger来实现 案例 语言:JA…

Vue3详细讲解

Vue 3 介绍 文章目录 Vue 3 介绍为什么要学习 vue 3Vue3 动机 和 新特性 Vite 的使用vite介绍为什么选 Vite ?Vite 的基本使用Vue3.0项目介绍vscode插件说明 组合式APIcomposition API vs options API体验 composition APIsetup 函数reactive 函数ref 函数script se…