论文阅读<CF-YOLO: Cross Fusion YOLO for Object Detection in Adverse Weather.....>

论文链接:https://arxiv.org/pdf/2309.08152.pdfhttps://arxiv.org/pdf/2206.01381.pdfhttps://arxiv.org/pdf/2309.08152.pdf

代码链接:https://github.com/DiffPrompter/diff-prompter

目前没有完整代码放出。

        恶劣天气下的目标检测主要有以下三种解决方案:1)使用预处理(pre-processing),例如image desnowing/deraining/dehazing,尽管已经有大量的方法去完成这个工作,但是会丢失图像细节。2)使用双分支网络联合学习图像恢复和目标检测,这两个网络共享特征提取层,但是在训练中很难平衡这两项任务。3)使用无监督域适应(Domain Adaptation)来对齐干净图像和恶劣天气下拍摄的特征,但是这样有利于检测的潜在信息可能被忽略。

Abstract 

       

Motivation

        是否能够通过建立真实的雪天OD数据集和开发特征聚合模块(feature aggeregation module)来学习潜在信息的协同作用,增强尖端Object Detection网络在雪天条件下的能力。

Real-World Snowy Object Detection Dataset

A Dataset Introduction

        建立了用于雪中目标检测的真实世界的数据集RSOD(real-world snow object detection dataset),包含2100张不同场景的图像,主要是雪中城市和交通场景,实例分布如下图所示。把雪天分为四个难度等级:easy, normal, difficult, particularly difficult。通过计算SCR值和人工观测进行等级划分,1~600为easy,601~1600为normal,1601~2000为difficult,2001~2100为particularly difficult。

B Unsupervised Training for SCR Calculation

        SCR(snow coverage rate)用来衡量雪覆盖的面积,用下边的公式进行计算。A_{snow}A_{bbox}分别表示雪和bounding box的面积。直接对图片标注可以计算出SCR值,但是这样非常耗费时间。这里采用无监督的训练策略来训练一个响应雪像素并抑制不是雪的像素的CNN。主要通过下边三个策略来实现。

SCR=A_{snow}/A_{bbox}

1、用大雪覆盖大部分图像区域的图像训练CNN模型。对应的ground truth是输入大小相同且几乎所有像素都等于1的map。该步骤将引导模型映射为每个值都等于1的map,模型中的卷积核将通过反向传播对积雪特征进行编码。

2、设计了一个激活函数Peak Act抑制非雪元素。如图2 ( d )所示,我们称激活函数为P eak Act。由于我们用于训练的图像中积雪覆盖面积最大,卷积核自然会对积雪像素做出响应,而对非积雪像素进行抑制。Peak Act表达式如下,设计时遵循以下三个原则:1)是一个峰值函数,其中峰值为( 1 , 1)。因为我们的基本真值是一个所有元素都等于1的矩阵,所以训练过程会引导输出结果趋向于1。并且峰值将有效面积限制在很小的带宽内,如图2 ( d )所示。2)零映射为零。如果一个零映射到一个非零值,就会有一些懒惰的卷积核,所有的权重都等于0,将所有的像素平滑到一个非零值。因此,后面层的特征很容易被等同于真实值,从而导致训练的失败。3)为凹函数,确保特征值在经过激活函数后不会趋近于1。特征只有通过优化才能趋近于1。

f(x)= \left\{\begin{matrix} 0.2x& x<0\\ x^{2}& 0\leq x<1\\ (x-2)^{2}&1\leq x <2 \\ -0.2(x-2)&x\geqslant 2 \end{matrix}\right.

3、CNN的最后一层是Max-out function。它将通道维度中每个像素的最大特征值输出,形成单通道特征图O和Ground Truth去计算损失。由于Peak Act的上限为1,网络的输出将始终小于或等于1。Max - out层将鼓励不同的通道响应不同的特征,从而导致高度特定的内核优化。P是网络参数,α设置为1,β设置为0.0001。损失函数的第一项是引导优化方向,第二项是L1正则化,用于得到稀疏特征。

Loss = \alpha\frac{1}{W*H}\sum_{i}\sum_{j}(GT_{ij}-O_{ij})+\beta||P||_{1}

        CNN模型如图3所示。在训练和测试(即,计算SCR)的过程中,我们使用了不同的头。该模型将输入图像分解为32个通道,并对不同通道的特征图进行二值化和可视化。如图2 ( b )和图2 ( c )所示,Feature Map - 31对积雪的响应非常特异,而Feature Map - 11对边缘的响应非常特异。响应积雪的特征图可以通过统计二值化图中的光照像素来计算SCR。我们还对不同通道的3D表面进行了可视化,如图2 ( e )和图2 ( f )所示,它清楚地显示了通道- 31对积雪区域的响应和对非积雪区域的抑制。CNN和Peak Act的设计,使得能够计算SCR,从而对雪天图像进行分级。

Method

        在MSCOCO训练和的模型,在RSOD上进行检测,由于域偏移(domain shift)的问题,性能严重退化。除此之外,我们还发现一些大物体在雪天中更容易被遗漏,这可能违背常识,因为许多研究表明在大模型上性能很好。基于这一观察,对yolov5s做了小的调整,。通过设置检测置信度阈值为0.01,我们惊讶地发现YOLOv5s已经检测出了雪天图像(类似的现象也存在于许多其他的雪天图像中)中的那些大目标,但是置信度过低,无法通过非极大值抑制( NMS ),导致预测错误,如图10 ( b )。原因是大雪会改变物体的轮廓、纹理和表面,使低层视觉信息缺失和扭曲

        YOLOv5s使用的是Feature Pyramid 和Path Aggregation Network(FPN+PANet)作为特征融合模块,特征在进入检测头之前经过了top-down和bottom-up。而在雪天图像中,低层视觉信息被遗漏或者失真,这种无意义的信息会随着网络进行传播。在深度网络中,深层网络的感受野比较大,因此,更深层的网络可能会考虑到更多的无意义特征。可能会稀释有意义的特征,干扰网络从被雪覆盖的物体中提取有意义的特征,降低预测的置信度。

A Cross Fusion

        为了解决上边提出的问题,这篇论文提出了一个新的交叉融合模块(cross fusion,CF)能够直接集成来自不同层次的特征。该模块的目的是缩短传播路径,而不是使模型变得更复杂或更深入。如图4所示,把不同尺度的输入特征同时送入CF层,促使最后一个阶段直接到达低层特征。CF层还允许不同的输入输出分支,这使得CF成为一个即插即用的模块,以适应不同的模型。

        和FPN+PANet相比,CF可以在低层特征和高层特征之间提供更短的路径,CF的特征融合可以表示为。f_{CSP}是CSP模块,\bigoplus是逐像素相加,O_{1}是CF的结果。CF的特征融合发生在后处理组件之前,而" FPN + PANet "的特征融合只能按照自顶向下和自底向上的顺序依次进行

O_{1}=f_{CSP}(Conv_{11}(X_{1})\bigoplus Conv_{12}(X_{2}) ) \bigoplus Conv_{13}(Resize(X_{3}))

B CF-YOLO

        把YOLOV5的neck部分替换为如图5所示的结构,此外,CF - YOLO的结构非常灵活。通过改变CF ( n )的个数、出入阶段数( In和Out)和g Oct Conv ( K )的核大小,可以很容易地对其进行修改。在这项工作中,我们的CF - YOLO堆叠了两层CF ( n = 2 )。CF-YOLO ( K = 1 )、CF - YOLO ( K = 3 )分别表示CF的核尺寸等于1和3

Experiment

A Comparison of different activation functions

         为了验证提出的Peak Act的有效性,我们将一般的激活函数Sigmoid,ReLU [ 34 ]和Leaky Relu激活函数[ 35 ]与Peak Act进行了比较。并选取最佳的特征图可视化结果进行对比。可以看到只有Peak Act能够保存模型把积雪特征从非积雪特征中分离出来。

B Performance of Detectors on RSOD

        CF - YOLO是在PyTorch中实现的。所有训练设置与YOLOv5s (批大小= 32 ,动量为0.937 ,权重衰减为0.0005的SGD优化器,学习率= 0.01)相同。我们将CF - YOLO与不同的SOTA方法进行了比较,包括YOLOv5s,SSD300 [ 20 ],EfficientDet D0和D1。此外,将RSOD分为训练集、验证集和测试集,分别包含1701、189和210张图像。为了平衡每个子集的难度,图像被随机分配到各个子集。为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。

        为了验证RSOD的4个难度等级,我们分别在这4个难度等级和整个数据集上进行测试。为了公平比较,所有检测器仅使用MSCOCO进行训练,结果在表1中显示。与YOLOv5s相比,CF - YOLO具有更高的检测结果置信度,能够减少漏检和误检。原因在于提出的CF块使得不同层次的特征能够直接交互,从而可以恢复稀释在高层特征中的有意义的信息。

        为了比较不同方法在RSOD数据集上训练后的性能,使用MSCOCO预训练的权重在RSOD上训练了20个epoch。  我们只训练了20个历元的网络,这就足够了,因为RSOD比MSCOCO小得多。如表2所示,在验证集和测试集上,CF - YOLO仍然优于SOTAs,这证实了CF - YOLO在降雪天气中的优势。

C Performance of Detectors on MSCOCO

        为了进一步考察CFYOLO的泛化能力,我们在MSCOCO上对CF - YOLO的两个版本( K = 1或3)从头训练300历元。表3展示了CF - YOLO和SOTAs在MSCOCO上的比较。可以看到,核大小为K = 1或K = 3的CF - YOLO取得了与YOLOv5s相近的结果。这意味着我们的CF - YOLO在降雪天气下表现良好,而在正常天气下仍然具有竞争力。

Conclusion

        不利的天气往往会给为自动化系统供电的传感器造成能见度问题。尽管前沿的目标检测器在正常天气下捕获的数据集上取得了令人鼓舞的结果,但从恶劣天气(例如,降雪天气)中捕获的低质量图像中检测目标仍然非平凡的。它们往往忽略了对检测有益的潜在信息。通过开发一个采用无监督的训练策略,我们建立了一个高质量的用于目标检测的真实世界雪花数据集( RSOD )。考虑到基于CNN的检测器在RSOD上的退化,我们提出了交叉融合YOLO ( CF-YOLO ):一种轻量但有效的目标检测器。结果表明,我们的CF - YOLO不仅在RSOD上取得了优异的性能,而且是一个有竞争力的轻量级通用检测器,这将为户外视觉系统提供便利。                

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/578351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Stable Diffusion系列(三):网络分类与选择

文章目录 网络分类模型基座模型衍生模型二次元模型2.5D模型写实风格模型 名称解读 VAELora嵌入文件放置界面使用 网络分类 当使用SD webui绘图时&#xff0c;为了提升绘图质量&#xff0c;可以多种网络混合使用&#xff0c;可选的网络包括了模型、VAE、超网络、Lora和嵌入。 …

引用jquery.js的html5基础页面模板

本专栏是汇集了一些HTML常常被遗忘的知识&#xff0c;这里算是温故而知新&#xff0c;往往这些零碎的知识点&#xff0c;在你开发中能起到炸惊效果。我们每个人都没有过目不忘&#xff0c;过久不忘的本事&#xff0c;就让这一点点知识慢慢渗透你的脑海。 本专栏的风格是力求简洁…

使用LLaMA-Factory微调ChatGLM3

1、创建虚拟环境 略 2、部署LLaMA-Factory &#xff08;1&#xff09;下载LLaMA-Factory https://github.com/hiyouga/LLaMA-Factory &#xff08;2&#xff09;安装依赖 pip3 install -r requirements.txt&#xff08;3&#xff09;启动LLaMA-Factory的web页面 CUDA_VI…

Java经典框架之Spring MVC

Spring MVC Java 是第一大编程语言和开发平台。它有助于企业降低成本、缩短开发周期、推动创新以及改善应用服务。如今全球有数百万开发人员运行着超过 51 亿个 Java 虚拟机&#xff0c;Java 仍是企业和开发人员的首选开发平台。 课程内容的介绍 1. Spring MVC 入门案例 2. 基…

JVS低代码平台:多级菜单配置的详细教程与演示

多级菜单是软件系统一种常见的用户界面设计&#xff0c;它允许用户通过点击或选择不同的菜单项来执行不同的操作或访问不同的功能。多级菜单通常由多个级别的菜单组成&#xff0c;每个级别都包含一组可选择的菜单项。用户可以通过点击或选择菜单项来进入下一级菜单&#xff0c;…

【MYSQL】MYSQL 的学习教程(七)之 慢 SQL 优化思路

1. 慢 SQL 优化思路 慢查询日志记录慢 SQLexplain 分析 SQL 的执行计划profile 分析执行耗时Optimizer Trace 分析详情确定问题并采用相应的措施 1. 慢查询日志记录慢 SQL 如何定位慢SQL呢&#xff1f; 我们可以通过 慢查询日志 来查看慢 SQL。 ①&#xff1a;开启慢查询日志…

vr虚拟高压电器三维仿真展示更立体全面

VR工业虚拟仿真软件的应用价值主要体现在以下几个方面&#xff1a; 降低成本&#xff1a;通过VR技术进行产品设计和开发&#xff0c;可以在虚拟环境中进行&#xff0c;从而减少对物理样机的依赖&#xff0c;降低试错成本和时间。此外&#xff0c;利用VR技术构建的模拟场景使用方…

蓝桥杯-Excel地址[Java]

目录&#xff1a; 学习目标&#xff1a; 学习内容&#xff1a; 学习时间&#xff1a; 题目&#xff1a; 题目描述: 输入描述: 输出描述: 输入输出样例: 示例 1: 运行限制: 题解: 思路: 学习目标&#xff1a; 刷蓝桥杯题库日记 学习内容&#xff1a; 编号96题目Ex…

Find My文具盒|苹果Find My技术与文具盒结合,智能防丢,全球定位

文具盒&#xff0c;学生用来装钢笔、铅笔、尺子、橡皮等文具的盒子。质地种类很多&#xff0c;一般有木质、铁质、塑料等制品&#xff0c;形状各异&#xff0c;多为长方体形状。文具盒能培养学生的管理能力。使用文具盒的过程就是一个管理自己的过程。每次使用文具之前&#xf…

Android/iOS APP备案流程指南

Android/iOS APP备案流程指南 摘要 本文通过详细介绍了工信部对移动互联网应用程序&#xff08;APP&#xff09;备案的要求&#xff0c;解释了APP备案的定义、时间节点、办理流程以及腾讯云、阿里云的备案流程&#xff0c;最后提供了常见问题的解答。 引言 随着移动互联网的…

docker部署kafka zookeeper模式集群

单机模式链接&#xff1a;https://blog.csdn.net/wsdhla/article/details/133032238 kraft集群模式链接&#xff1a;部署Kafka_kafka 部署-CSDN博客 zookeeper选举机制举例&#xff1a; 目前有5台服务器&#xff0c;每台服务器均没有数据&#xff0c;它们的编号分别是1,2,3,4,5…

博客摘录「 Apollo安装和基本使用」2023年11月27日

一、常见配置中心对比 Spring Cloud Config: https://github.com/spring-cloud/spring-cloud-configApollo: https://github.com/ctripcorp/apolloNacos: https://github.com/alibaba/nacos 对比项目/配置中心 spring cloud config apollo nacos(重点) 开源时间 2014.9 …

Vue使用Element表格Table设置所有单元格内容居中对齐

为单个列的单元格设置居中对齐代码如下&#xff1a; <el-table-columnprop"productInfo.productName"label"中文名"width"100"align"center"></el-table-column>需要设置el-table-column标签里面的属性设置为align"c…

开源分布式搜索引擎ElasticSearch结合内网穿透远程连接

文章目录 前言1. Windows 安装 Cpolar2. 创建Elasticsearch公网连接地址3. 远程连接Elasticsearch4. 设置固定二级子域名 前言 简单几步,结合Cpolar 内网穿透工具实现Java 远程连接操作本地分布式搜索和数据分析引擎Elasticsearch。 Cpolar内网穿透提供了更高的安全性和隐私保…

基于XLA_GPU的llama7b推理

环境 pytorch-tpu/llamapytorch 2.1.2(cuda117)torch-xla 2.1.1 # llama2 git clone --branch llama2-google-next-inference https://github.com/pytorch-tpu/llama.git # pytorch git clone https://github.com/pytorch/pytorch.git git checkout v2.1.2 # 部分仓库可能下载…

LeetCode刷题---单词规律

解题思路&#xff1a; 首先分别将pattern字符串转为字符数组p&#xff0c;将s字符串根据" "切割为字符串数组s1&#xff0c;判断两个数组的长度是否相等&#xff0c;如果不相等&#xff0c;则返回false。之后对两个数组的每个元素与哈希表做比对&#xff0c;哈希表的…

redis cluster判断key属于那个分片。

一、判断阿里云 redis cluster&#xff0c;的key属于那个分片。 阿里云特有的命令info key 可以查看key属于那个slot&#xff0c;那个分片 命令行查看&#xff1a; xxxx:6379> info key xxxx_compressed_xxx slot:4941 node_index:9 xxxx:6379> cluster keyslot xxxx_…

地图服务器GeoServer的安装与配置

文章目录 1.安装配置Java2.安装配置Tomcat3 安装配置GeoServer GeoServer提供了多种安装配置方式&#xff0c;但是本质上GeoServer是一个基于Java Web的项目&#xff0c;因此我们理论上只需要安装Java&#xff0c;并且将其放置在一个Web服务器&#xff08;例如Apache Tomcat&am…

如何与听力损失者沟通

如何与听力损失者沟通&#xff1f; 当您与有听力损失的人交谈时&#xff0c;请记住&#xff0c;对您来说&#xff0c;简单的沟通可能会让您的同伴感到疲惫。听力损失的人必须积极努力去理解。助听器可能会有所帮助&#xff0c;但调高音量不会使失真的声音更清晰。 通过使用以下…

解放双手!微信这样批量自动添加好友高效且实用

随着私域流量的兴起&#xff0c;越来越多的人开始在微信上进行营销推广&#xff0c;以及维护与客户的关系&#xff0c;尤其是从其他自媒体平台引流到微信的客户&#xff0c;如果还是一个号码一个号码地逐一添加&#xff0c;那可就太麻烦啦&#xff01; 所以&#xff0c;在工作…