MMSeg搭建自己的网络

配置结构

首先,我们知道MMSeg矿机的配置文件很多,主要结构如下图所示。
在这里插入图片描述
在configs/_base_下是模型配置、数据集配置、以及一些其他的常规配置和运行配置,四类。
configs/all_config目录下存放,即是将四种配置聚合在一起的一个总体文件。如下所示:

_base_ = ['../_base_/my_models/my_model.py', #模型配置'../_base_/my_datasets/my_dataset.py', # 数据集配置'../_base_/default_runtime.py', # 运行配置'../_base_/schedules/schedule.py' # 其他配置
]
# 一些参数修改,可根据上面四个文件自己定义
crop_size = (512, 512)
data_preprocessor = dict(size=crop_size)
model = dict(data_preprocessor=data_preprocessor,decode_head=dict(num_classes=2), # 解码# auxiliary_head=dict(num_classes=2)
) # 辅助

接下来,我们就搭建自己的网络

搭建网络configs/base/my_models/my_model.py

1、第一部分
这些不是本节的重点

# 批处理配置
norm_cfg = dict(type='SyncBN', requires_grad=True)
# 激活函数选择(原文件中没有,自己加的,需要在模型中加入)
act_cfg = dict(type='ReLU') # GELU
# 以上两个全局设置可以省掉很多细节上的麻烦,也有conv_cfg设置全局卷积,太复杂了,不考虑
# 数据集处理方式
data_preprocessor = dict(type='SegDataPreProcessor',mean=[123.675, 116.28, 103.53],std=[58.395, 57.12, 57.375],bgr_to_rgb=True,pad_val=0,seg_pad_val=255)

2、第二部分
是模型配置的重点
模型配置主要有以下几个方面
主要为骨干网络和解码头,辅助头可要可不要,看自己的模型

model = dict(
# 1 基本设置type='EncoderDecoder', # 模型的类型,一般是编码解码器结构,在mmseg/models/segmentors目录下,是分割网络的结构data_preprocessor=data_preprocessor, # 必须的pretrained='open-mmlab://resnet50_v1c',
# 2骨干网络backbone=dict(type='MyModel',。。。),
# 3解码头decode_head=dict(type='DepthwiseSeparableASPPHead', # sep_aspp_head.py。。。),
# 4辅助头auxiliary_head=[dict(。。。),dict(。。。),],
# 5model training and testing settingstrain_cfg=dict(),test_cfg=dict(mode='whole'))

2.1 骨干网络

也是特征提取模块,也叫编码器。我们以resnet50_vd搭建自己的骨干网络,将其命名为MyBackbone
则配置文件中就写

 backbone=dict(type='MyBackbone',depth=50,...其他参数等norm_cfg=norm_cfg,norm_eval=False,style='pytorch',act_cfg=act_cfg,),

在mmseg/models/backbones目录下创建自己的网络mybackbone.py,同时在__init__.py中引入
一个基本的骨干网络如下所示。

@MODELS.register_module()
class MyBackbone(BaseModule):def __init__(self,其他参数):# 初始化权重和基本模型,这一步基本是固定的,暂时没怎么改if init_cfg is None:init_cfg = [dict(type='Kaiming', layer='Conv2d'),dict(type='Constant', val=1, layer=['_BatchNorm', 'GroupNorm'])]super().__init__(init_cfg=init_cfg) # 初始化BaseModule1初始化各组件def forward(self, x):2执行过程return def train(self, mode=True):"""Convert the model into training mode while keep normalization layerfreezed."""super().train(mode)self._freeze_stages()if mode and self.norm_eval:for m in self.modules():# trick: eval have effect on BatchNorm onlyif isinstance(m, _BatchNorm):m.eval()def _freeze_stages(self):pass

接下来讲一下MyBackbone各组件搭建
首先MyBackbone由两个分支组成,基本是下图所示的样子。
在这里插入图片描述

搭建组件一:

分支一很简单,主要由ResNet50构成,参数配置如下

        self.branch1= ResNetV1d(depth=50, # 深度50in_channels=3, #输入通道stem_channels=64, # resnet的stem层base_channels=64,num_stages=4, # resnet的4个阶段# resnet四层的步长和扩张率strides=(1, 2, 1, 1),dilations=(1, 1, 2, 4), # 输出索引,表示输出哪一阶段的特征图out_indices=(0, 1, 2, 3),# 风格,暂时不太懂这个参数,但用的就是pytorchstyle='pytorch',# resnet的改进,目前最好的就是vd版本,需要了解的可以去搜索deep_stem=True, # deep_stem=True是v1cavg_down=True, # deep_stem和avg_down都等于True是v1d# frozen_stages=-1,norm_cfg=norm_cfg,# dict(type='BN', requires_grad=True), # 批处理norm_eval=False,# 网络策略,resnet改进后在第四阶段加入空洞卷积引入网格策略控制扩张率multi_grid=(1, 2, 4), # 只有stage[3])

因为PaddleSeg有用output_stride参数控制resnet的降采样倍数,例如

 if output_stride == 8:dilation_dict = {2: 2, 3: 4}elif output_stride == 16:dilation_dict = {3: 2}

而MMSeg没有,直接用 dilations设置stage[2]的扩张倍数为2,stage[3]扩张率倍数为4。则输出降采样为8倍。
下面总结一下resnet的改进,以resnet50为例
1、resnet50初始为深度50,stem初始层,加上四阶段,四阶段分别为[3,4,6,3]的结构,每个结构是一个block块。如下图所示。
注意只有在2,3,4阶段的第一个block块的步长才会设为2,才会进行降采样,第一个阶段不降采样
在这里插入图片描述

2、vb改进block块左路的步长,将stride=2下移到中间层
3、vc在vb的基础上,改进 stem层的7x7大卷积核,改成3个3x3的小卷积核
4、vd在vc的基础上,改进block右路的步长,将卷积的步长改为1,增加平均池化层降采样
原先resnet50输出特征图,每阶段分别是[256,H/4,W/4]、[512,H/8,W/8]、[1024,H/16,W/16]、[2048,H/32,W/32]
5、后续,在vd基础上引入空洞卷积和网格策略,实现对输出降采样倍数的控制,常见的有两种组合:
注意,当dilation_rate不等于1的时候,该层步长为1,即使是第一个block块也不再为2
5.1降采样16倍,stage[2].d=1,stage[3].d=2x【1,2,4】
每阶段分别是[256,H/4,W/4]、[512,H/8,W/8]、[1024,H/16,W/16]、[2048,H/16,W/16]
5.2降采样8倍,stage[2].d=2x1,stage[3].dx4【1,2,4】
每阶段分别是[256,H/4,W/4]、[512,H/8,W/8]、[1024,H/8,W/8]、[2048,H/8,W/8]
MMSeg和PaddleSeg默认实现的都是降采样8倍的组合

搭建组件二

组件二由两个噪声提取器和reanet50组成,如下所示
在这里插入图片描述

组件三

参考deeplabv3+中利用ASPP对低级特征图和高级特征图融合
每个resnet输出的四张特征图,利用ASPP融合
deeplabv3+中利用解码头输入实现,这次我们需要将其嵌入在骨干网络中
参考mmseg/models/decode_heads/sep_aspp_head.py中DepthwiseSeparableASPPModule的实现
1.首先对高级特征图利用ASPP,高级特征图尺寸[2048,H/8,W/8]

 self.aspp1 = ASPPModule(dilations = (1, 12, 24, 36), # asppin_channels = 2048,#channels = 256,  # 输出通道norm_cfg = norm_cfg,conv_cfg = conv_cfg,act_cfg = act_cfg,)

需要对其进行修改

class ASPPModule(nn.ModuleList):"""Atrous Spatial Pyramid Pooling (ASPP) Module.Args:dilations (tuple[int]): Dilation rate of each layer.in_channels (int): Input channels.channels (int): Channels after modules, before conv_seg.conv_cfg (dict|None): Config of conv layers.norm_cfg (dict|None): Config of norm layers.act_cfg (dict): Config of activation layers."""def __init__(self, dilations, in_channels, channels, conv_cfg, norm_cfg, act_cfg):super().__init__()self.dilations = dilationsself.in_channels = in_channelsself.channels = channelsself.conv_cfg = conv_cfgself.norm_cfg = norm_cfgself.act_cfg = act_cfgself.aspp = nn.ModuleList() # 注意这里不能直接用list[]。类似元组,tuple[]也不能用,要不然会导致weight不在cuda上for dilation in dilations:self.aspp.append(ConvModule(self.in_channels,self.channels,1 if dilation == 1 else 3,dilation=dilation,padding=0 if dilation == 1 else dilation,conv_cfg=self.conv_cfg,norm_cfg=self.norm_cfg,act_cfg=self.act_cfg))self.bottleneck = ConvModule((len(dilations)) * self.channels,  # (len(dilations) + 1) * self.channels,self.channels,3,padding=1,conv_cfg=self.conv_cfg,norm_cfg=self.norm_cfg,act_cfg=self.act_cfg)# self.conv_seg = nn.Conv2d(channels, num, kernel_size=1)def forward(self, x):"""Forward function."""aspp_outs = []# print(len(self)) ## print(len(self.aspp)) #4for i in range(len(self.aspp)):# print(x.shape) #[N,2048,64,64]aspp_outs.append(self.aspp[i](x)) #4个【256,H/,W/】# print(len(aspp_outs))# print("#########")aspp_outs = torch.cat(aspp_outs, dim=1)  # (4,2560,60,60)feats = self.bottleneck(aspp_outs)  # (4,512,60,60)# output = self.conv_seg(feats)return feats

上采样4倍,输出[256,H/8,W/8]
2.进行resize 修改尺寸

 x_vfb1 = resize(x_vfb1,  # self.image_pool(output),size=x_vfb[0].size()[2:],mode='bilinear',align_corners=self.align_corners)

3.将低级特征图和高级特征图融合,低级特征图尺寸[256,H/4,W/4]

        x_vfb = torch.cat([x_vfb1,x_vfb[0]], dim=1)

输出[512,H/4,W/4]
4.同理,将其应用在NFB分支

5.两分支concat

其中遇到一个坑点,已解决here
至此骨干网络搭建完毕,利用分类头进行测试

利用FCN测试

decode_head=dict(type='FCNHead',in_channels=256,in_index=2,channels=256,num_convs=0, #  num_convs=0,assert self.in_channels == self.channelsconcat_input=True,dropout_ratio=0.1,num_classes=2,norm_cfg=norm_cfg,align_corners=False,loss_decode=dict(type='DiceLoss', use_sigmoid=False, loss_weight=1.0)),

2.2解码头

虽然我们上一步利用简单的FCN分割头实现,这一步,我们实现双注意力机制分割头,MMSeg代码中有给出。
我们只需要配置如下:

decode_head=dict(type='DAHead',in_channels=256,in_index=2,channels=128,pam_channels=64,dropout_ratio=0.1,num_classes=2,norm_cfg=norm_cfg,align_corners=False,loss_decode=dict(type='DiceLoss', use_sigmoid=False, loss_weight=1.0)),

至此模型搭建结束
关于其他细节,会在其他文件中讲到。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/3187.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

产品推荐 | BittWare基于Altera Agilex“M FPGA的lA-860m加速卡

01 产品概述 BittWare的lA-860m是一款Altera Agilex“M系列FPGA卡,针对吞吐量和内存密集型应用进行了优化。M 系列 FPGA 具有广泛的内存层次结构,包括集成高带宽存储器 (HBM2e) 和硬内存片上网络 (NoC)&am…

自动化测试超详细总结

简介 软件测试是软件开发过程中一个必不可少的环节。传统的软件测试方式通常是手动测试,即由专业的测试人员通过手动操作软件应用程序来验证其功能和性能。然而,这种方式存在许多缺点,例如时间耗费、测试结果不稳定、测试覆盖率不够高等。 为…

百种提权及手段一览系列第3集

特权升级的危险是显而易见的。通过提升权限,攻击者可以绕过网络安全措施,从而损害数据完整性、机密性和系统可用性。对于组织而言,这可能会导致数据泄露、系统停机以及潜在的法律和声誉后果。识别权限升级的迹象并部署预防性网络安全措施对于…

Vue3 + Element-Plus 对接高德地图实现搜索提示选址、点击地图选址、自我定位功能(最新)

Vue3 Element-Plus 对接高德地图实现搜索提示选址、点击地图选址、自我定位功能&#xff08;最新&#xff09; 1、效果展示2、实现代码2.1 GaoDeMap.vue2.2 SystemDialog.vue2.3 UnusedList.vue.vue 1、效果展示 2、实现代码 2.1 GaoDeMap.vue <template><div style…

书生·浦语 大模型(学习笔记-5)XTuner 微调 LLM:1.8B、多模态、Agent

一&#xff1a;两种微调 增量与训练和指令微调的区别 二、数据的一生 原始数据转换为标准格式数据 添加对话模板&#xff0c;直接调用即可&#xff0c;会拼接 三、微调方案 三种加载对比 四、XTuner 五、8GB 显存玩转 LLM 五、InternLM2 1.8B模型&#xff08;相关知识&#x…

GAN 生成对抗神经网络

GAN 文章目录 GANGAN的结构GAN的目标函数GAN的训练GAN的优势和不足优势不足 GAN的结构 GAN的设计灵感来源于博弈论中的零和博弈&#xff08;Zero-sum Game&#xff09;&#xff0c;在零和博弈中&#xff0c;参与双方的收益是完全相反的&#xff0c;一方的收益必然导致另一 方的…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-1.3

前言&#xff1a; 本文是根据哔哩哔哩网站上视频“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”的学习笔记&#xff0c;在这里会记录下正点原子Linux ARM MX6ULL 开发板根据配套的哔哩哔哩学习视频所作的实验和笔记内容。本文大量的引用了正点原子哔哔哩网…

初学python记录:力扣2739. 总行驶距离

题目&#xff1a; 卡车有两个油箱。给你两个整数&#xff0c;mainTank 表示主油箱中的燃料&#xff08;以升为单位&#xff09;&#xff0c;additionalTank 表示副油箱中的燃料&#xff08;以升为单位&#xff09;。 该卡车每耗费 1 升燃料都可以行驶 10 km。每当主油箱使用了…

new String和直接赋值的一些问题

分析1 我们先看以下代码&#xff1a; String str1 "abc"; // 在常量池中String str2 new String("abc"); // 在堆上System.out.println(str1 str2)以上结果的输出是什么&#xff1f; 输出&#xff1a;false 前置知识&#xff1a; 在JVM中&#xff0c…

电脑怎么拖动文件到想要的位置?电脑上拖拽没了的文件怎么找回

在日常的办公和学习中&#xff0c;电脑文件拖拽操作是每位用户都不可或缺的技能。然而&#xff0c;有时在拖动文件时&#xff0c;可能会因为误操作或其他原因&#xff0c;导致文件消失或移至未知位置。本文将详细解析如何在电脑上轻松拖动文件到指定位置&#xff0c;并为您提供…

【前端必看】10年资深前端工程师,聊点行业现状与自我突破!

作为一名拥有10年前端开发经验的资深工程师&#xff0c;曾在蚂蚁金服等一线大厂历练&#xff0c;现在则在一家上市公司享受较为宽松的工作节奏。今天&#xff0c;我想和大家聊聊前端开发的就业现状&#xff0c;以及如何在这个竞争激烈的市场中突出重围。 感兴趣的可以看看这个…

GaussDB轻量化运维管理工具介绍

前言 本期课程将从管理平台的架构出发&#xff0c;结合平台的实例管理、实例升级、容灾管理和监控告警的功能和操作介绍&#xff0c;全面覆盖日常运维操作&#xff0c;带您理解并熟练运用GaussDB运维平台完成运维工作。 一、GaussDB 运维管理平台简介 开放生态层 友好Web界面…

OWASP发布十大开源软件安全风险及应对指南

​ 最近爆发的XZ后门事件&#xff0c;尽管未酿成Log4j那样的灾难性后果&#xff0c;但它再次敲响了警钟&#xff1a;软件供应链严重依赖开源软件&#xff0c;导致现代数字生态系统极其脆弱。面对层出不穷的安全漏洞&#xff0c;我们需要关注开源软件 (OSS)风险 &#xff0c;改进…

通过代理IP实现匿名网上冲浪

目录 前言 一、代理IP的原理 1.1 什么是代理IP&#xff1f; 1.2 代理IP的工作原理 二、使用代理IP实现匿名网上冲浪的代码示例 三、如何获取代理IP 四、使用代理IP的注意事项 五、总结 前言 在互联网上冲浪是我们生活中常见的一项活动&#xff0c;然而&#xff0c;在某…

XiaodiSec day017 Learn Note 小迪安全学习笔记

XiaodiSec day017 Learn Note 小迪安全学习笔记 记录得比较凌乱&#xff0c;不尽详细 day 17 主要内容&#xff1a; php 框架 thinkPHPyiilaravel 使用 fofa 搜索 thinkphp 市面上 thinkphp5 版本较多 url 结构 域名/.php(文件名)/index(目录)/index(函数名)模块名-控…

XL7015输出12V电源设计

描述 XL7015是一款高效、高压降压型DC-DC转换器&#xff0c;固定150KHz开关频率&#xff0c;可提供最高0.8A输出电流能力&#xff0c;低纹波&#xff0c;出色的线性调整率与负载调整率。XL7015内置固定频率振荡器与频率补偿电路&#xff0c;简化了电路设计。PWM控 制 环 路 可 …

Android 组件提供的状态保存(saveInstanceState)与恢复(restoreInstanceState)

在Android的组件Activity中&#xff0c;有这样一对方法: onSaveInstanceeState 和 onRestoreInstanceState 这两对方法&#xff0c;可以让我在Activiy被异常销毁时&#xff0c;保存状态&#xff1b;以及在Activity重建时&#xff0c;恢复状态。 比如&#xff1a;当我们在输入…

只有IP没有域名怎么实现HTTPS访问

只有IP地址没有域名可以实现HTTPS访问&#xff1f;虽然通常情况下SSL证书是与域名关联并颁发的&#xff0c;但确实存在针对IP地址发放的SSL证书。这种类型的证书允许服务器通过HTTPS协议为其公网IP地址提供安全的Web服务。这意味着用户可以直接在浏览器中输入服务器的IP地址&am…

免翻!全球最大免费书库Zlibrary最新镜像,国内可直接访问,赶紧下书

刚刚&#xff0c;“知识大航海”群里&#xff0c;有位群友分享了一个Zlibrary镜像地址&#xff0c;感谢这位群友的热心分享&#xff0c;这个地址国内可以直接访问&#xff01; 在“王不留”GZ号&#xff0c;写“zlib”四个字母&#xff0c;有Zlibrary镜像网址、官方网址&#x…

搜维尔科技:如何选择最佳的xsens动作捕捉设备

xsens介绍 如何选择最佳的xsens动作捕捉设备 选择最佳的 Xsens 动作捕捉设置并不总是像我们希望的那样简单。根据每个人的情况&#xff0c;会有不同的选择、要求和挑战。 这就是我们创建此博客的原因&#xff1a;帮助您做出最适合您的决定。 您已经决定继续使用 Xsens 了吗…