图像语义分割 pytorch复现DeepLab v1图像分割网络详解以及pytorch复现(骨干网络基于VGG16、ResNet50、ResNet101)

图像语义分割 pytorch复现DeepLab v1图像分割网络详解以及pytorch复现(骨干网络基于VGG16、ResNet50、ResNet101)

  • 背景介绍
  • 2、 网络结构详解
    • 2.1 LarFOV效果分析
  • 2.2 DeepLab v1-LargeFOV 模型架构
  • 2.3 MSc(Multi-Scale,多尺度(预测))
  • 2.3 以VGG16为特征提取骨干网络代码

背景介绍

论文名称:Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

在这里插入图片描述

  • 2014 年发表于 CVPR
  • DeepLab v1 是一种用于语义分割的卷积神经网络模型,其核心思想是结合了全局上下文信息,以更好地理解图像中的语义内容。

论文中指出了当前图像语义分割的存在问题:

  • 下采样会导致图像的分辨率降低
    在 DCNN 中,通常通过池化层来进行信号下采样,这是为了减少特征图的尺寸和参数数量。然而,池化操作会导致特征图的空间分辨率降低,从而损失了一部分细节信息。在图像标注任务中,像素级的细节信息对于准确的标注非常重要,因此信号下采样可能会影响标注的质量。
    在这里插入图片描述
  • 空间不敏感
    DCNNs 在高级视觉任务中表现出色的一个原因是它们具有一定程度的平移、旋转、缩放等空间不变性。然而,对于像素级标注任务(如语义分割或像素级分类),我们希望网络能够对每个像素点进行精细的标注,这就需要网络具有较高的空间敏感性。然而,DCNNs 的不变性特性可能导致在特征提取过程中丢失一些空间信息,使得网络对于像素级标注任务不够敏感。

论文中解决以上两个问题的方案:
在这里插入图片描述

  • 1、采用空洞卷积
  • 2、采用fully-connected CRF(Condition Random Fie)(全连接条件随机场)
    CRF在语义分割领域是常用的方法,但是在DeepLab V3之后便不再使用

网络优势:

  • 速度更快,论文中说因为采用了膨胀卷积的原因,但fully-connect CRF很耗时
  • 准确率更高,相比之前最好的网络,提升了7.2个点
  • 结构简单,主要采用DCNN和CRFs级联构成在这里插入图片描述
    DeepLab:本文提出的语义分割模型
    MSc:Multi-Scale,多尺度
    CRF:全连接条件随机场,用于对图像进行后处理以改善分割或标注的结果。它通常用于在图像分割任务中对神经网络的输出进行精炼和优化
    LargeFOV:空洞卷积

2、 网络结构详解

DeepLab v1 的 Backbone 使用的是 VGG16作为主要的卷积神经网络架构(2014年最牛逼的分类网络为VGG)。在 DeepLab v1 中,VGG16 的部分或全部全连接层被去除,而只保留卷积层,并通过空洞卷积(Atrous Convolution)来增大感受野,从而实现对图像的全局上下文信息的捕获

VGG16 的结构包含 16 层卷积层和全连接层,其中包括 13 个卷积层和 3 个全连接层。该模型在 ImageNet 数据集上进行了训练,并在图像分类任务上取得了很好的性能。

2.1 LarFOV效果分析

在这里插入图片描述
将卷积核减小,比如从原来的 kernel_size = (7, 7) 变为 kernel_size = (4, 4) 或 kernel_size = (3, 3)
在这里插入图片描述

注意❗️

  • 这里替换全连接层的卷积层并非普通卷积层,而是一个膨胀卷积,它有一个膨胀系数 r,可以扩大感受野。
  • 图中的 input stride 其实是膨胀系数 r。

在这里插入图片描述

2.2 DeepLab v1-LargeFOV 模型架构

VGG系列网络结构:
在这里插入图片描述
DeepLab-LargeFOV 模型架构:
在这里插入图片描述

经过上采样得到 224 × 224 × num class的特征图并非模型最终输出结果,还要经过一个 Softmax 层后才是模型最终的输出结果。

Softmax 层的作用是将每个像素的类别预测转换为对应类别的概率。它会对每个像素的 num_classes 个类别预测进行归一化,使得每个预测值都落在 0 到 1 之间,并且所有类别的预测概率之和为 1。这样,对于每个像素点,我们可以得到每个类别的概率,从而确定该像素属于哪个类别的概率最大。最终的输出结果通常是经过 Softmax 处理后的特征图,其中每个像素点都包含了 num_classes 个类别的概率信息。

LargeFOV 本质上就是使用了膨胀卷积。

  • 通过分析发现虽然 Backbone 是 VGG-16 但使用 Maxpool 略有不同,VGG 论文中是 kernel=2,stride=2,但在 DeepLab v1 中是 kernel=3,stride=2,padding=1。接着就是最后两个 Maxpool 层的 stride 全部设置成了 1(这样下采样的倍率就从原来的 32 变成了 8)。最后三个 3 × 3 的卷积层采用了膨胀卷积,膨胀系数 r = 2。
  • 然后关于将全连接层卷积化过程中,对于第一个全连接层(FC1)在 FCN 网络中是直接转换成卷积核大小为 7 × 7,卷积核个数为 4096 的卷积层(普通卷积),但在 DeepLab v1 中作者说是对参数进行了下采样最终得到的是卷积核大小 3 × 3 ,卷积核个数为 1024 的卷积层(膨胀卷积)(这样不仅可以减少参数还可以减少计算量,详情可以看下论文中的 Table2),对于第二个全连接层(FC2)卷积核个数也由 4096 4096 采样成 1024(普通卷积)。
  • 将 FC1 卷积化后,还设置了膨胀系数(膨胀卷积),论文 3.1 中说的是 r = 4 但在 Experimental Evaluation 中 Large of View 章节里设置的是 r = 12 对应 LargeFOV。对于 FC2 卷积化后就是卷积核 1 × 1 ,卷积核个数为 1024 的普通卷积层。接着再通过一个卷积核 1 × 1 ,卷积核个数为 num_classes(包含背景)的普通卷积层。最后通过 8 倍上采样还原回原图大小。

注意❗️采用的是双线性插值(Bilinear Interpolation)的策略来实现上采样,双线性插值会考虑其周围 4 个最近的像素点根据距离权重进行插值计算。这样可以有效地将特征图还原到原始输入图像的大小,使得网络的输出和输入在空间尺寸上保持一致

2.3 MSc(Multi-Scale,多尺度(预测))

即融合多个特征层的输出
DeepLab-LargeFOV-MSc 模型架构
在这里插入图片描述

2.3 以VGG16为特征提取骨干网络代码

DeepLab-LargeFOV

#!/usr/bin/python
# -*- encoding: utf-8 -*-import torchvision
import torch
import torch.nn as nn
import torch.nn.functional as F斜体样式
class DeepLabLargeFOV(nn.Module):def __init__(self, in_dim, out_dim, *args, **kwargs):super(DeepLabLargeFOV, self).__init__(*args, **kwargs)# vgg16 = torchvision.models.vgg16()layers = []layers.append(nn.Conv2d(in_dim, 64, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(64, 64, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.MaxPool2d(3, stride = 2, padding = 1))layers.append(nn.Conv2d(64, 128, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(128, 128, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.MaxPool2d(3, stride = 2, padding = 1))layers.append(nn.Conv2d(128, 256, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(256, 256, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(256, 256, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.MaxPool2d(3, stride = 2, padding = 1))layers.append(nn.Conv2d(256, 512, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(512, 512, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(512, 512, kernel_size = 3, stride = 1, padding = 1))layers.append(nn.ReLU(inplace = True))layers.append(nn.MaxPool2d(3, stride = 1, padding = 1))# 以下采用膨胀卷积layers.append(nn.Conv2d(512,512,kernel_size = 3,stride = 1,padding = 2,dilation = 2))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(512,512,kernel_size = 3,stride = 1,padding = 2,dilation = 2))layers.append(nn.ReLU(inplace = True))layers.append(nn.Conv2d(512,512,kernel_size = 3,stride = 1,padding = 2,dilation = 2))layers.append(nn.ReLU(inplace = True))layers.append(nn.MaxPool2d(3, stride = 1, padding = 1))self.features = nn.Sequential(*layers)classifier = []classifier.append(nn.AvgPool2d(3, stride = 1, padding = 1))classifier.append(nn.Conv2d(512,1024,kernel_size = 3,stride = 1,padding = 12,dilation = 12))classifier.append(nn.ReLU(inplace=True))classifier.append(nn.Conv2d(1024, 1024, kernel_size=1, stride=1, padding=0))classifier.append(nn.ReLU(inplace=True))classifier.append(nn.Dropout(p=0.5))classifier.append(nn.Conv2d(1024, out_dim, kernel_size=1))self.classifier = nn.Sequential(*classifier)self.init_weights()def forward(self, x):N, C, H, W = x.size()x = self.features(x)x = self.classifier(x)x = F.interpolate(x, (H, W), mode='bilinear', align_corners=True)return xdef init_weights(self):vgg = torchvision.models.vgg16(pretrained=True)state_vgg = vgg.features.state_dict()self.features.load_state_dict(state_vgg)for ly in self.classifier.children():if isinstance(ly, nn.Conv2d):nn.init.kaiming_normal_(ly.weight, a=1)nn.init.constant_(ly.bias, 0)if __name__ == "__main__":net = DeepLabLargeFOV(3, 10)in_ten = torch.randn(1, 3, 224, 224)out = net(in_ten)print(out.size())in_ten = torch.randn(1, 3, 64, 64)mod = nn.Conv2d(3,512,kernel_size = 3,stride = 1,padding = 2,dilation = 2)out = mod(in_ten)print(out.shape)import osimport torchfrom torchsummary import summaryos.environ["CUDA_VISIBLE_DEVICES"] = "1"device = torch.device("cuda" if torch.cuda.is_available() else "cpu")net=DeepLabLargeFOV(3,21).to(device)print(summary(net,(3,224,224)))print(torch.cuda.current_device())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/116318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vim 使用文档笔记

1. i:进入编辑模式 2. ESC:进入一般命令模式 3. h 或 ←:光标向左移动一个字符 4. j 或 ↓:光标向下移动一个字符 5. k 或 ↑:光标向上移动一个字符 6. l 或 →:光标向右移动一个字符 7. num&#xf…

Matlab论文插图绘制模板第122期—函数折线图(fplot)

本期分享的是函数折线图的绘制模板。​ 所谓函数折线图,就是将自定义线函数进行可视化表达​。 先来看一下成品效果: 特别提示:本期内容『数据代码』已上传资源群中,加群的朋友请自行下载。有需要的朋友可以关注同名公号【阿昆的…

【JavaEE】网络编程---TCP数据报套接字编程

一、TCP数据报套接字编程 1.1 ServerSocket API ServerSocket 是创建TCP服务端Socket的API ServerSocket 构造方法: ServerSocket 方法: 1.2 Socket API Socket 是客户端Socket,或服务端中接收到客户端建立连接(accept方法&…

el-table表格的一些操作-表格实现单选、多选

表格实现多选 <el-table:data"dataList"borderselection-change"handleSelectionChange">//多选框<el-table-column type"selection" width"55" align"center" /></el-table> handleSelectionChange(val…

浅谈兼容性测试的关键步骤

兼容性测试是确保应用程序在多样化的技术环境中正常运行的关键步骤。它有助于提高用户满意度&#xff0c;扩大市场覆盖范围&#xff0c;同时确保法规合规性。通过正确执行兼容性测试&#xff0c;企业可以确保其应用程序在各种平台上提供一致的卓越用户体验&#xff0c;从而增强…

#电子电器架构 —— 车载网关初入门

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 PS:小细节,本文字数7000+,详细描述了网关在车载框架中的具体性能设置。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 没有人关注你。也无需有人关注你。你必须承认自己的价值,你不能站在他…

现在游戏出海有多少优势?

国内游戏市场趋于饱和&#xff0c;但是国外市场潜力仍然可观&#xff0c;因此很多人选择游戏出海&#xff0c;那么现在游戏出海有多少优势呢&#xff1f; 1、市场潜力 全球游戏市场潜力巨大&#xff0c;增长迅速。中国游戏公司具有强大的研发能力和创新能力&#xff0c;能够开…

在edge浏览器中安装好了burp的ca证书,浏览器依旧不能访问https的原因

在edge浏览器中安装好了burp的ca证书&#xff0c;浏览器依旧不能访问https的原因 1.SwitchyOmega代理插件设置2.CA证书方法1方法2 1.SwitchyOmega代理插件设置 严格安装以下图片执行&#xff0c;不可少写或多写 2.CA证书 方法1 下载好证书&#xff0c;先导入到edge浏览器的中…

人工智能和机器学习:走向智能未来的关键

人工智能&#xff08;AI&#xff09;和机器学习&#xff08;ML&#xff09;是当今IT领域中最令人振奋的发展方向之一。从自动驾驶汽车到智能助手&#xff0c;AI技术的应用正在不断扩展&#xff0c;重新定义着我们的生活方式和商业模式。在这个文章中&#xff0c;我们将深入探讨…

Qt 案例 使用QNetworkReply或者URLDownloadToFile 下载http、https资源到本地路径

Qt 使用QNetworkReply或者URLDownloadToFile两种不同方式下载http、https链接资源文件&#xff0c;并且获取下载进度。 目录 一、 使用 URLDownloadToFile 下载二、 使用 QNetworkReply 下载三、 打包好的可执行程序示例下载四、 会员或订阅专栏下载源码 一、 使用 URLDownload…

感谢我的岗位

我很高兴能够分享我干了一年嵌入式软件工程师岗位的经验。作为一名嵌入式软件工程师&#xff0c;我在这一年中积累了很多经验和技能&#xff0c;也遇到了许多挑战。在这篇文章中&#xff0c;我将分享我的经验&#xff0c;并探讨我从这个过程中学到的东西。 首先&#xff0c;我…

改变分辨率的android程序思路

在Android应用程序中&#xff0c;开发一个能够改变分辨率的功能涉及到以下几个主要步骤&#xff1a; 获取当前设备的分辨率&#xff1a;使用Android提供的DisplayMetrics类可以获取到当前设备的屏幕分辨率信息&#xff0c;包括宽度和高度。 计算新的目标分辨率&#xff1a;根据…

pv操作题目笔记

对于 pv 操作分以下几步走 什么是pv操作 PV操作在进程同步中通常指的是信号量&#xff08;Semaphore&#xff09;操作。信号量是一种用于控制多个并发进程或线程之间的同步和互斥访问的同步工具。PV操作通常涉及两个基本操作&#xff1a;P操作&#xff08;wait操作&#xff0…

hdlbits系列verilog解答(向量门操作)-14

文章目录 一、问题描述二、verilog源码三、仿真结果 一、问题描述 构建一个具有两个 3 位输入的电路&#xff0c;用于计算两个向量的按位 OR、两个向量的逻辑 OR 以及两个向量的逆 &#xff08;NOT&#xff09;。将b反相输出到out_not上半部分&#xff0c;将a 的反相输出到out…

git pull 和 git fetch 有什么区别?

一、是什么 先回顾两个命令的定义 git fetch 命令用于从另一个存储库下载对象和引用git pull 命令用于从另一个存储库或本地分支获取并集成(整合) 再来看一次git的工作流程图&#xff0c;如下所示&#xff1a; 可以看到&#xff0c;git fetch是将远程主机的最新内容拉到本地…

【LeetCode】2562. 找出数组的串联值

难度&#xff1a;简单 题目 给你一个下标从 0 开始的整数数组 nums 。 现定义两个数字的 串联 是由这两个数值串联起来形成的新数字。 例如&#xff0c;15 和 49 的串联是 1549 。 nums 的 串联值 最初等于 0 。执行下述操作直到 nums 变为空&#xff1a; 如果 nums 中存…

K8S集群实践之九: Ceph

Rook is an open source cloud-native storage orchestrator, providing the platform, framework, and support for Ceph storage to natively integrate with cloud-native environments.1. 说明 因香橙派和树莓派资源所限&#xff0c;转移到基于VirtualBox建立的VMs继续实践…

Java实现添加文字水印、图片水印

目录 前言 一、获取原图片对象信息 1、读取本地图片 2、读取网络图片 二、处理水印 三、添加水印 四、获取目标图片 五、完整工具类 六、结果展示 前言 现在很多人都喜欢在各种平台上分享自己的照片吧&#xff0c;不管是一些制作出来的媒体图片还是精致的人像图片&…

【vue+nestjs】qq第三方授权登录【超详细】

项目场景&#xff1a; 前端使用vue3ts 后端使用nestjs 1.申请appId,appKey 1.进入qq互联官网。创建应用 特别注意 1.在填写网站回调域时,需要你线上真实能访问的。不然审核不通过。我的回调地址是前端路由地址 2.如果你想本地调试&#xff0c;回调到你的线上地址。你可以在本…