9.2.2 DeepLab系列模型中每一代的创新是什么?是为了解决什么问题?

9.2.2 DeepLab系列模型中每一代的创新是什么?是为了解决什么问题?

前情回顾:9.2.1 简述图像分割中经常用到的编码器-解码器网络结构的设计理念。

DeepLab是Google 团队提出的一系列图像分割算法

DeepLab v1在2014年被提出,并在PASCAL VOC2012数据集上取得了图像分割任务第二名的成绩。

Google 团队之后还陆续推出了DeepLab v2和DeepLab v3。

DeepLab 系列已经成为图像分割领域不可不知的经典算法。

DeepLab v1

DeepLab v1算法主要有两个创新点,分别是

  1. 空洞卷积(Atrous Covolution)和
  2. 全连接条件随机场(fully connected CRF)

具体算法流程如图9.5所示。

  • 空洞卷积

空洞卷积是为了解决编码过程中信号不断被下采样、细节信息丢失的问题

问题:由于卷积层提取的特征具有平移不变性,这就限制了定位精度。

  • 全连接条件随机场

解决:所以DeepLab v1引入了全连接条件随机场提高模型捕获局部结构信息的能力

具体来说,将每一个像素作为条件随机场的一个节点,像素与像素间的关系作为边,来构造基于全图的条件随机场。参考文献[29]采用基于全图的条件随机场而非短程条件随机场(short-range CRF),主要是为了避免使用短程条件随机场带来的平滑效果。

正是如此,与其他先进模型对比,DeepLab v1的预测结果拥有更好的边缘细节。

DeepLab v2

相较于DeepLab vl,DeepLab v2的不同之处是

  1. 提出了空洞空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)[30]
  2. 并将 DeepLab v1 使用的VGG 网络替换成了更深的ResNet 网络

ASPP 可用于解决不同检测目标大小差异的问题:通过在给定的特征层上使用不同扩张率的空洞卷积,ASPP可以有效地进行重采样,如图9.6所示。模型最后将ASPP各个空洞卷积分支采样后的结果融合到一起,得到最终的分割结果。

DeepLab v3

DeepLab v3 在ASPP部分做了进一步改动。

  1. 首先,DeepLab v3加入了批归一化(BN)层

  2. 其次,将ASPP中尺寸为3x3、空洞大小为24的卷积(图9.6中最右边的卷积)替换为一个普通的1x1卷积,以保留滤波器中间部分的有效权重。

​ 这么做的原因是研究者通过实验发现,随着空洞卷积扩张率的增大,滤波器中有效权重的个数在减小。

  1. 为了克服长距离下有效权重减少的问题,DeepLab v3 在空洞空间金字塔的最后增加了全局平均池化以便更好地捕捉全图信息。

  2. 此外,DeepLab v3去掉了CRF

  3. 并通过将ResNet的Block4复制3次后级联在原有网络的最后一层来增加网络的深度。网络深度的增加是为了捕获更高层的语义信息。

改进之后的ASPP部分如图9.7所示[31]。
在这里插入图片描述

DeepLab v3+

  1. DeepLab v3+[32]在DeepLab v3的基础上,增加了一个简单的解码器模块,用来修复物体边缘信息
  2. 同时DeepLab v3+还将深度可分卷积(Depthwise Separable Convolution)应用到空洞空间金字塔和解码器模块上,以得到更快、更强大的语义分割模型。

总结与扩展

相比语义分割和实例分割,全景分割从2018年才开始兴起,虽然目前相关的研究还不是特别多,但已经可以观察到越来越多的机构将研究重心从语义分割、实例分割转移到全景分割上。可以预测,全景分割将会成为图像分割领域的下一个热点。

参考文献:
[29] CHEN L-C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J].arXiv preprint arXiv: 1412.7062,2014.
[30] CHEN L-C, PAPANDREOU G, KOKKINOS I,et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017: 834-848.
[31] CHEN L-C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv: 1706.05587,2017.
[32] CHEN L-C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision, 2018: 801-818.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29306.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序接入lottie动画

1、注意:canvas渲染出来的层级太高,当有弹窗的情况会暴露在弹窗外 模拟器上会有这个问题,线上版本不会有 2、需求 需要把lottie动画在小程序的环境下进行展示 3、什么是lottie动画 由Airbnb开发并开源。允许设计师将复杂的矢量动画导出为…

李宏毅深度学习项目——HW1个人笔记

视频链接 PDF链接 googleColab链接 GoogleColab是一个免费的jupyter notebook,可以用上面的gpu资源进行训练 题目 通过前两天的数据,预测第三天某个人感染新冠的概率 范例 导包 # Numerical Operations import math import numpy as np# Reading/Wr…

欢迎莅临ARCHE-2024,共享智慧档案盛宴!

敬邀参观!2024第三届上海国际智慧档案展览会(ARCHE-2024)将于2024年6月19-21日在上海跨国采购会展中心盛大开幕。深圳市铨顺宏科技有限公司将展示最新的智慧档案技术与解决方案,展位号H010-H011。期待您的光临,共同探索…

String类的默认实现

#pragma once #include <iostream> using namespace std; #include <assert.h>namespace yyqx//为了与库里面的string进行区分 {//仅仅实现一个简单的string&#xff0c;仅仅考虑资源管理深浅拷贝问题class string{public://构造函数string(const char* str):_size…

对比 Axios 和 Fetch:选择最适合的 HTTP 请求方法

在前端开发中&#xff0c;处理 HTTP 请求是一个常见且重要的任务。JavaScript 提供了多种方式来发送网络请求&#xff0c;其中最受欢迎的两种方式分别就是 Fetch API 和 Axios。尽管两者都能完成同样的任务&#xff0c;即从客户端向服务器发送请求并接收响应&#xff0c;但它们…

无线麦克风推荐哪些品牌?一文读懂家用无线麦克风哪个牌子好!

​在这个充满创意与表达的时代&#xff0c;无线领夹麦克风以其独特的魅力&#xff0c;成为了声音创作者们的得力助手。它小巧便携&#xff0c;功能强大&#xff0c;无论是日常拍摄、直播互动还是专业演出&#xff0c;都能轻松应对&#xff0c;让你的声音随时随地清晰传递。那么…

编程精粹—— Microsoft 编写优质无错 C 程序秘诀 04:对程序进行逐步跟踪

这是一本老书&#xff0c;作者 Steve Maguire 在微软工作期间写了这本书&#xff0c;英文版于 1993 年发布。2013 年推出了 20 周年纪念第二版。我们看到的标题是中译版名字&#xff0c;英文版的名字是《Writing Clean Code ─── Microsoft’s Techniques for Developing》&a…

机器学习专题记录

有偏估计和无偏估计 无偏估计和有偏估计的区别 无偏估计 无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值&#xff0c;则称此估计量为被估计参数的无偏估计&#xff0c;即具有无偏性&#xff0c;是一种用于评价估计量优良性的…

建筑工地通常那种考勤机好用?

建筑工地通常那种考勤机好用&#xff1f; 大量从乡村前往城市的务工者&#xff0c;所从事的多为建筑工程类行业&#xff0c;此种行业对学历与技能的要求不高&#xff0c;而工资水平倒也尚可&#xff0c;正因如此才吸引了众多劳动者。那要怎样管好工地上的项目呢&#xff1f;首要…

1999-2020年各地级市农村居民人均纯收入数据

1999-2020年各地级市农村居民人均纯收入数据 1、时间&#xff1a;1999-2020年 2、指标&#xff1a;年份、城市、农村居民人均纯收入 3、来源&#xff1a;区域年鉴、各省市年鉴 4、范围&#xff1a;地级市&#xff0c;具体每年城市数量参看下文图片&#xff0c;具体城市名单…

智能名片小程序源码系统 销售名片+企业商城 前后端分离+源代码包+搭建部署教程

系统概述 在当今数字化快速发展的时代&#xff0c;传统的商务交流方式逐渐显露出其局限性。为了满足企业和个人更加高效、便捷地展示和推广自身的需求&#xff0c;智能名片小程序源码系统应运而生。这一系统的开发旨在为用户提供一个集销售名片和企业商城于一体的综合性平台&a…

如何将图片转换为向量?(通过DashScope API调用)

本文介绍如何通过模型服务灵积DashScope将图片转换为向量&#xff0c;并入库至向量检索服务。DashVector中进行向量检索。&#xff0c;通过灵活、易用的模型API服务&#xff0c;让各种模态模型的能力&#xff0c;都能方便的为AI开发者所用。通过灵积API&#xff0c;开发者不仅可…

使用 Redis 生成分布式唯一ID

在分布式系统中&#xff0c;生成唯一ID是一个常见的需求。传统的数据库自增ID无法满足分布式系统的需求&#xff0c;因为多个节点可能同时生成ID&#xff0c;容易导致冲突。本文将介绍一种使用 Redis 实现分布式唯一ID的方法&#xff0c;并通过代码示例进行讲解。 一、背景介绍…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 字符串分隔(二)(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 📎在线评测链接 字符串分隔(二)(100分) 🌍 评测功能需要订阅专栏后私信联系…

深入学习html的步骤

推荐的学习步骤&#xff1a; 1. 深入了解HTML基础标签 列表 HTML提供有序列表(<ol>)和无序列表(<ul>)。 <h2>无序列表</h2> <ul><li>项目一</li><li>项目二</li><li>项目三</li> </ul><h2>…

【ssl】启用http2时遇到的重重问题

【背景】 用pyping server传流式数据,必须启用http2,http2又必须有https支持。反复尝试,打破一个个err,最终成功。此篇记录一路上遇到的各类err和解决办法。 【问题和方案】 第一个警告:流式传输必须启用http2或http3(quic) 原本我是用http1.1启动的服务,所以有问题…

全面指南:2023年国内访问与下载GitHub的优化策略

本文汇总了2023年最新的国内访问和下载GitHub的多种优化方案&#xff0c;包括镜像访问、CDN加速、代理服务、浏览器插件、静态CDN、中转fork仓库、修改HOSTS文件等&#xff0c;旨在帮助开发者提升访问效率和下载速度。 文章目录 1. 引言2. GitHub镜像访问2.1. 常用镜像地址2.2.…

Python深度学习基于Tensorflow(17)基于Transformer的图像处理实例VIT和Swin-T

文章目录 VIT 模型搭建Swin-T 模型搭建参考 这里使用 VIT 和 Swin-T 在数据集 cifar10 上进行训练 VIT 模型搭建 导入需要的外部库 import numpy as np import tensorflow as tf import matplotlib.pyplot as plt import matplotlib.gridspec as gridspec这里我们接着使用 ci…

链表 题目汇总

237. 删除链表中的节点

【机器学习300问】118、循环神经网络(RNN)的基本结构是怎样的?

将讲解循环神经网络RNN之前&#xff0c;我先抛出几个疑问&#xff1a;为什么发明循环神经网络&#xff1f;它的出现背景是怎样的&#xff1f;这些问题可以帮助我们更好的去理解RNN。下面我来逐一解答。 一、循环神经网络诞生的背景 循环神经网络&#xff08;RNN&#xff09;的…