1.6什么是“空洞卷积”?简述空洞卷积的设计思路

1.6 简述空洞卷积的设计思路

  • 背景:在语义分割(Semantic Segmentation)任务中,一般需要先缩小特征图尺寸,做信息聚合;

    然后再复原到之前的尺寸,最终返回与原始图像尺寸相同的分割结果图。

  • 问题:常见的语义分割模型,如全卷积网络(Fully Convolutional Networks,FCN),一般采用池化操作(pooling)来扩大特征图的感受野,但这同时会降低特征图的分辨率,丢失一些信息(如内部数据结构、空间层级信息等),导致后续的上采样操作(如转置卷积)无法还原一些细节,从而限制最终分割精度的提升。

  • 解决:如何不通过池化等下采样操作就能扩大感受野呢?空洞卷积应运而生。

  • 概念:顾名思义,空洞卷积就是在标准的,以增加卷积核的感受野

    空洞卷积引入了**扩张率(dilation rate)**这个超参数来指定相邻采样点之间的间隔:扩张率为r的空洞卷积,卷积核上相邻数据点之间有r-1个空洞,如图1.7所示(图中有绿点的方格表示有效的采样点,黄色方格为空洞)。
    在这里插入图片描述

  • 计算空洞卷积核尺寸

标准卷积核尺寸对应的扩张率为r的空洞卷积核尺寸
k w × k h {k_w} \times {k_h} kw×kh k e + ( r − 1 ) ( k e − 1 ) , e ∈ { w , h } {k_e} + (r - 1)({k_e} - 1),e \in \{ w,h\} ke+(r1)(ke1),e{w,h}
特别地,扩张率为1的空洞卷积实际上就是普通卷积(没有空洞)。
  • 计算空洞卷积感受野

空洞卷积感受野的计算,与普通卷积感受野的计算方式基本一致,只是将其中的卷积核尺寸替换为扩张后的卷积核尺寸(即包括空洞在内)。

普通卷积感受野的计算:详见 https://blog.csdn.net/seasonsyy/article/details/132816967

感受野计算公式:
F ( i ) = ( F ( i + 1 ) − 1 ) × S t r i d e + K s i z e F(i)=(F(i+1)−1)×Stride+Ksize F(i)=(F(i+1)1)×Stride+Ksize

以图1.7为例,假设依次用图(a)、(b)、©中的空洞卷积来搭建三层神经网络:

stride=1

第三层是图1.7(a)中的空洞卷积,扩张后的卷积核尺寸为3×3;

第二层是图1.7(b)中r=2的空洞卷积,扩张后的卷积核尺寸为5×5;

第一层是图1.7©中r=4的空洞卷积,扩张后的卷积核尺寸为9×9。

根据感受野公式:
F ( i ) = ( F ( i + 1 ) − 1 ) × S t r i d e + K s i z e F(i)=(F(i+1)−1)×Stride+Ksize F(i)=(F(i+1)1)×Stride+Ksize

感受野计算感受野大小
(如图1.7中黄色阴影部分所示)
第三层F(3)=3×33×3
第二层F(2)=(F(3)-1)×1+5=77×7
第一层F(1)=(F(2)-1)×1+9=1515×15

由此可以看出,空洞卷积利用空洞结构扩大了卷积核尺寸,不经过下采样操作即可增大感受野,同时还能保留输入数据的内部结构。

参考文献:

《百面深度学习》 诸葛越 江云胜主编

出版社:人民邮电出版社(北京)

ISBN:978-7-115-53097-4

2020年7月第1版(2020年7月北京第二次印刷)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/738059.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI新工具(20240311) 国内免费使用Claude 3 Sonnet;Pika推出视频加音效功能

1: 国内免费使用Claude 3 Sonnet Claude 3现已登陆Amazon Bedrock,国内就能够免费使用,以下是网友整理的使用流程。 地址:https://lab.amazoncloud.cn/ 2: Pika Sound Effects Pika推出视频加音效功能,为视频创作带来声音定制…

python请求url下载网站中的视频

举例网站:Mini Impresora Trmica Bluetooth Porttil Inalmbrico | Envo gratis ctrlF4 先搜mp4 搜不到就搜m3u8 了 视频格式如下 ( AVI(Audio Video Interleave):是一种由微软公司开发的音频和视频文件格式。MOV&…

Django环境下使用Ajax

Django环境下使用Ajax 目录 Django环境下使用Ajax介绍前情提要示例JS实现Ajax实现 传递JSON格式数据传递文件数据Django自带的序列化组件基于jsonresponse序列化数据基于Django自带的serializers 注册示例 介绍 AJAX 的主要目标是在不刷新整个页面的情况下,通过后台…

面具安装LSP模块时提示 Unzip error错误的解决办法

面具(Magisk Delta)安装LSP模块时提示 Unzip error错误的解决办法 ​​ 如果前面的配置都正常的话,可能是LSP版本有问题重新去Github下载一个最新版的吧;我是这么解决的。 我安装1.91那个版本的LSP就是死活安装不上,下载了1.92的版本一次就…

FTP,SFTP,FTPS,SSL,TSL简介,区别,联系,使用场景说明

文章目录 简介FTPFTPSSFTP加密场景选择FTPS还是SFTPFTP、SFTP、FTPS区别、联系和具体使用场景如何使用FTP、SFTP和FTPSSSLTLSSSL和TLS区别和联系,以及使用场景SSL和TLS技术上的区别一些问题隐式的TLS(FTPS/SSL)或者显式的TLS(FTPS…

ffmpeg 从avio_write 到 udp_write

ffmpeg 从avio_write 到 udp_write --------------------------------------------- author: hjjdebug date: 2024年 03月 11日 星期一 14:16:44 CST description: ffmpeg 从avio_write 到 udp_write --------------------------------------------- 文章目录: 1. main 调用a…

第十八章 配置 Apache 以与 Web 网关配合使用 (UNIX® Linux macOS)

文章目录 第十八章 配置 Apache 以与 Web 网关配合使用 (UNIX Linux macOS)AssumptionsApache for UNIX、Linux、macOS 的安装位置(推荐选项) 第十八章 配置 Apache 以与 Web 网关配合使用 (UNIX Linux macOS) 本页介绍如何配置 Apache Web 服务器以与 …

C#多态例讲

在 C# 中,多态性(polymorphism)是指不同的类可以有相同名称但不同实现的方法。通过多态性,你可以在运行时根据对象的实际类型来调用相应的方法,从而实现更加灵活和可扩展的代码。比较类似子类方法重写,如py…

[密码学]Base64编码

一、相关指令 1. 查看工具版本号 base64 --version2. 对字符串加密 echo 字符串 | base64 echo "Hello base64" | base643. 对字符串解密 echo 字符串 |base64 -d echo "SGVsbG8gTGV0aWFuLVJTQQo" | base64 -d4. 对文件加密 base64 文件名 base64 tex…

搭建交换机模拟环境及SSH连接,华为NSP软件入门使用教程

搭建交换机模拟环境及SSH连接,华为NSP软件入门使用教程 如果你是通过搜索搜到了这篇文章,那么一定是工作或者学习中需要用交换机,但是又没物理机测试学习,所以需要搭建本地的虚拟环境学习。 这篇文章是我进行交换机命令入门学习写…

使用Flask快速搭建轻量级Web应用【第119篇—Flask】

使用Flask快速搭建轻量级Web应用 在Web开发领域,选择适合项目需求的框架至关重要。Flask,一个轻量级的Python Web框架,以其简洁、灵活和易扩展的特性而备受开发者青睐。本文将介绍如何使用Flask迅速搭建一个轻量级的Web应用,并通过…

js导出的excel文件无法打开/打开乱码,excel无法打开xxx.xlsx因为文件格式或文件扩展无效

excel无法打开xxx.xlsx因为文件格式或文件扩展无效 使用 a 标签导出这里就不细说了,直接说上述问题解决方案 在调用导出接口的时候加上两个参数 responseType: “blob” responseEncoding: “utf8” export function test(data) {return util({url: /test,method: …

04-微服务 面试题

1.Spring Cloud 常见的组件有哪些? Spring Cloud 5大组件有哪些? 基础的内容考察回答原则:简单的问题不能答错(一道面试题就能淘汰一个人)新手和老手都要注意面试参考回答: 面试官:Spring Cloud 5大组件有哪些? 候选人:早期我们一般认为的Spring Cloud五大组件是 …

【C++】反向迭代器仿函数模板进阶

反向迭代器&仿函数&模板进阶 一,反向迭代器1. 什么是反向迭代器2. 模拟实现3. 如何使用 二,仿函数1. 仿函数的概念2. 仿函数的用法 三,模板1. 非类型模板参数2. 模板的特化2.1 特化概念2.2 函数模板特化2.3 类模板特化2.3.1 全特化2.…

Flink 性能优化总结(内存配置篇)

内存配置优化 Flink 内存模型 内存模型详解 进程内存(Total Process Memory):Flink 进程内存分为堆上内存和堆外内存,堆上内存和 堆外内存的主要区别在于它们的管理方式不同和使用方式不同,这些会影响到它们的性能和…

矩阵最大权值

题目描述 现有一个n∗m大小的矩阵,矩阵中的每个元素表示该位置的权值。现需要从矩阵左上角出发到达右下角,每次移动只能向上下左右移动一格(不允许移动到曾经经过的位置)。求最后到达右下角时路径上所有位置的权值之和的最大值。…

python实现--折半查找

python实现–顺序查找 python实现–折半查找 python实现–分块查找 python实现B/B树 折半查找(Binary Search),也称为二分查找,是一种高效的查找算法,适用于有序数组或列表。它的基本思想是通过每次将查找范围缩小为原…

vue 渲染pdf并盖章之后生成新的pdf

目录 1.渲染pdf 1.页面准备渲染的容器,使用canvas渲染 2.把文件流渲染到canvas上面 3.下载pdf.js插件 4.使用 2.盖章 1.印章图片 2.自定义指令拖拽 3.生成新的pdf 1.下载生成pdf插件 2.使用 4.页面效果图 1.展示pdf 2.拖拽盖章 3.生成pdf文件 5.整体代码 …

蓝月亮,蓝禾,奇安信,三七互娱,顺丰,康冠科技,金证科技24春招内推

蓝月亮,蓝禾,奇安信,三七互娱,顺丰,康冠科技,金证科技24春招内推 ①蓝月亮 【招聘岗位】技术,研发,lT,供应链,市场,职能等 【网申链接】https://s…

机器学习是什么?

机器学习是一门多学科交叉专业,涵盖概率论知识、统计学知识、近似理论知识和复杂算法知识等。它是人工智能领域的关键技术,专门研究计算机如何模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构&#xff0…