5.31.8 学习深度特征以实现判别定位

1. 介绍

尽管没有对物体的位置提供监督,但卷积神经网络 (CNN) 各层的卷积单元实际上可以充当物体检测器。尽管卷积层具有这种出色的物体定位能力,但当使用全连接层进行分类时,这种能力就会丧失。最近,一些流行的全卷积神经网络,如 Network in Network (NIN) [13] 和 GoogLeNet [25] 被提出来,以避免使用全连接层来最小化参数数量,同时保持高性能。

为了实现这一点,[13] 使用全局平均池化作为结构正则化器,防止训练期间过度拟合。全局平均池化层的优势不仅仅是简单地充当正则化器。事实上,只需稍加调整,网络就可以保留其卓越的定位能力,直到最后一层。这种调整允许在单个前向传递中轻松识别各种任务的判别图像区域,即使是网络最初未经过训练的任务。如图 1(a) 所示,经过对象分类训练的 CNN 能够成功地将动作分类的判别区域定位为人类正在与之交互的对象,而不是人类本身。

对全局平均池化层进行简单的修改,结合我们的类激活映射 (CAM) 技术,经过分类训练的 CNN 可以在一次前向传递中对图像进行分类并定位特定类别的图像区域。

1.1 相关工作

尽管 CNN 是在图像级标签上进行训练的,但它仍然具有出色的定位物体的能力。使用适当的架构,我们可以将这种能力推广到不仅仅是定位物体,还可以开始准确识别图像的哪些区域被用于识别。与本文最相关的两条工作路线:弱监督物体定位 和 可视化 CNN 的内部表示

1.1.1 弱监督物体定位

Bergamo 等人 [1] 提出了一种自学物体定位技术,涉及屏蔽图像区域以识别导致最大激活的区域,从而定位物体。Cinbis 等人 [2] 和 Pinheiro 等人 [18] 将多示例学习与 CNN 特征相结合来定位物体。Oquab 等人 [15] 提出了一种传输中级图像表示的方法,并表明可以通过评估多个重叠块上的 CNN 输出来实现某些物体定位。虽然这些方法产生了有希望的结果,但它们不是端到端训练的,需要网络的多次前向传递来定位物体,这使得它们难以扩展到现实世界的数据集。我们的方法是端到端训练的,可以在一次前向传递中定位物体。

与我们的方法最相似的是 Oquab 等人基于全局最大池化的工作 [16]。他们不使用全局平均池化,而是应用全局最大池化来定位物体上的一个点。然而,它们的定位仅限于物体边界上的一个点,而不是确定物体的完整范围。虽然最大函数和平均函数非常相似,但使用平均池化可以鼓励网络识别物体的完整范围。与最大池化相比,当网络识别出物体的所有判别区域时,平均池化的损失会受益。

使用类激活图来指代为每个图像生成的加权激活图。虽然全局平均池化并不是我们在此提出的新技术,但据我们所知,它可以应用于准确的判别定位。这种技术的简单性使其具有可移植性,可以应用于各种计算机视觉任务,以实现快速准确的定位。

1.1.2 可视化CNN

Zeiler 等人 [30] 使用反卷积网络来可视化激活每个单元的模式。Zhou 等人 [34] 表明,CNN 在接受场景识别训练的同时学习物体检测器,并证明同一个网络可以在一次前向传递中同时执行场景识别和物体定位。但都只分析了卷积层,而忽略了全连接层。通过删除全连接层并保留大部分性能。

Mahendran 等人 [14] 和 Dosovitskiy 等人 [4] 通过反转不同层的深度特征来分析 CNN 的视觉编码。虽然这些方法可以反转全连接层,但它们只显示了深度特征中保留了哪些信息,而没有突出这些信息的相对重要性。与 [14] 和 [4] 不同,我们的方法可以准确突出显示图像中哪些区域对于区分很重要。

2. 类激活映射(CAM)

使用 CNN 中的全局平均池化 (GAP) 生成类激活图 (CAM) 的过程。特定类别的类激活图表示 CNN 用来识别该类别的判别图像区域。生成这些图的过程如图 2 所示。

类别激活映射:预测的类别分数被映射回前一个卷积层以生成类别激活图 (CAM)。CAM 突出显示特定于类别的判别区域。

使用的网络架构类似于 Network in Network [13] 和 GoogLeNet [25] -

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848871.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker大学生看了都会系列(六、Dokcer容器数据卷)

系列文章目录 第一章 Docker介绍 第二章 2.1 Mac通过Homebrew安装Docker 第二章 2.2 CentOS安装Docker 第三章 Docker常用命令 第四章 常用命令实战 第五章 Docker镜像详解 第六章 Docker容器数据卷 文章目录 一、前言二、环境三、容器数据卷基本介绍3.1 什么是容器数据卷3.2 容…

nginx--centos安装

参考:https://blog.csdn.net/chang_chunhua/article/details/129298660 下载官网:https://nginx.org/ 选择稳定版本:stable 下载linux版本的: 可以选择直接下载到本地再上传到服务器相对应位置! 同时也可以用下载地…

利用MaxKB+Ollama:搭建智能问答系统_Ubuntu部署maxkb

Docker方式,不建议使用 即使maxKB和ollama在同一目录下,API域名也显示无效。 Ollama下载网址:Download Ollama on Linux Linux下载:curl -fsSL https://ollama.com/install.sh | sh The Ollama API is now available at 127.0.…

openh264 自适应量化功能源码分析

openh264 OpenH264是一个开源的H.264/AVC视频编解码器,由Cisco公司发起并贡献了最初的代码基础。它提供了一个用于视频编码和解码的库,支持H.264视频压缩标准,广泛应用于视频会议、流媒体和视频存储等领域。OpenH264是实现H.264编解码功能的…

【鸿蒙】开发之页面跳转组件—实现页面跳转方法汇总!

①不同 Slice 间跳转,同一个 Ability 中,优点是方便,高效,缺点是业务逻辑复杂度受限。 button.setClickedListener(listener -> present(new SecondAbilitySlice(), new Intent()) );②使用 Intent 借助于 ElementName&#x…

javascript导入excel文件

导入文件用到一个 xlsx.core.js 的包。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><script type"tex…

DSP28335模块配置模板系列——ADC配置模板

一、配置步骤 1.使能并配置高速时钟HSPCLK、ADC校验 EALLOW;SysCtrlRegs.PCLKCR0.bit.ADCENCLK 1; EDIS;EALLOW;SysCtrlRegs.HISPCP.all ADC_MODCLK; // HSPCLK SYSCLKOUT/(2*ADC_MODCLK)ADC_cal();EDIS; 这里ADC_MODCLK3&#xff0c;所以HSPCLK时钟为150/625Mhz 2.配…

《TCP/IP网络编程》(第十三章)多种I/O函数(2)

使用readv和writev函数可以提高数据通信的效率&#xff0c;它们的功能可以概括为**“对数据进行整合传输及发送”**。 即使用writev函数可以将分散在多个缓冲中的数据一并发送&#xff0c;使用readv函数可以由多个缓冲分别接受&#xff0c;所以适当使用他们可以减少I/O函数的调…

压力测试-性能指标-Jmeter使用-压力测试报告

文章目录 1.压测目的2.性能指标3.Jmeter3.1Jmeter使用3.1.1 运行Jmeter3.1.2 添加线程组3.1.3设置HTTP请求3.1.4 设置监视器 3.2 查看Jmeter压测结果3.2.1 查看结果树3.2.2 查看汇总报告3.2.3 查看聚合报告3.2.4 查看汇总图 1.压测目的 内存泄漏&#xff1a;OOM&#xff0c;重…

Hadoop3:MapReduce源码解读之Map阶段的CombineFileInputFormat切片机制(4)

Job那块的断点代码截图省略&#xff0c;直接进入切片逻辑 参考&#xff1a;Hadoop3&#xff1a;MapReduce源码解读之Map阶段的Job任务提交流程&#xff08;1&#xff09; 6、CombineFileInputFormat原理解析 类的继承关系 与TextInputFormat切片机制的区别 框架默认的TextI…

TPC-H建表语句(MySQL语法)

TPC-H测试集介绍 TPC-H&#xff08;Transaction Processing Performance Council, Standard Specification, Decision Support Benchmark, 简称TPC-H&#xff09;是一个非常权威数据库基准测试程序&#xff0c;由TPC组织制定。 TPC-H定义了一个包含8个表的模式&#xff08;Sc…

敏捷开发:拥抱变化,持续交付价值的艺术

目录 敏捷开发&#xff1a;拥抱变化&#xff0c;持续交付价值的艺术 引言 第一部分&#xff1a;敏捷开发是什么&#xff1f; a.定义&#xff1a;敏捷开发的基本概念和核心原则 b.历史&#xff1a;敏捷宣言的诞生和敏捷开发的历史背景 c.价值观&#xff1a;敏捷宣言的12条…

戴尔R720服务器(4)虚拟机性能测试

物理机环境 机型戴尔R720系统环境PVECPUE5-2660V2 2.2GHz 双路内存1333MHz 单通道内存1333MHz 双通道硬盘用6块转速1万的2.5寸盘组的RAID5&#xff0c;使用了H310mini阵列卡 ‍ 测试工具&#xff1a;Sysbench。一个跨平台的基准测试工具&#xff0c;用于评估系统性能&#xff…

[消息队列 Kafka] Kafka 架构组件及其特性(一)

工作中的消息队列用的是Kafka&#xff0c;一直没有系统的了解&#xff0c;这边集中整理一下。 目录 Kafka主要组件有十个部分。 1.Broker&#xff08;服务器&#xff09; 2.Record&#xff08;消息&#xff09; 3.Producer&#xff08;生产者&#xff09; 4.Consumer&…

Coolmuster Android助手评测:简化Android到电脑的联系人传输

产品概述 Coolmuster Android助手是一款旨在简化Android设备与计算机之间数据管理和传输过程的全面工具。它以用户友好的界面和全面的功能&#xff0c;成为寻求高效数据管理解决方案的Android用户的热门选择。 主要特点和功能Coolmuster Android助手拥有一系列使其成为管理Andr…

XR模拟的巨大飞跃,Varjo如何塑造战斗机飞行员培训的未来

随着虚拟现实技术的不断发展&#xff0c;拥有直通功能的XR技术被广泛应用于各种虚拟培训项目之中&#xff0c;能够完美混合虚拟与现实环境的XR技术能够最大限度的优化培训效果并有效减少仿真培训中的成本消耗。 技术总部位于加利福尼亚州南旧金山的Aechelon是集培训、模拟和娱乐…

盛夏之约,即将启程,2024中国北京消防展将于6月26举行

盛夏之约&#xff0c;即将启程&#xff0c;2024中国北京消防展将于6月26举行 盛夏之约&#xff0c;即将启程&#xff01;备受瞩目的2024中国&#xff08;北京&#xff09;消防技术与设备展览会将于6月26-28 日在北京.首钢会展中心盛大召开。作为消防安全和应急救援的年度盛会&…

转让北京海淀成立满1年拍卖公司许可证条件和流程

拍卖经营批准证书是拍卖企业经营所需的许可&#xff0c;是为了维护拍卖秩序&#xff0c;保护拍卖活动各方合法权益而颁发的合法凭证。其中个人物品&#xff0c;公司物品&#xff0c;或者国有资源的拍卖可通过普通拍卖资质进行拍卖。而文物古董拍卖类的需取得文物拍卖经营许可证…

Cortex系列详解

Cortex系列属于ARMv7架构(ARM公司在经典处理器ARM11以后的产品改用Cortex命名) 一、Cortex-A系列 “A”系列面向尖端的基于虚拟内存的操作系统和用户应用。 A 系列处理器适用于具有高计算要求、运行丰富操作系统以及提供交互媒体和图形体验的应用领域。 具体案例如:智能手…

course-nlp——6-rnn-english-numbers

本文参考自https://github.com/fastai/course-nlp。 使用 RNN 预测数字的英文单词版本 在上一课中&#xff0c;我们将 RNN 用作语言模型的一部分。今天&#xff0c;我们将深入了解 RNN 是什么以及它们如何工作。我们将使用尝试预测数字的英文单词版本的问题来实现这一点。 让…