VGG论文学习笔记

题目:VERY DEEP CONVOLUTIONAL NETWORKS  FOR LARGE-SCALE IMAGE RECOGNITION

论文下载地址:VGG论文

摘要

目的:研究深度对精度的影响
方法:使用3*3滤波器不断增加深度,16和19效果显著
成绩:在ImageNet 2014挑战赛中定位项目第1名,分类项目第2名;在其它数据集上也表现良好。

1、介绍

卷积网络(ConvNets)取得成功,得益于大规模图片库(比如ImageNet)和快速计算系统(比如GPU),也得益于ILSVRC比赛的举行。
研究深度与精度的关系,并使用小的3*3滤波器。

2、ConvNet配置

2.1 配置

输入:224*224(固定尺寸)
预处理:每个像素减去平均RGB值,其 均值为[123.68,116.78,103.94].
滤波器:3*3,也有使用1*1
卷积层参数:stride=1,padding=1
最大池化层:滤波器2*2,stride=2
全连接层:3个(前两个4096个通道,最后一个为1000个,对应分类数)
最后一层:soft-max层
激活函数:ReLU
改进:取消LRN,因为没有增加精度,反而增加计算时间占用内存。
感受野:参考 感受野
重点:堆叠两个3*3的卷积核替代5*5卷积核,堆叠三个3*3的卷积核替代7*7卷积核。拥有相同的感受野,减少参数。

2.2 结构

在AlexNet第一层使用11*11滤波器,s=4;ZFNet第一层使用7*7滤波器,s=2的结构。而VGG全部使用3*3的滤波器,s=1,实现全像素卷积。通过堆叠3*3滤波器,也可以减少参数量。比如通道为C,3*3滤波器的参数量为 3*(3^{2}*C^{2})=27C^{2},而同样通道的7*7滤波器,参数量为 7^{2}*C^{2}=49C^{2},参数量减少81%。

3 分类框架

3.1 训练

使用mini-batch gradient descent优化器,设置batch size=256,momentum=0.9.L2设置为5*10-4,dropout=0.5,学习率lr=0.01.
网络的初始化很重要。

3.3 细节

使用C++caffe工具箱,多GPU并行运行。

4 分类实验

数据集
使用ILSVRC-2012数据集,1000个类,分为三组:训练集(130万张)、验证集(5万张)、测试集(10万张)。用top-1和top-5错误率进行评价。

4.1 单尺度评估

使用LRN和没有使用LRN的效果差不多,所以后面的实验取消了LRN。
小的滤波器优于较大的滤波器。

4.2 多尺度评估

多尺度比单尺度效果更好,尤其层数越深表现越好。

4.3 多裁剪评估

两者组合效果更好。

4.4 卷积融合

4.5 与其他最好模型的比较

参考资料:
4.2 使用pytorch搭建VGG网络_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/747443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编译nodejs源码(包括升级gcc)

记录背景 因为之前过rs的时候找大佬要的 魔改的 node, 但是只有 win版本,当时大佬把源码给了我一份,工作需要在 linux 上运行, 特此记录下编译过程 环境准备 centos7.9 1. gcc 升级, 默认是低版本1. yum -y install centos-re…

docker内部无法使用ping等网络工具解决方案

通常docker内部没有网络,所以我们先离线安装需要的依赖包,然后再使用sh脚本容器内部访问宿主机同网络端其他服务器ip,实现监测远程ip telnet包依赖于netbase包,但是netbase包没有安装。你需要先安装netbase包,然后再尝试安装teln…

MySQL主键采用什么结构?为什么要自增?为什么用int?

MySQL主键通常采用的是自增的整数类型结构。 在MySQL中,主键是用来唯一标识表中每一行记录的一个列或多个列的组合,其值能保证每条记录的唯一性。主键的选择对于数据库的性能和数据完整性都至关重要。通常情况下,MySQL主键采用的结构是自增的…

搭建知识管理系统并不复杂,这篇教程来帮你

许多人都有这样的体验:我们抓住的想法和知识总在不经意间溜走,我们想要的信息总是一时无法找到。因此,搭建一个能够系统化、分类和索引存储这些知识的“知识管理系统”是必要的。听上去很专业,其实并不复杂,让我们一步…

mysql: 如何开启慢查询日志?

1 确认慢查询日志功能已开启 执行以下sql语句,查看慢查询功能是否开启: show VARIABLES like slow_query_log;如果为ON,表示打开;如果为OFF,表示没有打开,需要开启慢查询功能。 执行以下sql语句&#xff0…

修改 MySQL update_time 默认值的坑

由于按规范需要对 update_time 字段需要对它做默认值的设置 现在有一个原始的表是这样的 CREATE TABLE test_up (id bigint(20) unsigned NOT NULL AUTO_INCREMENT COMMENT 主键id,update_time datetime default null COMMENT 操作时间,PRIMARY KEY (id) ) ENGINEInnoDB DEF…

内存中的数据存储(未完)

整数在内存中的存储 在前面说过整数的2进制表示方法有三种,即 原码、反码和补码。三种表⽰⽅法均有符号位和数值位两部分,符号位都是⽤0表⽰“正”,⽤1表⽰“负”,⽽数值位最⾼位的⼀位是被当做符号位,剩余的都是数值位…

MapStruct代替BeanUtils.copyProperties ()使用

1.为什么MapStruct代替BeanUtils.copyProperties () 第一:因为BeanUtils 采用反射的机制动态去进行拷贝映射,特别是Apache的BeanUtils的性能很差,而且并不支持所有数据类型的拷贝,虽然使用较为方便,但是强烈不建议使用…

【C++】每日一题 101 对称二叉树

给你一个二叉树的根节点 root , 检查它是否轴对称。 struct TreeNode {int val;TreeNode *left;TreeNode *right;TreeNode(int x) : val(x), left(NULL), right(NULL) {} };bool isSymmetric(TreeNode* root) {if (root nullptr) {return true;}return isMirror(r…

基于openpose的引体向上的识别计数统计项目(5)CPoseClassify类设计与实现

和CPoseExtract一样, CPoseClassify设计为一个纯虚类,规定了基本的调用接口函数,便于后续扩展使用。该类主要用于判断一帧骨骼关键点数据属于引体向上动作中的状态类型。 // https://www.wikihow.com/Do-a-Chin-Up enum PullupCls {None = -1, // 未知占位Drape = 0, // …

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:NavRouter)

导航组件,默认提供点击响应处理,不需要开发者自定义点击事件逻辑。 说明: 该组件从API Version 9开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 子组件 必须包含两个子组件,其中第二个子组…

【趣味学算法】08 凯撒密码

注: 本系列仅为个人学习笔记,学习内容为《算法小讲堂》(视频传送门),通俗易懂适合编程入门小白,需要具备python语言基础,本人小白,如内容有误感谢您的批评指正 《罗马帝王传》中描述…

分析型数据库的主要使用场景有哪些?

如今数据已经成为了企业和组织的核心资产。如何有效地管理和利用这些数据,成为了决定竞争力的关键。分析型数据库作为数据处理领域的重要工具,为各行各业提供了强大的数据分析和洞察能力。基于分析型数据库(Apache Doris )构建的现…

当模型足够大时,Bias项不会有什么特别的作用

问题来源: 阅读OLMo论文时,发现有如下一段话: 加上前面研究llama和mistral结构时好奇为什么都没有偏置项了 偏置项的作用: 回到第一性原理来分析,为什么要有偏置项的存在呢? 在神经网络中,…

跨境热点!TikTok直播网络要求是什么?

TikTok直播作为一种互动性强、实时性要求高的社交媒体形式,对网络环境有着一系列特定的需求。了解并满足这些需求,对于确保用户体验、提高直播质量至关重要。本文将深入探讨TikTok直播对网络环境的要求以及如何优化网络设置以满足这些要求。 TikTok直播的…

mac启动elasticsearch

1.首先下载软件,然后双击解压,我用的是7.17.3的版本 2.然后执行如下命令 Last login: Thu Mar 14 23:14:44 on ttys001 diannao1xiejiandeMacBook-Air ~ % cd /Users/xiejian/local/software/elasticsearch/elasticsearch-7.17.3 diannao1xiejiandeMac…

[剪藏] - 2024QS世界大学前200名排名榜(101-200)

2024QS世界大学排名(101-200) 排名 校名/国家 综合得分 100 诺丁汉大学 60.4 United Kingdom 102 威斯康星大学麦迪逊分校 60 United States 103 智利天主教大学 59.9 Chile 104 谢菲尔德大学 59.7 United Kingdom 105 乌普萨…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:Menu)

以垂直列表形式显示的菜单。 说明: 该组件从API Version 9开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 Menu组件需和bindMenu或bindContextMenu方法配合使用,不支持作为普通组件单独使用。 子组件 包含MenuIt…

HTML—CSS盒子模型(Box Model)

基本介绍: CSS处理网页时,HTML的每一个标签可以看作是一个盒子,网页布局将指定的标签放到指定的位置上摆放,相当于摆放盒子。 每一个标签(盒子)所包含的内容:从外到内 ①外边距(margin)—规定盒子与盒子之间的距离&…

LeetCode---388周赛

题目列表 3074. 重新分装苹果 3075. 幸福值最大化的选择方案 3076. 数组中的最短非公共子字符串 3077. K 个不相交子数组的最大能量值 一、重新分装苹果 注意题目中说同一个包裹中的苹果可以分装,那么我们只要关心苹果的总量即可,在根据贪心&#x…