深度学习之视觉特征提取器——VGG系列

VGG

提出论文:1409.1556.pdf (arxiv.org)

引入

距离VGG网络的提出已经约十年,很难想象在深度学习高速发展的今天,一个模型能够历经十年而不衰。虽然如今已经有VGG的大量替代品,但是笔者研究的一些领域仍然有大量工作选择使用VGG。有人说VGG开创了基于一些基础结构(如Conv,Linear,RNN)进行模型堆叠的开端,但笔者更以为是其对深层次网络的研究和特征提取器这一概念的广泛使用作出了巨大贡献(但并不是首次提出)。深度学习高速发展之外,是硬件算力的高速发展。10年前使用VGG某种意义上也可以看成现如今使用LLM。VGG是由Visual Geometry Group中的两位大佬提出(VGG名字的由来就显而易见了)

模型介绍

请添加图片描述

3×3卷积核

在VGG中,很大的贡献之一是使用了3×3卷积核以替代5×5卷积核、7×7卷积核等。这样的优点有两个:

(1)对相同大小的图像使用更小感受野的卷积,就会导致卷积的层数更多,层数更多意味着对非线性的拟合更好。这一点可以类比于高次函数可以拟合的曲线更多、更逼近。比如 y = a x + b y=ax+b y=ax+b就难以拟合曲线,而 y = ( a x + b ) ( c x + d ) y=(ax+b)(cx+d) y=(ax+b)(cx+d)就可以拟合部分曲线。

(2)对相同大小的图像使用3×3的卷积所需要的参数量更少。如图,如果用作者论文中举的例子就是,对一个7×7的感受野使用3×3的卷积总共需要 3 × ( 3 2 C 2 ) = 27 C 2 3\times(3^2C^2)=27C^2 3×(32C2)=27C2的参数,而使用7×7的卷积核则需要 ( 7 2 C 2 ) = 49 C 2 (7^2C^2)=49C^2 (72C2)=49C2的参数,其中 C C C代表通道数。

补充解释:一个3×3的卷积核参数量是 3 2 3^2 32,如果原始特征有 C C C个通道,输出特征也相应有 C C C个通道,那么每个通道对应相乘就得到 C 2 C^2 C2,而对于一个7×7的感受野,需要分成三个阶段使用3×3的卷积,所以再乘以3。

不同深度的VGG

VGG最常见的有四种模型结构,分别是VGG11,VGG13,VGG16,VGG19,其模型结构分别如下:

请添加图片描述

作者也是通过这四种不同深度的模型验证了更深的网络可以有效提高模型的效果。

代码实现

目前最便捷的方法是使用Pytorch中的torchvision库。

以VGG16举例:

下面是官方给的代码:

from torchvision.io import read_image
from torchvision.models import vgg16, VGG16_Weightsimg = read_image("image.jpg")# Step 1: Initialize model with the best available weights
weights = VGG16_Weights.DEFAULT
model = vgg16(weights=weights)
model.eval()# Step 2: Initialize the inference transforms
preprocess = weights.transforms()# Step 3: Apply inference preprocessing transforms
batch = preprocess(img).unsqueeze(0)# Step 4: Use the model and print the predicted category
prediction = model(batch).squeeze(0).softmax(0)
class_id = prediction.argmax().item()
score = prediction[class_id].item()
category_name = weights.meta["categories"][class_id]
print(f"{category_name}: {100 * score:.1f}%")

如果要封装成一个类,并控制输出的维度,可以使用如下代码:

import torch.nn as nn
import torchvision.models as models
from torchvision.models.vgg import VGG16_Weightsclass VGG16(nn.Module):def __init__(self):super(VGG16, self).__init__()self.vgg = models.vgg16(weights=VGG16_Weights.IMAGENET1K_V1)self.dim_feat = 4096self.vgg.classifier[6] = nn.Linear(4096, self.dim_feat)def forward(self, x):output = self.vgg(x)return output

当然,VGG并不止VGG16可以调用,下面是Pytorch官方给出的表格:

WeightAcc@1Acc@5ParamsGFLOPSRecipe
VGG11_BN_Weights.IMAGENET1K_V170.3789.81132.9M7.61link
VGG11_Weights.IMAGENET1K_V169.0288.628132.9M7.61link
VGG13_BN_Weights.IMAGENET1K_V171.58690.374133.1M11.31link
VGG13_Weights.IMAGENET1K_V169.92889.246133.0M11.31link
VGG16_BN_Weights.IMAGENET1K_V173.3691.516138.4M15.47link
VGG16_Weights.IMAGENET1K_V171.59290.382138.4M15.47link
VGG16_Weights.IMAGENET1K_FEATURESnannan138.4M15.47link
VGG19_BN_Weights.IMAGENET1K_V174.21891.842143.7M19.63link
VGG19_Weights.IMAGENET1K_V172.37690.876143.7M19.63link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/1684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【nodejs】express-generator项目--创建接口及数据库连接

文章目录 一、创建接口1、路由routes(1)新建路由文件(2)注册路由 2、控制器controller(1)新建controller文件(2)代码 3、services(1)新建services文件&#x…

Linux - Docker 安装 Nacos

拉取 Nacos 镜像 使用以下命令从 Docker Hub 拉取最新版本的 Nacos 镜像: docker pull nacos/nacos-server启动 Nacos 容器 使用以下命令启动 Nacos 容器: docker run -d \--name nacos \--privileged \--cgroupns host \--env JVM_XMX256m \--env M…

oracle 清空回收站

参考官方文档 select * from user_recyclebin; select * from dba_recyclebin; ---清除回收站中当前用户下的对象 purge recyclebin; ---清除回收站中所有的对象 purge dba_recyclebin; ---清除回收站中指定用户的表 PURGE TABLE owner.table_name; ---清除回收站中指…

Serverless 成本再优化:Knative 支持抢占式实例

作者:元毅、向先 Knative 是一款云原生、跨平台的开源 Serverless 应用编排框架,而抢占式实例是公有云中性价比较高的资源。Knative 与抢占式实例的结合可以进一步降低用户资源使用成本。本文介绍如何在 Knative 中使用抢占式实例。 背景信息 抢占式实…

Python | Leetcode Python题解之第35题搜索插入位置

题目&#xff1a; 题解&#xff1a; class Solution:def searchInsert(self, nums: List[int], target: int) -> int:left, right 0, len(nums) #采用左闭右开区间[left,right)while left < right: # 右开所以不能有,区间不存在mid left (right - left)//2 # 防止溢出…

Java web应用性能分析概叙

“系统慢”&#xff0c;这是任何一个应用都会出现的问题&#xff0c;面对“系统慢”的问题&#xff0c;客户、测试、开发、管理者等不同角色的人员有不同反应&#xff1a; 客户&#xff1a;啥破东西啊&#xff0c;这么卡&#xff01; 测试&#xff1a;性能bug已提交。 开发&…

【OpenGL实验】在python、Qt5、pyOpenGL程序的若干要点

实验效果图: 代码 目录 一、说明二、关于QGLWidget2.1 三个方便的虚函数2.2 析构函数2.3 QGLWidget析构函数三、关于QGLWidget的三个虚函数分工3.1 initializeGL:数据准备、数据绑定分离3.2 resizeGL:视角改变函数3.3 paintGL:绘画函数四、主窗口的配合:刷新周期的设定4…

git 冲突与解决冲突

目录 1.使用 git 解决冲突 GIT 常用命令 制造冲突 解决冲突 2.使用 IDEA 解决冲突 产生冲突 解决冲突 1.使用 git 解决冲突 GIT 常用命令 命令作用git clone克隆git init初始化git add 文件名添加到暂存区git commit -m " 日志信息" 文件名提交到本地库git st…

记录一个Maxwell采集MySQL数据时报安全证书时间不通过的问题

【背景描述】 我的zk&#xff0c;kafka和Maxwell都正常启动了 此时我需要用Maxwell将MySQL的一张表user_info将其全量同步到kafka当中时发生报错&#xff0c;命令如下&#xff1a; [atguiguhadoop102 datas]$ /opt/module/maxwell/bin/maxwell-bootstrap --database gmall --…

ACE Lab 数据恢复/数据取证技术交流研讨会

2024年4月20-21日&#xff0c;ACE Lab 数据恢复/数据取证技术交流研讨会在北京举行&#xff0c;天津鸿萌科贸发展有限公司参加了这次技术研讨会。 ACE Lab 的 PC-3000 系列产品是数据恢复及取证领域的顶级工具&#xff0c;深受领域内专家的推崇。 本次技术交流带来了如下最新技…

【Python-装饰器】

Python-装饰器 ■ 简介■ 装饰器的一般写法&#xff08;闭包写法&#xff09;■ 装饰器的语法 (outer写法) ■ 简介 装饰器其实是一种闭包&#xff0c; 功能就是在不破坏目标函数原有的代码和功能的前提下为目标函数增加新功能。 ■ 装饰器的一般写法&#xff08;闭包写法&am…

分享购热潮席卷而来:解析其背后的成功密码

亲爱的朋友们&#xff0c;我是微三云的周丽&#xff0c;一名专注于私域电商模式创新的探索者。 随着数字化时代的到来&#xff0c;消费者的购物行为也在不断变化&#xff0c;因此&#xff0c;企业必须不断地探索新的ying销方式&#xff0c;以xi引用户、提升xiao售额。而最近备…

SVN泄露(ctfhub)

目录 下载安装dvcs-ripper 使用SVN 一、什么是SVN&#xff1f; 使用SVN能做什么&#xff1f; 二、SVN泄露&#xff08;ctfhub&#xff09; SVN源代码漏洞的主要原因&#xff1a; 工具准备&#xff1a;dirsearch、dvcs-ripper 网络安全之渗透测试全套工具篇&#xff08;内…

深入理解VGG网络,清晰易懂

深入理解VGG网络 VGG网络是深度学习领域中一个非常经典的卷积神经网络&#xff08;CNN&#xff09;架构&#xff0c;由牛津大学的视觉几何组&#xff08;Visual Geometry Group&#xff09;提出。它在2014年的ImageNet挑战赛中取得了第二名的好成绩&#xff0c;并且在随后的许…

智慧水务能效管理系统平台/地下污水厂配电系统电气安全设计

安科瑞电气薛瑶瑶18701709087 1、引言 地下水污厂在城市建设中扮演着重要的角色,负责对城市污水和废物进行处理和排放。然而,由于地下水污厂中存在着许多危险因素,如有害气体、液体和固体废物等,因此要保证电气安全。电气安全系统是地下水污厂安全生产的重要保障措施之一,包括…

C语言进阶课程学习记录-函数参数的秘密

C语言进阶课程学习记录-函数参数的秘密 实验实验小结调用约定实验-求平均数实验-可变参数的函数小结 本文学习自狄泰软件学院 唐佐林老师的 C语言进阶课程&#xff0c;图片全部来源于课程PPT&#xff0c;仅用于个人学习记录 实验 #include <stdio.h>int func(int i, int…

MySQL学习笔记1(MySQL基础)

1.MySQL基础 1.数据库相关概念 ​ *数据库&#xff1a;存储数据的仓库&#xff0c;数据是有组织的进行存储 DtaBase(DB) ​ *数据管理系统&#xff1a;操纵和管理数据库的大型软件 DataBase Management System (DBMS) ​ *SQL&#xff1a;操作关系型数据库的编程语言&#…

初始C++

1. C关键字(C98) C总计63个关键字&#xff0c; C语言32个关键字 ps&#xff1a;下面我们只是看一下C有多少关键字&#xff0c;不对关键字进行具体的讲解。后面我们学到以后再 细讲。 2. 命名空间 在C/C中&#xff0c;变量、函数和后面要学到的类都是大量存在的&#xff0c;…

JAVA学习笔记28(常用类)

1.常用类 1.1 包装类 1.包装类的分类 ​ 1.针对八中基本数据类型相应的引用类型–包装类 ​ 2.有了类的特点&#xff0c;就可以调用类中的方法 2.包装类和基本数据类型的转换 ​ *装箱&#xff1a;基本类型 --> 包装类型 //手动装箱 int n1 100; Integer integer ne…

【C语言__函数栈帧的创建和销毁__复习篇9】

目录 前言 一、知识补充 二、分析创建和销毁的过程 三、前言问题回答 前言 本篇主要讨论以下问题&#xff1a; 1. 编译器什么时候为局部变量分配的空间 2. 为什么局部变量的值是随机的 3. 函数是怎么传参的&#xff0c;传参的顺序是怎样的 4. 形参和实参是什么关系 5. 函数…