用于大规模图像识别的深度卷积网络

概述

论文地址:https://arxiv.org/pdf/1409.1556.pdf

这项研究探讨了卷积网络深度对图像识别准确性的影响。重要的是,对具有小型卷积滤波器的网络进行的评估表明,具有 16-19 个权重层的深度网络的性能优于传统配置。这些结果使得该模型在2014年ImageNet挑战赛中取得了成功,并在其他数据集上表现出色。研究人员的目标是向公众提供两个最有效的 ConvNet 模型,以促进深度视觉表示方面的研究。

导言

卷积网络(ConvNet)最近已成功用于大规模图像识别。这归功于大型图像数据集和高性能计算系统的进步。特别是,ImageNet 竞赛推动了视觉识别技术的进步。卷积网络正变得越来越普遍,人们也尝试了许多改进方法。本研究表明,卷积网络的深度非常重要,并提出了一种使用小型滤波器构建深度网络的方法。因此,构建的网络具有很高的准确性,其性能可应用于其他数据集。最后,我们向公众提供了一个最先进的模型,有望推动相关研究的发展。

建筑学

在 ConvNet 训练过程中,输入是固定大小的 224 x 224 RGB 图像,唯一的预处理是减去每个像素的平均 RGB 值。卷积层中使用了一个小型 3×3 过滤器,步距为 1 像素。空间池化由最大池化层执行。卷积层之后是三个全连接层,最后一个是用于 ILSVRC 分类的 softmax 层。所有隐藏层都具有 ReLU 非线性,网络不包括局部响应归一化。

配置

本文评估了五种卷积网络(ConvNet)配置模型(A 至 E)。这些模型基于一般设计,深度不同(A 为 11 层,E 为 19 层)。权重层数和层宽随网络深度而变化,第一层从 64 开始,每增加一个最大池化层,权重层数和层宽就增加 2 倍,最终达到 512。

表 2 列出了每种配置的参数数量。 尽管深度较大,但网络中的权重层数并不比变换较大的较浅网络中的权重层数多。

讨论

本研究对卷积网络(ConvNet)进行了重新配置,通过使用小型 3×3 过滤器而不是传统的大型感受野来提高性能。这样就能引入非线性整流层并减少参数。较小滤波器的引入提高了决策函数的可辨别性,1×1 卷积也改善了非线性。这比以前的方法更有效,在更深的网络中性能更高。

分类框架

训练

在本研究中,使用了带动量的迷你批次梯度下降法来训练 ConvNet,批次大小为 256,动量设置为 0.9。权重衰减和丢弃用于规范化,学习率逐步降低。初始权重从浅层模型开始设置,在训练深层结构时对某些层进行初始化。对图像进行随机裁剪,并添加水平翻转和 RGB 颜色偏移以增强训练集。

图像大小

本研究尝试了两种方法,一种是将 S 设置为代表 ConvNet 训练图像最小边缘的比例,另一种是将 S 设置为固定比例或随机比例。首先,模型在两个固定比例(S=256 和 S=384)下进行训练。其次,在多尺度训练中,每幅图像都被随机重新缩放,以便识别各种尺度的物体。最后,在 S=384 下训练的模型基础上建立多尺度模型,并通过随机缩放进行微调。

测试

在测试过程中,训练好的 ConvNet 对输入图像进行各向同性重缩放,然后将网络密集地应用到重缩放的测试图像上。这样,整个图像上就会出现一个类得分图,最终得出类得分。测试集被水平翻转,原始图像和翻转图像的结果取平均值。全卷积网络适用于整个图像,无需对每种作物进行重新计算,从而提高了测试效率。我们也考虑过使用多作物,但认为增加的计算时间并不能证明准确率的提高是合理的。

实施细节

该实现源自 C++ Caffe 工具箱,可在多个 GPU 上进行训练和评估。多 GPU 训练使用数据并行性,在每个 GPU 上处理批处理,计算梯度,最后求平均值。这样得出的结果与在单个 GPU 上进行的训练结果相当。在我们的实验中,我们使用了一个配备四个英伟达™(NVIDIA®)Titan Black GPU的系统,训练耗时两到三周,比现成的4GPU系统快3.75倍。

分类实验

数据集

本节展示了 ConvNet 架构在 ILSVRC-2012 数据集上取得的图像分类结果。该数据集包含 1000 类图像,分为三个集:训练集、验证集和测试集。分类性能通过两个指标进行评估:前 1 名错误和前 5 名错误,前者表示错误分类图像的百分比,后者表示在前 5 名预测中不包含正确答案的图像的百分比。

单一量表评估

首先,使用上一节所述的层配置,在单一尺度上评估各个 ConvNet 模型的性能。对于固定 S,Q = S;对于抖动 S∈[Smin,Smax],Q = 0.5(Smin+Smax)。 结果如表 3 所示。

比较卷积神经网络(ConvNet)各种配置的实验结果表明,有无归一化层和深度的增加都会影响分类误差。误差随着深度的增加而减小,非线性变换和空间上下文捕捉也很重要。研究还表明,深度模型对大型数据集也有好处,具有小滤波器的深度网络表现更好。训练过程中的尺度抖动也很有效,有助于获得多尺度图像统计数据。

多阶段评估

在对 ConvNet 模型进行评估时,研究了测试过程中尺度抖动的影响。该技术包括将测试图像重新缩放为不同尺度,然后运行模型计算类的后验均值。为了考虑到训练和测试尺度不匹配对性能的潜在影响,在训练过程中由于尺度抖动,以固定尺度训练的模型在接近的尺寸下进行评估,并同时在大范围的尺度下进行测试。

结果表明,测试时的尺度抖动比在单一尺度下评估同一模型更能提高性能。最深的配置(D 和 E)显示出最好的性能,表明比例抖动比使用固定的最小边 S 进行训练更有益。

评估多种作物

表 5 比较了高密度 ConvNet 评估和多作物评估,并通过平均 softmax 输出检验了两种方法的互补性。当使用多作物时,性能略好,而两者的组合则优于对方。这被认为是由于处理了不同的卷积边界条件。

COMBNET 融合

在本实验中,不同 ConvNet 模型的输出被组合在一起,通过互补来提高性能。结合不同模型后,ILSVRC 测试误差为 7.3%。仅将两个最佳多尺度模型组合起来,误差就降低到了 6.8%,而最佳单一模型的误差为 7.1%。

与最新技术的比较

在 ILSVRC-2014 的分类任务中,作者的深度 ConvNet 明显优于上一代模型,使用七个模型的集合将错误率降低到 6.8%。这使得深度 ConvNet 在 ILSVRC-2012 和 ILSVRC-2013 比赛中取得了最佳成绩,大大超过了竞争对手的参赛作品。特别是,两个模型的组合取得了最佳成绩,与许多其他模型相比,它以更少的资源实现了更高的性能。

结论

该研究评估了大规模图像分类中的深度卷积网络(最多 19 层)。 使用传统的 ConvNet 架构,在 ImageNet Challenge 数据集上取得了最先进的性能,表明随着深度的增加,表示深度有助于提高分类准确性。该模型还适用于广泛的任务和数据集,其性能不亚于或优于基于浅层图像表征的复杂识别管道。这再次证明了深度在视觉表示中的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/45811.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

把ros消息转换成中文输出

把ros消息转换成中文输出 c实现 发布 //发布性能评估数据 /trilateration_time_log void publishTrilaterationLog(const int reflectorPanelPoints_size,const double duration_count,const std::string& resultType,const std::string& resultChineseMessage,cons…

C#绘制含流动块的管道

1,效果。 2,绘制技巧。 1,流动块的实质是使用Pen的自定义DashStyle绘制的线,并使用线的偏移值呈现出流动的效果。 Pen barPen new Pen(BarColor, BarHeight);barPen.DashStyle DashStyle.Custom;barPen.DashOffset startOffse…

MySQL-日志-优化

目录 介绍一下mysql 的日志 redo log 和binlog 的区别及应用场景 redo log 和 binlog 在恢复数据库有什么区别? redo log 是怎么实现持久化的? redo log除了崩溃恢复还有什么其他作用? (顺序写) redo log 怎么刷入磁盘的知道吗? 两阶…

重塑水利未来:智慧水利解决方案的探索与实践,从物联网、大数据到人工智能,科技如何赋能水利行业,实现智慧化管理与决策

本文关键词:智慧水利、智慧水利工程、智慧水利发展前景、智慧水利技术、智慧水利信息化系统、智慧水利解决方案、数字水利和智慧水利、数字水利工程、数字水利建设、数字水利概念、人水和协、智慧水库、智慧水库管理平台、智慧水库建设方案、智慧水库解决方案、智慧…

如何通过3D开发组件HOOPS增强Navisworks数据访问?

随着建筑信息模型(BIM)和建筑、工程和施工(AEC)市场的快速发展,对Navisworks支持的需求也在不断增长。特别是在多个公司赞助Navisworks项目的大环境下,HOOPS组件的支持显得尤为重要。这些公司包括一家大型电…

【多模态学习笔记二】MINIGPT-4论文阅读

MINIGPT-4:ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS 提出的MiniGPT-4使用一个投影层,将冻结的视觉编码器与冻结的先进的LLM Vicuna对齐。我们的工作首次揭示,将视觉特征与先进的大型语言模型正确对齐可以具有GPT-4所展示的许多先进的多…

【14】Github Copilot环境搭建

环境搭建 这里以Visual Studio Code为例,安装好vs code,打开扩展侧边菜单栏,搜索“Github Copilot”,会出现如下图的两个插件,点击安装第一个,另一个会附带一起安装,然后弹出提示重新启动vs co…

对于栈和链表,数组之间关系的一些探索

先贴脸来个图 这是一个解析图,总体是个栈(stacks)细分有数组和链表【注意这儿的linkedlist可不是Java集合List中的linklist】 对于栈,如果我们想向栈中添加元素,或者想从中删除元素,都必须从一个地方开始&…

阿里云DSW实例中安装并运行Neo4J

想尝试使用大模型对接Neo4J,在阿里云DSW实例中安装了Neo4J,却无法通过本地浏览器访问在DSW实例中运行的Neo4J。尝试了改neo4j.conf文件,以及添加专用网络的公共IP地址等方法,均没有成功。最后决定直接在服务器的命令行进行各种Cyp…

uniapp 页面字体乱码问题解决【已解决】

这个不是我们本身代码的问题,调整一下编译器就好了 打开编译器文件 2,然后以指定编码重新打开,选择utf-8就行了 非常简单 ,如果你选择了之后重新渲染页面还是乱码的话,你就把项目关掉,重新启动就OK了。。。

基于搜索二叉树的停车收费管理系统

系统效果&#xff1a;录入汽车信息 查看汽车信息 收费信息查看 查询车库车辆 代码展示&#xff1a; //SearchBinaryTree.h #pragma once #include<iostream> #include<string> #include<time.h> #include<Windows.h> using namespace std;template<…

百分点科技入选《2024中国数据要素产业图谱1.0版》

近日&#xff0c;数据猿与上海大数据联盟发布了《2024中国数据要素产业图谱1.0版》&#xff0c;百分点科技凭借领先的数据科学技术和深入的行业洞察力&#xff0c;入选数据管理/治理、数据分析与挖掘、应急管理三大领域。 在数据要素的发展关键期&#xff0c;数据作为生产要素持…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【26】【内网穿透】cpolar

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【27】【内网穿透】cpolar 内网穿透cpolar内网穿透联调配置练习—使用公网地址访问gulimall.com参考 内网穿透 正常的外网需要访问我们项目的流程是&#xff1a; 买服务器并且有公网固定…

怎么压缩视频文件?简单的压缩视频方法分享

视频已成为我们日常生活中不可或缺的一部分。但随着视频质量的提高&#xff0c;文件大小也逐渐成为我们分享的阻碍。如何有效压缩视频文件&#xff0c;使其既能保持清晰&#xff0c;又能轻松分享&#xff1f;今天&#xff0c;给大家分享五种实用的视频压缩方法&#xff0c;快来…

安装adb和常用命令

下载ADB安装包 https://dl.google.com/android/repository/platform-tools-latest-windows.zip 解压安装包 解压如上下载的安装包&#xff0c;然后复制adb.exe所在的文件地址 配置环境变量 我的电脑——>右键属性——>高级系统设置——>环境变量——>系统变量—…

stm32学习:(寄存器1)控制寄存器来让led亮

开启时钟&#xff0c;先查找到开启时钟的寄存器&#xff0c;然后通过该寄存器操作时钟的开启或关闭&#xff0c;要打开的是GPIOA的时钟 在芯片手册&#xff0c;找到RCC寄存器描述章节找到APB2外设时钟使能寄存器&#xff08;RCC_APB2ENR)&#xff0c;现在算RCC_APB2ENR这个寄存…

基于mcu固件反汇编逆向入门示例-stm32c8t6平台

基于mcu固件反汇编逆向入门示例-stm32c8t6平台 本文目标&#xff1a;基于mcu固件反汇编逆向入门示例-stm32c8t6平台 按照本文的描述&#xff0c;应该可以在对应的硬件上通实验并举一反三。 先决条件&#xff1a;拥有C语言基础&#xff0c;集成的开发环境&#xff0c;比如&am…

《背包乱斗》为什么好玩 苹果电脑怎么玩《背包乱斗》游戏 mac怎么玩steam windows游戏

在当今竞争激烈的游戏市场中&#xff0c;《背包乱斗》以其独特的魅力在众多作品中脱颖而出&#xff0c;吸引了大量玩家的关注和喜爱。其创新的游戏机制和不断迭代的内容&#xff0c;加之出色的视觉效果和社区建设&#xff0c;使其成为了游戏界的一股清流。 一、《背包乱斗》为…

《绝区零》是一款什么类型的游戏,Mac电脑怎么玩《绝区零》苹果电脑玩游戏怎么样

米哈游的《绝区零》最近在网上爆火呀&#xff0c;不过很多人都想知道mac电脑能不能玩《绝区零》&#xff0c;今天麦麦就给大家介绍一下《绝区零》是一款什么样的游戏&#xff0c;Mac电脑怎么玩《绝区零》。 一、《绝区零》是一款什么样的游戏 《绝区零》是由上海米哈游自主研发…

ES快速开发,ElasticsearchRestTemplate基本使用以及ELK快速部署

最近博主有一些elasticsearch的工作&#xff0c;所以更新的慢了些&#xff0c;现在就教大家快速入门&#xff0c;并对一些基本的查询、更新需求做一下示例&#xff0c;废话不多说开始&#xff1a; 1. ES快速上手 es下载&#xff1a;[https://elasticsearch.cn/download/]()这…