AlexNet 阅读笔记

“ImageNet Classification with Deep Convolutional Neural Networks” (Krizhevsky 等, 2012, p. 1)

使用深度卷积神经网络进行 ImageNet 分类

3公式，26个引用，4张图片，2个简单表格

Abstract

我们训练了一个大型深度卷积神经网络，将 ImageNet LSVRC-2010 竞赛中的 120 万张高分辨率图像分类为 1000 个不同的类别。

在测试数据上，我们实现了 37.5% 和 17.0% 的 top-1 和 top-5 错误率，这比之前的最先进水平要好得多。

该神经网络拥有 6000 万个参数和 650,000 个神经元，由五个卷积层（其中一些后面是最大池层）和三个全连接层（最终为 1000 路 softmax）组成。

为了加快训练速度，我们使用非饱和神经元和非常高效的 GPU 实现卷积运算。为了减少全连接层中的过度拟合，我们采用了最近开发的称为“dropout”的正则化方法，事实证明该方法非常有效。

我们还在 ILSVRC-2012 竞赛中输入了该模型的一个变体，并取得了 15.3% 的获胜前 5 名测试错误率，而第二名的测试错误率为 26.2%。

1. Introduction

1.当前物体识别充分使用机器学习的方法，为了提高性能需要更大、质量更高的数据集从而学习更强大的模型。（列举最近的数据集）。

2.模型需要先验知识——引出CNN卷积神经网络。

3.然而训练是昂贵的，好在现在有GPU和足够的有标签高质量数据。

4.本文的具体贡献

5.最后，神经网络大小受限于GPU内存和时间，当前是在两个GTX580 GPU上训练了5-6天的实验结果，只要GPU更快数据集更大，实验结果就会改善！

2. The Dataset

介绍 ImageNet，介绍大规模视觉挑战赛ILSVRC

作者在ILSVRC-2010上执行了大部分实验，在ImageNet上通常使用top-1和top-5两个错误率。

ImageNet的数据图像分辨率不一样，作者将它剪裁成256*256的固定大小，除此之外没有使用任何其他处理方式。

3. The Architecture

我们的网络架构如图 2 所示。它包含八个学习层，五个卷积层和三个全连接层。下面，我们描述了我们网络架构的一些新颖或不寻常的特征。第 3.1-3.4 节根据我们对其重要性的估计进行排序，最重要的排在最前面。

3.1 ReLU Nonlinearity

3.2 Training on Multiple GPUs

3.3 3.4

3.5 Overall Architecture

4. Reducing Overfitting

我们的神经网络架构有 6000 万个参数。尽管 ILSVRC 的 1000 个类别使每个训练示例对从图像到标签的映射施加 10 位约束，但事实证明，这不足以在不出现严重过拟合的情况下学习如此多的参数。下面，我们描述了对抗过度拟合的两种主要方法。

4.1 数据增强

“4.2 Dropout” 辍学

5. Details of learning

一些细节：两个GTX 580训练5-6天，120万张图片90个周期训练，批量大小128，随机梯度下降，动量0.9，权重衰减0.0005，标准差0.01，用0初始化。学习率初始化为0.01。

我们发现少量权重衰减对于模型学习很重要！

（这话跟我说的一样！）

6. Results

表1总结了我们在ILSVRC-2010上的结果。

我们还在ILSVRC-2012竞赛中使用了我们的模型，具体结果在表2给出。

最后，我们还报告了ImageNet2009年秋季版本的错误率。

6.1定性评价

7. Discussion

大型深度神经网络用于监督学习能够取得破纪录的结果。如果删除单个卷积层top-1性能会损失大约2%。深度很重要！

我们未使用无监督与训练，我们希望未来在视频上使用深度卷积网络，因为时间也能提供很多信息。（吹牛，预测未来）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/208956.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！