Convolutional Neural Networks for Visual Recognition 1

Introduction

这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程。这个课程重点介绍了deep learning里的一种比较流行的模型:Convolutional Neural Networks,简称CNN,主要利用CNN来做visual recognition,或者说是image classification,object recognition等。我自己在学习的过程中,一边翻译一边总结,整理出这些中文版的lecture notes,英文好的同学可以直接看原文,课程的网址是:

http://cs231n.stanford.edu/

学习这门课程,需要一定的数学基础,包括线性代数,概率论,统计等,还要对传统的机器学习有一定的了解,可以参考斯坦福大学机器学习大牛Anderw的课程,另外一个前提条件是编程,这门课程没有用matlab,而是用了当下比较流行的一种语言python,课程中所有的程序都是用python写成的,所以还要学习python编程,这门课程对python有简单的介绍,并且还推荐了相应的python版本及编译器,这些信息都可以在课程网站上找到。

我在这里转译的中文lecture notes,认为大家都已经搞定了上述所需的前提条件,就是有一定的数学基础,也了解机器学习,并且安装了相应的python和IDE(推荐Eclipse+Pydev),能够利用python进行编程。所以没有这些基础知识。下面是正式的课程内容。

Image Classification

首先介绍的是计算机视觉领域一个重要而基础的问题:图像分类。简单来说,就是将一幅图像赋以一个语义标签,对这幅图像进行标识,如下图所示:

这里写图片描述
图像分类的任务就是将一个给定的图像赋予一个或者一组语义标签。

我们看到的是一只猫,但是对于计算机来说,看到的只是一个三维的数组,这个图像是248个像素宽,400像素高,而且有R,G,B三个通道,所以是一个248×400×3的数组,一共有296700个像素,每个像素的值在0-255的范围内,图像分类的任务就行将这所有的像素用一个语义标签进行标识,比如“cat”。

一般来说,对于visual recognition,我们需要解决以下一些困难或挑战:
Viewpoint variation:一个物体由于照相机拍摄的视角不同,会呈现不同的方向。
Scale variation: 尺度的变化,这是比较常见的一个问题。
Deformation: 有些物体可能会发现形变。
Occlusion: 物体的局部有可能被遮挡。
Illumination conditions:光照条件的变化有可能改变图像的像素值的分布。
Background clutter: 背景纹理与物体的纹理相似的话,会对识别造成很大影响。
Intra-class variation: 即使属于同一类的物体,也有可能呈现不同的形状,比如椅子,杯子等。

这里写图片描述

一个好的图像分类模型,应该能够很好地处理这些问题。

我们如何写一个算法来做这项工作呢,这个不像排序那么简单,因为我们不能直接写一个算法来确定图像里的物体。因此,一般来说,我们会先给计算机一些样本,通过这些样本让计算机了解每一类物体的性质,这种方法称为data-driven(数据驱动),因为这类方法要依赖于事先收集的一些训练数据。下图给出了一些训练数据的示例:

这里写图片描述

在实际的应用中,可能会有几千个类别而每一类可能会有成千上万个样本。一个完整的图像分类模型包含以下几个步骤:
Input:我们的输入包括N张图像,每张图像都有相应的标签,这些标签属于K个不同的类别,这组图像称为训练集。
Learning: 我们的任务是通过训练集让计算机知道每一类的性质,这个过程称为训练阶段或者学习阶段。
Evaluation: 最后,我们要用训练好的模型来评估一些从未见过的图像,对这些图像进行分类,并将预测标签与该图像的真实标签比较。

Nearest Neighbor Classifier

我们先介绍一种很简单的分类模型:最近邻分类器,这个模型与我们将要介绍的CNN没有什么关系,而且在实际应用中,也很少用到这个模型,但是可以用这个模型来了解图像分类的处理流程。

这里我们要用到的数据库是:\textbf{CIFAR-10},这是一个非常流行的用于图像分类的数据库,这个数据库包含10类图像,一共含有60000张图,每张图的宽和高都是32,每张图都有一个类标签,这60000万张图分成两部分,其中50000张图作为训练集,剩下的10000张图作为测试集。下图给出了该训练集的一些样图:

这里写图片描述

左图:训练集里的一些样图。右图:第一列是测试图,其它图是与该测试图最相似的训练图。

现在,假设我们有这样一个数据库,包含属于10个类别的共50000个训练样本,每个类别有5000张图,最近邻分类器拿到一张测试图,会将该测试图与训练集的每一个
样本进行比较,挑出离该测试图最近的训练样本,并且将该训练样本的类标签赋给该测试图,换句话说,离该测试图最近的样本是什么类,那么该测试图就属于该类,
我们可以看到,利用这个分类器,上面右边的10个测试样本只有三个赋予了正确的类标签,其它7个样本都错了,比如第8个样本是一个马的头,但是离它最近的训练样本
是汽车,这样这个马头的图像就被赋予汽车的标签了。

现在我们来定义Nearest Neighbor Classifier,最简单的一种定义就是像素级的比较,我们将一张32×32×3的图看成一个高维的向量,两张图的差距
定义为L1距离:

d1(I1,I2)=p|Ip1IP2|

还有一种常用的度量,是L2距离:
d2(I1,I2)=p(Ip1IP2)2

实验证明,利用L1,L2度量的效果并不理想,只有30%多一点,一种比较常见的改进是K-NN,我们不能只参考离测试样本最近的一个样本,我们要参考离测试样本最近的K个样本,然后利用投票策略,即,这K个样本中,哪一类的样本最多,我们就认为测试样本属于这一类。但是K-NN中的K到底要取多大?这个K可以称为hyperparameters,在机器学习中,如何选择参数也是一个需要仔细考虑的问题,一般来说test set只能用来做最后的评估,而且只能用一次,不能用test set来选择最佳的hyperparameters,一个可行的方案是将训练集分成两部分,我们将拥有绝大多数训练样本的那部分用来训练,称为training set,而只有很少一部分训练样本的那部分用来评估不同的参数对模型的影响,这部分称为validation set。

当样本总数很少的时候,我们一般会采取另外一种策略称为cross validation,将样本分为相同规模的几份,比如5份或者10份,然后,挑出一份做validation,剩下的做训练,这样循环一遍,以保证每一份都能被评估,这种策略相对来说比较耗时,因为需要循环地做训练和测试。

Pros and Cons of Nearest Neighbor classifier

接下来,我们要总结一下Nearest Neighbor classifier的优缺点,很显然,这种分类器的优点就是简单,易懂,而且不需要训练,但是它的缺点也很明显,一个是效率太低,测试的时候非常耗时,因为要和训练集
的样本逐个比较,在实际应用中,我们比较关心测试阶段的效率,因为训练可以提前做好,所以最近邻分类器不能满足实时检测,在实际应用中,很少用到这种分类器。最近邻分类器另外一个缺点是对像素亮度值的变化非常敏感,因为这个是基于像素值的比较,所以同一个物体,在不同光照,或者有遮挡的情况下,会出现很大的差距,更加合理的度量应该基于物体的语义及结构信息。如下图所示:

这里写图片描述

图像的偏移,部分遮挡,光照变化会使距离度量相差很大。

最后做一点总结:
我们介绍了图像分类的概念,并且介绍了一种很简单的分类器:最近邻分类器,而且我们也介绍了如何利用validation set或者cross validation来调整hyperparameters,我们也看到最近邻分类器的效果并不是很理想,最后我们探讨了L1,L2度量的缺陷,就是对像素值的变化比较敏感,而没有基于物体的语义及结构信息来进行度量。

声明:lecture notes里的图片都来源于该课程的网站,只能用于学习,请勿作其它用途,如需转载,请说明该课程为引用来源。

课程网站 http://cs231n.stanford.edu/

转载于:https://www.cnblogs.com/mtcnn/p/9412617.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记一次 .NET 某供应链WEB网站 CPU 爆高事故分析

一:背景 1. 讲故事年前有位朋友加微信求助,说他的程序出现了偶发性CPU爆高,寻求如何解决,截图如下:我建议朋友用 procdump 在 cpu 高的时候连抓两个dump,这样分析起来比较稳健,朋友也如期的成功…

html5做的太阳系

效果图&#xff1a; 源代码&#xff1a; <!DOCTYPE html><html><head><meta charset"UTF-8"> <title></title></head><body><canvas id"canvas" width"1000" height"1000" style&…

Windows 11 任务管理器重磅升级!界面迎来全新设计,十年来首次大改!

面向 Dev 频道的 Windows 预览体验成员&#xff0c;微软近日发布了 Windows 11 预览版 Build 22557。在此版本中&#xff0c;任务管理器迎来了全新的设计&#xff0c;这是其自 Windows 8 以来的首次变更&#xff0c; 也是任务管理器十年来最大的一次升级。史诗级更新&#xff0…

modbus调试工具 linux,linux libmodbus的移植

1.前言Modbus是一个工业通信系统&#xff0c;由带智能终端的可编程序控制器和计算机通过公用线路或局部专用线路连接而成。其系统结构既包括硬件、亦包括软件。它可应用于各种数据采集和过程监控。2.移植步骤第一&#xff0c;进入libmodbus目录下&#xff0c;在交叉编译器是最好…

微博自媒体,一个新的生态

昨日&#xff0c;微博、UC和360&#xff0c;三方宣布将联合打造自媒体平台&#xff0c;这是继微信公众平台、搜狐新闻客户端、百度百家、今日头条之后的又一大自媒体平台。自媒体平台之争正愈演愈烈&#xff0c;而这对自媒体人和读者来说都算是好事。为何巨头们钟爱自媒体起初微…

开发者说PaddleOCR的.NET封装与应用部署

本项目是一个基于PaddleOCR的C代码修改并封装的.NET的工具类库。包含文本识别、文本检测、基于文本检测结果的统计分析的表格识别功能&#xff0c;同时针对小图识别不准的情况下&#xff0c;做了优化&#xff0c;提高识别准确率。项目包含总模型仅8.6M的超轻量级中文OCR&#x…

转载 雨松mono Unity获取游戏对象详解(来自我的长微博)

Unity获取游戏对象详解&#xff08;来自我的长微博&#xff09; 转载 自 雨松mono 本文固定链接: http://www.xuanyusong.com/archives/2768转载请注明: 雨松MOMO 2014年06月16日 于 雨松MOMO程序研究院 发表我觉得Unity里面的Transform 和 GameObject就像两个双胞胎兄弟一样&a…

linux怎么看是否安装kde桌面,ubuntu 7上安装kde桌面

开始使用Red Hat是因为一次服务器配置的需要&#xff0c;学院的精品课程建设需要自己建立一个支持JSP/Servlet 的服务器&#xff0c;由于以前做开发一直在windows平台下开发很少在linux下进行开发&#xff0c;最多也就是在linux 下进行测试。不过Red Hat的体积确实不敢恭维&am…

CSHOP后台设置SMTP发邮件提示 Error: need RCPT command 错误解决

其实错误原因并不是因为此错误&#xff0c;经检测&#xff0c;邮件服务器返回的真实错误是 501 mail from address must be same as authorization user 。只因为同时返回了 503 Error: need MAIL command 和 503 Error: need RCPT command &#xff0c;而ECSHOP只提示了最后一…

真不值!技术大神,却只是阿里P6...

阅读本文大概需要5分钟。昨天在知乎上看到一个程序员发展的好问题&#xff1a;死月是前端领域一个比较知名的IP&#xff0c;之前在大搜车带领整个node团队&#xff0c;出过书写过技术专栏&#xff0c;在业内享有比较高的知名度。认识死月的同学都对他评价非常高&#xff0c;甚至…

linux之如何快速查看电脑内存大小

1、问题 linux之如何快速查看电脑内存大小 2、解决办法 vim /proc/meminfo 3、结果展示

有趣的时间

人的数字造型 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <embed width"160" height"70" allowscriptaccess"never…

为什么启动hbase shell后,创建按create 'test', 'cf'失败?

2019独角兽企业重金招聘Python工程师标准>>> 答&#xff1a;是hostname的问题。 sudo gedit /etc/localhosts 将你的主机名改为127.0.0.1 即可。 转载于:https://my.oschina.net/u/923087/blog/290592

mini2440:最简单的嵌入式linux驱动程序模块,mini2440:最简单的嵌入式Linux驱动程序模块 解决找不到mini2440……sample...

原文&#xff1a;http://myswirl.blog.163.com/blog/static/5131864220109143331356/注意&#xff1a;开发Arm平台的驱动&#xff0c;需要Arm平台的源码树&#xff1b;注意&#xff1a;ARM平台的linux内核源码需要先编译&#xff0c;否则无法编译驱动&#xff1b;第一种方式&am…

机器学习-tensorflow

为什么80%的码农都做不了架构师&#xff1f;>>> 例子1 先从helloworld开始: tubuntu:~$ python Python 2.7.6 (default, Oct 26 2016, 20:30:19) [GCC 4.8.4] on linux2 Type "help", "copyright", "credits" or "license&qu…

C# 多个异步方法的异常处理

、如果调用两个异步方法&#xff0c;每个都会抛出异常&#xff0c;该如何处理呢 ? 在下面的示例中&#xff0c;第一个 ThrowAfter 方法被调用&#xff0c;2s 后抛出异常(含消息 first)。该方法结束后&#xff0c;另一个 ThrowAfter 方法也被调用&#xff0c;1s 后也抛出异常。…

linux解pdf隐写工具,Linux版PDF解密工具PDFDecryptionTool-Deepin-amd64.deb下载

PDF解密工具PDFDecryptionTool的deb安装包提供下载了&#xff0c;可用在Deepin 20.2等Linux发行版中。该工具用于解除PDF文件的所有者权限的密码&#xff0c;解除编辑、复制等限制。另外&#xff0c;PDFDecryptionToolWin.py为Windows版本&#xff0c;针对Windows优化了下UI&am…

Mysql中explain命令查看语句执行概况

Mysql中可以使用explain命令查看查询语句的执行方式&#xff0c;使用方法举例&#xff1a;explain 查询语句 例如&#xff1a;explain select * from user_info 几个重要的字段说明&#xff1a; table&#xff1a;此次查询操作是关联哪张数据表 type&#xff1a;连接查询操作类…

Android之java.lang.UnsatisfiedLinkError(Failed to register native method ***callMethod1())解决办法

1、问题 Failed to register native method com.example.chenyu.test.JniClient.callMethod1() java.lang.UnsatisfiedLinkError: JNI_ERR returned from JNI_OnLoad in "/data/app/com.example.chenyu.test-2/lib/arm/libFirstJni.so" 如下图 2、解决办法 原因:…

代码段编辑器SnippetEditor 2.1

1.选择程序版本 2.可以创建文件夹 3.新建片段 4.给片段取名 5.双击进行编辑 6.点击保存 7.直接使用 转载于:https://www.cnblogs.com/shiworkyue/p/3844993.html