Convolutional Neural Networks for Visual Recognition 1

Introduction

这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程。这个课程重点介绍了deep learning里的一种比较流行的模型:Convolutional Neural Networks,简称CNN,主要利用CNN来做visual recognition,或者说是image classification,object recognition等。我自己在学习的过程中,一边翻译一边总结,整理出这些中文版的lecture notes,英文好的同学可以直接看原文,课程的网址是:

http://cs231n.stanford.edu/

学习这门课程,需要一定的数学基础,包括线性代数,概率论,统计等,还要对传统的机器学习有一定的了解,可以参考斯坦福大学机器学习大牛Anderw的课程,另外一个前提条件是编程,这门课程没有用matlab,而是用了当下比较流行的一种语言python,课程中所有的程序都是用python写成的,所以还要学习python编程,这门课程对python有简单的介绍,并且还推荐了相应的python版本及编译器,这些信息都可以在课程网站上找到。

我在这里转译的中文lecture notes,认为大家都已经搞定了上述所需的前提条件,就是有一定的数学基础,也了解机器学习,并且安装了相应的python和IDE(推荐Eclipse+Pydev),能够利用python进行编程。所以没有这些基础知识。下面是正式的课程内容。

Image Classification

首先介绍的是计算机视觉领域一个重要而基础的问题:图像分类。简单来说,就是将一幅图像赋以一个语义标签,对这幅图像进行标识,如下图所示:

这里写图片描述
图像分类的任务就是将一个给定的图像赋予一个或者一组语义标签。

我们看到的是一只猫,但是对于计算机来说,看到的只是一个三维的数组,这个图像是248个像素宽,400像素高,而且有R,G,B三个通道,所以是一个248×400×3的数组,一共有296700个像素,每个像素的值在0-255的范围内,图像分类的任务就行将这所有的像素用一个语义标签进行标识,比如“cat”。

一般来说,对于visual recognition,我们需要解决以下一些困难或挑战:
Viewpoint variation:一个物体由于照相机拍摄的视角不同,会呈现不同的方向。
Scale variation: 尺度的变化,这是比较常见的一个问题。
Deformation: 有些物体可能会发现形变。
Occlusion: 物体的局部有可能被遮挡。
Illumination conditions:光照条件的变化有可能改变图像的像素值的分布。
Background clutter: 背景纹理与物体的纹理相似的话,会对识别造成很大影响。
Intra-class variation: 即使属于同一类的物体,也有可能呈现不同的形状,比如椅子,杯子等。

这里写图片描述

一个好的图像分类模型,应该能够很好地处理这些问题。

我们如何写一个算法来做这项工作呢,这个不像排序那么简单,因为我们不能直接写一个算法来确定图像里的物体。因此,一般来说,我们会先给计算机一些样本,通过这些样本让计算机了解每一类物体的性质,这种方法称为data-driven(数据驱动),因为这类方法要依赖于事先收集的一些训练数据。下图给出了一些训练数据的示例:

这里写图片描述

在实际的应用中,可能会有几千个类别而每一类可能会有成千上万个样本。一个完整的图像分类模型包含以下几个步骤:
Input:我们的输入包括N张图像,每张图像都有相应的标签,这些标签属于K个不同的类别,这组图像称为训练集。
Learning: 我们的任务是通过训练集让计算机知道每一类的性质,这个过程称为训练阶段或者学习阶段。
Evaluation: 最后,我们要用训练好的模型来评估一些从未见过的图像,对这些图像进行分类,并将预测标签与该图像的真实标签比较。

Nearest Neighbor Classifier

我们先介绍一种很简单的分类模型:最近邻分类器,这个模型与我们将要介绍的CNN没有什么关系,而且在实际应用中,也很少用到这个模型,但是可以用这个模型来了解图像分类的处理流程。

这里我们要用到的数据库是:\textbf{CIFAR-10},这是一个非常流行的用于图像分类的数据库,这个数据库包含10类图像,一共含有60000张图,每张图的宽和高都是32,每张图都有一个类标签,这60000万张图分成两部分,其中50000张图作为训练集,剩下的10000张图作为测试集。下图给出了该训练集的一些样图:

这里写图片描述

左图:训练集里的一些样图。右图:第一列是测试图,其它图是与该测试图最相似的训练图。

现在,假设我们有这样一个数据库,包含属于10个类别的共50000个训练样本,每个类别有5000张图,最近邻分类器拿到一张测试图,会将该测试图与训练集的每一个
样本进行比较,挑出离该测试图最近的训练样本,并且将该训练样本的类标签赋给该测试图,换句话说,离该测试图最近的样本是什么类,那么该测试图就属于该类,
我们可以看到,利用这个分类器,上面右边的10个测试样本只有三个赋予了正确的类标签,其它7个样本都错了,比如第8个样本是一个马的头,但是离它最近的训练样本
是汽车,这样这个马头的图像就被赋予汽车的标签了。

现在我们来定义Nearest Neighbor Classifier,最简单的一种定义就是像素级的比较,我们将一张32×32×3的图看成一个高维的向量,两张图的差距
定义为L1距离:

d1(I1,I2)=p|Ip1IP2|

还有一种常用的度量,是L2距离:
d2(I1,I2)=p(Ip1IP2)2

实验证明,利用L1,L2度量的效果并不理想,只有30%多一点,一种比较常见的改进是K-NN,我们不能只参考离测试样本最近的一个样本,我们要参考离测试样本最近的K个样本,然后利用投票策略,即,这K个样本中,哪一类的样本最多,我们就认为测试样本属于这一类。但是K-NN中的K到底要取多大?这个K可以称为hyperparameters,在机器学习中,如何选择参数也是一个需要仔细考虑的问题,一般来说test set只能用来做最后的评估,而且只能用一次,不能用test set来选择最佳的hyperparameters,一个可行的方案是将训练集分成两部分,我们将拥有绝大多数训练样本的那部分用来训练,称为training set,而只有很少一部分训练样本的那部分用来评估不同的参数对模型的影响,这部分称为validation set。

当样本总数很少的时候,我们一般会采取另外一种策略称为cross validation,将样本分为相同规模的几份,比如5份或者10份,然后,挑出一份做validation,剩下的做训练,这样循环一遍,以保证每一份都能被评估,这种策略相对来说比较耗时,因为需要循环地做训练和测试。

Pros and Cons of Nearest Neighbor classifier

接下来,我们要总结一下Nearest Neighbor classifier的优缺点,很显然,这种分类器的优点就是简单,易懂,而且不需要训练,但是它的缺点也很明显,一个是效率太低,测试的时候非常耗时,因为要和训练集
的样本逐个比较,在实际应用中,我们比较关心测试阶段的效率,因为训练可以提前做好,所以最近邻分类器不能满足实时检测,在实际应用中,很少用到这种分类器。最近邻分类器另外一个缺点是对像素亮度值的变化非常敏感,因为这个是基于像素值的比较,所以同一个物体,在不同光照,或者有遮挡的情况下,会出现很大的差距,更加合理的度量应该基于物体的语义及结构信息。如下图所示:

这里写图片描述

图像的偏移,部分遮挡,光照变化会使距离度量相差很大。

最后做一点总结:
我们介绍了图像分类的概念,并且介绍了一种很简单的分类器:最近邻分类器,而且我们也介绍了如何利用validation set或者cross validation来调整hyperparameters,我们也看到最近邻分类器的效果并不是很理想,最后我们探讨了L1,L2度量的缺陷,就是对像素值的变化比较敏感,而没有基于物体的语义及结构信息来进行度量。

声明:lecture notes里的图片都来源于该课程的网站,只能用于学习,请勿作其它用途,如需转载,请说明该课程为引用来源。

课程网站 http://cs231n.stanford.edu/

转载于:https://www.cnblogs.com/mtcnn/p/9412617.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记一次 .NET 某供应链WEB网站 CPU 爆高事故分析

一:背景 1. 讲故事年前有位朋友加微信求助,说他的程序出现了偶发性CPU爆高,寻求如何解决,截图如下:我建议朋友用 procdump 在 cpu 高的时候连抓两个dump,这样分析起来比较稳健,朋友也如期的成功…

html5做的太阳系

效果图&#xff1a; 源代码&#xff1a; <!DOCTYPE html><html><head><meta charset"UTF-8"> <title></title></head><body><canvas id"canvas" width"1000" height"1000" style&…

html中#include file的使用方法

有两个文件a.htm和b.htm&#xff0c;在同一文件夹下a.htm内容例如以下 <!-- #include file"b.htm" --> b.htm内容例如以下 今天&#xff1a;雨 31 ℃&#xff5e;26 ℃ <br />明天&#xff1a;雷阵雨 33 ℃&#xff5e;27 ℃ 直接在浏览器中打开a&#…

Android之第一次不显示EditText光标

1、问题 光标会默认显示在第一个EditText框中&#xff0c;如果不想显示光标&#xff0c;且也不想把该光标移动到下一个EditText框。2、解决办法 在该 EditText之前增加一个不可见的LinearLayout<LinearLayout android:focusable"true"android:focusableInTouchMod…

读取bmp图片数据

1 public void getBMPImage(String source) throws Exception {2 3 clearNData(); //清除数据保存区4 FileInputStream fs null;5 6 try {7 fs new FileInputStream(source);8 int bfLen 14;9 …

Windows 11 任务管理器重磅升级!界面迎来全新设计,十年来首次大改!

面向 Dev 频道的 Windows 预览体验成员&#xff0c;微软近日发布了 Windows 11 预览版 Build 22557。在此版本中&#xff0c;任务管理器迎来了全新的设计&#xff0c;这是其自 Windows 8 以来的首次变更&#xff0c; 也是任务管理器十年来最大的一次升级。史诗级更新&#xff0…

modbus调试工具 linux,linux libmodbus的移植

1.前言Modbus是一个工业通信系统&#xff0c;由带智能终端的可编程序控制器和计算机通过公用线路或局部专用线路连接而成。其系统结构既包括硬件、亦包括软件。它可应用于各种数据采集和过程监控。2.移植步骤第一&#xff0c;进入libmodbus目录下&#xff0c;在交叉编译器是最好…

Android之用 ExpandableListView使用解析(三级列表的实现)

&#xfeff;&#xfeff;Android之用 ExpandableListView使用解析&#xff08;三级列表的实现&#xff09; 下载地址如下&#xff1a;http://download.csdn.net/download/u011068702/9839848

微博自媒体,一个新的生态

昨日&#xff0c;微博、UC和360&#xff0c;三方宣布将联合打造自媒体平台&#xff0c;这是继微信公众平台、搜狐新闻客户端、百度百家、今日头条之后的又一大自媒体平台。自媒体平台之争正愈演愈烈&#xff0c;而这对自媒体人和读者来说都算是好事。为何巨头们钟爱自媒体起初微…

开发者说PaddleOCR的.NET封装与应用部署

本项目是一个基于PaddleOCR的C代码修改并封装的.NET的工具类库。包含文本识别、文本检测、基于文本检测结果的统计分析的表格识别功能&#xff0c;同时针对小图识别不准的情况下&#xff0c;做了优化&#xff0c;提高识别准确率。项目包含总模型仅8.6M的超轻量级中文OCR&#x…

转载 雨松mono Unity获取游戏对象详解(来自我的长微博)

Unity获取游戏对象详解&#xff08;来自我的长微博&#xff09; 转载 自 雨松mono 本文固定链接: http://www.xuanyusong.com/archives/2768转载请注明: 雨松MOMO 2014年06月16日 于 雨松MOMO程序研究院 发表我觉得Unity里面的Transform 和 GameObject就像两个双胞胎兄弟一样&a…

ps之解决eps图片不能保存为png格式问题

1、问题 eps图片不能保存为png问题&#xff0c;日了狗 2、解决办法 原因&#xff1a; 在cmyk模式下&#xff0c;png不支持印刷输出的CMYK模式 在lab模式下&#xff0c;png或jpg不能存储LAB模式的色彩信息 将图片保存为png方法步骤&#xff1a; 图像——模式——选择RGB模式 3、…

linux怎么看是否安装kde桌面,ubuntu 7上安装kde桌面

开始使用Red Hat是因为一次服务器配置的需要&#xff0c;学院的精品课程建设需要自己建立一个支持JSP/Servlet 的服务器&#xff0c;由于以前做开发一直在windows平台下开发很少在linux下进行开发&#xff0c;最多也就是在linux 下进行测试。不过Red Hat的体积确实不敢恭维&am…

CSHOP后台设置SMTP发邮件提示 Error: need RCPT command 错误解决

其实错误原因并不是因为此错误&#xff0c;经检测&#xff0c;邮件服务器返回的真实错误是 501 mail from address must be same as authorization user 。只因为同时返回了 503 Error: need MAIL command 和 503 Error: need RCPT command &#xff0c;而ECSHOP只提示了最后一…

AngularJS之watch

简介 首先apply方法会触发evel方法&#xff0c;当evel方法解析成功后&#xff0c;会去触发digest方法&#xff0c;digest方法会触发watch方法。 在digest执行时&#xff0c;如果watch观察的的value与上一次执行时不一样时&#xff0c;就会被触发。 AngularJS内部的watch实现了页…

真不值!技术大神,却只是阿里P6...

阅读本文大概需要5分钟。昨天在知乎上看到一个程序员发展的好问题&#xff1a;死月是前端领域一个比较知名的IP&#xff0c;之前在大搜车带领整个node团队&#xff0c;出过书写过技术专栏&#xff0c;在业内享有比较高的知名度。认识死月的同学都对他评价非常高&#xff0c;甚至…

linux之如何快速查看电脑内存大小

1、问题 linux之如何快速查看电脑内存大小 2、解决办法 vim /proc/meminfo 3、结果展示

有趣的时间

人的数字造型 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title> </head> <body> <embed width"160" height"70" allowscriptaccess"never…

技术网址收藏

个人博客主页 http://www.mgenware.com/blog/ WPF开发一款软件自动升级组件 http://www.cnblogs.com/hiyz/archive/2012/07/12/2587458.html 限制RICHTEXTBOX的输入的范围 http://www.cnblogs.com/xe2011/p/3780793.html 计时器 http://www.cnblogs.com/xe2011/p/4439700.html …

为什么启动hbase shell后,创建按create 'test', 'cf'失败?

2019独角兽企业重金招聘Python工程师标准>>> 答&#xff1a;是hostname的问题。 sudo gedit /etc/localhosts 将你的主机名改为127.0.0.1 即可。 转载于:https://my.oschina.net/u/923087/blog/290592