机器学习基石笔记5——为什么机器可以学习(1)

转载请注明出处:http://www.cnblogs.com/ymingjingr/p/4271742.html

目录

机器学习基石笔记1——在何时可以使用机器学习(1)

机器学习基石笔记2——在何时可以使用机器学习(2)

机器学习基石笔记3——在何时可以使用机器学习(3)(修改版)

机器学习基石笔记4——在何时可以使用机器学习(4)

机器学习基石笔记5——为什么机器可以学习(1)

机器学习基石笔记6——为什么机器可以学习(2)

机器学习基石笔记7——为什么机器可以学习(3)

机器学习基石笔记8——为什么机器可以学习(4)

机器学习基石笔记9——机器可以怎样学习(1)

机器学习基石笔记10——机器可以怎样学习(2)

机器学习基石笔记11——机器可以怎样学习(3)

机器学习基石笔记12——机器可以怎样学习(4)

机器学习基石笔记13——机器可以怎样学得更好(1)

机器学习基石笔记14——机器可以怎样学得更好(2)

机器学习基石笔记15——机器可以怎样学得更好(3)

机器学习基石笔记16——机器可以怎样学得更好(4)

 

五、Training versus Testing

训练与测试。

5.1 Recap and Preview

回顾以及预览。

首先回顾一下上一章学过的内容,学习在何种情况下是可行的。

在可学习的数据来自于一个统一的分布(distribution),且假设空间中的假设函数为有限个的情况下,其学习流程图如图5-1所示。

 

图5-1 一种可行的学习流程图

 

此图和前几章中的流程图最大的不同是加入了一个模块,准确的说是一种假设情况,假设训练数据样本和未知的测试样本来自同一的分布(这点尤为重要现有的大部分机器学习算法都从这点出发,好像迁移学习不是),并且假设空间的假设是有限的情况下,即|H| = M,M是有限的值,在训练样本N足够大,假设空间中的所有的假设都会遵循PAC准则,确保,每一个假设函数都可以满足近似相等的性质,因此可以通过算法在这些假设空间中找一个的假设,同样PAC也保证了。因此可以说机器学习在这种情况下是可行的。(训练样本和测试样本满足同分布,假设空间有限,并且训练数据足够大)

接着回顾一下之前四章的内容:

第一章介绍了存在一个未知的目标函数f,机器学习的任务是找出一个假设函数g,使得假设g和目标函数f很接近,即 ,用第四章的概念可以解释为在测试时的错误率接近零,即

第二章介绍了在训练时使假设函数g和目标函数f很接近就可以了,用第四章的概念可以解释为训练时的错误率接近零,即

第三章介绍了一种机器学习最基础、最核心的方法:使用批量的数据和监督式的学习来做二元分类。

第四章介绍了在假设空间不是太多,即假设函数有限的情况下,训练时的错误率和测试时的错误率很接近,即

从以上各章节中可以看出将机器学习分为了两个主要问题来解决:

  1. 是否能确保是足够接近的?这是连接第一章和第二章的桥梁。
  2. 如何使得足够小?这是第二章的内容,当然后面的章节还会继续介绍其他的技巧。

在第四章中介绍的假设空间的大小M与上述两个问题存在何种关系?通过一个表格进行分析,如表5-1所示。

 

表5-1 M的大小与两个条件的关系

 

M很小的时候

M很大的时候

第一个问题

满足,

M小的时候,两者不相等的几率变小了

不满足,

M大的时候,两者不相等的几率变大了

第二个问题

不满足,在M变小时,假设的数量变小,算法的选择变小,可能无法找到 接近0的假设。

满足,在M变大时,假设的数量变大,算法的选择变大,找到 接近0的假设的几率变大。

 

显然M趋于无穷大时,表现非常不好,如何解决这个问题呢?

需要寻找一个小于无限大M的替代值,并且这个值还和假设空间有关系,用 表示。以后的几章中讨论如何在M为无限大时,保证

 

5.2 Effective Number of Lines

线的有效数量。

第四章的结尾求出了在有限假设空间中 的上限,当时,使用联合上限(union bound),实际不等式的上界被放大了太多。假设在假设空间中包含无限多的假设函数,则此上限为无穷大,而真正合理的上界是不应该大于1(因为是个概率问题,其最大值也不会超过1)。

造成这一问题的原因是什么呢?很容易想到这个联合上界是不是过于宽松了。对,问题确实出在此处,学过集合的同学肯定都知道,两个集合的或集写成两个集合相加的形式时,一定要减去它俩的交集。而我们这里的问题出在,这几个集合不仅相交,而且交集很大,却没有被减掉,因此上界过于宽松。

继续回到假设空间的问题上,两个假设函数出现完全相同坏数据的可能性很大,如上一章表4-3的h2和h3就出现了几个相同的坏数据。举个简单的例子,在二维平面上进行二元线性分类,假设两条直线h1和h2很接近,那么就不难得出两种假设的坏数据也基本重叠,其实这种数据的分布应为图5-2所示。

 

图5-2 不好数据的分布

 

如果可以将这无限大的假设空间分成有限的几类,按照样本数据划分方式进行分类,如是 被定义为两种不同的类别。这一思路的原因个人认为有两个:一是这本身就是一个数据分类错误率的问题,从数据分类方式着手也很切要害;二是训练样本必然是有限的,分类的方式也是有限的,可以将无限的问题转换成有限的问题。

先从最简单的分一个样本点着手,假设是一个二元线性分类问题,一个样本的例子比较容易理解,如图 5-3所示。

 

图5-3 单一训练样本分类问题

 

一个样本点分类可以有几种方式?无非两种,该样本为正,或者为负。而假设空间中的所有假设或者称之为直线,都只能分属于这两种情况。

继续观察两个样本的情况,如图5-4所示。

 

图5-4 两个训练样本分类问题

 

这种情况可以分为如图所示的4种情况,也就是所有的直线可以分属这4个类中。

继续观察三个样本的情况,如图5-5所示。

 

图5-5三个训练样本分类问题

 

出现了8种情况,但是如果样本的分布转变一下呢?比如三排成一线,就只有6类,如图5-6所示。

 

图5-6三个训练样本排成一条直线的分类问题

 

继续观察四个样本的情况,如图5-7所示。

 

图5-7四个训练样本分类问题

 

说明一下此处只画了8种情况(其中一种还不可能线性可分),因为直接将其颠倒就可以得到剩下的8种情况,完全是对称的,所示总共有14种可以划分的种类。

不再无休止的继续举例,做一个总结。从上述内容可以看出,将无限多的假设和有限多的训练数据建立了一种关系,如图5-为是样本为二维时,二元线性可分的类型与样本数量的关系图。

 

图5-7二元线性可分的类型与样本数量的关系图

 

从图中可以推到出下述公式成立,如公式5-1所示。

 

    (公式5-1)

 

其中N在大于3的情况下,必然远小于2的N次方。其实即使是等于2的N次方,也可以说明右边的式子在N趋于无穷大的情况下是一个趋近于零的值,原因很简单,e这个自然常数的值大于2.7也大于2,因此右式是个递减函数,此处不做过多的推导了。

 

5.3 Effective Number of Hypotheses

超平面的有效数量。

上一节的内容介绍了,将无限多的假设转换成为有限多种类型上。

这种以训练样本的分类情况来确定一类假设的方式,称之为二分类(dichotomy),使用符号表示为H(x1,x2,…,xN),即假设空间在特定的训练样本集合(x1,x2,…,xN)上被分为几类。如表5-2所示,对二分类空间与假设空间做出比较。

 

表5-2 假设空间与二分空间的对比

 

假设空间H

二分H(x1,x2,…,xN)

举例

在空间中所有的线

{○○×, ○○○, ○××,..}

大小

无限大

上限为

 

以二元线性可分的情况举例,假设空间是在二维平面上的所有直线,它一定是无限的;而二分空间就是能将二维平面上的样本点划分为不同情况的直线种类(不同情况具体是什么意思,参见上一节),而它最多只是,因此是有限的。

现在的思路就是使用H(x1,x2,…,xN)的大小来取代无限大的M,如何取代呢?

会发现H(x1,x2,…,xN)的取值取决于训练样本的分布情况,因此要取消这种依赖的关系,取消的方式就是寻找在样本点个数固定的情况下最大的H(x1, x2, …, xN)取值,公式如5-2所示。

 

    (公式5-2)

 

符号表示一个比无限大的M小且与假设空间H有关的关于样本大小N的函数。这一函数叫做成长函数(growth function)。

如何具体化(就是只使用训练样本的大小N来表达出该函数)成长函数成为接下来需要解决的问题。先从简单的例子着手一步一步的推导到在感知器下该函数的具体表达。

第一个例子是举一个最简单的情况,在一维实数的情况下,并且限制分类的正方向指向固定的一边,求解成长函数。给这一分类情况起名叫做正射线(positive rays),如图5-8所示。

 

图5-8 正射线的二元分类

 

用数学的方式表示如下:

  1. 输入数据样本为R为实数集;
  1. 其假设空间可以表示为,其中a是阈值,表示大于某个实数a数据被分为正类,反之为负类。
  1. 本质是在一维平面上的感知器,只是比一维感知器少了相反方向可以为正的情况(此种分类已经规定向右的方向为正,而一维感知器可以规定相反的方向也为正,就比它多了一倍)。

正射线分类的成长函数很容易得出,如公式5-3所示。

 

(公式5-3)

 

求出的思路很简单, N个点两两之间的空隙个数为N-1,再加上端点的个数2(左端点是全正,右端点是全负),且可得出在N很大的情况下公式5-4成立。

 

(公式5-4)

 

课后题中提到了不规定正方向的情况下成长函数的计算即求在一维情况下感知器的分类情况,如公式5-5所示。

 

(公式5-5)

 

求解的思路为,在N个点上两两之间有2·(N-1)中可能,因为正方向没有规定了,所以此处比正射线的种类多出了一倍,剩下样本点都为正类,或者都为负,这两种情形,因此再加上一个2。

下一个例子还是在一维空间里,与正射线分类不同的是,这是一种中间为正两边为负的情况,叫做中间为正的分类(positive interval),如图5-9所示。

 

图5-9 中间为正的分类

 

其成长函数不难求出,如公式5-6所示。

 

    (公式5-6)

 

求解思路如下:此为一个两端都不固定范围的分类(正射线是固定一个端点,直接到头都为一种类型),因此在N+1个空隙中选择两个作为端点(样本两两之间有N-1个空隙,两端还各有一个),因此为一个组合问题 ,但是少算了一种全负情况,即两个端点在同一个空隙之中(是哪个空隙不重要,只要落到一起即为全负),所以再加1。

同样在N很大时,也小于上限,如公式5-7所示。

 

(公式5-7)

 

接着举一个二维平面上的例子,以凸图形分类为例,在凸区域内部为正,外部为负,也就是凸区域的边界作为假设函数的划分线,如图5-10所示。

 

图5-10 a) 蓝色部分表示一种凸的图形 b)蓝色部分表示非凸的图形

 

如何求解在这种情形下的成长函数?成长函数是寻找一个最大值的情形,因此要取一些极端的情况,比如所有的点都落在一个圆圈上,用一个凸多边形将所有正类的样本点连接起来,将此图形稍微的放大一点,得到的凸多边形,其中间的区域为正,外边的区域为负,如图5-11所示。

 

图5-11 凸多边形分类

 

课程里说到此处就直接给出结果了,如公式5-8所示。

 

    (公式5-8)

 

看了很久不知道为啥,想了两种可能的解释,不知道是否正确,

一种是将这个圆圈想象成一条直线,在这条直线上每个样本点不是根据一个端点或者两个端点来确定它的正类的范围,而是每个样本都可以为正类,即使它们不相邻,于是解释就简单了,每个点都可以选择为正类或者负类,就是每个点都有两种可能的情况,那么N个点就可能有 种情况。

另外一种想法是直接在二维平面上画图,在这里就阐述一下,以五个样本作为例子,如图5-12所示。

 

图5-12 五个样本点的凸多边形分类

 

将这五个样本点分成两类的方法一共有多少种(和正射线分类一样,正方向是有限制的,即多边形内部为正),从最简单两种情况出发,全为正和全为负,其相加为2,然后是四个样本为正的情况有多少种(就是图中有多少个凸四边形),就是从五个样本中取4个的情况有几种,答案是 ,然后是有多少个三角形,就是图中三个样本为正的情况,答案是,接着是有多少个直线,将样本点画成2个样本为正的情况,答案是 ,最后是只有一个样本点为正的情况,答案是 ,将所有的情况加起来得 ,推广到N中情形,如公式5-9所示。

 

    (公式5-9)

 

以上公式可以通过二项式推导出来,不是凑巧左边的形式正好等于2的N次方的形式,二项式的推导如公式5-10所示。

 

    (公式5-10)

 

如果N个样本点可以写出 种类型的假设,即公式5-8成立的情况下,我们称N个样本点满足完全二分类情形(shattered),即可以分为 种二分类(dichotomy)。

 

5.4 Break Point

突破点。

将上一节中列举出来的所有成长函数列在表5-3中。

 

表5-3 各分类的成长函数

正射线

        一维空间的感知器

间隔为正的分类

凸图形分类

二维平面的感知器

在某些情况

 

更希望得到一种多项式(polynomial)形式的成长函数,而不是指数(exponential)形式的,因为这样上界 的下降速度将会更快。能否找出一种规律将表中二维感知器的成长函数也写成多项式形式的呢?于是提出了一个新的概念,突破点(break point)。

那什么叫突破点呢?对于三个样本点的感知器,所有的样本还是满足完全二分类情形(shattered,也就是还是可以最大化分类的),但是四个样本是却不能满足完全分类情形(不能满足 种分类了),于是我们称不能满足完全分类情形的样本数量为突破点,可以想象得出当有更多的样本点时,一定也不能满足完全分类情形。因此二维感知器成长函数的突破点是4。在通过一个表5-4来说明上节提到的所有分类情况。

 

表5-4各分类的突破点与成长函数的关系

正射线

突破点是2

一维空间的感知器

突破点是3

间隔为正的分类

突破点是3

凸图形分类

没有

二维平面的感知器

突破点是4

在某些情况

 

从表中可以看出可能成长函数和突破点之间有一定的关系,即突破点是k的情况下,成长函数 。(但是这是一个过于宽松的上界,从表5-4的第二行可以看出成长函数实际比这个规律要小)

转载于:https://www.cnblogs.com/ymingjingr/p/4285358.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PPT|工业互联网关键技术专利态势

来源:中国信通院CAICT摘要:《工业互联网关键技术专利态势分析(2019)》对工业互联网的三个重要体系进行深入知识产权分析。以下PPT资料是工业互联网产业联盟和中国信通院团队对《工业互联网关键技术专利态势分析(2019&a…

生命简史——跨越地球40亿年

来源:新原理研究所摘要:你一定也曾好奇过,地球上的生命究竟是如何起源和演化的?它又是如何从简单的原核细胞不断地演化成复杂的多细胞?如此多元化的物种是如何进化而成的?每一次变化都历经了怎样的挑战与压…

图论解决复杂路口红绿灯安排,python语言实现

文章目录问题描述说明性描述操作性描述图着色问题图着色算法算法精化和python描述算法细节处理:python实现讨论问题描述 说明性描述 说明性描述说明了需要解决的问题是什么,针对什么样的问题,期望什么样的解 这是一个5条路的交叉口&#x…

从算法到硬件,一文读懂2019年 AI如何演进

来源:图灵TOPIA翻译:黄姗,杨鹏岳在刚刚过去的2018年,人工智能领域的大事件、新发现和新进展层出不穷。BERT重磅发布,刷新了很多NLP的任务的最好性能;GAN相关研究论文持续增长,生成的照片达到了以…

《阿丽塔》脑机接口正从科幻走向现实

来源:zhongcap摘要:《流浪地球》和《阿丽塔》前后脚上映,难免不让人比较一番。科幻片的魅力,在于它试验和想象未来的可能性。昨天晚上小编去看了卡梅隆的新作《阿丽塔:战斗天使》。《流浪地球》和《阿丽塔》前后脚上映…

全球首个AI女主播上岗了!太惊艳了!

来源:水木然摘要:前不久,全球首个AI女主播诞生的消息走红网络!刚刚,这位AI女主播今天正式上岗了!是不是非常惊艳?如果不是专门解释,她极有可能被为是真人!这位全球首个AI…

有原创保护能力的公众帐号可申请页面模版功能和图文消息正文插入历史群发链接...

之前微信公众平台仅针对开通了微信支付的公众号支持插入图文消息链接,现在微信团队对有原创保护能力的公众帐号开放页面模版功能、开放图文消息正文插入历史图文链接。(怎样申请成为有原创保护能力的公众帐号?也许有人会把页面模版和模板消息…

重磅!华为宣布起诉美国政府

来源:网易智能摘要:今天,华为在深圳总部召开发布会,宣布决定起诉美国政府。01指责美国政府窃取华为服务器华为宣布针对美国《2019财年国防授权法》第889条的合宪性向美国联邦法院提起诉讼,请求法院判定这一针对华为的销…

Spire.Pdf 的各种操作总结

Spire.Pdf 的各种操作总结简介 试验新产品总是给我带来许多挑战,当然这也是一个引进创新技术的好方法。在这里我要跟大家分享的是使用Spire.Pdf的过程,它是来自E-iceblue公司的轻便PDF程序库。 设计情节我以前经常没事就搞搞PDF。Spire.Pdf是用C# 写的PD…

从观望到行动:全球工业物联网市场生态全景观察

来源:资本实验室在当前,诸如5G,物联网、边缘计算、人工智能、机器人、区块链、增材制造和虚拟现实/增强现实等技术正在加速融合到工业物联网(Industrial Internet of Things,IIoT)的肥沃土壤中,…

OC语言知识6

本文目录 一、异步POST请求二、NSURLConnection的其他请求方法上一讲介绍了iOS中的异步GET请求,这讲来看看异步POST请求。 回到顶部一、异步POST请求 假如请求路径是http://192.168.1.102:8080/MJServer/login,请求参数有2个: username &…

谁能引领国内人工智能芯片产业突围?

来源:国金证券摘要:我们认为中国在处理器/芯片领域的投资有加速的迹象,AI芯片的创业企业目前已达到40家左右。未来因人工智能边缘运算推理端和云端推理(Inferencing)芯片及设备成本,性能,耗电,效率的考量,以及各种处理器的特性不同…

OC语言知识12

本文目录 一、添加一个简单的图层二、添加一个显示图片的图层三、为什么CALayer中使用CGColorRef和CGImageRef这2种数据类型,而不用UIColor和UIImage?四、UIView和CALayer的选择五、UIView和CALayer的其他关系* 上一讲已经说过,UIView内部默认…

计算机视觉介绍

1.为什么要学习图像处理和计算机视觉 计算机视觉市场需求大,其是人工智能的重要分支。 计算机视觉岗位占所有AI岗位的40%。 但是,中国高校目前尚未设置计算机视觉学科己专业;学习者众多,学习分散,缺少统一教学体系&a…

认识工业互联网

来源:智汇工业摘要:工业互联网是实现智能制造的抓手,推动工业互联网是长期的工作。工业互联网分为广义的工业互联网和狭义的工业互联网。广义的工业互联网就是第四次工业革命的代名词。和德国工业4.0以及中国制造2025类同,都是工业…

模式识别:绪论

模式识别(pattern recognition):输入原始数据并根据其类别采取相应行为的能力。 具体实例:人脸识别、语音识别、文字识别、指纹识别、DNA序列分析。 要区分不同类别的个体,需要利用其一些物理特性上的差异,成为模式分类的特征。…

A16Z内部万字报告:人类与AI结合的最佳形态

来源:36Kr摘要:人工智能技术正在快速发展,将会给我们什么样的变化?人们应该如何与人工智能相处?近日,A16Z博客上放出了一篇内部报告,介绍了人工智能将会给我们的社会带来的变化,以及…

照明与图像

光通量: 人眼所能感受到的辐射功率,等于单位时间内某一波段的辐射能量和该波段的相对视见率的乘积。单位是lm(流明)1流明 0.00146瓦 辐照度 投射到一平表面上的辐射通量密度。指到达一表面上,单位时间,单位面积上的辐射能。以…

BZOJ3434 [Wc2014]时空穿梭

摔电脑摔电脑!JZP业界毒瘤! 400题纪念~哇终于上400了的说!!!好不容易欸! 题解什么的还是Orz iwtwiioi 我求组合数的方法明明是O(n)的,为什么这么慢!!!令人报警…

图像平滑滤波

卷积与滤波概念 离散卷积 丢两个骰子,求点数加起来为 ttt 的概率是多少? 两个骰子加起来为4的概率: f(1)g(3)f(2)g(2)f(3)g(1)f(1)g(3) f(2)g(2) f(3)g(1)f(1)g(3)f(2)g(2)f(3)g(1) 写成卷积标准形式为: (f∗g)(4)∑i13f(i)g(…