李航《统计学习方法》笔记

虽然书名是统计学习,但是却是机器学习领域中和重要的一本参考书。当前的机器学习中机器指计算机,但是所运用的方法和知识是基于数据(对象)的统计和概率知识,建立一个模型,从而对未来的数据进行预测和分析(目的)。

第一段提到的模型是很重要的,事实上,模型(model)是统计学习方法的三要素之一,其他另外两个策略strategy和算法algorithm也是围绕模型的,简单来说,策略决定了使用什么样的损失函数(代价函数)评价当前模型的好坏。算法决定了具体如何对模型进行最优化求解。有人说搞深度学习就是在不断地修改loss函数,优化算法,仔细一想其实也有点道理。。。但是里面其实还是大有文章的。下面仔细研究一下三要素。

三要素之模型

模型,也就是建模,以全书主要讲的监督学习为例,就是希望通过已知的训练数据,得到模型,这个模型能充分描述数据的规律,从而预测数据。这里暗合了一个假设:训练数据和测试数据是独立同分布的。这里有两种情况:第一种认为数据的分布是基于某个分布概率随机分布的,对应概率模型,用条件概率P(Y|X)表示,;另外一种是认为数据严格遵循某种函数关系,即决策函数,其对应非概率模型,用决策函数f(X)表示。

监督学习得到的模型的方法有两大类:生成方法generative approach和判别方法discriminative approach.生成方法是先由先学习得到的联合概率分布求解得到条件概率,典型的生成模型有朴素贝叶斯法和隐马尔科夫模型。判别模型是由数据直接学习决策函数或者条件概率,典型的判别模型有k近邻法、感知机、决策树、最大熵模型、支持向量机、提升方法和条件随机场等。在GAN网络中有生成模型和判别模型,寻找二者的纳什均衡。这里的生成模型和生成方法应该不是同一个东西。

模型的选择可以通过正则化或者交叉验证。正则化是下面提到的结构风险最小化的实现。交叉验证主要是看如何分割数据集,反复进行训练,验证,测试。

三要素之策略

策略也就是如何选择loss/cost 函数,相当于一个标尺,通过这个标尺,我们才能知道想要达到一个什么目标(这个目标与代价函数有关,但绝不单单是最小化代价函数那么简单)。在这第一个需要选择的就是代价函数的选择,有0-1损失函数,平方损失函数,绝对损失函数,对数损失函数等。因为我们把输入的样本看作随机变量,每一个通过损失函数求得一个损失值,但是它们的期望才可以代表整个模型的好坏,这就需要用到联合分布概率。但同时联合分布是未知的,如果已知也就不需要监督学习了。所以继续用统计的知识,我们通过求均值,用平均损失,即经验风险来代替期望风险。到这里离我们找到目标还差一步,我们可以直接以经验风险最小化作为目标,极大似然估计就是这个道理,但是会造成过拟合,结果就是模型为了最大程度地适应样本数据,最后得到了一个很复杂模型,但是只是对已有样本拟合得好,因为无节制地迁就数据,包括一些特殊点和噪点,而没有找到普适性的一般规律,对测试数据的预测能力不佳。于是为了,平衡拟合性和模型的复杂度,新构造了一个函数作为我们最小化的目标,这就是结构风险,在经验风险的基础上加一个正则化项,它与模型的复杂度成正比。贝叶斯估计中的最大后验估计就是结果风险最小化的一个例子。

主要说一下结构风险最小化。结构风险最小化等价于正则化(规则化),因为对测试数据有良好的预测效果是不言而喻的要求,规则化还要求模型尽量简单,权衡了经验风险和模型复杂度。这就是参考链接1提到的奥卡姆剃刀原理(Occam’s razor)。到这里,监督学习变成了一个最优化问题,最小化一个目标函数,函数由两项构成,一个是Loss函数,一个是正则项。

不同的机器学习模型的Loss函数和正则化项都不同。链接1主要讲了正则项的选取。正则化项有两个作用,一个是起惩罚的作用,与模型复杂度成正比;一个是利用领域的先验知识对模型的特性有一个整体把握,控制模型特性,如使模型具有稀疏、低秩、平滑等特性。

三要素之算法

算法就没什么好说的了,因为统计学习到最后都归结为最优化问题,解析解不存在的情况下就用各种最优化算法寻找最优解。比如BP算法。我理解的caffe中solve.prototxt文件就是描述求解过程的。

最后提一下监督学习的应用:分类问题、标注问题、回归问题。这三类问题是由输入X和输出Y的连续还是离散的状态区分的。因为我们得到模型后最终的任务还是对数据预测。当输出变量Y是离散的,预测问题便成为分类问题,得到的模型便可叫做分类器。这里和图像分割一样,有两个重要的指标:精确率precision和召回率recall。当输入是一个观测序列,输出是标记序列或者状态序列,那么预测问题就是标注问题。状态是有限的,但是序列经过组合就可能变成无限的了。常用的统计方法有隐马尔科夫模型和条件随机场。输入与输出变量都是连续变量的预测问题称为回归问题,最常用的是最小二乘法求解。

关于预测数据的能力的表示,有一个专业的词叫泛化能力,通过泛化误差上界来衡量。这里有一个重要的不等式,还没有自己试着去证明。

Reference:

1.https://blog.csdn.net/zouxy09/article/details/24971995/

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【2018第五届世界互联网大会】世界互联网领先科技成果发布:带你看看这15项“黑科技”...

世界互联网领先科技成果发布现场。来源:央视网11月7日,第五届世界互联网大会“世界互联网领先科技成果发布活动”在浙江乌镇举行。这是世界互联网大会第三次面向全球发布领先科技成果。发布活动由中国工程院院士、中国互联网协会理事长邬贺铨主持&#x…

利用caffe的python接口实现DeepImageSynthesis实例

在之前实现faster rcnn的博客中,先是配置了caffe的python接口,但是在验证的时候用DeepTexture的实例没有成功。改用pycharm而不是jupyter notebook再试一试,毕竟在IDE中更好调试。 新建工程,选择anaconda2作为解释器,因…

深度:语音技术革命正在改变人类的交流方式

来源:资本实验室语言是我们日常交流的主要方式,可以让我们快速了解对方的意图,并做出适当的反应。但对很多语言障碍者而言,说话这一看似简单的行为依旧是难以想象的困难。语言是件极其复杂的事情,不仅仅是文字表面上的…

李航《统计学习方法》---感知机

这一章就讲了感知机。我觉得是深受工业革命的影响,把一些可以实现功能的基本单元都喜欢叫做什么机,这里的感知机,还有后来的以感知机为基础的支持向量机。直接看定义,看本质,实际上,感知机是一种线性分类模…

5G 对无线通讯芯片产业链的影响

来源:乐晴智库精选▌无线通信芯片概要:未来五年增速放缓,射频前端成为主要驱动力在智能手机普及的带动下,2012-2017五年无线通信芯片实现9.7%的复合增长率,根据iHS的数据,2017年市场规模达到1,322亿美金,占…

图像极坐标变换的研究

做图像配准的时候,发现图像进行旋转的情况下的配准有一些特殊。于是想到可以用极坐标进行配准。查了一下资料,发现大家用的更多的是对数极坐标Log Polar。 笛卡尔坐标系和极坐标系 先来说一下我们常用的笛卡尔坐标。X轴水平向右是正方向,y轴垂…

刚刚、Gartner发布物联网技术十大战略和趋势

来源:网络大数据Gartner的研究副总裁尼克•琼斯(Nick Jones)说:“物联网将在未来十年继续为数字化业务创新带来新的机遇,而许多新机遇有赖于新的或经过改进的技术。洞察创新物联网趋势的CIO们有机会领导本企业的数字化创新。”此外&#xff0…

图像的旋转和尺度缩放在对数极坐标系下的研究

首先来看一张特殊的同心圆图像及其极坐标变换:这是我自己在opencv下用cvLogPolar函数做的实验:极坐标原点选择在同心圆圆心时,同一个圆上的点到圆心的距离相等,所以映射在极坐标中应该是一组垂直于极轴的平行线。在自己的实验中因…

李航《统计学习方法》-----支持向量机

书中第七章才是支持向量机SVM,但在SVM与感知机有相似的地方,看了感知机的知识之后趁热先看看SVM。 首先回顾一下感知机。感知机的模型是线性分类模型,将两种类别标记为正负1,将新的样本输入线性函数,再将线性函数代入符…

乌镇互联网大会发布15项世界领先科技成果

来源:中央广电总台央视新闻客户端11月7日下午,第五届世界互联网大会“世界互联网领先科技成果发布活动”在乌镇互联网国际会展中心举行。大会共现场发布了15项世界互联网领域领先的“黑科技”,引得观众阵阵惊叹。15项世界互联网领先科技成果&…

OpenCV中的傅里叶的门道

接触到傅里叶-梅林算法,需要用到傅里叶变换,于是去查了一下OpenCV中的实现方法,没想到习以为常的傅里叶变换之中的门道还不少。 //傅里叶变换https://blog.csdn.net/keith_bb/article/details/53389819Mat I imread("Lena.jpg", I…

Science:人类迎来目前最为全面的癌症染色质可及性图谱

来源:吴晓波频道摘要:肿瘤在世界范围内导致人类死亡的首要原因之一,尤其是随着医疗水平的发展,人类的寿命的不断延长,癌症逐渐成为威胁人类健康的首要因素。肿瘤在世界范围内导致人类死亡的首要原因之一,尤…

傅里叶变换频谱的可视化保存

在上一篇关于傅里叶变换的博客中,知道了imshow的一个小trick:对normalize得到的0~1之间的浮点数构成的矩阵会进行放大255的操作,得到可视化的灰度图。即便是在python中也是如此操作的,只不过python中的函数封装得更加严密&#xf…

她取代马斯克成特斯拉新董事长 究竟什么来头?

来源:智车科技摘要:就如乔布斯之于苹果,对很多人来说,马斯克对特斯拉而言也有非凡的意义。甚至可以说,特斯拉的品牌吸引力很大程度上来自于“钢铁侠”本人。但由于当初任性发布“私有化”消息,被美国证交会…

十二天深入理解计算机系统(一)

计算机系统漫游 1 信息就是位上下文 系统中所有的信息都是由一串位表示的,在不同的上下文中,一个同样的字节序列可能表示一个整数、浮点数、字符串或者机器指令。 2 文本文件和二进制文件 有ASCII字符构成的文件称为文本文件,所有其他文件都是…

李航《统计学习方法》-----朴素贝叶斯

朴素贝叶斯法nave Bayes,在nave的中间字母上其实有两个点,查了一下才发现是法语中的分音符,在发音过程中发挥作用。但这不是重要的,重要的是在这种学习方法中贝叶斯承担了什么样的角色。 首先简单证明一下贝叶斯公式。联合概率Joi…

IEEE专访李开复:人类已打开潘多拉盒子,封堵AI变革只会徒劳

来源:《IEEE Spectrum》摘要:近期,李开复新书《AI未来》在美国同样反响不俗。在荣登多个排行榜后,IEEE旗下《IEEE Spectrum》,对李开复进行了专访,谈到了众多当前AI领域最受关注的话题。而且从《IEEE Spect…

Rand函数使用和对补码的理解

下面是在牛客网看到的一道题; //假设这n个数的序号依次为0,1,2,...,n-1,数组名为num void knuth1(int* pNum, int m, int n){srand((unsigned int)time(0));for (int i0; i<n; i){if (rand()%(n-i) < m)//rand()%(n-i)的取值范围是[0, n-i&#xff09;{cout << p…

深度学习巨头Yoshua Bengio清华演讲: 深度学习通往人类水平人工智能的挑战

来源&#xff1a;专知摘要&#xff1a;2018年11月7日晚&#xff0c;被称为“深度学习三巨头”之一的蒙特利尔大学计算机科学与运算研究系教授Yoshua Bengio在清华大学做了《深度学习抵达人类水平人工智能所面临的挑战&#xff08;Challenges for Deep Learning towards Human-L…

了解GAN网络

GAN网络&#xff0c;第一次听说它就不明觉厉。其他网络都是对输入图像进行某种处理&#xff0c;得到某种特定的输出。而GAN网络居然可以“无中生有”&#xff0c;无论是去除马赛克&#xff0c;还是换脸&#xff0c;还是对灰度图像上色&#xff0c;都显得不可思议&#xff0c;怎…