机器学习中规则化和模型选择知识

1 问题

     模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归clip_image002,也可以用多项式回归clip_image004。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)?

     还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数clip_image006

形式化定义:假设可选的模型集合是clip_image008,比如我们想分类,那么SVM、logistic回归、神经网络等模型都包含在M中。

2 交叉验证(Cross validation)

     我们的第一个任务就是要从M中选择最好的模型。

     假设训练集使用S来表示

     如果我们想使用经验风险最小化来度量模型的好坏,那么我们可以这样来选择模型:

1、 使用S来训练每一个clip_image010,训练出参数后,也就可以得到假设函数clip_image012。(比如,线性模型中得到clip_image014后,也就得到了假设函数clip_image016

2、 选择错误率最小的假设函数。

     遗憾的是这个算法不可行,比如我们需要拟合一些样本点,使用高阶的多项式回归肯定比线性回归错误率要小,偏差小,但是方差却很大,会过度拟合。因此,我们改进算法如下:

1、 从全部的训练数据S中随机选择70%的样例作为训练集clip_image018,剩余的30%作为测试集clip_image020

2、 在clip_image018[1]上训练每一个clip_image010[1],得到假设函数clip_image012[1]

3、 在clip_image020[1]上测试每一个clip_image012[2],得到相应的经验错误clip_image022

4、 选择具有最小经验错误clip_image022[1]clip_image012[3]作为最佳模型。

     这种方法称为hold-out cross validation或者称为简单交叉验证。

     由于测试集是和训练集中是两个世界的,因此我们可以认为这里的经验错误clip_image022[2]接近于泛化错误(generalization error)。这里测试集的比例一般占全部数据的1/4-1/3。30%是典型值。

     还可以对模型作改进,当选出最佳的模型clip_image010[2]后,再在全部数据S上做一次训练,显然训练数据越多,模型参数越准确。

     简单交叉验证方法的弱点在于得到的最佳模型是在70%的训练数据上选出来的,不代表在全部训练数据上是最佳的。还有当训练数据本来就很少时,再分出测试集后,训练数据就太少了。

     我们对简单交叉验证方法再做一次改进,如下:

1、 将全部训练集S分成k个不相交的子集,假设S中的训练样例个数为m,那么每一个子集有m/k个训练样例,相应的子集称作{clip_image024}。

2、 每次从模型集合M中拿出来一个clip_image010[3],然后在训练子集中选择出k-1个

{clip_image026}(也就是每次只留下一个clip_image028),使用这k-1个子集训练clip_image010[4]后,得到假设函数clip_image030。最后使用剩下的一份clip_image028[1]作测试,得到经验错误clip_image032

3、 由于我们每次留下一个clip_image028[2](j从1到k),因此会得到k个经验错误,那么对于一个clip_image010[5],它的经验错误是这k个经验错误的平均。

4、 选出平均经验错误率最小的clip_image010[6],然后使用全部的S再做一次训练,得到最后的clip_image012[4]

     这个方法称为k-fold cross validation(k-折叠交叉验证)。说白了,这个方法就是将简单交叉验证的测试集改为1/k,每个模型训练k次,测试k次,错误率为k次的平均。一般讲k取值为10。这样数据稀疏时基本上也能进行。显然,缺点就是训练和测试次数过多。

     极端情况下,k可以取值为m,意味着每次留一个样例做测试,这个称为leave-one-out cross validation。

如果我们发明了一种新的学习模型或者算法,那么可以使用交叉验证来对模型进行评价。比如在NLP中,我们将训练集中分出一部分训练,一部分做测试。

3 特征选择(Feature selection)

     特征选择严格来说也是模型选择中的一种。这里不去辨析他们的关系,重点说明问题。假设我们想对维度为n的样本点进行回归,然而,n可能大多以至于远远大于训练样例数m。但是我们感觉很多特征对于结果是无用的,想剔除n中的无用特征。n个特征就有clip_image034种去除情况(每个特征去或者保留),如果我们枚举这些情况,然后利用交叉验证逐一考察在该情况下模型的错误率,太不现实。因此需要一些启发式搜索方法。

第一种,前向搜索:

1、 初始化特征集F为空。

2、 扫描i从1到n,

如果第i个特征不在F中,那么将特征i和F放在一起作为clip_image036(即clip_image038

在只使用clip_image036[1]中特征的情况下,利用交叉验证来得到clip_image036[2]的错误率。

3、 从上步中得到的n个clip_image036[3]中选出错误率最小的clip_image036[4],更新F为clip_image036[5]

如果F中的特征数达到了n或者预设定的阈值(如果有的话),那么输出整个搜索过程中最好的F,没达到转到2

     前向搜索属于wrapper model feature selection。Wrapper这里指不断地使用不同的特征集来测试学习算法。前向搜索说白了就是每次增量地从剩余未选中的特征选出一个加入特征集中,待达到阈值或者n时,从所有的F中选出错误率最小的。

     既然有增量加,那么也会有增量减,后者称为后向搜索。先将F设置为{1,2,..,n},然后每次删除一个特征,并评价,直到达到阈值或者为空,然后选择最佳的F。

     这两种算法都可以工作,但是计算复杂度比较大。时间复杂度为clip_image040

第二种,过滤特征选择(Filter feature selection):

     过滤特征选择方法的想法是针对每一个特征clip_image042,i从1到n,计算clip_image042[1]相对于类别标签clip_image044的信息量clip_image046,得到n个结果,然后将n个clip_image046[1]按照从大到小排名,输出前k个特征。显然,这样复杂度大大降低,为O(n)。

     那么关键问题就是使用什么样的方法来度量clip_image046[2],我们的目标是选取与y关联最密切的一些clip_image042[2]。而y和clip_image042[3]都是有概率分布的。因此我们想到使用互信息来度量clip_image046[3],对于clip_image042[4]是离散值的情况更适用,不是离散值,将其转变为离散值,方法在第一篇《回归认识》中已经提到。

     互信息(Mutual information)公式:

clip_image047

     当clip_image042[5]是0/1离散值的时候,这个公式如上。很容易推广到clip_image042[6]是多个离散值的情况。

     这里的clip_image049clip_image051clip_image053都是从训练集上得到的。

     若问这个MI公式如何得来,请看它的KL距离(Kullback-Leibler)表述:

clip_image054

     也就是说,MI衡量的是clip_image042[7]和y的独立性。如果它俩独立(clip_image056),那么KL距离值为0,也就是说clip_image042[8]和y不相关了,可以去除clip_image042[9]。相反,如果两者密切相关,那么MI值会很大。在对MI进行排名后,最后剩余的问题就是如何选择k值(前k个clip_image042[10])。我们继续使用交叉验证的方法,将k从1扫描到n,取最大的F。不过这次复杂度是线性的了。比如,在使用朴素贝叶斯分类文本的时候,词表长度n很大。使用filter特征选择方法,能够增加分类器的精度。

4 贝叶斯统计和规则化(Bayesian statistics and regularization)

     题目有点绕,说白了就是要找更好的估计方法来减少过度拟合情况的发生。

     回顾一下,线性回归中使用的估计方法是最小二乘法,logistic回归是条件概率的最大似然估计,朴素贝叶斯是联合概率的最大似然估计,SVM是二次规划。

     以前我们使用的估计方法是最大似然估计(比如在logistic回归中使用的):

     clip_image057

     注意这里的最大似然估计与维基百科中的表述

       http://zh.wikipedia.org/wiki/%E6%9C%80%E5%A4%A7%E5%90%8E%E9%AA%8C%E6%A6%82%E7%8E%87

     有些出入,是因为维基百科只是将样本(观察数据)记为X,然后求P(X)的最大概率。然而,对于我们这里的样本而言,分为特征x和类标签y。我们需要具体计算P(X)。在判别模型(如logistic回归)中,我们看待P(X)=P(x,y)=P(y|x)P(x),而P(x)与clip_image059独立无关,因此最后的argmax P(X)由argmaxP(y|x)决定,也就是上式clip_image061。严格来讲clip_image061[1]并不等于样本X的概率,只是P(X)决定于clip_image061[2]clip_image061[3]最大化时P(X)也最大化。在生成模型,如朴素贝叶斯中,我们看待P(X)=P(y)P(x|y),也就是在某个类标签y下出现特征x的概率与先验概率之积。而P(x|y)在x各个分量是条件独立情况下可以以概率相乘方式计算出,这里根本没有参数clip_image059[1]。因此最大似然估计直接估计P(x,y)即可,变成了联合分布概率。

     在该上式中,我们视参数clip_image059[2]为未知的常数向量。我们的任务就是估计出未知的clip_image059[3]

     从大范围上说,最大似然估计看待clip_image059[4]的视角称为频率学派(frequentist statistics),认为clip_image059[5]不是随机变量,只是一个未知的常量,因此我们没有把clip_image063写成clip_image065

     另一种视角称为贝叶斯学派(Bayesian),他们看待clip_image059[6]为随机变量,值未知。既然clip_image059[7]为随机变量,那么clip_image059[8]不同的值就有了不同的概率clip_image067(称为先验概率),代表我们对特定的clip_image059[9]的相信度。我们将训练集表示成clip_image069,i从1到m。我们首先需要求出clip_image059[10]的后验概率:

clip_image070

     这个公式的推导其实比较蹊跷。第一步无可厚非,第二步中先看分子,分子中clip_image072最完整的表达方式是clip_image074。由于在分母中也会出现clip_image076,所以clip_image076[1]会被约掉。当然作者压根就没有考虑clip_image076[2],因为他看待P(S)的观点就是x->y,而不是(x,y)。再来看分母,分母写成这种形式后,意思是对所有的clip_image078可能值做积分。括号里面的意思是clip_image080,然后将其展开成分母的模样,从宏观上理解,就是在求每个样例的概率时,先以一定的概率确定clip_image078[1],然后在clip_image082clip_image078[2]的作用下再确定clip_image084的概率。而如果让我推导这个公式,我可能会这样写分母clip_image086,这样推导出的结果是clip_image088。我不知道自己的想法对不对,分歧在于如何看待clip_image078[3],作者是为每个样例都重新选定clip_image078[4],而我是对总体样本选择一个clip_image078[5]

 

     clip_image065[1]在不同的模型下计算方式不同。比如在贝叶斯logistic回归中,

     clip_image089

     其中clip_image090,p的表现形式也就是伯努利分布了。

     在clip_image059[11]是随机变量的情况下,如果新来一个样例特征为x,那么为了预测y。我们可以使用下面的公式:

     clip_image091

     clip_image002[4]由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:

     clip_image094

     大多数时候我们只需求得clip_image002[6]中最大的y即可(在y是离散值的情况下)。

     这次求解clip_image098与之前的方式不同,以前是先求clip_image059[12],然后直接预测,这次是对所有可能的clip_image059[13]作积分。

     再总结一下两者的区别,最大似然估计没有将clip_image059[14]视作y的估计参数,认为clip_image059[15]是一个常数,只是未知其值而已,比如我们经常使用常数c作为y=2x+c的后缀一样。但是clip_image063[1]的计算公式中含有未知数clip_image059[16]。所以再对极大似然估计求导后,可以求出clip_image059[17]

     而贝叶斯估计将clip_image059[18]视为随机变量,clip_image059[19]的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。

     然而在上述贝叶斯估计方法中,虽然公式合理优美,但后验概率clip_image100很难计算,看其公式知道计算分母时需要在所有的clip_image059[20]上作积分,然而对于一个高维的clip_image059[21]来说,枚举其所有的可能性太难了。

为了解决这个问题,我们需要改变思路。看clip_image100[1]公式中的分母,分母其实就是P(S),而我们就是要让P(S)在各种参数的影响下能够最大(这里只有参数clip_image059[22])。因此我们只需求出随机变量clip_image059[23]中最可能的取值,这样求出clip_image059[24]后,可将clip_image059[25]视为固定值,那么预测时就不用积分了,而是直接像最大似然估计中求出clip_image059[26]后一样进行预测,这样就变成了点估计。这种方法称为最大后验概率估计(Maximum a posteriori)方法

     clip_image102估计公式为

     clip_image103

     clip_image105clip_image107一样表示的是P(S),意义是在从随机变量分布中以一定概率clip_image067[1]选定好clip_image059[27]后,在给定样本特征clip_image082[1]clip_image084[1]出现的概率积。

     但是如果让我推导这个公式的时候,我会这么做,考虑后验概率clip_image100[2],我们的目标是求出最有可能的clip_image059[28]。而对于clip_image059[29]的所有值来说,分母是一样的,只有分子是不同的。因此clip_image109。也就是clip_image105[1]的推导式。但这个公式与上面的有些不同,同样还是看待每个样本一个clip_image059[30],还是总体样本一个clip_image059[31]的问题。

     与最大似然估计对比发现,MAP只是将clip_image059[32]移进了条件概率中,并且多了一项clip_image067[2]。一般情况下我们认为clip_image111,实际上,贝叶斯最大后验概率估计相对于最大似然估计来说更容易克服过度拟合问题。我想原因是这样的,过度拟合一般是极大化clip_image063[2]造成的。而在此公式中多了一个参数clip_image059[33],整个公式由两项组成,极大化clip_image065[2]时,不代表此时clip_image067[3]也能最大化。相反,clip_image059[34]是多值高斯分布,极大化clip_image065[3]时,clip_image067[4]概率反而可能比较小。因此,要达到最大化clip_image105[2]需要在两者之间达到平衡,也就靠近了偏差和方差线的交叉点。这个跟机器翻译里的噪声信道模型比较类似,由两个概率决定比有一个概率决定更靠谱。作者声称利用贝叶斯logistic回归(使用clip_image105[3]的logistic回归)应用于文本分类时,即使特征个数n远远大于样例个数m,也很有效。

转载于:https://www.cnblogs.com/jiangu66/p/3221739.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/400363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【51单片机快速入门指南】5.3:SPI控制晶联讯JLX12864G_08602 LCD屏幕

目录示例程序JLX12864G_08602.cJLX12864G_08602.hJLX12864G_08602_Font.cJLX12864G_08602_Font.h测试程序main.c效果STC12LE5A60S2 12MHz Keil uVision V5.29.0.0 PK51 Prof.Developers Kit Version:9.60.0.0 示例程序 stdint.h见【51单片机快速入门指南】1:基础知…

Android二维码之创建

由于微信的推出二维码走进了我们的生活,并且越来越多的人们正在发挥着自己的想象力去使用它,来方便我们的生活,我曾经听说过一个笑话,当我们死后,墓碑上不再有墓志铭,而会出现一个记录你一生信息的二维码&a…

如何开展软件架构之概念架构

如何开展软件架构之概念架构 到目前为止,我们已经完成了需求的分析过程,总结来说,主要的步聚是 一)需求结构化, 二)分析约束影响 三)重点关注质量需求。 那么接下来的阶段则是系统的概念架构了&…

【51单片机快速入门指南】6.1:LCD1602的八线、四线控制及自定义符号,完美兼容Proteus仿真

目录硬知识显示特性接口定义操作时序写操作时序读操作时序寄存器忙标志位BF地址计数器(AC)显示数据寄存器(DDRAM)CGROMCGRAM指令清屏指令光标归位指令进入模式设置指令显示开关控制指令设定显示屏或光标移动方向指令功能设定指令设…

在MAC OS 下配置python + Flask ,并支持pyCharm编辑器

https://www.cnblogs.com/lgphp/p/3841098.html 在MAC OS 下配置python Flask ,并支持pyCharm编辑器 flask是一个micro framework ,伸缩性很强。可以部署到openshift 的PAAS里。这个框架上手非常快。喜欢的可以试试。 若实在MAC里,python已经默认安装了…

MySql简介及概念

关系型数据库系统:建立在关系模型上的数据库系统。 关系模型:当将日常生活中的实体(学生),和实体的属性(学生的学号,姓名)保存数据中时,该如何处理该实体结构。1、数据结构可以规定&…

【51单片机快速入门指南】6.2:SPI 、八线、四线控制 LCD12864 屏幕及Proteus的仿真(支持中文汉字)

目录硬知识LCD12864简介主控芯片ST7920的功能是:驱动芯片ST7921的功能是:引脚功能时序并行通信串行通信指令存储结构操作取模软件的配置示例程序st7920.cst7920.h测试程序显示图片图片1实验现象图片2实验现象显示字符英文实验现象中文实验现象Proteus的仿…

【51单片机快速入门指南】仿真实例:幅值可调、频率可调的函数发生器(方波、三角波、正弦波)(1~10kHz)

目录效果设计思路STC89C52 Windows 10 20H2 Proteus 8 Frofessional v8.9 SP2 Keil uVision V5.29.0.0 PK51 Prof.Developers Kit Version:9.60.0.0 51函数发生器,附工程源码和Proteus仿真文件 效果 0 ~ 5V ,50Hz的正弦波: 1 ~ 4V&…

VisualSvn Server介绍

1 、VisualSvn Server VisualSvn Server是免费的,而VisualSvn是收费的。VisualSvn是Svn的客户端,和Visual Studio集成在一起,但是不免费,使用AnkhSvn(VS2008插件)来代替VisualSvn。使用 VisualSvn Server是…

【51单片机快速入门指南】6.3:DS18B20 单总线数字温度计的多路读取

目录硬知识DS18B20介绍时序初始化时序写时序读时序命令ROM 操作命令ROM 搜索举例存贮器操作命令示例程序DS18B20.cDS18B20.h测试程序定时器中断服务函数单传感器时ID的获取 main.c单传感器读取温度和读取特定ID传感器的温度多路传感器读取普中51-单核-A2 STC89C52 Keil uVisio…

SQL多行转多列

--★转换结果如上图 1、首先创建表: CREATE TABLE [成绩表]( [编号] [int]IDENTITY(1,1) NOT NULL, [姓名] [varchar](50)NULL, [语文] [numeric](5, 2)NULL, [数学] [numeric](5, 2)NULL, [英语] [numeric](5, 2)NULL ) ON [PRIMARY] 2、插入测试数据 INSERT INTO …

C#通过FFmpeg获得视频文件参数

C#通过FFmpeg获得视频参数 FFmpeg简介 FFmpeg is a complete, cross-platform solution to record, convert and stream audio and video(录制、转换 、音/视频,并可将其转换为音/视频流的完整的,跨平台的j解决方案).FFmpeg的开发…

【51单片机快速入门指南】6.3.1:使用1-WIRE搜索算法搜索单总线上所有DS18B20的ID(基于二叉树)

目录源码OWSearch.c测试程序实验现象Proteus仿真实机测试普中51-单核-A2 STC89C52 Keil uVision V5.29.0.0 PK51 Prof.Developers Kit Version:9.60.0.0 移植自1-WIRE搜索算法 串口部分见【51单片机快速入门指南】3.3:USART 串口通信 DS18B20驱动程序见【5…

卡拉丁发布第四代车用空调滤清器

5月15日,卡拉丁“全澄行动”第四代车用空调滤清器产品发布会在京举行,据悉,该车用空调滤清器PM2.5过滤效率可高达99%。经国家权威检测机构广东省微生物分析检测中心检测,卡拉丁第四代车用空调滤清器对大肠杆菌、金***葡萄球菌抗菌…

【 Grey Hack 】大数四则运算

目录效果加减乘除乘方源码版本:Grey Hack v0.7.3619 - Alpha 在Gs中,位数大于15的整数将以科学计数法显示,故这里提供一种基于字符串加法的四则大数运算算法。由于位数大于10的字符串无法用to_int方法转化为整数,因此本示例中以长…

uniapp打包小程序上传测试后,使用有的插件显示空白页面,问题解决方【有效 / 最新】

目录 问题1图在微信开发者平台正常能使用 打包上传微信小程序测试问题2图在微信开发者平台正常能使用 打包上传微信小程序测试解决步骤一1.2.3. 解决步骤二打开微信小程序官网看图跨域网址 最后 问题1图 在微信开发者平台正常能使用 未上传小程序,开发过程中&…

django加载本地html

django加载本地html from django.shortcuts import renderfrom django.http import HttpResponse from django.shortcuts import render,render_to_response # Create your views here. def hello(request): return render_to_response("hello.html") 传递数据到htm…

Java知多少(68)面向字符的输出流

面向字符的输出流都是类 Writer 的子类,其类层次结构如图 10-5 所示。 图10-5 Writer的类层次结构图表 10-3 列出了 Writer 的主要子类及说明。 表 10-3 Writer 的主要子类类名功能说明CharArrayWriter写到字符数组的输出流BufferedWriter缓冲输出字符流PipedWriter…

Linux虚拟机的替代品:Docker与WSL2上手笔记

目录安装Docker可能出现的问题内核需更新Linux 内核更新包将 WSL 2 设置为默认版本An error occurred安装镜像使用Microsoft Store安装所选的 Linux 分发手动安装镜像及文件夹的共享Docker run 命令Windows Terminal的安装在Windows Terminal中直接运行已有的容器Windows 10 20…

flask需求文件requirements.txt的创建及使用

1.简介 Python项目中必须包含一个 requirements.txt 文件,用于记录所有依赖包及其精确的版本号用以新环境部署。 2.进入虚拟环境然后输入pip freeze > requirements.txt 每次安装或者升级了包之后最好也一并使用这个命令更新这个文件。 需求文件的内容示例…