统计学习的定义
统计学习(statistical learning):关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
统计学习的特点
特点
统计学习以计算机机网络为平台,是建立在计算机网络之上的;
统计学习以数据为研究对象,是数据驱动的学科;
统计学习的目的是对数据进行预测和分析;
统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析;
统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独自的理论体系与方法论。
学习的定义:如果一个系统能够能够执行某个过程改进它的性能,这就是学习。按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。现在,当人们提及机器学习时,往往是指机器学习。
统计学习的对象
统计学习的对象是数据(data),它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去,作为统计学习的对象,数据是多样的,包括存在于计算机及网络上的各种数字、文字、图像、视频、音频数据以及它们的组合。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指某种共同性质的数据。由于他们具有统计规律性,所以可以用概率统计方法加以处理。
统计学习的目的
统计学习用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。对数据的预测可以是计算机更加智能化,或者说使计算机的某些性能得到提高;对数据的分析可以让人们获得新的知识,给人们带来新的发现。
对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。
统计学习的分类
监督学习(supervised learning ):任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测(注意此处的输入输出指的是某个系统的输入输出,与学习的输入输出不同)。监督学习是极其重要的统计学习的分支,也是统计学习中内容最丰富的、应用最广泛的部分。
分类问题:监督学习核心问题,在监督学习中,当输出变量取有限个离散值时,预测问题就变成了分类问题。这时,输入X可以是离散,也可以是连续的。监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。分类器对新的输入进行输出的预测,称为分类,可能的输出称为类。分类的类别为多个时(多于两个),称为多类分类问题。
标注问题:是分类问题的一个推广,标注问题是一个更复杂的结构预测问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
注意,可能的标记个数是有限的,但其组合所成的标记序列的个数是依序长度呈指数级增长的。
回归问题:函数拟合.
非监督学习(unsupervised learning):输出未明,作为监督与增强学习的预处理。
- 半监督学习(semi-supervised learning)
- 强化学习(又称增强学习,reinforcement learning):输出行为,经过行为获得回报最优,有延迟,训练较难。
统计学习的方法
统计学习方法三要素,方法=模型+策略+算法。下面以监督学习中的统计学习三要素为例说明,非监督学习、强化学习也同样拥有这三要素,可以说构建一种统计学习方法就是具体的统计学习三要素。
模型:监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间 包含所有可能的条件概率分布 或 决策函数。
本书中称由决策函数表示的模型为非概率模型,有条件概率表示的模型为概率模型。
策略:有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或者选择最优的模型,统计学习的目标在于从假设空间中选取最优的模型。引入 损失函数与风险函数的概念,损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。损失函数值越小,模型就越好平均意义下的损失,称为风险函数或期望损失,学习的目标就是选择期望风险最小的模型。期望风险是模型关于联合分布的期望损失, 经验风险是模型关于训练样本集的平均损失。根据大数定理,当样本容量N趋于无穷时,经验风险趋于期望风险。由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常不理想,要对经验风险进行一定的矫正,这就关系到监督学习的两个基本策略: 经验风险最小化和结构风险最小化(结构风险最小化是为了防止过拟合提出来的策略)。
算法:学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优的模型,最后需要考虑用什么样的计算方法求解最优的模型。
统计学习的研究
统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。统计学习方法的研究旨在开发新的学习方法;统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;统计学习的研究主要考虑将统计学习方法应用到实际问题中去,解决实际问题。
统计学习的重要性
近20年来,统计学习无论在理论还是在应用方面度得到了巨大的发展,有许多重大突破,统计学习已被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多计算机应用领域中,并且称为这些领域的核心技术。人们确信,统计学习将会在今后的科学发展和技术应用中发挥越来越大的作用。
统计学习学科在科学技术中的重要性体现在以下几个方面:
(1)处理海量数据
(2)计算机智能化
(3)计算机科学发展的一个重要组成部分
模型评估与模型选择
模型评估
- 训练误差与测试误差
统计学习的目的是学到的模型不仅对已知数据而且对位置数据都能有很好的预测能力。不同的学习方法会给出不同的模型,当损失函数给定时,基于损失函数的模型的训练误差和模型的测试误差就自然成为学习方法评估的标准。
统计学习方法具有采用的损失函数未必是评估时使用的损失函数,当然,两者一致是比较理想的。
训练误差的大小,对判断给定的问题是不是一个容易学习的问题是有意义的,但本质上不重要。测试误差反应学习方法对未知的测试数据集的预测能力,是学习中重要概念,显然,给定两种学习方法,测量误差小的方法具有更好的预测能力,是更有效的方法。通常将学习方法对未知数据的预测能力称为泛化能力。
模型选择
- 过拟合和模型选择
当假设空间含有不同复杂度(如不同的参数个数)的模型时,就要面临模型选择的问题。我们希望选择或学习一个合适的模型。如果在假设空间中存在“真”模型,那么所选择的模型应该逼近模型。具体地,所选择的模型要与真模型的参数个数相同,所选择模型的参数向量与真模型的参数向量相近。
过拟合:如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型高,这种现象称为过拟合(over-fitting)。过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好,但对未知数据预测很差的现象。可以说模型选择旨在避免过拟合并提高模型的预测能力。
模型选择方法
正则化
定义:结构风险最小化策略的实现,是在经验风险上加上一个正则化项(regularization)或罚项(penalty term)。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。
正则化的作用是选择经验风险和模型复杂度同时较小的模型。
正则化符合Occam’s razor原理,该原理应用于模型选择时变为以下想法:在所有可能选择的模型中,能够很好地解释已知数据并且十分简单才是最好的模型,也就是应选择的模型 。从贝叶斯估计的角度看,正则化项对应于模型的先验概率,可以假设复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
具体可参考:机器学习之正则化
交叉验证
提出背景:如果给定的样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分为
训练集(training set),用来训练模型;
验证集(validation set),用于模型选择;
测试集(test set),用于最终对学习方法的评估。
在学习到不同复杂度模型中,选择对验证集有最小预测误差的模型,由于验证集有足够多的数据,用它对模型进行选择也是有效的。但是在很多实际应用中数据是不充足的。为了选择好的模型,可以采用交叉验证方法,交叉验证方法的基本思想是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行先练、测试以及模型选择。
分类
简单交叉验证:将数据集随机分为训练集和测试集。
K-折交叉验证:将数据等分为K份,每一部分都作为作为一次的测试集,计算k次求得的分类率的平均值,作为该模型或者假设函数的真实分类率。。示意图如下:
留一交叉验证:每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。留一发计算最繁琐,但样本利用率最高。适合于小样本的情况。
参考资料:2012.李航著.《统计学习方法》