12.1 基础知识
计算学习理论就是关于机器学习的理论基础,其作用就是分析学习任务的困难实质,通过分析结果来知道算法设计,并为学习算法提供理论保证。
给定样例集,,假设为二分类问题,一般。假定中的所有样本服从隐含未知的分布,D中所有样本都是独立同分布样本。令h为从到的一个映射,其泛化错误为
h在D上的经验误差为
h的经验误差的期望等于其泛化误差,并将和分别简记为和。令,通常表示预先设定的学得模型所应满足的误差要求,也称之为“误差参数”。
接下来,我们将研究经验错误与泛化误差之间的逼近程度,如果h的经验误差为0,则称h与D一致,否则称其与D不一致。对于任意两个映射,可用下式度量
常用的不等式
Jensen不等式:对任意凸函数,有
.
Hoeffding不等式:若为m个独立随机变量,其满足,则对任意,有
McDiarmid不等式:若为m个独立随机变量,且对任意,f满足
则任意,有
12.2 PAC学习
若对任何样例有成立,则称c为目标概念,所有目标概念所构成的集合称为“概念类”,用符号表示。给定学习算法,所考虑的所有可能概念集合称为假设空间,用表示。如果目标概念,那么中存在假设能将所有示例按与真实标记一致的方式完全分开,则称其为“可分的”,也叫一致的;如果,那么中不存在任何假设能将所有示例完全正确分开,则称其为“不可分的”,也叫不一致的。
在实际训练中,我们无法精确地学到目标概念c,因为机器学习过程受到很多因素的制约。因此,我们是希望以较大的概率学得误差满足预设上限的模型。形式化地说,令表示置信度,可定义:
PAC辨识:对,所有和分布,若存在学习算法,其输出假设满足
,
则称学习算法能从假设空间中PAC辨别概念类。
PAC可学习:令m为分布中采样的样例数目,,若存在和多项式函数,使得对于任何,能从假设空间中PAC辨识概念类,则称概念类是PAC可学习的。
PAC学习算法:若学习算法 是概念类为PAC可学习的,且的运行时间也是多项式函数,则称为概念类的PAC学习算法。
样本复杂度:满足PAC学习算法所需的中最小的m,称为学习算法的样本复杂度。
PAC学习中一个关键因素是假设空间的复杂度。当,称为恰PAC可学习,意味着学习算法的能力与学习任务恰好匹配。然而,这种情况并不实际,因为先适应中我们对一无所知,更别说恰好相同了。所以,更重要的是研究,一般而言,越大,那么其包含任意目标概念的可能性越大,但是找到某个目标概念的难度也越大,当有限时,称为“有限假设空间”,否则为“无限假设空间”。
12.3 有限假设空间
12.3.1 可分情形
可分情形意味着目标概念属于假设空间,即,假定包含m个样例的训练集D,找出满足误差参数的假设的学习策略:由于任何在训练集D上出现标记错误的假设肯定不是目标概念,那么,我们保留与D一致的假设,剔除与D不一致的假设即可。当训练集D足够大,可不断提出不一致的假设,直到中仅剩下一个假设为止,这就是目标概念,但是,训练集规模有限,假设空间可能存在不止一个与D一致的等效假设,无法根据D对它们的优劣作进一步区分。
对PAC学习来说,只要D的规模能使学习算法以概率找到目标假设的近似即可。假定h的泛化误差大于,对分布上随机采样得到的任何样例,有
由于D包含m个独立同分布的样例,故h与D表现一致的概率为
由于事先并不知道会输出中的哪个假设,但仅需保证泛化误差大于,且表现完美的假设概率之和不大于即可:
上式不大于,即
可得
因此,有限假设空间都是PAC可学习的,所需空间如上式所示。
12.3.2 不可分情形
目标概念c不存在于假设空间中怎么解决?假定任何,中的任一假设都会出现或多或少的错误。由Hoeffding不等式易知:
引理1:若训练集D中包含m个从分布上独立分布采样的样例,,对于任意,有
:
推理1:同引理1相同条件下,下面式子以至少的概率成立:
由推理1可知,m越大,则h的经验误差是其泛化误差很好的近似。对于有限假设空间,有
定理1:若为有限假设空间,,对于任意,有
显然,当时,无法学的c的近似。但是,当给定时,其中必存在一个泛化误差最小的假设,找出其近似是一个较好的目标。中泛化误差最小的假设是,以此为目标可以把PAC学习推广到的情况,这就叫不可知学习。故有
定义1:不可知PAC可学习,令m表示样例数目,,对所有分布,若存在和,使得对任何,能从中输出满足下式的假设h:
则称假设空间是不可知PAC可学习的。
12.4 VC维
假定和示例集,中每个假设h都能对D中示例赋予标记,标记结果为
当m增大时,中所有假设对D中的示例结果数也会增大。
定义2 对所有,假设空间的增长函数为
其中,增长函数表示对m个示例所能赋予标记的最大可能结果数。显然,可能结果数越大,的表示能力越强,故对学习任务的适应能力也越强。
我们可以用增长函数来估计经验误差与泛化误差之间的关系:
定理2 对假设空间,,和任意有
定义3 假设空间的VC维是能被打散的最大示例集的大小,即
表示存在大小为d的示例集能被打散。因此,在数据分布未知的情况下,仍然能够计算出的VC维。一般情况下,这样来计算的VC维:如果存在大小为d的示例集能被打散,但是又不存在任何为d+1的示例集能被打散,则的VC维是d。
由定义3可知,VC维与增长函数有密切联系,下面的引理给出了两者之间的定量关系
引理2 若假设空间的VC维为的d,则对任意有
推论1 若假设空间的VC维为的d,则对任意整数有
定理3 若的VC维为d,则对任意,和有
定理4 任何VC维有限的假设空间都是(不可知)PAC可学习的。
12.5 Rademacher复杂度
给定训练集,假设h的经验误差为
其中体现了预测值与样例真实标记之间的一致性,经验误差最小的假设是
基于,可重写为
考虑到中所有假设,其期望为
其中。
考虑实值函数空间。令,其中,将上式中的和替换为和可得
定义4 函数空间关于的经验Rademacher复杂度
定义5 函数空间关于上分布的Rademacher复杂度
基于Rademacher 复杂度可得关于函数空间 F的泛化误差界
定理5 对实值函数空间,根据分布从中独立同分布采样得到l示例集,对任意,以至少的概率有
对于二分类问题,有以下定理
定理6 对假设空间,根据分布从中独立分布采样得到示例集,,,对任意,以至少的概率有
基于Rademacher 复杂度的泛化误差界依赖于具体学习问题上的数据分布,有点类似于为该学习问题"量身定制"的,因此它通常比基于vc维的泛化误差 界更紧一些。关于Rademacher复杂度与增长函数,有如下定理:
定理7 假设空间的Rademacher 复杂度与增长函数满足
由上述公式可得