目录
2-1泛化能力
2-2过拟合和欠拟合
2-3三大问题
2-4评估方法
2-5调参和验证集
2-6性能度量
2-7比较检验
2-1泛化能力
如何进行模型评估与选择?
2-2过拟合和欠拟合
泛化误差:在“未来”样本上的误差
经验误差:在训练集上的误差,亦称“训练误差”‘
过拟合:把训练样本自身的一些特点当成了所有潜在样本都会具有的一般性质
欠拟合:对训练样本的一般性质尚未学好
在使用算法时问自己两个问题:
1.该算法如何解决overfitting?
2.在什么时候解决overfitting会失效?
2-3三大问题
三个关键问题:
如何获得测试结果?——>评估方法
如何评估性能评估?——>性能度量
如何判断实质差别?——>比较检验
2-4评估方法
关键:怎么获得“测试集”?
测试集应该与训练集互斥
常见方法:留出法;交叉验证法;自助法
留出法:
拥有的数据集一部分用于训练,一部分用于测试
k-交叉验证法:
若k=m,则得到“留一法”
自助法:
2-5调参和验证集
算法的参数:一般由人工设定,亦称“超参数”
模型的参数:一般由学习确定
区别:训练集vs测试集vs验证集
其实验证集就是训练集的一部分,只是训练集中一部分用于训练,留出一部分用于调参数,亦称为验证集
2-6性能度量
性能度量是衡量模型泛化能力的评价标准,反映了任务需求
使用不同的任务度量往往会导致不同的评判结果
什么模型是“好”的,不取决于算法和数据,还取决于任务需求
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例
TP:模型预测为真,实际为真
FN:模型预测为假,实际为真
FP:模型预测为真,实际为假
TN:模型预测为假,实际为假
一般来说,查准率和查全率是一对矛盾的度量
F1是基于查准率和查全率的调和平均定义的
在一些应用中对查准率和查全率的重视程度有所不同,例如在商品推荐系统中,更希望推荐的是用户感兴趣的内容,此时查准率比较重要;而在逃犯检索系统中,更希望抓到所有逃犯,因此,查全率更为重要。
2-7比较检验
有了实验评估方法和性能度量,看起来就能对学习器的性能进行评估比较了。但实际上机器学习中性能比较这件事比大家想的复杂得多。
统计假设检验为我们进行学习器性能比较提供了重要依据。基于假设检验结果我们可以推断出,若在测试集上观察到学习器A比B好,则A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。