Single number evaluation metric
建一个评估指标。可以是准确率、召回率、F1 score。
Satisficing and Optimizing metric
很多时候我们需要协调多个因素,达到自己的目的。例如猫分类器,我们想要准确率,又想要运行时间快。这个时候我们可以设立一个目标score=accuracy-0.5*runtime。我们非常在意,想要非常非常高的那个指标称为Optimizing metric,这里准确率就是。那些我们认为达到一定值就可以的指标,称为Satisficing metric。例如运行时间,只要在100ms之内,至于是80ms还是90ms都可以。
关于训练集
数据集分为训练集、交叉验证集、测试集。每个数据集的数据分布应该是相同的。
在数据量百万以下,训练集/测试集=7/3,训练集/交叉验证集/测试集=6/2/2。
如果数据量非常大,大于百万,则可以训练集/交叉验证集/测试集=98/1/1。
交叉验证集(dev set):目的是用来调整模型参数。
测试集的目的是:在模型训练完成,应用在实际系统前,评估一下模型的优劣,给自己增加自信心。一般来讲10,000训练样本或者100,000训练样本足以。如果你对这个值非常非常看重,可以增加测试集的样本量。
参考文献:
1 文章内容来源于Structuring Machine Learning Projects.