在看论文《Measuring Vedio QoE from Encrypted Traffic》的时候看到TP(True Positives)、FP(False Positives)、Precison、Recall的概念,这属于数据挖掘方面的内容,学习之后特来记录。
首先,下面这个表格可以比较清晰地给出各个情况的名字,也很好记。T:True ,F:False,这个true或者false用于判断预测:若预测为1,实际为1 ,说明这个预测对了,是true的positive,记为TP;若预测为1,实际为0 ,说明这个预测对了,是false的positive,记为FP;以此类推另外两个。
这几个数据之间的比率也具有特定的意义。
True Positive Rate(真正率 , TPR)=TP/(TP+FN),即被正确预测的正样本数目/实际正样本数目。
True Negative Rate(真负率 , TNR)=TN/(TN+FP),即被正确预测的负样本数目/实际负样本数目。
False Positive Rate(假正率, FPR) = FP /(FP + TN),即被预测为正的负样本结果数 /负样本实际数
False Negative Rate(假负率 , FNR)=FN /(TP + FN),即被预测为负的正样本结果数 / 正样本实际数
Precison=TP/(TP+FP)
Recall=TP/样本总数(此处有疑问,论文与后注参考网站所说不符,此处为论文说法)
此网站说得较详细,可以参考:http://www.fullstackdevel.com/computer-tec/data-mining-machine-learning/501.html