有监督学习
- 利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。
- 分类:当输出为离散的,学习任务为分类任务。
- 回归:当输出为连续的,学习任务为回归任务。
- 训练集:用来训练的已标注的数据,用来建立模型,发现规律。
- 测试集:已标注的数据,通常隐藏标记,输送给以训练的模型,通过结果与真实标记对比,评估模型的学习能力。
- 训练集/测试集划分:
- 已标记数据随机选出一部分(70%)作为训练数据,其他作为测试数据。
- 交叉验证法;
- 自助法
- 分类学习-评价标准
- 精确率:针对预测结果的正确多少。以二分类为例,它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种是把正类预测为正类(TP),另一类就是把负类预测为正类(FP)。
- 召回率:是针对我们原来的样本而言的,它表示的是样本的正类有多少被预测正确了。那也有两种可能,一种是把原来的正类预测为正类(TP),另外一种是把原来的正类预测为负类( FN).
- 回归分析:相关性分析
- sklearn回归模块:sklearn.linear_model和sklearn.preprocessing