机器学习类型(按学习方式分):监督学习、半监督学习、无监督学习、强化学习;
通过已知标签训练集训练模型,使用模型及逆行预测、测试;
向量表示法,其中每一维对应一个特征(feature)或者称为属性,记为[x1,x2,...,xn]
特征值、特征、标签,共同完成训练集的数据填充,最后辅以训练样例;
不同量纲的数据则需要进行去量纲,分为区间缩放和标准化;
特征值缺失:可以分为删除数据和插补数据;
删除数据:按行、成对删除、删除变量;
插补数据:时间序列问题(无趋势、有趋势、季节性数据/均值、中位数、众数、随机插补、线性插值、季节性调整)、一般性问题(分类数据、连续数据/回归);
构建模型,确定要找的是哪类规律(函数形式)或者说假设空间,比如线性函数;随后确定策略,从众多可能的规律中选出最好的选择标准,