1.机器学习定义
2.机器学习工作流程
(1)数据集
①一行数据:一个样本
②一列数据:一个特征
③目标值(标签值):有些数据集有目标值,有些数据集没有。因此数据类型由特征值+目标值构成或仅由特征值构成。
(2)数据分割:机器学习的数据集一般划分为训练数据(用于构建模型)和测试数据(用于模型评估)两个部分,划分比例一般为7:3、4:1、3:1。
(3)数据基本处理:对数据的缺失值、异常值进行处理
(4)特征工程(Feature Engineering):处理数据使特征在机器学习上更好发挥作用的过程
注:业界流传,数据和特征决定机器学习的上限,而模型和算法只是逼近这个上限
①特征提取:将任意数据(如文本或图像)转为可用于机器学习的数字特征
②特征预处理:通过一些转换函数将特征数据转成更适合算法模型的特征数据
③特征降维:在某些限定条件下,降低随机变量(特征)个数得到一组不相关的主变量
(5)机器学习:选择合适的算法对模型进行训练
(6)模型评估:对训练好的模型进行评估
3.机器学习算法分类(根据数据集组成不同进行划分)
(1)监督学习:输入数据由特征值和目标值组成,函数的输出(目标值)可以是一个连续的值(回归)或是有限个离散值(分类)
①回归问题:预测房价,根据样本集拟合出一条连续曲线
②分类问题:根据肿瘤特征预测是良性还是恶性
(2)无监督学习:输入数据由特征值组成,输入的数据没有被标记也没有确定结果,样本数据类别未知,需根据样本间的相似性对样本集进行类别划分
(3)半监督学习:训练集同时包含有标记(有目标值)数据和未标记(没有目标值)数据
(4)强化学习:实质是做决策问题,即自动进行决策,并且可以做连续决策,强化学习的目标就是获得最多的累计奖励
4.模型评估
(1)分类模型评估:准确率(预测正确的数占样本总数的比例)、精确率、召回率、F1-score、AUC指标
(2)回归模型评估:均方根误差RMSE(p_i为预测值,a_i为实际值)、相对平方误差RSE、平均绝对误差MAE、相对绝对误差RAE
(3)模型表现效果:过拟合(所建的机器学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳)、欠拟合(模型学习太粗糙,连训练集中样本数据的特征关系都没有学出来)
5.深度学习:也称深度结构学习、层次学习、深度机器学习,是一类算法集合,是机器学习的一个分支,在会话识别、图像识别和对象侦测等领域表现出惊人的准确性。