一、概念
1.机器学习是一种通过先验信息来提升模型能力的方式。
即从数据中产生“模型”( model )的算法,然后对新的数据集进行预测。
2.数据集(Dataset):所有数据的集合称为数据集。
训练集:用来训练出一个适合模型的,相当于人预习用的数据集。
验证集:相当于游戏的内测玩家。
测试集:用来测试训练的模型对不对的数据集。
3.样本(Sample):数据集中 每条记录 称为样本。
4.属性(Attribute)或特征(Feature):每个样本 在某方面 的 表现或性质。
5.特征向量(Feature Vector):每个样本的特征 对应的特征空间中的一个坐标向量。
6.分类(Classification):使用计算机学习出的模型进行预测得到的是离散值。
(1)人话:你是人,他是狗。
(2)有二分类和多分类之分。
7.回归(Regression):使用计算机学习出的模型进行预测得到的是连续值。
8.聚类(Clustering):对无标签样本的相似度进行度量,挖掘特征、结构、内在性质,使类内相似度大,类间相似度小。
(1)人话:物以类聚,一样的放一块。
(2)与分类的区别:
a.分类是有监督,聚类是无监督(更diao)
b.聚类只要求相似度高的放一块,而分类则要求分到预定义的类别或标签。
9.输出结果(预测值)与其对应的真实值之间往往会存在一定的差异,这种差异被称为模型的输出误差,简称为误差。
(1)人话:误差=预测值-真实值 (正负先不管)
(2)分三种:
a.训练误差或称经验风险——指模型在训练样本集上的整体误差
b.测试误差——模型在测试样本集上的整体误差
c.泛化误差——测试集的泛化能力,泛化就是举一反三,就是白人是人,黑人也是人。
10.泛化能力:
(1)过拟合:就是过度拟合,猿猴不是人,但是非得说是人。
(2)欠拟合:就是不拟合,黑人是人,但是非得说黑人不算人。
11.机器学习的分类
(1)监督学习:人为干涉让模型更完美
分类:逻辑回归、决策树、KNN、随机森林、支持向量机、朴素贝叶斯
数字预测:线性回归、KNN、梯度提升(Gradient Boosting)、迭代算法(AbaBoost)
(2)非监督式学习:不管机器,让他自己来
典型例子:聚类算法
(3)半监督学习:人为干涉一点点,大部分让机器来,这是三者中最晚诞生的,自己掂量掂量。
(4)强化学习:与环境建立联系,然后各个动作产生的结果进行反馈(奖励或惩罚)。
12.机器学习的步骤:
数据收集+预处理(数据清洗)—— 特征选择+模型构建 —— 评估+测试
(1)模型构建的相关过程:
a. 建立训练数据集和测试数据集,通常80%为训练数据集。
b. 选择机器学习算法
c. 模型调优
d. 模型融合
二、习题
单选题:
1.构建一个完整的机器学习算法需要三个方面的要素,分别是数据、模型和(D )。
A、评估 B、验证 C、训练和验证 D、性能度量准则
3. 以下属于典型的监督学习的是(C )
A、聚类 B、关联分析 C、分类 D、降维
4. (A )是指机器学习算法对新鲜样本的适应能力。
A、泛化能力 B、测试能力 C、识别能力 D、训练能力
5. 欠拟合是指(C )
A、在训练集表现非常好,但在测试集上表现很差
B、在训练集表现非常好,但在测试集上表现也非常好
C、在训练集表现非常差,但在测试集上表现很差
D、在训练集表现非常差,但在测试集上表现非常好
6. 如果我使用训练集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明(B )
A、欠拟合 B、过拟合 C、模型很棒 D、模型不确定
18. 以下属于典型的无监督学习的是(C )
A、支持向量机
B、k-近邻算法
C、降维
D、逻辑回归
19. 下列关于过拟合的说法错误的是(A )。
A、模型的训练误差比较高,则称此分类模型过拟合。
B、可以通过选取具有代表性样本的训练样本集来解决过拟合问题。
C、模型的训练误差低但是泛化误差比较高,则称此分类模型过拟合。
D、可以通过预剪枝,避免决策树规模过大产生过拟合。
多选题:
1. 根据样本集合中是否包含标签以及半包含标签的多少,可以将机器学习分为(ABD )
A、监督学习 B、无监督学习 C、迁移学习 D、半监督学习
2. 以下属于解决模型过拟合的方法的是(ABD )
A、增加训练数据量 B、对模型进行裁剪 C、增加训练过程的迭代次数 D、正则化
3. 聚类的宗旨是(BD )
A、类内距离最大化 B、类间距离最大化 C、 类间距离最小化 D、类内距离最小化
6. 机器学习中,通常将数据集划分为(ABC )
A、训练集 B、验证集 C、测试集 D、对照集
判断题:
1. 根据模型预测输出的连续性,可以将机器学习算法适配的问题划分为分类问题和线性问题。(F )
答:回归
2. 降维、聚类是无监督学习算法。(T )
3. 当我们说模型训练结果过拟合的时候,意思是模型的泛化能力很强(F )
答:弱
4. 训练误差和泛化误差之间的差异越小,说明模型的泛化性能越好。(T )
17. 特征提取是指对现有特征进行重新组合产生新的特征,例如相对于年龄,出生年月就是冗余特征。(F )
答:从原始数据中抽取出新的特征
19. 聚类的目的是对样本集合进行自动分类,以发掘数据中隐藏的信息、结构,从而发现可能的商业价值。 (T )