目录
1)Learning with Different Output Space Y
2)Learning with Different Data Label
3)Learning with Different Protocol
4)Learning with Different Input Space X
在上一节课中,我们学到了第一个机器学习算法:PLA。它属于分类算法。在本节课中我,我们主要了解机器学习的种类。
这一节主要是一些概念性知识,但是是贯穿整个机器学习的。
1)Learning with Different Output Space Y
上节课中,我们学习了银行批发信用卡的例子,这是一个典型的二分类问题。输出只有两种情况。二分类问题可以说是机器学习中最基础也是最常见的问题,常见的有垃圾邮件判别,患者疾病诊断等等。二元分类有线性模型和非线性模型。
除了二元分类,常见的还有多元分类问题。即输出类别多于两个。如:硬币分类,手写数字分类,图片分类,邮件分类等。
二元分类和多元分类都属于分类问题,它们的输出是离散的。机器学习中还有另一大问题:回归问题。比如预测股票收益、房屋价格等。除了分类问题和回归问题,机器学习还有一类问题:结构化学习。这部分问题比较复杂,在本课中不会详细介绍(这部分往往属于深度学习领域)。下面来总结一下机器学习的问题种类:分类问题和回归问题。二元分类和回归是我们学习的重点。
2)Learning with Different Data Label
前面我们提到了货币分类问题,这就属于监督学习。监督学习指的是我们的数据集含有相应的标签。无监督学习是另一类常见的机器学习问题,数据集不含有标签。如常见的文章主题分类。半监督学习介于监督学习和无监督学习之间,数据集中一部分含有标签,而另一部分不含有标签。初次之外,还有一类问题是比较火的:强化学习。类似于我们平时对狗狗的训练就属于次类学习。
3)Learning with Different Protocol
机器学习可以分为三种类型:
- Batch Learning
- Online
- Active Learning
Batch Learning获得训练数据时完整的一批,实际应用中很广泛。
Online是一种在线学习模型,数据实时更新。随着数据的不断增加,我们也在同步更新算法。如之前介绍的PLA算法和强化学习等。
Active Learning可以让机器具备主动问问题的能力。可以节约时间和成本,特别适当样本标签难以获得的时候。
4)Learning with Different Input Space X
上面我们介绍了机器学习的输出,这部分介绍输入X的类型。
- concrete features
- raw features
- abstract features
concrete features典型的有硬币分类问题中硬币的尺寸,重量等;病人的信息等。这部分对机器是很容易理解的。
raw features有手写数字分类图片所在像素值,语音信号频率等。这部分特征已经有点抽象了。
abstract features顾名思义就已经很抽象了。这部分对于机器学习来说是很困难的,一般需要进行特征工程操作。
这一节主要介绍了机器学习的类型:分类和回归问题,数据标签,学习途径,输入类型等。