目录
1)Learning is Impossible
2)Probability to the Rescue
3)Connection to Learning
4)Connection to Real Learning
上节课我们主要介绍了机器学习问题的类型,主要是二元分类和回归问题。本节课,我们将学习机器学习的可行性,讨论我们研究的问题是否可以使用机器学习来解决。
注:本节课内容有点稍稍难理解。
1)Learning is Impossible
首先,我们看下面这样一个游戏。下面六6个九方格,根据这6个样本我们来推断出右边的九方格的标签是(-1)还是(+1)?可以看出,根据不同的特征进行分类,得到的结果完全不同。所有的分类可以说是合理的,也可以说是不合理的。
再来看一个例子,下图中输入特征是二进制形式。训练样本有5个,那么根据已有的样本输出,假设有8个hypothesis。这8个hypothesis对5个训练样本的分类效果完全正确,但是在另外3个数据上,表现有好有坏。
这个例子告诉我们,我们似乎不能在D以外的数据中准确预测目标。这就告诉我们没有任何一个算法可以在任何领域总是产生最准确的学习器。我们平时听到一个算法“很好”,也只是针对具体问题的具体应用。机器学习没有放之四海皆有效的算法。
2)Probability to the Rescue
从上一节得出结论:在训练集D以外的数据上,机器学习是很难做到正确预测和分类的。但还是有一些工具能够帮助我们做出合理的推论。
看下面一个例子,一个罐子中装满了橙色和绿色的小球。我们能否推断出橙色球的比例u?统计学的做法是这样的:随机取出N个样本,计算N各样本中橙色球的比例v,就估计橙色球的比例为v。
3)Connection to Learning
我们把上节的内容和机器学习联系起来。
- 机器学习的hypothesis就是我们要求得橙色球概率。
- 橙色球表示h(x)和f不相等;
- 绿色求表示h(x)和f相等。
- 罐子里的玻璃球就是我们的样本空间X,
- 从罐子中取出N个球相当于训练样本D,样本都是独立同分布的。
我们引入两个值和。分别表示样本中,h(x)与y不相等的概率和实际样本中不相等的概率。
4)Connection to Real Learning
假设我们有多个hypothesis。对不同的数据集,表现有好有坏。我们认为对应的数据集是BadData。我们规定对于所有的hypothesis数据集都是好的,数据集D才是好的。
如果hypothesis的个数M是有限的,N足够大,那么通过演算法A任意选择一个g。都有。
下图是我们的学习流程图。
本节课我们学到了: