有监督学习(Supervised Learning)
所谓有监督学习,是区别于无监督学习而言的。其过程如下:
给定一系列样本,样本是由一系列特征值和输出值组成。比如,某个地方的商品房,包括房子大小、房间数、距离市中心的距离等等特征值以及房价这个输出值。根据这些样本,找出特征值和输出值之间的规律,从而根据这些规律预测新的样本。“找规律”就是一个学习或训练的过程。有监督学习就是在学习的过程中,加入人工的干预;换一种说法,就是在训练的过程中,告诉机器,对每一个输入,输出应该是什么。训练完成后,我们得到了一种规律。根据这个规律,对于以后新来的样本,可以通过分析其特征值,预测其输出值。比如,我们通过训练或学习,知道了房子大小、房间数、距离市中心的距离等等特征与房价之间的关系,新来一套房子,我们就可以根据新房子的大小、房间数、距离市中心的距离等等特征,预测其价格。
对于有监督学习来说,最核心的思想是怎么找出其中“规律”的过程。
用数学的方法来描述:我们可以将样本的特征作为输入,经过其“规律”的变换,得到其输出。特征空间用X表示,输出空间用Y表示,而其"规律"则用h来表示,我们可以得到一个映射关系:
在此,我们得到了样本特征与输出的数学表达式,有监督学习的过程就是确定函数h的过程。至于怎样确定,在以后的学习中会有许许多多的方法。
然后,还有一些基本概念。用于训练的样本,组成的集合,我们称之为训练集(training set)。训练集中样本的特征组成的空间,我们称之为特征空间。如上所述的过程,可用下图一览概括:
对于上述例子中所述的房价问题,其预测为一系列连续的值,我们称这样的问题为回归问题。而如果输出只是若干个离散的值,我们就可以称之为分类问题。比如,某些应用中需要判断一幅图像中的人的性别,输出只有两个值,“男”或“女”,这就是一个典型的二分类问题。