y是连续的则是一个回归问题,y是离散的则是一个分类问题,这边就开始考虑y是离散的情况。
对于这样的问题很多,比如判断一个人是否生病,或者判断一个邮件是否是垃圾邮件。
回归时连续型的,一般不用在上述的分类问题中,因为其受噪音的影响比较大,如果要把一个回归方法用到分类上的话,那就是logistic回归。之所以叫其回归,因为其本质上还是线性回归,只是在特征到结果中加了一层函数映射。
对于这边也就是使用一个g(z)将连续的值映射到0跟1上面。
下面就是将线性带入到g(z)中。
则可以得到:
对于我们考虑的问题是将连续的问题离散化,下面就带来两个问题,到底怎么做,还有就是为什么使用这个g(z)呢。至于为什么使用这个函数的时候作者后面讲到一般线性模型的时候说明,那下面就先看一看下面怎么做。
我们看这个g(z),我们会发现当,g(z)趋向于1,,g(z)趋向于0
这样我们就有在0到1之间,下面我们就假设为y取1时候的概率。我们假设该事件服从0,1分布,这边也可以是其他分布,不过有点复杂,则
也就是再x的条件下,y只能取0跟1,θ是参数。写成一般形式为
下面我们假设m的训练数据相互独立,则我们下面求最大似然估计,也就是求最能服从0,1分布的时候θ的值。(不知道这样理解对不对)
好,那下面求最大似然估计,对于m个训练值
那么,我们也就是要求这个的最大值,使用了梯度下降法。
下面跟之前一样,假设只有一个训练数据。
最终得到
虽然这边的样式跟之前线性回归一样,但是要注意的这里的,这不是一个线性函数,而是我们定义的一个logistic函数。