机器学习笔记（十一）—

机器学习笔记（十一）——逻辑回归

一、引言

虽然说是逻辑回归，其实既可以用它做回归，也可以用它做分类。一般我们从最简单的二分类问题开始了解他，当然也可以做多分类。

二、Logistic Regression 的一般步骤

找一个合适的假设
构造损失函数
让损失函数最小，求出对应的参数值

三、二分类问题下Logistic Regression的过程

3.1 Logistic Function

在机器学习笔记（十）——Logistic Function AND Softmax Function中我们已经讨论过了Logistic 函数，因此，建议不熟悉的读者参考上述文章。

3.2 找一个合适的假设

假设样本是各个贷款人的信息，标签是他是否违约。目标是建立一个模型，用来预测一个贷款人违约的可能性，而银行根据这个信息决定是否放款给当前的贷款人。那么，很明显，这是一个分类问题，根据贷款人的一些信息和已知的标签，我们建立模型，去预测新来的贷款人违约的可能性。这里将贷款人的各个信息，如学历、年收入、信用卡违约次数等作为 $\boldsymbol{x}$ ,将他是否违约记为 $y$ ,其中 $y=1$ 表示违约， $y=0$ 表示不违约。那么，一个贷款人违约的可能性为：

h θ (x) = g (θ T x) = 1 1 + e - θ T x

$h_{\boldsymbol{\theta}}(\boldsymbol{x})=g(\boldsymbol{\theta}^T\boldsymbol{x}) = \frac{1}{1+e^{-\boldsymbol{\theta}^T\boldsymbol{x}}}$
其中，

θ $\boldsymbol{\theta}$ 是参数向量。通过上式，可以将借款人的各个信息映射到（0,1）之间,表示他是否违约的可能性。

P (y = 1 | x; θ) = h θ (x) P (y = 0 | x; θ) = 1 - h θ (x)

$P(y=1|\boldsymbol{x}; \boldsymbol{\theta}) = h_{\boldsymbol{\theta}}(\boldsymbol{x})\\ P(y=0|\boldsymbol{x}; \boldsymbol{\theta}) = 1 - h_{\boldsymbol{\theta}}(\boldsymbol{x})$
将上式表示成一个式子：

P (y | x; θ) = h θ (x) y (1 - h θ (x)) 1 - y

$P(y|\boldsymbol{x}; \theta) = h_{\theta}(\boldsymbol{x})^y(1-h_{\theta}(\boldsymbol{x}))^{1-y}$
至此，得到了一个给定贷款人信息时，他违约概率的表达式。

3.3 构造损失函数

在整个样本集中， $m$ 个独立样本出现的似然函数是：

L (θ) = \prod i = 1 m P (y i | x i; θ)

$L(\boldsymbol{\theta}) = \prod_{i=1}^{m}P(y_i|\boldsymbol{x_i}; \boldsymbol{\theta})$
利用最大似然求

θ $\theta$ ,取对数最大似然：

l (θ) = log L (θ) = \sum i = 1 m log P (y i | x i; θ)

$l(\boldsymbol{\theta}) = \log L(\boldsymbol{\theta}) = \sum_{i=1}^{m}\log P(y_i|\boldsymbol{x_i}; \boldsymbol{\theta})$
定义下式为损失函数：

J (θ) = - 1 m l (θ) = - 1 m \sum i = 1 m log [h θ (x i) y i (1 - h θ (x i)) 1 - y i] = - 1 m \sum i = 1 m {y i log h θ (x i) + (1 - y i) log [1 - h θ (x i)]}

$J(\boldsymbol{\theta}) = -\frac{1}{m}l(\boldsymbol{\theta}) = -\frac{1}{m}\sum_{i=1}^{m}\log [h_{\boldsymbol{\theta}}(\boldsymbol{x_i})^{y_i}(1-h_{\boldsymbol{\theta}}(\boldsymbol{x_i}))^{1-y_i}] \\ =-\frac{1}{m}\sum_{i=1}^{m}\{y_i \log h_{\boldsymbol{\theta}}(\boldsymbol{x_i})+(1-y_i)\log [1-h_{\boldsymbol{\theta}}(\boldsymbol{x_i})]\}$
最大化

l(θ) $l(\theta)$ 相当于最小化

J(θ) $J(\theta)$ .

3.4 让损失函数最小，求出对应的参数值

优化的目标函数如下：

min J (θ)

$\min J(\boldsymbol{\theta})$
由于上式中的

θ $\boldsymbol{\theta}$ 是一个参数向量，因此，没办法用函数导数等于0直接求出，它是没有解析解的，因此，我们可以采用梯度下降的方法求得极小值。梯度下降方法请参照最优化学习笔记（三）——梯度下降法。

\partial J ( θ ) \partial θ = - 1 m \sum i = 1 m {\partial T ( θ ) \partial θ} (1)

$\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -\frac{1}{m}\sum_{i=1}^{m}\{\frac{\partial T(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}}\} (1)$
其中：

T (θ) = y log h θ (x) + (1 - y) log [1 - h θ (x)]

$T(\boldsymbol{\theta}) = y \log h_{\boldsymbol{\theta}}(\boldsymbol{x})+(1-y)\log [1-h_{\boldsymbol{\theta}}(\boldsymbol{x})]$

\partial T ( θ ) \partial θ = y 1 h θ ( x ) \partial h θ ( x ) \partial θ + (1 - y) 1 1 - h θ ( x ) (- \partial h θ ( x ) \partial θ) = \partial h θ ( x ) \partial θ (y h θ ( x ) + ( y - 1 ) 1 - h θ ( x )) = \partial h θ ( x ) \partial θ (y - h θ ( x ) h θ ( x ) ( 1 - h θ ( x ) ))

$\frac{\partial T(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = y\frac{1}{h_{\boldsymbol{\theta}}(\boldsymbol{x})}\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}}+(1-y)\frac{1}{1-h_{\boldsymbol{\theta}}(\boldsymbol{x})}(-\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}})\\ =\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}}(\frac{y}{h_{\boldsymbol{\theta}}(\boldsymbol{x})}+\frac{(y-1)}{1-h_{\boldsymbol{\theta}}(\boldsymbol{x})})\\ =\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}}(\frac{y-{h_{\boldsymbol{\theta}}(\boldsymbol{x})}}{{h_{\boldsymbol{\theta}}(\boldsymbol{x})}(1-{h_{\boldsymbol{\theta}}(\boldsymbol{x})})})$
因为：

\partial h θ ( x ) \partial θ = h θ (x) (1 - h θ (x)) x

$\frac{\partial h_{\boldsymbol{\theta}}(\boldsymbol{x})}{\partial \boldsymbol{\theta}} = {h_{\boldsymbol{\theta}}(\boldsymbol{x})}(1-{h_{\boldsymbol{\theta}}(\boldsymbol{x})})\boldsymbol{x}$
则：

T (θ) = (y - h θ (x)) x

$T(\boldsymbol{\theta}) = (y-{h_{\boldsymbol{\theta}}(\boldsymbol{x})})\boldsymbol{x}$
由于取的是样本集中的第

i $i$ 个样本，所以将上式代入(1)

\partial J ( θ ) \partial θ = - 1 m \sum i = 1 m (y i - h θ (x i)) x i = 1 m \sum i = 1 m (h θ (x i) - y i) x i

$\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} = -\frac{1}{m}\sum_{i=1}^{m} (y_i-{h_{\boldsymbol{\theta}}(\boldsymbol{x_i})})\boldsymbol{x_i}\\ =\frac{1}{m}\sum_{i=1}^{m} ({h_{\boldsymbol{\theta}}(\boldsymbol{x_i})}-y_i)\boldsymbol{x_i}$
这样，就可以得到

θ $\boldsymbol{\theta}$ 的迭代公式：

θ = θ + α \partial J ( θ ) \partial θ = θ + α 1 m \sum i = 1 m (h θ (x i) - y i) x i （ 2 ）

$\boldsymbol{\theta} = \boldsymbol{\theta} + \alpha\frac{\partial J(\boldsymbol{\theta})}{\partial \boldsymbol{\theta}} \\ =\boldsymbol{\theta} + \alpha\frac{1}{m}\sum_{i=1}^{m} ({h_{\boldsymbol{\theta}}(\boldsymbol{x_i})}-y_i)\boldsymbol{x_i}（2）$
需要说明的是，我们可以从2式中看出，每次计算一次

θ $\boldsymbol{\theta}$ ，都要进行全部样本数据的计算，直到

θ $\boldsymbol{\theta}$ 收敛，还有一种可以采用随机梯度法进行计算，这样只需要遍历一遍数据集即可，下次讨论。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/576609.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！