牛顿方法:转自http://blog.csdn.net/andrewseu/article/details/46771947
本讲大纲:
1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)
1.牛顿方法
假设有函数:,我们希望找到满足的值. 这里是实数.
牛顿方法执行下面的更新:
下图为执行牛顿方法的过程:
简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.
令,我们可以用同样的算法去最大化
牛顿方法的一般化:
如果是一个向量,那么:
其中,是对的偏导数;
H称为黑塞矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,并且(==当年学的各种名词又开始在脑海里翻滚==)
牛顿方法的收敛速度比批处理梯度下降快很多,很少次的迭代就能够非常接近最小值了;但是当n很大时,每次迭代求黑塞矩阵和黑塞矩阵的逆代价是很大的.
与其不同,梯度下降方法采用的步长如下:
2.指数族
指数族形式:
其中,被称为自然参数(natural parameter)或者典范参数(canonical parameter);
T(y)是充分统计量(sufficient statistic)(对于我们考虑的分布来说,通常T(y)=y);
是日志分配函数(log partition function),是一个规范化常数,使得分布的和为1.
给定T,a,b,通过改变参数得到不同的分布.
下面展示伯努利(Bernoulli)和高斯分布(Gaussian distribution)都是指数分布族的特例:
伯努利分布可以写成:
因此,令(有趣地发现其反函数为),并且,
高斯分布:
回忆我们对线性回归求导时,方差对我们最终结果并没有任何影响.为了使问题简化,令于是有,
得:
指数分布族还包括很多其他的分布:
多项式分布(multinomial)
泊松分布(poisson):用于计数的建模
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模
β分布,Dirichlet分布:对小数建模
3.GLMS
为了导出GLM,作三个假设:
(1)
(2)给定x,我们的目标是预测T(y)的预期值. 在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足(这个假设对logistic回归和线性回归都成立)
(3)自然参数和输入变量是线性相关的,也就是说(如果自然参数是向量,则)
3.1普通的最小二乘法
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,并且假设服从高斯分布,高斯分布写成指数族的形式,有得到:
3.2 logistic回归
考虑logistic,我们感兴趣的是二元分类,也就是说很容易想到指数分布族的伯努利分布,有,同理得到:
正则响应函数(canonical response function):
正则链接函数(canonical link function):
3.3 softmax 回归
当分类问题的y取值不止两个时,我们需要采用多项式分布(multinomial distribution).
在推导多项式分布的GLM之前,先把多项式分布表达成指数族.
为了参数化多项式分布的k各可能结果,有人可能会用k个参数来说明每一种情况的可能性,但是这些参数是冗余的,并且并不是独立的(由于知道任何其中的k-1个,剩下的一个就可以求出,因为满足). 因此我们用k-1个参数对多项分布进行参数化,.
定义,如下,
介绍一个很有用的记号,,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的关系为.
并且有,因此:
链接函数为,,为了方便,定义.
可得:
因此,反代回去得到响应函数:
从η到的映射叫做softmax函数.
根据假设3,得到:
这个应用于分类问题(当),叫做softmax回归(softmax regression).是logistic回归的推广.
与最小二乘法和logistic回归类似,
再通过梯度上升或者牛顿方法求出θ.