Newton Method in Maching Learning

牛顿方法:转自http://blog.csdn.net/andrewseu/article/details/46771947

本讲大纲:

1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)

1.牛顿方法

假设有函数:这里写图片描述,我们希望找到满足这里写图片描述这里写图片描述值. 这里这里写图片描述是实数.
牛顿方法执行下面的更新:
这里写图片描述
下图为执行牛顿方法的过程:
这里写图片描述
简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.

这里写图片描述,我们可以用同样的算法去最大化这里写图片描述
这里写图片描述

牛顿方法的一般化:
如果这里写图片描述是一个向量,那么:
这里写图片描述
其中,这里写图片描述这里写图片描述这里写图片描述的偏导数;
H称为黑塞矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,并且这里写图片描述(==当年学的各种名词又开始在脑海里翻滚==)

牛顿方法的收敛速度比批处理梯度下降快很多,很少次的迭代就能够非常接近最小值了;但是当n很大时,每次迭代求黑塞矩阵和黑塞矩阵的逆代价是很大的.

与其不同,梯度下降方法采用的步长如下:


2.指数族

指数族形式:
这里写图片描述
其中,这里写图片描述被称为自然参数(natural parameter)或者典范参数(canonical parameter);
T(y)是充分统计量(sufficient statistic)(对于我们考虑的分布来说,通常T(y)=y);这里写图片描述
是日志分配函数(log partition function),这里写图片描述是一个规范化常数,使得分布的和为1.
给定T,a,b,通过改变参数这里写图片描述得到不同的分布.

下面展示伯努利(Bernoulli)高斯分布(Gaussian distribution)都是指数分布族的特例:

伯努利分布可以写成:
这里写图片描述
因此,令这里写图片描述(有趣地发现其反函数为这里写图片描述这里写图片描述),并且,
这里写图片描述

高斯分布:
回忆我们对线性回归求导时,方差对我们最终结果并没有任何影响.为了使问题简化,令这里写图片描述于是有,
这里写图片描述
得:
这里写图片描述

指数分布族还包括很多其他的分布:
多项式分布(multinomial)
泊松分布(poisson):用于计数的建模
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模
β分布Dirichlet分布:对小数建模

3.GLMS

为了导出GLM,作三个假设:
(1)这里写图片描述
(2)给定x,我们的目标是预测T(y)的预期值. 在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足这里写图片描述(这个假设对logistic回归和线性回归都成立)
(3)自然参数和输入变量是线性相关的,也就是说这里写图片描述(如果自然参数是向量,则这里写图片描述

3.1普通的最小二乘法
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,并且假设服从高斯分布这里写图片描述,高斯分布写成指数族的形式,有这里写图片描述得到:
这里写图片描述

3.2 logistic回归
考虑logistic,我们感兴趣的是二元分类,也就是说这里写图片描述很容易想到指数分布族的伯努利分布,有这里写图片描述,同理得到:
这里写图片描述

正则响应函数(canonical response function):这里写图片描述
正则链接函数(canonical link function):这里写图片描述

3.3 softmax 回归
当分类问题的y取值不止两个时,我们需要采用多项式分布(multinomial distribution).

在推导多项式分布的GLM之前,先把多项式分布表达成指数族.

为了参数化多项式分布的k各可能结果,有人可能会用k个参数来说明每一种情况的可能性,但是这些参数是冗余的,并且并不是独立的(由于知道任何其中的k-1个,剩下的一个就可以求出,因为满足这里写图片描述). 因此我们用k-1个参数这里写图片描述对多项分布进行参数化,这里写图片描述.
定义这里写图片描述,如下,
这里写图片描述

介绍一个很有用的记号,这里写图片描述,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的关系为这里写图片描述.
并且有这里写图片描述,因此:
这里写图片描述

链接函数为,这里写图片描述,为了方便,定义这里写图片描述.

可得:
这里写图片描述
因此这里写图片描述,反代回去得到响应函数:
这里写图片描述

从η到这里写图片描述的映射叫做softmax函数.

根据假设3,这里写图片描述得到:
这里写图片描述

这个应用于分类问题(当这里写图片描述),叫做softmax回归(softmax regression).是logistic回归的推广.

这里写图片描述

与最小二乘法和logistic回归类似,
这里写图片描述

再通过梯度上升或者牛顿方法求出θ.


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/313386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

复原IP地址

1.题目描述 给定一个只包含数字的字符串,复原它并返回所有可能的 IP 地址格式。 示例: 输入: "25525511135" 输出: ["255.255.11.135", "255.255.111.35"]2.解法 2.1 回溯剪枝法 private int n;private String s;private Linked…

一键分享博客或新闻到Teams好友或频道

在最近的开发者工具更新中,Teams提供了一个Share to Teams的能力,就是在你的网页上面,放置一个按钮,用户点击后,就可以很方便地将当前网页或者你指定的其他网页,分享到Teams好友或频道中。这个开发文档在这…

C#刷遍Leetcode面试题系列连载(3): No.728 - 自除数

点击蓝字“dotNET匠人”关注我哟加个“星标★”,每日 7:15,好文必达!前言前文传送门:上篇文章中我们分析了一个递归描述的字符串问题,今天我们来分析一个数学问题,一道除法相关的面试题。今天要给大家分析的…

GPU Shader 程序调试方法

转载自: http://blog.csdn.net/pizi0475/article/details/7573939 内容提要:手动调试和使用工具PIX调试Direct3D程序。 3D绘图中常见问题: 1.模型消失,没有出现在画面上; 2.模型在画面上失真…

【.NET Core 3.0】框架之十二 || 跨域 与 Proxy

本文有配套视频:https://www.bilibili.com/video/av58096866/?p8一、为什么会出现跨域的问题跨域问题由来已久,主要是来源于浏览器的”同源策略”。何为同源?只有当协议、端口、和域名都相同的页面,则两个页面具有相同的源。只要…

Boltzmann Machine 入门(1)

根据我的第一篇关于DBM的博文,明白了一个道理,1. v 和h 互相能推测出彼此,表示同一组特征的两种形式,就像时域频域一样。接下来又看了 http://www.cnblogs.com/tianchi/archive/2013/03/14/2959716.html 以热力学分子随机取值变化…

.NET 时间轴:从出生到巨人

点击上方蓝字关注“汪宇杰博客”“ 自1995年互联网战略日以来最雄心勃勃的事业—— 微软.NET战略, 2000年6月30日”2002-02-13.NET Framework 1.0CLR 1.0Visual Studio .NET关键词:跨语言、托管代码2003-04-24.NET Framework 1.1CLR 1.1Visual Studio 2003关键词&am…

Go 语言接口

Go 语言接口 Go 语言提供了另外一种数据类型即接口,它把所有的具有共性的方法定义在一起,任何其他类型只要实现了这些方法就是实现了这个接口。 实例 实例 /* 定义接口 */ type interface_name interface { method_name1 [return_type] method_name2…

Redis缓存雪崩、缓存穿透、热点Key

我们通常使用 缓存 过期时间的策略来帮助我们加速接口的访问速度,减少了后端负载,同时保证功能的更新。 1、缓存穿透 缓存系统,按照KEY去查询VALUE,当KEY对应的VALUE一定不存在的时候并对KEY并发请求量很大的时候,就会对后端造…

Boltzmann Machine 入门(2)

发现RBM 中的能量函数概念需要从Hopfield网络的角度理解,于是找到 http://blog.csdn.net/roger__wong/article/details/43374343 和关于BM的最经典论文 http://www.cs.toronto.edu/~hinton/papers.html#1983-1976 一、限制玻尔兹曼机的感性认识 要回答这个问题大…

针对深度学习的GPU芯片选择

转自:http://timdettmers.com/2014/08/14/which-gpu-for-deep-learning/ It is again and again amazing to see how much speedup you get when you use GPUs for deep learning: Compared to CPUs 10x speedups are typical, but on larger problems one can achi…

C# 8 - Range 和 Index(范围和索引)

C# 7 的 Span C# 7 里面出现了Span这个数据类型,它可以表示另一个数据结构里连续相邻的一串数据,并且它是内存安全的。 例子: 这个图的输出是3,4,5,6。 C# 8 的Range类型 而C# 8里面我们可以从一个序列里面…

第k个排列

1、问题描述 给出集合 [1,2,3,…,n],其所有元素共有 n! 种排列。 按大小顺序列出所有排列情况,并一一标记,当 n 3 时, 所有排列如下: “123”“132”“213”“231”“312”“321” 给定 n 和 k,返回第 k 个排列。…

DCT变换学习

http://blog.csdn.net/timebomb/article/details/5960624 timebomb的博客 DCT变换的基本思路是将图像分解为88的子块或1616的子块,并对每一个子块进行单独的DCT变换,然后对变换结果进行量化、编码。随着子块尺寸的增加,算法的复杂度急剧上升…

敏捷回顾会议的套路与实践分享

01—关于敏捷回顾会议实践过敏捷的人都知道,在敏捷中会有很多的会议要开,比如计划会议(Planning)、站立会议(Daily Scrum)、评审会议(Review)以及回顾会议(Retrospective…

光栅化坐标映射公式

Direct3D中投影空间内的点坐标与屏幕上(或视口内)点的对应关系, 设屏幕大小为wh,屏幕左上角像素的中心被定义为(0,0),整个屏幕是从(-0.5,-0.5)-(w-0.5,h-0.5), 像素 将投影空间内的x轴上区间(-1.0-1/w, 1.0…

朋友圈

1、题目描述 班上有 N 名学生。其中有些人是朋友,有些则不是。他们的友谊具有是传递性。如果已知 A 是 B 的朋友,B 是 C 的朋友,那么我们可以认为 A 也是 C 的朋友。所谓的朋友圈,是指所有朋友的集合。 给定一个 N * N 的矩阵 M…

.Net Core AA.FrameWork应用框架介绍

开发多年,一直在从社区获取开源的便利,也深感社区力量的重要性,今天开源一个应用基础框架AA.FrameWork,也算是回馈社区,做出一点点贡献,希望能够帮助类似当年入行的我。AA.FrameWork 是基于.NET core流行的开源类库创建…

RBM/DBN训练中的explaining away概念

可以参照 Stanford大神DaphneKoller的概率图模型,里面贝叶斯网络一节讲到了explaining away。我看过之后试着谈谈自己的理解。 explainingaway指的是这样一种情况:对于一个多因一果的问题,假设各种“因”之间都是相互独立的,如果…

.NET Core使用gRPC打造服务间通信基础设施

一、什么是RPCrpc(远程过程调用)是一个古老而新颖的名词,他几乎与http协议同时或更早诞生,也是互联网数据传输过程中非常重要的传输机制。利用这种传输机制,不同进程(或服务)间像调用本地进程中…