Fisher矩阵与自然梯度法

文章目录

    • Fisher矩阵及自然梯度法
      • Fisher矩阵
      • 自然梯度法
      • 总结
      • 参考链接

Fisher矩阵及自然梯度法

自然梯度法相比传统的梯度下降法具有以下优势:

更好的适应性:自然梯度法通过引入黎曼流形上的梯度概念,能够更好地适应参数空间的几何结构。这使得自然梯度法在求解具有复杂几何结构的参数优化问题时具有更高的效率。
更高的收敛速度:由于自然梯度法考虑了参数空间的几何结构,因此它在参数更新过程中能够更准确地找到下降方向。这有助于加快算法的收敛速度,提高优化效率。
避免局部最优解:自然梯度法通过调整参数空间的几何结构,有助于避免陷入局部最优解。这使得自然梯度法在求解全局优化问题时具有更好的性能。

Fisher矩阵

我们使用迭代法求解问题时,计算每个参数相对于损失函数的导数,即雅可比矩阵。这些导数表示可以更新参数,以获得损失函数最大变化的方向,称为梯度。

得到梯度后,我们在梯度方向的负方向上,更新参数,从而减少损失函数。但是由于参数所带的噪声的不同,不同的参数应该据此调整步长。

在这里插入图片描述
在这里插入图片描述
如上两个图,同样的期望差异,但是明显参数的差异对符合第二图中的分布的函数影响更大。

因此,定义Fisher矩阵用来衡量参数空间的曲率,即参数对函数模型的敏感性。

定义一个最大似然问题: max ⁡ p ( x ∣ θ ) \max p(x|\theta) maxp(xθ)

再设立一个得分函数 s ( θ ) s(\theta) s(θ),定义为似然函数的对数梯度,
s ( θ ) = ∇ θ log ⁡ p ( x ∣ θ ) s(\theta)=\nabla_\theta\log p(x\mid\theta) s(θ)=θlogp(xθ)
用来评估我们最大化似然函数的好坏以及参数对似然函数的敏感度。其期望值为0, E p ( x ∣ θ ) [ s ( θ ) ] = 0 \mathbb{E}_{p(x|\theta)}[s(\theta)]=0 Ep(xθ)[s(θ)]=0,证明过程见参考文献。

Fisher矩阵定义为函数 s ( θ ) s(\theta) s(θ)的方差: F ( θ ) = E p ( x ∣ θ ) [ ( s ( θ ) − 0 ) ( s ( θ ) − 0 ) T ] = E p ( x ∣ θ ) [ ∇ θ log ⁡ p ( x ∣ θ ) ∇ θ log ⁡ p ( x ∣ θ ) T ] F(\theta) =\mathbb{E}_{p(x|\theta)}\left[(s(\theta)-0)(s(\theta)-0)^\mathrm{T}\right] =\mathbb{E}_{p(x|\theta)}\left[\nabla_\theta\log p(x\mid\theta)\nabla_\theta\log p(x\mid\theta)^\mathrm{T}\right] F(θ)=Ep(xθ)[(s(θ)0)(s(θ)0)T]=Ep(xθ)[θlogp(xθ)θlogp(xθ)T]

= E [ ( ∂ log ⁡ p ( x , θ ) ∂ θ ) ( ∂ log ⁡ p ( x , θ ) ∂ θ ) T ] = E\left[\left(\frac{\partial \log p(x, \theta)}{\partial \theta}\right)\left(\frac{\partial \log p(x, \theta)}{\partial \theta}\right)^{\rm T} \right] =E[(θlogp(x,θ))(θlogp(x,θ))T]

其中 E E E表示期望操作。Fisher矩阵可以帮助我们理解参数对模型的影响,以及在优化过程中如何调整参数以更有效地学习函数。

自然梯度法

同样使用传统的Euclidean 距离来衡量参数的差异时,参数的噪声分布并未被考虑。使用KL散度用来衡量,然而,同样观察文中的两图,如果我们只在参数空间中工作,我们就不能考虑关于参数实现的分布的这些信息。但在分布空间中,即当我们考虑高斯的形状时,第一和第二图像中的距离是不同的。在第一幅图像中,KL散度应该更低,因为这些高斯之间有更多的重叠。因而,我们使用KL散度来衡量参数的正确性:
D K L ( p ∥ q ) = ∑ i = 1 n p ( x i ) log ⁡ ( p ( x i ) q ( x i ) ) D_{KL}\left(p\|q\right)=\sum_{i=1}^{n}p\left(x_{i}\right)\log\left(\frac{p(x_{i})}{q(x_{i})}\right) DKL(pq)=i=1np(xi)log(q(xi)p(xi))

θ \theta θ为参数期望, θ ′ \theta' θ为参数估计,则定义其损失函数(KL散度)如下:
L ( θ ) = K L [ p ( x ∣ θ ) ∥ p ( x ∣ θ ′ ) ] = E ⁡ p ( x ∣ θ ) [ log ⁡ p ( x ∣ θ ) ] − E ⁡ p ( x ∣ θ ) [ log ⁡ p ( x ∣ θ ′ ) ] \mathcal{L}(\theta)=\mathrm{KL}\left[p(x\mid\theta)\|p\left(x\mid\theta^{\prime}\right)\right]=\underset{p(x\mid\theta)}{\operatorname*{\mathbb{E}}}\left[\log p(x\mid\theta)\right]-\underset{p(x\mid\theta)}{\operatorname*{\mathbb{E}}}\left[\log p\left(x\mid\theta^{\prime}\right)\right] L(θ)=KL[p(xθ)p(xθ)]=p(xθ)E[logp(xθ)]p(xθ)E[logp(xθ)]

Fisher信息矩阵 F F F等同于两个分布 p ( x ∣ θ ) p(x|\theta) p(xθ p ( x ∣ θ ′ ) p(x|\theta') p(xθ)之间关于 θ ′ \theta' θ的KL散度的Hessian矩阵。 证明过程见参考文献

算法伪代码:

自然梯度下降循环:
  对我们的模型进行正向传递,并计算损失 L ( θ ) \mathcal{L}(\theta) L(θ)
  计算梯度 ∇ θ L ( θ ) \nabla_\theta \mathcal{L}(\theta) θL(θ)
  计算Fisher信息矩阵 F F F或其经验版本。
  计算自然梯度 ∇ ~ θ L ( θ ) = F − 1 ∇ θ L ( θ ) \tilde{\nabla}_\theta\mathcal{L}(\theta)=\mathrm{F}^{-1}\nabla_\theta\mathcal{L}(\theta) ~θL(θ)=F1θL(θ)
  更新参数: θ = θ − α ∇ ~ θ L ( θ ) \theta = \theta - \alpha\tilde{\nabla}_\theta\mathcal{L}(\theta) θ=θα~θL(θ),其中 α \alpha α是学习率。
  直到收敛。

总结

Fisher矩阵和自然梯度法是机器学习中重要的概念和方法,用于优化问题的求解。Fisher矩阵可以帮助我们理解参数空间的曲率,而自然梯度法则利用Fisher矩阵的信息来更好地学习函数。通过结合这两个概念,我们可以更有效地优化模型参数,并提高学习的效率和性能。

参考链接

Fisher矩阵 https://agustinus.kristia.de/techblog/2018/03/11/fisher-information/
自然梯度法 https://agustinus.kristia.de/techblog/2018/03/14/natural-gradient/
自然梯度法 https://kvfrans.com/what-is-the-natural-gradient-and-where-does-it-appear-in-trust-region-policy-optimization/
https://zhuanlan.zhihu.com/p/546885304

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/719993.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

今日学习总结2024.3.3

今天也是全天自习的一天,非常充实 早上八点开始接着晚上的docker配置,并一边同步博客,还是遇到了卡壳看了一个视频,里面提到了物联网,感觉对这个概念更加了解了,当年填报专业志愿的时候有将物联网工程放在…

LCR 134. Pow(x, n)

解题思路&#xff1a; 分治 快速幂 Java中向下取整n/2即可 需要结合下图理解&#xff0c;算法就是实现的该过程 class Solution {public double myPow(double x, int n) {if(x 0.0f) return 0.0d;long b n;double res 1.0;//例如:2^-5(1/2)^5if(b < 0) {x 1 / x;b -b…

Python中可迭代数据类型

有序集合 有序的集合包括&#xff1a;列表、字符串以及元组。 对于任意Python序列可应用的运算&#xff1a; 运算名运算符解释长度len(sequence)返回序列的长度。索引访问sequence[i]返回索引 i 处的元素。切片sequence[i:j]返回从索引 i 到 j 的子序列。成员检查item in seq…

访问⾸⻚的速度很慢,有哪些⽅法可以提⾼访问速度?

1. 减少HTTP请求 可以通过简化页面设计&#xff0c;减少页面中图片、样式表、JavaScript等组件的数量来降低HTTP请求次数。此外&#xff0c;合并文件也是一个有效的方法&#xff0c;即将所有脚本或样式表文件合并为一个文件&#xff0c;和使用图片精灵以减少请求的数量。 2. …

【Python】Python教师/学生信息管理系统 [简易版] (源码)【独一无二】

&#x1f449;博__主&#x1f448;&#xff1a;米码收割机 &#x1f449;技__能&#x1f448;&#xff1a;C/Python语言 &#x1f449;公众号&#x1f448;&#xff1a;测试开发自动化【获取源码商业合作】 &#x1f449;荣__誉&#x1f448;&#xff1a;阿里云博客专家博主、5…

accept()函数

accept 函数是用于在服务器端接受客户端连接的系统调用。以下是 accept 函数的详细解读&#xff1a; #include <sys/types.h> #include <sys/socket.h>int accept(int sockfd, struct sockaddr *addr, socklen_t *addrlen);sockfd&#xff1a; 是一个已经通过 soc…

京东商品优惠券API获取商品到手价

item_get_app-获得JD商品详情原数据 公共参数 请求地址: jd/item_get_app 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameString是API接口名称&#xff08;包括在请求地址中&#xff09;[item_search,i…

MATLAB环境下基于区域椭圆拟合的细胞分割方法

使用图像分割技术可以找到图像中的目标区域&#xff0c;目标区域可以定义为具有特定值的单个区域&#xff0c;也可以定义为具有相同值的多个区域。目前图像分割已经融入到生活中的方方面面&#xff0c;在遥感领域&#xff0c;它应用于航拍图中的地形、地貌的分割&#xff1b;在…

高可用架构实现流量治理的策略

一 概述 1.1 高可用评判指标 1.平均故障间隔&#xff08;Mean Time Between Failure&#xff0c;简称 MTBF&#xff09;&#xff1a;表示两次故障的间隔时间&#xff0c;也就是系统正常运行的平均时间&#xff0c;这个时间越长&#xff0c;说明系统的稳定性越高&#xff1b; …

[AIGC] Flink入门教程:理解DataStream API(Java版)

简介 Apache Flink是一款开源的流处理框架&#xff0c;它在大数据处理场景中被广泛应用。Flink的数据流API&#xff08;DataStream API&#xff09;是一个强大的、状态匹配的流处理API&#xff0c;它可以处理有界和无界数据流。 本教程将向你介绍如何使用Java来编写使用DataS…

SpringMVC框架②

三、RequestMapping注解 3、RequestMapping注解的value属性 必须设置 发送一个请求最直观的表示方式就是一个请求路径 altenter 进入接口方法 再用 alte7 查看里面的属性 value值可以是数组 value{"test","test1"} 只满足任何一个请求地址就会调用此方…

GO语言学习笔记(与Java的比较学习)(五)

Map 概念 map 是引用类型&#xff0c;可以使用如下声明&#xff1a; var map1 map[keytype]valuetype var map1 map[string]int 在声明的时候不需要知道 map 的长度&#xff0c;map 是可以动态增长的。 未初始化的 map 的值是 nil&#xff08;即零值为nil&#xff09;&…

国际化 Vue-i18n的安装与使用 (Vue2.0 / Vue3.0)

国际化 Vue-i18n的安装与使用 &#xff08;Vue2.0 / Vue3.0&#xff09; 一、Vue-i18n是什么&#xff1f; Vue-I18n是 Vue.js 的国际化插件。它可以轻松地将一些本地化功能集成到你的 Vue.js 应用程序中。简单来说就是可以帮助用户进行语言的切换” 二、使用步骤 1.引入库 代码…

智慧城市的创新实践:全球案例分享

一、引言 在全球化和数字化的时代&#xff0c;智慧城市已经成为城市发展的前沿趋势。智慧城市运用先进的信息技术&#xff0c;如大数据、物联网、云计算和人工智能等&#xff0c;提升城市管理的智能化水平&#xff0c;增强公共服务效率&#xff0c;优化居民生活质量。本文将通…

第四十九回 吴学究双掌连环计 宋公明三打祝家庄-Python与HTTP服务交互

吴用请戴宗从梁山请来铁面孔目裴宣、圣手书生萧让、通臂猿侯健、玉臂匠金大坚来帮忙。又告诫扈家庄的扈成&#xff0c;打起来不要去帮祝家庄。 孙立把旗号改成“登州兵马提辖孙立”&#xff0c;来祝家庄找峦廷玉&#xff0c;被热情接待。 第三天&#xff0c;宋江派小李广花荣…

HTML代码简单介绍

目录 HTML结构介绍 HTML文件基本结构 标签的层次结构 HTML结构介绍 HTML的代码由标签构成 例如&#xff1a; <head>Hello</head> 标签名 body 放到 < > 中大部分标签成对出现 <body> 为开始标签, </body> 为结束标签.少数标签只有开始标签…

Qt+FFmpeg+opengl从零制作视频播放器-1.项目介绍

1.简介 学习音视频开发&#xff0c;首先从做一款播放器开始是比较合理的&#xff0c;每一章节&#xff0c;我都会将源码贴在最后&#xff0c;此专栏你将学习到以下内容&#xff1a; 1&#xff09;音视频的解封装、解码&#xff1b; 2&#xff09;Qtopengl如何渲染视频&#…

Docker实战——容器

目录 Docker 容器的基本概念与操作1.使用“docker create”创建容器。这里基于Nginx的镜像创建了一个容器&#xff0c;名字为mycontainer。2.使用“docker ps -a”命令查看所有的容器&#xff0c;这时的容器不一定是运行状态。3.使用 “docker start” 命令可以启动容器。4.使用…

优化zabbix对Docker API的监控

启用Zabbix Agent 2对Docker API的监控&#xff0c;通常不需要直接编辑/etc/zabbix/zabbix_agent2.d/下的文件&#xff0c;因为针对Docker容器的监控是通过内建的插件实现的。以下是大致步骤&#xff1a; 确认Agent版本与配置&#xff1a; 确保你安装的是支持Docker监控的Zabbi…

安卓内存信息查看

目录 前言一、Android查看内存相关信息的方法1.1 通过 adb shell 获取内存信息1.2 通过编程方式获取内存信息1.3 adb shell 获取应用程序内存使用情况1.4 free指令 二、总结 前言 一、Android查看内存相关信息的方法 1.1 通过 adb shell 获取内存信息 C:\Users\henry.xue>…