【theano-windows】学习笔记十七——梯度中的consider_constant

前言

主要是在写玻尔兹曼机相关的theano时, 在计算梯度grad的时候发现一个参数名字叫做consider_constant,来看看这个到底做了什么事情

参考博客:

using consider_constant selectively

【theano-windows】学习笔记三——theano中的导数

理论

其实就是数学中求导中用到的将某个与变量相关的项固定, 求解其它项关于变量的梯度. 我记得有个梯度下降法叫做固定坐标梯度下降, 就是先固定x利用y优化函数, 然后固定y优化x之类的, 后续我去看看, 感觉如果它用theano实现的话可能会用到这个参数

用数学的方法表示就是, 如果有如下的操作

x = w 2, y = w 3, z = x + y

$x=w^2,y=w^3,z=x+y$
如果我们不使用 consider_constant, 那么对

w $w$ 求导的结果是

\partial z \partial w = 2 w + 3 w 2

$\frac{\partial z}{\partial w}=2w+3w^2$
但是如果设置 consider_constant=[x],那么求导结果就是

\partial z \partial w = 3 w 2

$\frac{\partial z}{\partial w}=3w^2$
其实看看我前面用 theano实现RBM的博客中容易发现使用 consider_constant=[吉布斯采样k次的visible层输出]的原因在于这个 visible的值计算是与模型参数有关的, 如果不设置它为常量, 最终的导数不止是计算能量函数的导数了, 还会额外计算这个 visible对模型参数的导数, 这并不是RBM的正常梯度更新方法所需要的, 详细可看博客RBM的利用自由能量函数更新梯度的数学表达式

验证

先引入相关包

import theano
import theano.tensor as T

定义标量操作

w=T.dscalar('w')
x=w**2
y=w**3
z=x+y

不设置常量参数的情况下计算导数

gz=T.grad(z,w)
fn=theano.function([w],gz)
theano.pp(fn.maker.fgraph.outputs[0])

结果

Elemwise{Composite{((i0 * i1) + (i2 * sqr(i1)))}}(TensorConstant{2.0}, w, TensorConstant{3.0})

翻译过来就是 $(2*w)+(3*w^2)$

设置x为常量参数的情况下

gz=T.grad(z,w,consider_constant=[x])
fn=theano.function([w],gz)
theano.pp(fn.maker.fgraph.outputs[0])

结果

Elemwise{Composite{(i0 * sqr(i1))}}(TensorConstant{3.0}, w)

翻译过来就是 $3*w^2$

后记

根据我们的cost中关于梯度计算的理论, 来合理设置是否需要固定某项来更新梯度.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/246624.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【theano-windows】学习笔记十七——梯度中的consider_constant

前言

理论

验证

后记

相关文章

【Ogre-windows】实例配置

【Ogre-windows】旋转矩阵及位置解析

矩阵求导与BP的证明的建议

BP推导——续

CNN反向传播卷积核翻转

matlab学习——强连通分量

【theano-windows】学习笔记十八——混合蒙特卡洛采样

【音频处理】离散傅里叶变换

【音频处理】短时傅里叶变换

【theano-windows】学习笔记十九——循环神经网络

【theano-windows】学习笔记二十——LSTM理论及实现

刚体运动学——欧拉角、四元数、旋转矩阵

刚体运动学-四元数插值

【TensorFlow-windows】学习笔记一——基础理解

【TensorFlow-windows】学习笔记二——低级API

【TensorFlow-windows】学习笔记三——实战准备

【TensorFlow-windows】学习笔记四——模型构建、保存与使用

【TensorFlow-windows】学习笔记五——自编码器

【TensorFlow-windows】学习笔记六——变分自编码器

【TensorFlow-windows】学习笔记七——生成对抗网络