函数式自动微分
神经网络的训练主要使用反向传播算法,模型预测值(logits)与正确标签(label)送入损失函数(loss function)获得loss,然后进行反向传播计算,求得梯度(gradients),最终更新至模型参数(parameters)。自动微分能够计算可导函数在某点处的导数值,是反向传播算法的一般化。自动微分主要解决的问题是将一个复杂的数学运算分解为一系列简单的基本运算,该功能对用户屏蔽了大量的求导细节和过程,大大降低了框架的使用门槛。
grad函数的两个入参,分别为:
fn:待求导的函数。
grad_position:指定求导输入位置的索引。
Stop Gradient: grad函数应该是会求参数关于fn返回的所有变量的导数,Stop Gradient能屏蔽不需要求解导数的变量。
grad和value_and_grad提供has_aux参数,参数has_aux=True能屏蔽fn除第一个变量外的所有变量。
由于使用Cell封装神经网络模型,模型参数为Cell的内部属性,此时我们不需要使用grad_position
指定对函数输入求导,因此将其配置为None
。对模型参数求导时,我们使用weights
参数,使用model.trainable_params()
方法从Cell中取出可以求导的参数。
补充:grad_position与value_and_grad
grad_position应该是内置在value_and_grad,作为value_and_grad的一个参数,
mindspore.value_and_grad(fn, grad_position=0, weights=None, has_aux=False, return_ids=False)[源代码]
mindspore.value_and_grad解析
生成求导函数,用于计算给定函数的正向计算结果和梯度。
函数求导包含以下三种场景:
-
对输入求导,此时 grad_position 非None,而 weights 是None;
-
对网络变量求导,此时 grad_position 是None,而 weights 非None;
-
同时对输入和网络变量求导,此时 grad_position 和 weights 都非None。
参数:
fn (Union[Cell, Function]) - 待求导的函数或网络。grad_position (Union[NoneType, int, tuple[int]]) - 指定求导输入位置的索引。若为int类型,表示对单个输入求导;若为tuple类型,表示对tuple内索引的位置求导,其中索引从0开始;若是None,表示不对输入求导,这种场景下, weights 非None。默认值: 0 。weights (Union[ParameterTuple, Parameter, list[Parameter]]) - 训练网络中需要返回梯度的网络变量。一般可通过 weights = net.trainable_params() 获取。默认值: None 。has_aux (bool) - 是否返回辅助参数的标志。若为 True , fn 输出数量必须超过一个,其中只有 fn 第一个输出参与求导,其他输出值将直接返回。默认值: False 。return_ids (bool) - 是否返回由返回的梯度和指定求导输入位置的索引或网络变量组成的tuple。若为 True ,其输出中所有的梯度值将被替换为:由该梯度和其输入的位置索引,或者用于计算该梯度的网络变量组成的tuple。默认值: False 。返回:
Function,用于计算给定函数的梯度的求导函数。例如 out1, out2 = fn(*args) ,梯度函数将返回 ((out1, out2), gradient) 形式的结果, 若 has_aux 为True,那么 out2 不参与求导。 若return_ids为 True ,梯度函数返回的 gradient 将被替代为由返回的梯度和指定求导输入位置的索引或
络变量组成的tuple。