从0开始深度学习（2）—

从0开始深度学习（2）——自动微分

1 微积分

1.1 导数和微分

略

1.2 偏导数

略

1.3 梯度（gradient）

1.3.1 定义

对于一个多变量函数 $f\left(x_{1}, x_{2}, \ldots, x_{n}\right)$ 其中点 $\mathbf{a}=(a_1,a_2,\ldots,a_n)$ 处的梯度是一个向量，通常表示为 $\nabla f(\mathbf{a})/\operatorname{grad}f(\mathbf{a})$ 这个向量的各个分量是函数关于各个变量的偏导数，即： $\nabla f(\mathbf{a})=\left(\frac{\partial f}{\partial x_1}(\mathbf{a}),\frac{\partial f}{\partial x_2}(\mathbf{a}),\ldots,\frac{\partial f}{\partial x_n}(\mathbf{a})\right)$

1.3.2 梯度的意义

方向：梯度的方向指出了函数在该点处增长最快的方向。
大小：梯度的大小（或模长）表示了函数在该方向上的最大增长速率。
垂直性：梯度的方向与等值线（或等值面）垂直。

1.3.3 示例

假设我们有一个二维函数 $f(x,y)=x^2+y^2$
计算梯度：
在这里插入图片描述
因此梯度为：
$\nabla f(x,y)=(2x,2y)$
解释梯度：

1.3.4 应用

优化算法：在机器学习和深度学习中，梯度下降算法利用梯度的方向来寻找函数的局部最小值。
图像处理：梯度可以用来检测图像中的边缘。
物理学：梯度可以用来描述物理场的变化率，例如电势的梯度给出电场强度。

1.4 链式法则

略

2 自动微分

深度学习框架通过自动计算导数，即自动微分（automatic differentiation）来加快求导。实际中，根据设计好的模型，系统会构建一个计算图（computational graph），来跟踪计算是哪些数据通过哪些操作组合起来产生输出。自动微分使系统能够随后反向传播梯度。这里，反向传播（backpropagate）意味着跟踪整个计算图，填充关于每个参数的偏导数。

2.1 简单梯度计算示例

假设X是列向量[0,1,2,3]，我们想对函数 $y=2\mathbf{x}^{\top}\mathbf{x}$ 关于列向量X求导。首先，我们创建变量x并为其分配一个初始值。

2.1.1 手算

在这里插入图片描述
梯度为列向量[ 0., 4., 8., 12.]

2.1.2 代码计算

PS： 在计算前，需要一个地方来存储梯度，且不会在每次对一个参数求导时都分配新的内存，因为我们经常会成千上万次地更新相同的参数，每次都分配新的内存可能很快就会将内存耗尽

import torch# 创建一个张量，并通过设置requires_grad属性来让PyTorch自动追踪所有涉及该张量的计算操作
# 即计算得到的梯度会保存到x.grad中
x = torch.arange(4.0,requires_grad=True)
print("x: ",x)
print("grad: ",x.grad)
y=2*torch.dot(x,x)
print("y: ",y)# 调用反向传播函数来自动计算y关于x每个分量的梯度
y.backward()
# 打印梯度
print("grad: ",x.grad)# result
'''
x:  tensor([0., 1., 2., 3.], requires_grad=True)
grad:  None
y:  tensor(28., grad_fn=<MulBackward0>)
grad:  tensor([ 0.,  4.,  8., 12.])
'''

2.2 非标量变量的反向传播

在深度学习中，神经网络的最后一层可能会输出多个向量或矩阵，而不是单一的标量值。例如，在多标签分类任务中，输出层可能会产生一个向量，其中每个元素对应一个类别的预测概率。

假设有一个向量y，由向量x通过线性变换得到：
$\mathbf{y}=\mathbf{Wx}+\mathbf{b}$
x是输入向量，W是权重矩阵，b是偏置向量，y是输出向量

假设:
在这里插入图片描述

import torch# 定义变量
x = torch.tensor([1.0, 2.0], requires_grad=True)
W = torch.tensor([[2.0, 3.0], [4.0, 5.0]])
b = torch.tensor([1.0, 1.0])
target = torch.tensor([5.0, 10.0])  # 目标向量# 计算输出向量 y
y = torch.mm(W, x.unsqueeze(-1)).squeeze() + b# 定义损失函数
loss = (y - target).pow(2).sum()# 计算梯度
loss.backward()# 输出梯度
print("Gradient of x: ", x.grad)

2.3 分离计算

指的是使用.detach()方法来分离一个张量的计算历史，使其不再参与自动梯度计算。

例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的，我们想计算z关于x的梯度，但由于某种原因，希望将y视为一个常数，并且只考虑到x在y被计算后发挥的作用。

在这里插入图片描述

import torchx = torch.tensor([1.0, 2.0], requires_grad=True)
y = 2 * x + 1
# 将 y 视为常数，分离计算
y_detached = y.detach()
# 计算 z
z = y_detached + x
# 计算梯度
z.backward(torch.tensor([1.0, 1.0]))
print("Gradient of x: ", x.grad)