为什么不直接统计标签数和预测结果数,计算精度?
因为
- 存在梯度为0的情况
- 梯度不连续
为什么叫logistic回归
logistic是因为加了一个sigmoid函数,将输出预测值映射到【0,1】
有时候使用MSE损失函数,拟合
有时候使用cross entropy==》 分类问题
softmax解决多分类问题,让大的概率值更大
交叉熵损失详解 cross entropy
kl散度,两个分布重合的话,kl散度等于0,因为他们很整齐
熵:不确定性,惊喜的衡量度,稳定度
二分类的公式推导
cross entropy 越小越好,优化起来速度更快,在pytorch中,把softmax和log打包到一起了
pytorch中的inplace会改变输入x的值
feature缩放
有两种方式
- 图像数据增强
# 对3通道进行归一化处理 imagenet数据集上的
transforms.Normalize(mean=[0.485,0.456,0.406],std=[0.229,0.224,0.225])
# 批归一化 最后生成通道数 28*28
x = torch.rand(100,16,784)
layer = nn.BatchNorm1d(16)
out = layer(x)#[16] 均值
print(layer.running_mean,layer.running_mean.size())# 方差
print(layer.running_var)
- 批归一化