1.梯度下降
w 新 = w旧 - 学习率×梯度
训练的目的就是让 loss 减小
2.前向传播进行预测,
反向传播进行训练(每一个参数通过梯度下降进行更新参数),(1前向传播 2求 loss 3反向传播 4梯度更新)
能够让损失下降的参数,就是更好的参数。
损失是真实值和预测值之间的差距(模型训练的目标就是使得损失变小,即真实值和预测值更加接近)
3.正则化就是对于数据进行纠正
L2正则转换的结果是都是0到1之间的数,让所有的数据的平方和为1。作用让数值不要太大,或者让参数的数据分布相对统一一些。