文章目录 编码器-解码器Batch Normalization好处 编码器-解码器 第二个input与transformer中的解码器类似。 Batch Normalization 尽量使得w1和w2之间呈现为正圆 训练模型的时候, μ \mu μ和 σ \sigma σ不可以认为是常数,而是包含数据的变量,取值大小和batch中的数据有关。 γ \gamma γ和 β \beta β是自己认为定义的,虽然两组数据可以相同,但是意义是完全不一样的。 好处