1. Layer Norm 的计算公式写一下?
2. RMS Norm 的计算公式写一下?
3. RMS Norm 相比于 Layer Norm 有什么特点?
4. Deep Norm 思路?
5. 写一下 Deep Norm 代码实现?
6.Deep Norm 有什么优点?
7.LN 在 LLMs 中的不同位置 有什么区别么?如果有,能介绍一下区别么?
8. LLMs 各模型分别用了 哪种 Layer normalization?
一、 Layer Norm 篇
1.1 Layer Norm 的计算公式写一下?