1、大模型llama3技术点
参考:https://www.zhihu.com/question/662354435/answer/3572364267
Llama1-3,数据tokens从1-2T到15T;使用了MHA(GQA缓存);上下文长度从2-4-8K;应用了强化学习对其。
-
1、pretraining((1) 初始预训练,(2) 长上下文预训练,以及 (3)
退火(Annealing))+posttraing(SFT+DPO) -
2、合成数据应用
-
3、Norm函数:RMSNorm,Norm结构:Pre-Norm,Self Attention: Grouped Query Attention(GQA) ,Position编码:ROPE,FFN结构:SwiGLU
Norm函数:RMSNorm
Norm结构:Pre-Norm
Self Attention: Grouped Query Attention(GQA)Position编码:ROPE
FFN结构:SwiGLU
2、transformer模型常见知识点
大模型面经:
https://docs.qq.com/doc/DSGtaUUpydFBEd2FC