写在前面
这篇博客将基于《ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools》,深入剖析 GLM-4 系列在**模型架构设计、预训练、后训练(对齐)、以及关键技术创新(如长上下文处理、Agent 能力构建)**等环节的实现逻辑与设计考量,带你全面了解这个强大的国产大模型家族是如何炼成的。
一、GLM 的演进之路:从追赶到并跑
回顾 ChatGLM 的发展历程(见论文 Figure 1 和 Figure 3),可以看到一条清晰的技术演进脉络:
- GLM-130B (2021年底 - 2022年8月): 对标 GPT-3 (davinci),验证大规模模型(100B+)训练技术的可行性。采用了 GLM(通用语言模型)架构和自回归空白填充目标。在 HELM 评估中表现接近 GPT-3。
- ChatGLM-130B (2023年3月): 受 ChatGPT 启发,在 GLM-130B 基础上进行指令