怎么查看LLM Transformer 架构进行并行计算和设备映射
num_hidden_layers = model.config.num_hidden_layers
print(num_hidden_layers)
print(model)
LLM(大语言模型)通常是基于 Transformer 架构 构建的,它由多个模块化的层(Layer)堆叠组成,每个层都有其独特的作用。你问的 device_map
配置就是把这些层按功能或层级分布在多个设备(比如多个 GPU)上,来实现 模型并行。
🔍 常见 LLM 层组件及其作用
模块名 | 作用 | device_map 示例 |
---|---|---|
model.embed_tokens | 词嵌入层(将 token 映射为向量) | device_map[' |