文章目录
- 1 Qwen2.5
- 1.1 模型介绍
- 1.2 Qwen2.5-0.5B模型
- 1.3 llama.cpp支持Qwen架构
- 2 下载模型
- 2.1 Huggingface镜像网站整体下载
- 2.2 阿里魔塔社区整体下载
- 2.3 模型Qwen2.5-0.5B-Instruct-IQ3_M.gguf
- 3 推理方式
- 3.1 llama.cpp启动模型
- 3.1.1 补全
- 3.1.2 聊天
- 3.2 使用transformers库
- 3.2.1 加载模型
- 3.2.2 调用
- 4 参考附录
1 Qwen2.5
Qwen(通义千问)。
Qwen2.5开源了,共有7个尺寸规模,包括:0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型。
本次全是Dense模型,没有MoE模型。
同时还开源了Qwen2.5-Coder模型和Qwen2.5-Math模型。
还开了GGUF、GPTQ和AWQ 3种量化模型。
1.1 模型介绍
(1)训练数据从Qwen2的7T Tokens扩展到了Qwen2.5的18T tokens。
(2)上下文最大长度128K,其中超过32K的部分利用YARN来进行外推处理,并且最大生成长度8K(从1K升级到 8K),更大的输出长度意味着可以更容易适配到cot输出上。
(3)结构化数据(如表格)理解能力更强,并且输出json效果更好,同时适配多样的系统提示词,增强角色扮演能力。
(4)更强的代码和数学能力,借助Qwen2-Math的数据到Qwen2.5上,让基模表现更好。
(5)模型依旧采用RoPE、SwiGLU、RMSNorm和GQA。
(6)依然是多语言模型:支撑29种语言,包括中文、英语、法语、西班牙语、葡萄牙语、德语、意大利语、俄语、日语、韩语、