llama2.c与chinese-baby-llama2语言模型本地部署推理

文章目录

简介
Github
文档
克隆源码
英文模型
编译运行
中文模型（280M）
main函数

简介

llama2.c是一个极简的Llama 2 LLM全栈工具，使用一个简单的 700 行 C 文件 ( run.c ) 对其进行推理。llama2.c涉及LLM微调、模型构建、推理端末部署（量化、硬件加速）等众多方面，是学习研究Open LLM的很好切入点。

在这里插入图片描述

Github

https://github.com/karpathy/llama2.c

文档

https://llama.meta.com/

克隆源码

git clone https://github.com/karpathy/llama2.c.git

英文模型

https://huggingface.co/datasets/roneneldan/TinyStories

# 15M参数模型
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories15M.bin
# 42M参数模型
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories42M.bin
# 110M参数模型
wget https://huggingface.co/karpathy/tinyllamas/resolve/main/stories110M.bin

编译运行

make run
# 15M参数模型
./run stories15M.bin
# 42M参数模型，运行并输入提示词
./run stories42M.bin -i "One day, Lily met a Shoggoth"

中文模型（280M）

https://huggingface.co/flyingfishinwater/chinese-baby-llama2

# 下载模型
git clone https://huggingface.co/flyingfishinwater/chinese-baby-llama2

安装 python 相关依赖

pip3 install numpy
pip3 install torch torchvision torchaudio
pip3 install transformers

将模型hf格式转换为bin格式

# 将hf模型文件转换成.bin文件
python export.py ./chinese-baby-llama2.bin --hf ./chinese-baby-llama2

修改 llama2.c/run.c

// 将 main() 中的 tokenizer.bin 改为 chinese-baby-llama2 目录下的tokenizer.bin
char *tokenizer_path = "chinese-baby-llama2/tokenizer.bin";

在这里插入图片描述

编译 c

make run

运行并输入提示词

./run chinese-baby-llama2.bin -i "今天是武林大会，我是武林盟主"

在这里插入图片描述

main函数

默认参数设置：定义了一些默认参数值，例如模型路径、分词器路径、温度、top-p 值、步数等。
命令行参数解析：通过检查命令行参数，更新默认参数值。命令行参数的格式为 flag value，例如 -t 0.5 表示设置温度为 0.5。
参数验证和覆盖：对解析后的参数进行验证和覆盖。例如，确保随机数种子大于 0、温度在合理范围内、步数为非负数等。
构建 Transformer 模型：使用给定的模型文件构建 Transformer 模型，并根据需要调整步数。
构建 Tokenizer：使用给定的分词器文件构建 Tokenizer。
构建 Sampler：构建 Sampler，并设置相应的参数，如词汇表大小、温度、top-p 值等。
执行功能：根据模式选择执行生成或者聊天功能。如果模式是 generate，则执行生成功能；如果是 chat，则执行聊天功能。
内存和文件句柄清理：释放动态分配的内存和关闭文件句柄，确保程序执行结束时资源被正确释放。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/804208.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

llama2.c与chinese-baby-llama2语言模型本地部署推理

文章目录

简介

Github

文档

克隆源码

英文模型

编译运行

中文模型（280M）

main函数

相关文章

[计算机效率] 鼠标手势工具：WGestures(解放键盘的超级效率工具)

Spring 重试

机器学习（理论第一课）

第三十六节 Java 网络编程

AWS服务器有哪些优势？

神经网络解决回归问题（更新ing）

大模型笔记：Prompt tuning

大数据相关组件安装及使用

大话设计模式——18.策略模式（Strategy Pattern）

ARCHE-2024第三届上海国际智慧档案展览会暨高峰论坛即将开幕

（十三）强缓存和协商缓存的区别

echarts 如何设置（dataZoom）多个图形的数据区域一起联动缩放响应

ssm 项目连接 redis 报错：可能是不加密码就不报错了

MAC（M1芯片）编译Java项目慢且发热严重问题解决方案

C++（六个默认成员函数）

C#面：什么链式委托

懒人必备！4个PS抠图技巧，让你轻松处理复杂背景！

合并单元格的excel文件转换成json数据格式

华为机试题

eBPF专题一 | 手把手教你用eBPF诊断MySQL(含源码)