一.为什么需要CMake,什么是CMake 1.由于各种make工具遵循不同的规范和标准,所执行的Makefile格式也不同,例如 GNU Make ,QT 的 qmake ,微软的 MS nmake,BSD Make(pmake),…
从头开始构建GPT标记器
对于GPT Tokenizer,论文《Language Models are Unsupervised Multitask Learners》中介绍了一种字节级编码作为LLM的标记化机制: The vocabulary is expanded to 50,257. We also increase the context size from 512 to 1024 to…
[rootlocalhost tmp]# cat ~/.vimrc
启用语法高亮
syntax on
显示行号
set number
启用缩进
set autoindent
显示匹配的项
set showmatch
启用鼠标支持
set mousea
将制表符 (Tab) 替换为空格
set expandtab set tabstop4 set shiftwidth4