背景
- llama-factory SFT系列教程 (一),大模型 API 部署与使用
- llama-factory SFT系列教程 (二),大模型在自定义数据集 lora 训练与部署
- 本文为llama-factory SFT系列教程 第三篇
简介
利用 llama-factory 框架,基于 chatglm3-6B 模型 做命名实体识别任务;
装包
git clone https://github.com/hiyouga/LLaMA-Factory.git
# conda create -n llama_factory python=3.10
# conda activate llama_factory
cd LLaMA-Factory
pip install -e .[metrics]
主要使用 /LLaMA-Factory/src
下的程序做训练,为了以后导入文件方便;
故笔者在
数据集
该数据集参考的 DeepKE的数据格式;
DeepKE 的代码不够通用,本文使用 llama-factory 做命名实体识别和通用的数据集格式,更方便读者学习与使用;
数据里已发布在 modelscope 平台上;
数据集示例:
{"instruction": "你是专门进行实体抽取的专家。请从input中抽取出符合schema定义的实体,不存在的实体类型返回空列表。请按照JSON字符串的格式回答。 schema: ['address', 'book', 'company', 'game', 'government', 'movie']", "input": "浙商银行企业信贷部叶老桂博士则从另一个角度对五道门槛进行了解读。叶老桂认为,对目前>国内商业银行而言,", "output": "{\"address\": [], \"book\": [], \"company\": [\"浙商银行\"], \"game\": [], \"government\": [], \"movie\": []}"
}
将 命名实体识别任务转换为 序列到序列的生成任务;
在
llm_ner
: 数据集名;
file_name
: 文件名;
file_sha1
: 利用 sha1sum test.json
计算文件的sha1值;
lora 微调
CUDA_VISIBLE_DEVICES=0 python ../src/train_bash.py \
--stage sft \
--do_train \
--model_name_or_path ZhipuAI/chatglm3-6b \
--dataset_dir ../data
--dataset llm_ner \
--template chatglm3 \
--finetuning_type lora \
--lora_target query_key_value \
--output_dir w \
--overwrite_cache \
--per_device_train_batch_size 4 \
--gradient_accumulation_steps 4 \
--lr_scheduler_type cosine \
--logging_steps 10 \
--save_strategy epoch \
--learning_rate 5e-5 \
--num_train_epochs 3.0 \
--plot_loss \
--fp16 \
训练过程中损失函数值如下图所示: