跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）

介绍：首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库，训练出一个具有中医知识理解力的预训练语言模型（pre-trained model），之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调（SFT），使得模型具备中医古籍知识问答能力。

0.模型信息 Model Information

Brief Introduction

姜子牙通用大模型V1是基于LLaMa的130亿参数的大规模预训练模型，具备翻译，编程，文本分类，信息抽取，摘要，文案生成，常识问答和数学计算等能力。目前姜子牙通用大模型已完成大规模预训练、多任务有监督微调和人类反馈学习三阶段的训练过程。

pip install torch==1.12.1 tokenizers==0.13.3 git+https://github.com/huggingface/transformers

0.1继续预训练 Continual pretraining

原始数据包含英文和中文，其中英文数据来自 openwebtext、Books、Wikipedia 和 Code，中文数据来自清洗后的悟道数据集、自建的中文数据集。在对原始数据进行去重、模型打分、数据分桶、规则过滤、敏感主题过滤和数据评估后，最终得到 125B tokens 的有效数据。

为了解决 LLaMA 原生分词对中文编解码效率低下的问题，我们在 LLaMA 词表的基础上增加了 7k + 个常见中文字，通过和 LLaMA 原生的词表去重，最终得到一个 39410 大小的词表，并通过复用 Transformers 里 LlamaTokenizer 来实现了这一效果。

在增量训练过程中，我们使用了 160 张 40GB 的 A100，采用 2.6M tokens 的训练集样本数量和 FP 16 的混合精度，吞吐量达到 118 TFLOP per GPU per second。因此我们能够在 8 天的时间里在原生的 LLaMA-13B 模型基础上，增量训练 110B tokens 的数据。

训练期间，虽然遇到了机器宕机、底层框架 bug、loss spike 等各种问题，但我们通过快速调整，保证了增量训练的稳定性。我们也放出训练过程的 loss 曲线，让大家了解可能出现的问题。

0.2 多任务有监督微调 Supervised finetuning

在多任务有监督微调阶段，采用了课程学习（curiculum learning）和增量训练（continual learning）的策略，用大模型辅助划分已有的数据难度，然后通过 “Easy To Hard” 的方式，分多个阶段进行 SFT 训练。

SFT 训练数据包含多个高质量的数据集，均经过人工筛选和校验：

Self-Instruct 构造的数据（约 2M）：BELLE、Alpaca、Alpaca-GPT4 等多个数据集
内部收集 Code 数据（300K）：包含 leetcode、多种 Code 任务形式
内部收集推理 / 逻辑相关数据（500K）：推理、申论、数学应用题、数值计算等
中英平行语料（2M）：中英互译语料、COT 类型翻译语料、古文翻译语料等
多轮对话语料（500K）：Self-Instruct 生成、任务型多轮对话、Role-Playing 型多轮对话等

0.3 人类反馈学习 Human-Feedback training

为了进一步提升模型的综合表现，使其能够充分理解人类意图、减少 “幻觉” 和不安全的输出，基于指令微调后的模型，进行了人类反馈训练（Human-Feedback Training，HFT）。在训练中，我们采用了以人类反馈强化学习（RM、PPO）为主，结合多种其他手段联合训练的方法，手段包括人类反馈微调（Human-Feedback Fine-tuning，HFFT）、后见链微调（Chain-of-Hindsight Fine-tuning，COHFT）、AI 反馈（AI Feedback）和基于规则的奖励系统（Rule-based Reward System，RBRS）等，用来弥补 PPO 方法的短板，加速训练。

我们在内部自研的框架上实现了 HFT 的训练流程，该框架可以利用最少 8 张 40G 的 A100 显卡完成 Ziya-LLaMA-13B-v1 的全参数训练。在 PPO 训练中，我们没有限制生成样本的长度，以确保长文本任务的奖励准确性。每次训练的总经验池尺寸超过 100k 样本，确保了训练的充分性。

1.训练数据

1.1 继续预训练数据（纯文本语料）约0.5G

包含两部分：①中医教材数据：收集“十三五”规划所有中医教材共22本。②在线中医网站数据：爬取中医世家、民间医学网等在线中医网站及知识库。

通用指令微调数据

Alpaca-GPT4 52k 中文

alpaca_gpt4_data.json包含由 GPT-4 生成的 52K 指令跟随数据，并带有 Alpaca 提示。该 JSON 文件与 Alpaca 数据具有相同的格式，只是输出由 GPT-4 生成的：

instruction: str，描述模型应执行的任务。每条 52K 指令都是唯一的。

input: str，任务的任选上下文或输入。

output: str，指令的答案由生成GPT-4。
alpaca_gpt4_data_zh.json包含由 GPT-4 生成的 52K 指令跟踪数据，并由 ChatGPT 翻译成中文的 Alpaca 提示。此 JSON 文件具有相同的格式。
comparison_data.json通过要求GPT-4评估质量，对GPT-4、GPT-3.5和OPT-IML等透明模型的响应进行排名。

user_input: str，用于查询LLM的提示。

completion_a：str，一个模型完成，其排名完成_b。

completion_b: str，不同的模型完成，其质量得分较低。
unnatural_instruction_gpt4_data.json包含由 GPT-4 生成的 9K 指令跟随数据，并带有非自然指令中的提示。此 JSON 文件与 Alpaca 数据具有相同的格式。

比较了两种指令调整的 LLaMA 模型，分别根据 GPT-4 和 GPT-3 生成的数据进行微调。
在“有用性”标准中，LLaMA-GPT-4 的表现明显优于 LLaMA-GPT-3。
LLaMA-GPT-4 在所有三个标准中的表现与原始 GPT-4 相似，这为开发最先进的遵循指令的 LLM 提供了一个有希望的方向。

1.2 中医古籍指令对话数据

语料库来源

以《中华医典》数据库为语料来源，约338MB，由两部分组成：①非结构化的“古籍文本”：涵盖了886本标点符号及内容完整的中医古籍。②结构化的“古籍辞典”：包含“名医”、“名言”、“名词”、“名著”等六大类，由中医学界诸多知名学者对中医古籍内容知识进一步系统提炼整理，是中医古籍内容精华最为直接的集中体现。

构建指令微调对话数据集通过知识引导的指令数据生成和指令数据质量优化两个阶段，最终获得504372个对话数据。

知识引导的指令数据生成

让ChatGPT基于对该段中医古籍的知识内容理解，模拟用户与AI，通过自问自答的方式，生成逻辑关系相关的若干问题和答案，从而保证对话数据的准确性和可靠性。

指令数据质量优化

尽管基于知识引导使得生成的指令数据基于特定领域，并且与所提供的无监督文本内容相关，避免了模型内部“已有知识”的干扰。然而这种方法难以对数据质量进行监督和控制，也难以保证指令数据的多样性和难度，这可能导致大模型对指令数据集的过度拟合。为了解决这个问题，我们在现有指令数据集的基础上，通过指令数据过滤-指令数据整合两个阶段对数据进行二次优化。