人工智能学习①

LLM背景知识介绍

大语言模型 (LLM) 背景用于理解和生成人类语言，能够处理诸如文本分类、问答、翻译和对话等多种自然语言任务。

语言模型 (Language Model, LM) ：给定一个短语（一个词组或者一句话）语言模型可以生成（预测）接下来的一个词
基于规则和统计的语言模型
神经语言模型
预训练语言模型
大语言模型
1.什么是大语言模型？思考总结Thinking summary答案：指包含数千亿 (或更多) 参数的语言模型
2.语言模型的主要类别是什么？答案：N-Gram、神经网络、预训练模型、大语言模型
3.常用的N-Gram语言模型是什么？答案：bigram、trigram

语言模型的评估指标 1.语言模型的评估指标是什么?答案：Accuracy、Precision、Recall、BLEU、ROUGE、PPL思考总结Thinking summary
2.怎么理解BLEU指标？答案：评估一种语言翻译成另一种语言的文本质量的指标.. 取值范围是[0, 1], 越接近1, 表明翻译质量越好.
3.怎么理解ROUGE指标？答案：ROUGE指标用来衡量生成结果和标准结果的匹配程度，不同的是ROUGE基于召回率，BLEU更看重准确率。
4.怎么理解PPL指标？答案：PPL用来度量一个概率分布或概率模型预测样本的好坏程度

指标 BLEU分数衡量机器翻译的质量，接近1表示高质量。ROUGE指标评估自动文本摘要的准确性。PPL越小，表示模型预测能力越好。

python实现BLEU指标的计算

python实现ROUGE指标的计算

1. LLM主要类别
- LLM分类一般分为三种：自编码模型（encoder）、自回归模型(decoder)和序列到序列模型(encoder-decoder)
2. 自编码模型
- 1. 什么是自编码模型？答案：是在输入中随机MASK掉一部分单词，根据上下文预测这个词。思考总结Thinking summary
- 2. BERT模型的核心架构？答案：transformer的Encoder模块.
- 3.BERT的预训练任务？答案：MLM 和 NSP
- 模型 BERT AE模型如BERT采用Encoder-Only结构，通过随机mask输入单词并预测这些单词来训练。这类模型适用于内容理解任务，如情感分析和提取式问答。更适合NLU任务, 不适合用NLG任务.
  - 下Embedding模块
  - 中Transformer模块.
  - 上预微调模块.

3. 自回归模型
- 1. 什么是自回归模型？答案：从左往右学习的模型，只能利用上文或者下文的信息.
- 2.GPT模型的核心架构？答案：transformer的Decoder模块(去除中间的第二个子层).
- 3.GPT的预训练任务？答案：无监督的预训练和有监督任务的微调
4. 序列到序列模型
- T5

1. 什么是序列到序列模型？答案：同时使用编码器和解码器，它将每个task视作序列到序列的转换/生成思考总结Thinking summary
2.T5模型的核心架构？答案：transformer架构
3.T5的预训练任务？答案：采用类似于BERT模型的MLM预训练任务和多任务预训练

5. 大模型主流架构-Decoder-only
- 1.LLM主要类别架构？答案：Encoder-Only、Decoder-Only、Encoder-Decoder
- 2.自编码模型的基本原理？答案：是在输入中随机MASK掉一部分单词，根据上下文预测这个词.
- 3.自回归模型的基本原理？答案：从左往右学习的模型，只能利用上文或者下文的信息.
- 4.序列到序列模型的基本原理？答案：同时使用编码器和解码器. 它将每个task视作序列到序列的转换/生成.

1.什么是ChatGPT
- ChatGPT是2022年11月由OpenAI发布的一款聊天机器人，能学习人类语言进行对话，完成撰写邮件、脚本、翻译和代码等任务。
2. GPT-1介绍
- GPT采用的是单向Transformer模型
- 1. GPT-1模型架构？答案：Transformer的Decoder模块（去除中间第二个子层）
- 2. GPT-1预训练任务？答案：1、无监督预训练；2有监督任务微调.
- 3. GPT-1模型基本参数？答案：12层、12个head、768维、参数量1.17亿
3. GPT-2介绍
- 文本生成效果好, 缺点：有些任务上的表现不如随机
- GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间, 基于这个思想, 诞生了我们下面要介绍的GPT-3
- 1. GPT-2模型架构？答案：相较GPT-1做了微小的改动：1.Pre_LayerNorm; 2.最后一层后加入LN层；3.序列长度扩大到1024
- 2. GPT-2预训练任务？答案：无监督预训练
- 3. GPT-2提出的新思想？答案：zero-shot：零样本学习，达到开箱即用的效果.
- 4. GPT-3介绍
GPT系列采用Transformer架构，GPT-3通过大量参数学习大数据，依赖Transformer的拟合能力收敛模型，完成多种任务。
1. GPT-3模型架构？答案：和GPT-2基本一致，提出sparse attention
2. GPT-3预训练任务？答案：无监督预训练
3. GPT-3提出的新思想？答案：ICL：Few-Shot、One-Shot、Zero-Shot

Chatgpt

监督学习和训练奖励模型

1. ChatGPT模型原理？答案：有监督的微调+奖励模型+强化学习
2. 强化学习的关键信息？答案：1.一种机器学习方法；2.关注智能体和环境的交互；3.目标追求最大回报

1. LLM主流大模型类别
- ChatGLM LLaMA Bloom Baichuan
2. ChatGLM-6B模型
- 训练目标
- 模型结构
1. ChatGLM-6B的模型架构？答案：Prefix-Decoder-Only:一种基于GLM的自回归空白填充目标的通用预训练模型
2. ChatGLM-6B的训练目标？答案：在输入文本中随机挖去一些连续的文本片段，然后训练模型按照任意顺序重建这些片段.
3. ChatGLM-6B模型的改动点？答案：Embedding层梯度缩减；Deep Norm; GeGLU激活函数；RoPE位置编码

3. LLaMA模型开源
- LLaMA 的训练目标是语言模型，即根据已有的上文去预测下一个词.
- 1.LLaMA的模型架构？答案：和 GPT 系列一样，LLaMA 模型也是 Decoder-only架构
- 2. LLaMA的训练目标？答案：根据已有的上文去预测下一个词.
- 3. LLaMA模型的改动点？答案：RMS-Norm(Pre_Layer Norm); SwiGLU激活函数；RoPE位置编码
4. BLOOM模型
- BLOOM 的训练目标是语言模型，即根据已有的上文去预测下一个词.
- 1.BLOOM的模型架构？答案：和 GPT 系列一样，BLOOM 模型也是 Decoder-only架构
- 2. BLOOM的训练目标？答案：根据已有的上文去预测下一个词.
- 3. BLOOM模型的改动点？答案：Embedding Layer Norm; Pre Layer Norm; GeLU激活函数；ALiBi位置编码
5. Baichuan-7B模型
- Baichuan-7B 的训练目标也是语言模型，即根据已有的上文去预测下一个词。
- 1.Baichuan-7B的模型架构？答案：和 LLaMA架构一致，也是 Decoder-only架构
- 2. Baichuan-7B的训练目标？答案：根据已有的上文去预测下一个词.
- 3. Baichuan-7B模型的改动点？答案：Pre Layer Norm; SwiGLU激活函数；RoPE位置编码

1.目录什么是NLP四范式
2. Fine-Tuning
3. Prompt-Tuning技术介绍
4. Prompt-Tuning入门方法

1.目录什么是NLP四范式
2. Fine-Tuning
- Fine-Tuning是迁移学习的一种方式，用于将预训练模型适应特定任务或领域，通过在任务特定数据上继续训练预训练模型来实现。
  - 替代方法： Prompt-Tuning通过添加模板避免增加额外参数，使模型能在小样本或零样本场景下取得良好效果。
3. Prompt-Tuning技术介绍
- 1.NLP任务四范式？答案：1.传统机器学习；2.深度学习模型；3.预训练+fine-tuning;4.预训练+prompt+
- 2. 什么是Fine-Tuning？答案：采用已经在大量文本上进行训练的预训练语言模型，然后在小规模的任务特定文本上继续训练它.
- 3. Prompt-Tuning的实现？答案：1.构建模版Template；2.标签词映射Verbalizer；3.训练
4. Prompt-Tuning入门方法
- Prompt-Tuning的鼻祖----GPT3
- PET模型
- 模板类别
  - Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本，其参数可根据任务调整，优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
  - 1.什么是Prompt-Tuning？答案：通过添加模板的方法来避免引入额外的参数，从而让模型可以在小样本（few-shot）或者零样本（zero-shot）场景下达到理想的效果
  - 2.PET模型的主要组件？答案：Pattern(模板)与Verbalizer(标签词映射).
  - 3.P-tuning V1 的核心思想？答案：P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码，编码之后与其他向量进行拼接之后正常输入 LLM. 注意，训练之后只保留 Prompt 编码之后的向量即可，无需保留编码器

模板类别
- Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本，其参数可根据任务调整，优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
- 1.什么是Prompt-Tuning？答案：通过添加模板的方法来避免引入额外的参数，从而让模型可以在小样本（few-shot）或者零样本（zero-shot）场景下达到理想的效果
- 2.PET模型的主要组件？答案：Pattern(模板)与Verbalizer(标签词映射).
- 3.P-tuning V1 的核心思想？答案：P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码，编码之后与其他向量进行拼接之后正常输入 LLM. 注意，训练之后只保留 Prompt 编码之后的向量即可，无需保留编码器