人工智能学习①

LLM背景知识介绍

大语言模型 (LLM) 背景  用于理解和生成人类语言,能够处理诸如文本分类、问答、翻译和对话等多种自然语言任务。

  • 语言模型 (Language Model, LM)  :给定一个短语(一个词组或者一句话)语言模型可以生成(预测) 接下来的一个词
  •      基于规则和统计的语言模型
  •      神经语言模型
  •      预训练语言模型
  •      大语言模型
  • 1.什么是大语言模型?思考总结Thinking summary答案:指包含数千亿 (或更多) 参数的语言模型
  • 2.语言模型的主要类别是什么?答案:N-Gram、神经网络、预训练模型、大语言模型
  • 3.常用的N-Gram语言模型是什么?答案:bigram、trigram
  • 语言模型的评估指标 1.语言模型的评估指标是什么?答案:Accuracy、Precision、Recall、BLEU、ROUGE、PPL思考总结Thinking summary
  • 2.怎么理解BLEU指标?答案:评估一种语言翻译成另一种语言的文本质量的指标.. 取值范围是[0, 1], 越接近1, 表明翻译质量越好.
  • 3.怎么理解ROUGE指标?答案:ROUGE指标用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。
  • 4.怎么理解PPL指标? 答案:PPL用来度量一个概率分布或概率模型预测样本的好坏程度

指标 BLEU分数衡量机器翻译的质量,接近1表示高质量。ROUGE指标评估自动文本摘要的准确性。PPL越小,表示模型预测能力越好。 

python实现BLEU指标的计算

python实现ROUGE指标的计算

  • 1. LLM主要类别
    • LLM分类一般分为三种:自编码模型(encoder)、自回归模型(decoder)和序列到序列模型(encoder-decoder)
  • 2. 自编码模型
    • 1. 什么是自编码模型?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词。思考总结Thinking summary
    • 2. BERT模型的核心架构?答案:transformer的Encoder模块.
    • 3.BERT的预训练任务?答案:MLM 和 NSP
    • 模型 BERT AE模型如BERT采用Encoder-Only结构,通过随机mask输入单词并预测这些单词来训练。这类模型适用于内容理解任务,如情感分析和提取式问答。 更适合NLU任务, 不适合用NLG任务.
      • 下Embedding模块
      • 中Transformer模块.
      • 上预微调模块.

  • 3. 自回归模型
    • 1. 什么是自回归模型?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 2.GPT模型的核心架构?答案:transformer的Decoder模块(去除中间的第二个子层).
    • 3.GPT的预训练任务?答案:无监督的预训练 和 有监督任务的微调
  • 4. 序列到序列模型
    • T5

  • 1. 什么是序列到序列模型?答案:同时使用编码器和解码器,它将每个task视作序列到序列的转换/生成思考总结Thinking summary
  • 2.T5模型的核心架构?答案:transformer架构
  • 3.T5的预训练任务?答案:采用类似于BERT模型的MLM预训练任务和多任务预训练

  • 5. 大模型主流架构-Decoder-only
    • 1.LLM主要类别架构?答案:Encoder-Only、Decoder-Only、Encoder-Decoder
    • 2.自编码模型的基本原理?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词.
    • 3.自回归模型的基本原理?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 4.序列到序列模型的基本原理?答案:同时使用编码器和解码器. 它将每个task视作序列到序列的转换/生成.

  • 1.什么是ChatGPT
    • ChatGPT是2022年11月由OpenAI发布的一款聊天机器人,能学习人类语言进行对话,完成撰写邮件、脚本、翻译和代码等任务。
  • 2. GPT-1介绍
    • GPT采用的是单向Transformer模型
    • 1. GPT-1模型架构?答案:Transformer的Decoder模块(去除中间第二个子层)
    • 2. GPT-1预训练任务?答案:1、无监督预训练;2有监督任务微调.
    • 3. GPT-1模型基本参数?答案:12层、12个head、768维、参数量1.17亿
  • 3. GPT-2介绍
    • 文本生成效果好, 缺点:有些任务上的表现不如随机
    • GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间, 基于这个思想, 诞生了我们下面要介绍的GPT-3
    • 1. GPT-2模型架构?答案:相较GPT-1做了微小的改动:1.Pre_LayerNorm; 2.最后一层后加入LN层;3.序列长度扩大到1024
    • 2. GPT-2预训练任务?答案:无监督预训练
    • 3. GPT-2提出的新思想?答案:zero-shot:零样本学习,达到开箱即用的效果.
    • 4. GPT-3介绍
  • GPT系列采用Transformer架构,GPT-3通过大量参数学习大数据,依赖Transformer的拟合能力收敛模型,完成多种任务。
  • 1. GPT-3模型架构?答案:和GPT-2基本一致,提出sparse attention
  • 2. GPT-3预训练任务?答案:无监督预训练
  • 3. GPT-3提出的新思想?答案:ICL:Few-Shot、One-Shot、Zero-Shot

Chatgpt

 监督学习 和训练奖励模型

  • 1. ChatGPT模型原理?答案:有监督的微调+奖励模型+强化学习
  • 2. 强化学习的关键信息?答案:1.一种机器学习方法;2.关注智能体和环境的交互;3.目标追求最大回报

  • 1. LLM主流大模型类别
    • ChatGLM LLaMA Bloom Baichuan
  • 2. ChatGLM-6B模型
    • 训练目标
    • 模型结构
  • 1. ChatGLM-6B的模型架构?答案:Prefix-Decoder-Only:一种基于GLM的自回归空白填充目标的通用预训练模型
  • 2. ChatGLM-6B的训练目标?答案:在输入文本中随机挖去一些连续的文本片段,然后训练模型按照任意顺序重建这些片段.
  • 3. ChatGLM-6B模型的改动点?答案:Embedding层梯度缩减;Deep Norm; GeGLU激活函数;RoPE位置编码

  • 3. LLaMA模型  开源
    • LLaMA 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.LLaMA的模型架构?答案:和 GPT 系列一样,LLaMA 模型也是 Decoder-only架构
    • 2. LLaMA的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. LLaMA模型的改动点?答案:RMS-Norm(Pre_Layer Norm); SwiGLU激活函数;RoPE位置编码
  • 4. BLOOM模型
    • BLOOM 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.BLOOM的模型架构?答案:和 GPT 系列一样,BLOOM 模型也是 Decoder-only架构
    • 2. BLOOM的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. BLOOM模型的改动点?答案:Embedding Layer Norm; Pre Layer Norm; GeLU激活函数;ALiBi位置编码
  • 5. Baichuan-7B模型
    • Baichuan-7B 的训练目标也是语言模型,即根据已有的上文去预测下一个词。
    • 1.Baichuan-7B的模型架构?答案:和 LLaMA架构一致,也是 Decoder-only架构
    • 2. Baichuan-7B的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. Baichuan-7B模型的改动点?答案:Pre Layer Norm; SwiGLU激活函数;RoPE位置编码

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
  • 3. Prompt-Tuning技术介绍
  • 4. Prompt-Tuning入门方法

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
    • Fine-Tuning是迁移学习的一种方式,用于将预训练模型适应特定任务或领域,通过在任务特定数据上继续训练预训练模型来实现。
      • 替代方法: Prompt-Tuning通过添加模板避免增加额外参数,使模型能在小样本或零样本场景下取得良好效果。
  • 3. Prompt-Tuning技术介绍
    • 1.NLP任务四范式?答案:1.传统机器学习;2.深度学习模型;3.预训练+fine-tuning;4.预训练+prompt+
    • 2. 什么是Fine-Tuning?答案:采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它.
    • 3. Prompt-Tuning的实现?答案:1.构建模版Template;2.标签词映射Verbalizer;3.训练
  • 4. Prompt-Tuning入门方法
    • Prompt-Tuning的鼻祖----GPT3
    • PET模型
    • 模板类别
      • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
      • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
      • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
      • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

  •  模板类别
    • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
    • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
    • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
    • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows下Git Bash乱码问题解决

Windows下Git Bash乱码问题解决 缘起 个人用的电脑是Mac OS,系统和终端编码都是UTF-8,但公司给配发的电脑是Windows,装上Git Bash在使用 git commit -m "中文"时会乱码 解决 确认有以下配置 # 输入 git config --global --lis…

网络安全的重要性与挑战

网络安全的重要性与挑战 网络安全是指保护网络系统中的数据免受未经授权的访问、泄露、篡改或破坏的过程。它关乎个人隐私的保护、企业资产的安全乃至国家安全的稳定。随着互联网和物联网的快速发展,网络攻击和威胁也越来越多样化和复杂化,网络安全已成为…

【第六天】TCP和UDP的区别 TCP连接如何确保可靠性

TCP和UDP的区别 概念: TCP(传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议UDP(用户数据报协议)为应用程序提供了一种无需建立连接就可以发送封装的IP数据包的方法。 特点: TCP&am…

深入Scrapy框架:掌握其工作流程

深入Scrapy框架:掌握其工作流程 引言 作为一名资深的Python程序员,我对各种数据采集工具有着深刻的理解。Scrapy,作为一个上场率极高的爬虫框架,以其高效、灵活和强大的特性,成为数据采集领域的不二选择。在本文中&a…

CSS常用属性(列表属性、表格属性、背景属性、鼠标属性)

一、CSS列表属性 列表相关的属性,可以作用在 ul 、 ol 、 li 元素上。 CSS 属性名 功能 属性值 list - style - type 设置列表符号 常用值如下: none :不显示前面的标识(很常用!) square &#xf…

Unity 物理动画:利用物理引擎创造逼真动作

在Unity中,物理动画是一种利用物理引擎来模拟真实世界物理效果的动画技术。通过物理动画,开发者可以创造出更加逼真和自然的动画效果,如重力、碰撞、布料摆动等。本文将介绍Unity物理动画的基本概念、实现方法以及一些实用的技巧。 Unity物理…

Oat++ 后端实现跨域

这里记录在官方的例子中,加入跨域。Oat Example-CRUD 在官方的例子中,加入跨域。 Oat Example-CRUD 修改AppComponent.hpp文件中的代码,如下: #include "AppComponent.hpp"#include "controller/UserController…

路径规划——Dijkstra算法

算法原理 Dijkstra算法采用贪心算法的思想,解决的问题可以描述为:在无向图G(V,E)中,假设每条边E[i] 的长度为 w[i],找到由顶点vs到其余各点的最短路径。 通过Dijkstra计算图G中的最短路径时,需要指定起点vs(即从顶点v…

BI数据可视化看板的力量与应用

在当今数据驱动的时代,企业面对着海量的信息与数据。随着业务的复杂性加剧,如何有效地解读和利用这些数据,成为了企业决策的重要环节。而BI(商业智能)数据可视化看板,便是解决这一难题的关键工具。数聚将深…

idea-springboot后端所有@注释含义汇总-持续更新!

(1)启动类 ①SpringBootApplication 出现这个代表这个就是整个程序的入口,是运行的开始位置 (2)Dao层 ①Repository 作用就是声明自己这个为bean文件(每一个controller都是一个bean文件)&am…

vue3 中使用xlsx 插件 导出excel文件

介绍一下 vue中得导出excel 文件 功能 ① 安装插件 npm i xlsx ②导入插件 import * as XLSX from xlsx; ③ 使用插件 直接是一个 方法 const exportExcel()>{const data[["姓名","年龄"],["张三",18],["李四",20],["王五…

blender顶点乱飞的问题解决

初学blender,编辑模式下移动某些顶点,不管是移动还是滑动都会出现定点乱飞的问题,后来才发现是开了吸附工具的原因!!!! 像下面这样,其实我只是在Z轴上移动,但是就跑的很…

Anaconda目录

安装目录 Anaconda 在默认情况下会安装到 C:\ProgramData\Anaconda3,而 conda 环境和包会安装在 C:\Users\username\.conda\ 目录下。 备注:我是在windows下安装 的Anaconda。我的安装目录是C:\Program Files\Anaconda3 pkgs目录 在以上两个目录下都有…

CH571F基于官方模版创建工程

直接使用MounRiver创建的工程只有最简单的串口和GPIO功能,其他PWM和SPI等驱动基本上都有,但蓝牙和USB只有参考官方的示例来,全部自己写属实有点麻烦了,而且还需要添加BLE的库。下面就简单基于官方的示例工程创建我们自己的工程。 …

抓包工具——wireshark的使用

​ 什么是wireshark wireshark是一个数据包捕捉程序。和linux下的tcpdump,以及sniffer,Fidder等软件功能类似。按理说,我们的计算机中的网卡设备只会将发给本机的数据包传输到上层进行解析,而其他的数据包会进行丢弃,…

jenkins集成allure测试报告

1.allure插件安装 (1)点击首页的【Manage Jenkins】-【Manage Plugins】 (2)选择【Available】选项,搜索输入框输入Allure,搜索出来的名字就叫Allure,当安装后名字会变为Allure Jenkins Plugi…

QVariantMap是QVariant类型的键值对容器,它在 Qt 中被广泛使用,用于存储和传递复杂的数据结构

QVariantMap 是 QVariant 类型的键值对容器&#xff0c;它在 Qt 中被广泛使用&#xff0c;用于存储和传递复杂的数据结构。QVariantMap 类似于 QMap<QString, QVariant>&#xff0c;允许使用字符串作为键来存储各种类型的数据。 QVariantMap 的基本功能 创建和使用 QVa…

Android SurfaceFlinger——GraphicBuffer获取内存信息(三十一)

上一篇文章介绍了 GraphicBuffer 初始化的 initWithSize() 函数中的申请内存流程,这里我们看一下另一个比较重要的函数,GraphicBufferMapper. getTransportSize 获取内存信息。该函数通常在需要了解缓冲区的实际内存占用情况时调用,例如在调试内存使用情况或优化性能时。 一…

语言模型检索用的知识库,是越大越好吗?

语言模型在预训练时所使用的数据量越大&#xff0c;推理时的准确率等性能总的来说就会越好。根据美国华盛顿大学和艾伦AI研究所近期发表的一篇论文[1]&#xff0c;语言模型检索用的知识库同样也存在着规模效应&#xff0c;知识库的规模越大&#xff0c;模型完成知识密集型任务的…

MySQL 8.0 字符集与比较规则介绍

前言&#xff1a; 我们都知道 MySQL 8.0 与 MySQL 5.7 的区别之一就是默认字符集从 latin1 改成了 utf8mb4 &#xff0c;除此之外&#xff0c;MySQL 8.0 下的字符集和比较规则还有没有其他变化呢&#xff1f;本篇文章我们一起来学习下。 utf8mb4 字符集 在 MySQL 8.0 中&…