人工智能学习①

LLM背景知识介绍

大语言模型 (LLM) 背景  用于理解和生成人类语言,能够处理诸如文本分类、问答、翻译和对话等多种自然语言任务。

  • 语言模型 (Language Model, LM)  :给定一个短语(一个词组或者一句话)语言模型可以生成(预测) 接下来的一个词
  •      基于规则和统计的语言模型
  •      神经语言模型
  •      预训练语言模型
  •      大语言模型
  • 1.什么是大语言模型?思考总结Thinking summary答案:指包含数千亿 (或更多) 参数的语言模型
  • 2.语言模型的主要类别是什么?答案:N-Gram、神经网络、预训练模型、大语言模型
  • 3.常用的N-Gram语言模型是什么?答案:bigram、trigram
  • 语言模型的评估指标 1.语言模型的评估指标是什么?答案:Accuracy、Precision、Recall、BLEU、ROUGE、PPL思考总结Thinking summary
  • 2.怎么理解BLEU指标?答案:评估一种语言翻译成另一种语言的文本质量的指标.. 取值范围是[0, 1], 越接近1, 表明翻译质量越好.
  • 3.怎么理解ROUGE指标?答案:ROUGE指标用来衡量生成结果和标准结果的匹配程度,不同的是ROUGE基于召回率,BLEU更看重准确率。
  • 4.怎么理解PPL指标? 答案:PPL用来度量一个概率分布或概率模型预测样本的好坏程度

指标 BLEU分数衡量机器翻译的质量,接近1表示高质量。ROUGE指标评估自动文本摘要的准确性。PPL越小,表示模型预测能力越好。 

python实现BLEU指标的计算

python实现ROUGE指标的计算

  • 1. LLM主要类别
    • LLM分类一般分为三种:自编码模型(encoder)、自回归模型(decoder)和序列到序列模型(encoder-decoder)
  • 2. 自编码模型
    • 1. 什么是自编码模型?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词。思考总结Thinking summary
    • 2. BERT模型的核心架构?答案:transformer的Encoder模块.
    • 3.BERT的预训练任务?答案:MLM 和 NSP
    • 模型 BERT AE模型如BERT采用Encoder-Only结构,通过随机mask输入单词并预测这些单词来训练。这类模型适用于内容理解任务,如情感分析和提取式问答。 更适合NLU任务, 不适合用NLG任务.
      • 下Embedding模块
      • 中Transformer模块.
      • 上预微调模块.

  • 3. 自回归模型
    • 1. 什么是自回归模型?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 2.GPT模型的核心架构?答案:transformer的Decoder模块(去除中间的第二个子层).
    • 3.GPT的预训练任务?答案:无监督的预训练 和 有监督任务的微调
  • 4. 序列到序列模型
    • T5

  • 1. 什么是序列到序列模型?答案:同时使用编码器和解码器,它将每个task视作序列到序列的转换/生成思考总结Thinking summary
  • 2.T5模型的核心架构?答案:transformer架构
  • 3.T5的预训练任务?答案:采用类似于BERT模型的MLM预训练任务和多任务预训练

  • 5. 大模型主流架构-Decoder-only
    • 1.LLM主要类别架构?答案:Encoder-Only、Decoder-Only、Encoder-Decoder
    • 2.自编码模型的基本原理?答案:是在输入中随机MASK掉一部分单词,根据上下文预测这个词.
    • 3.自回归模型的基本原理?答案:从左往右学习的模型,只能利用上文或者下文的信息.
    • 4.序列到序列模型的基本原理?答案:同时使用编码器和解码器. 它将每个task视作序列到序列的转换/生成.

  • 1.什么是ChatGPT
    • ChatGPT是2022年11月由OpenAI发布的一款聊天机器人,能学习人类语言进行对话,完成撰写邮件、脚本、翻译和代码等任务。
  • 2. GPT-1介绍
    • GPT采用的是单向Transformer模型
    • 1. GPT-1模型架构?答案:Transformer的Decoder模块(去除中间第二个子层)
    • 2. GPT-1预训练任务?答案:1、无监督预训练;2有监督任务微调.
    • 3. GPT-1模型基本参数?答案:12层、12个head、768维、参数量1.17亿
  • 3. GPT-2介绍
    • 文本生成效果好, 缺点:有些任务上的表现不如随机
    • GPT-2表明随着模型容量和数据量的增大, 其潜能还有进一步开发的空间, 基于这个思想, 诞生了我们下面要介绍的GPT-3
    • 1. GPT-2模型架构?答案:相较GPT-1做了微小的改动:1.Pre_LayerNorm; 2.最后一层后加入LN层;3.序列长度扩大到1024
    • 2. GPT-2预训练任务?答案:无监督预训练
    • 3. GPT-2提出的新思想?答案:zero-shot:零样本学习,达到开箱即用的效果.
    • 4. GPT-3介绍
  • GPT系列采用Transformer架构,GPT-3通过大量参数学习大数据,依赖Transformer的拟合能力收敛模型,完成多种任务。
  • 1. GPT-3模型架构?答案:和GPT-2基本一致,提出sparse attention
  • 2. GPT-3预训练任务?答案:无监督预训练
  • 3. GPT-3提出的新思想?答案:ICL:Few-Shot、One-Shot、Zero-Shot

Chatgpt

 监督学习 和训练奖励模型

  • 1. ChatGPT模型原理?答案:有监督的微调+奖励模型+强化学习
  • 2. 强化学习的关键信息?答案:1.一种机器学习方法;2.关注智能体和环境的交互;3.目标追求最大回报

  • 1. LLM主流大模型类别
    • ChatGLM LLaMA Bloom Baichuan
  • 2. ChatGLM-6B模型
    • 训练目标
    • 模型结构
  • 1. ChatGLM-6B的模型架构?答案:Prefix-Decoder-Only:一种基于GLM的自回归空白填充目标的通用预训练模型
  • 2. ChatGLM-6B的训练目标?答案:在输入文本中随机挖去一些连续的文本片段,然后训练模型按照任意顺序重建这些片段.
  • 3. ChatGLM-6B模型的改动点?答案:Embedding层梯度缩减;Deep Norm; GeGLU激活函数;RoPE位置编码

  • 3. LLaMA模型  开源
    • LLaMA 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.LLaMA的模型架构?答案:和 GPT 系列一样,LLaMA 模型也是 Decoder-only架构
    • 2. LLaMA的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. LLaMA模型的改动点?答案:RMS-Norm(Pre_Layer Norm); SwiGLU激活函数;RoPE位置编码
  • 4. BLOOM模型
    • BLOOM 的训练目标是语言模型,即根据已有的上文去预测下一个词.
    • 1.BLOOM的模型架构?答案:和 GPT 系列一样,BLOOM 模型也是 Decoder-only架构
    • 2. BLOOM的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. BLOOM模型的改动点?答案:Embedding Layer Norm; Pre Layer Norm; GeLU激活函数;ALiBi位置编码
  • 5. Baichuan-7B模型
    • Baichuan-7B 的训练目标也是语言模型,即根据已有的上文去预测下一个词。
    • 1.Baichuan-7B的模型架构?答案:和 LLaMA架构一致,也是 Decoder-only架构
    • 2. Baichuan-7B的训练目标?答案:根据已有的上文去预测下一个词.
    • 3. Baichuan-7B模型的改动点?答案:Pre Layer Norm; SwiGLU激活函数;RoPE位置编码

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
  • 3. Prompt-Tuning技术介绍
  • 4. Prompt-Tuning入门方法

  • 1.目录什么是NLP四范式
  • 2. Fine-Tuning
    • Fine-Tuning是迁移学习的一种方式,用于将预训练模型适应特定任务或领域,通过在任务特定数据上继续训练预训练模型来实现。
      • 替代方法: Prompt-Tuning通过添加模板避免增加额外参数,使模型能在小样本或零样本场景下取得良好效果。
  • 3. Prompt-Tuning技术介绍
    • 1.NLP任务四范式?答案:1.传统机器学习;2.深度学习模型;3.预训练+fine-tuning;4.预训练+prompt+
    • 2. 什么是Fine-Tuning?答案:采用已经在大量文本上进行训练的预训练语言模型,然后在小规模的任务特定文本上继续训练它.
    • 3. Prompt-Tuning的实现?答案:1.构建模版Template;2.标签词映射Verbalizer;3.训练
  • 4. Prompt-Tuning入门方法
    • Prompt-Tuning的鼻祖----GPT3
    • PET模型
    • 模板类别
      • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
      • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
      • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
      • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

  •  模板类别
    • Soft Prompt 连续提示使用参数化模板引导模型生成特定要求的文本,其参数可根据任务调整,优点是在语义空间中仅需表示一个向量无需明确指定模板中各token的具体内容
    • 1.什么是Prompt-Tuning?答案:通过添加模板的方法来避免引入额外的参数,从而让模型可以在小样本(few-shot)或者零样本(zero-shot)场景下达到理想的效果
    • 2.PET模型的主要组件?答案:Pattern(模板)与Verbalizer(标签词映射).
    • 3.P-tuning V1 的核心思想?答案:P-tuning 固定 LLM 参数, 利用多层感知机 (MLP)和 LSTM 对 Prompt 进行编码,编码之后与其他向量进行拼接之后正常输入 LLM. 注意,训练之后只保留 Prompt 编码之后的向量即可,无需保留编码器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Oat++ 后端实现跨域

这里记录在官方的例子中,加入跨域。Oat Example-CRUD 在官方的例子中,加入跨域。 Oat Example-CRUD 修改AppComponent.hpp文件中的代码,如下: #include "AppComponent.hpp"#include "controller/UserController…

idea-springboot后端所有@注释含义汇总-持续更新!

(1)启动类 ①SpringBootApplication 出现这个代表这个就是整个程序的入口,是运行的开始位置 (2)Dao层 ①Repository 作用就是声明自己这个为bean文件(每一个controller都是一个bean文件)&am…

blender顶点乱飞的问题解决

初学blender,编辑模式下移动某些顶点,不管是移动还是滑动都会出现定点乱飞的问题,后来才发现是开了吸附工具的原因!!!! 像下面这样,其实我只是在Z轴上移动,但是就跑的很…

Anaconda目录

安装目录 Anaconda 在默认情况下会安装到 C:\ProgramData\Anaconda3,而 conda 环境和包会安装在 C:\Users\username\.conda\ 目录下。 备注:我是在windows下安装 的Anaconda。我的安装目录是C:\Program Files\Anaconda3 pkgs目录 在以上两个目录下都有…

CH571F基于官方模版创建工程

直接使用MounRiver创建的工程只有最简单的串口和GPIO功能,其他PWM和SPI等驱动基本上都有,但蓝牙和USB只有参考官方的示例来,全部自己写属实有点麻烦了,而且还需要添加BLE的库。下面就简单基于官方的示例工程创建我们自己的工程。 …

抓包工具——wireshark的使用

​ 什么是wireshark wireshark是一个数据包捕捉程序。和linux下的tcpdump,以及sniffer,Fidder等软件功能类似。按理说,我们的计算机中的网卡设备只会将发给本机的数据包传输到上层进行解析,而其他的数据包会进行丢弃,…

jenkins集成allure测试报告

1.allure插件安装 (1)点击首页的【Manage Jenkins】-【Manage Plugins】 (2)选择【Available】选项,搜索输入框输入Allure,搜索出来的名字就叫Allure,当安装后名字会变为Allure Jenkins Plugi…

PPT模板替换秘籍:一键撤销原模板,轻松更换新风格!

将PPT中的模板换成另一个模板,可以通过几种不同的方法实现。以下是几种常用的方法: 方法一:使用PowerPoint内置的设计选项卡 打开PowerPoint:首先,打开你想要更改模板的PPT文件。 选择“设计”选项卡:在…

Mysql-覆盖索引和前缀索引

一.SQL提示 SQL提示,是优化数据库的一个重要手段,简单来说,就是在SQL语句加入一些人为的提示来达到 二.覆盖索引 尽量使用覆盖索引(查询使用了索引,并且需要返回的列,在该索引中已经全部能够找到),减少select* 知识小贴士: using index condition :查找…

android前台服务

关于作者:CSDN内容合伙人、技术专家, 从零开始做日活千万级APP。 专注于分享各领域原创系列文章 ,擅长java后端、移动开发、商业变现、人工智能等,希望大家多多支持。 未经允许不得转载 目录 一、导读二、使用2.1 添加权限2.2 新建…

数据丢失不用愁!这四款数据恢复大师免费版助你找回珍贵回忆

我们在办公或者是生活中常常会遇到不小心将手机设备或者计算机当中的重要数据误删除/格式化/或其他不小心丢失的情况,但是不用紧张,这篇文章就是给大家分享如何恢复他们,以下带来除易我数据恢复外的其他好用的数据恢复软件: 第一…

python windows环境部署

在官网安装www.python.org linux系统的只能编译安装 windows的可以直接安装 这里是windows安装 .3.9.6版本 一直下一步就可以,然后鼠标右键在按住shift用终端打开 输入py或者python验证一下是否安装成功 打开目录文件夹 在里面新建一下pip的文件夹,里…

SpringCloud+Vue3多对多,多表联查

♥️作者:小宋1021 🤵‍♂️个人主页:小宋1021主页 ♥️坚持分析平时学习到的项目以及学习到的软件开发知识,和大家一起努力呀!!! 🎈🎈加油! 加油&#xff01…

黑马头条vue2.0项目实战(二)——登录注册功能的实现

1. 布局结构 目标 能实现登录页面的布局 能实现基本登录功能 能掌握 Vant 中 Toast 提示组件的使用 能理解 API 请求模块的封装 能理解发送验证码的实现思路 能理解 Vant Form 实现表单验证的使用 这里主要使用到三个 Vant 组件: NavBar 导航栏 Form 表单 F…

人工智能算法工程师(高级)课程7-图像分割项目之DeepLab模型的搭建与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(高级)课程7-图像分割项目之DeepLab模型的搭建与代码详解。本文将详细介绍DeepLab模型的关键组成部分,包括Image Pyramid、Encoder-Decoder、SPP模型和ASPP模型。我们将从数学原理出发,配合LaTeX公式,并使用PyTorc…

docker Docs相关使用文档链接

Docker Docshttps://docs.docker.com/ docker compose | Docker Docshttps://docs.docker.com/reference/cli/docker/compose/docker | Docker Docshttps://docs.docker.com/reference/cli/docker/

工作很难受,还要不要继续留在职场上?

先说结论:我非常赞同大家离开职场 虽然小编现实的工作是有关于人力资源的,高级点叫做猎头,低俗点讲就叫“人贩子” 原因可能和其他人不太一样,大家自行理解 1.现在的社会资源太少,“蛋糕”太小 大家要明白最重要的…

Ethernet

目录 1. Physical Layer(PHY)2. MAC2.1. MAC帧格式2.2. MAC地址与IP地址3. RGMII接口FPGA实现以太网(一)——以太网简介 以太网(Ethernet)是指遵守 IEEE 802.3 标准组成的局域网通信标准, IEEE 802.3 标准规定的主要是OSI参考模型中的物理层(PHY)和数据链路层中的介质访问控…

【HZHY-AI300G智能盒试用连载体验】设置RKNN的开发环境

目录 安装RKNN工具 安装pip3 安装RKNN Toolkit Lite2 安装RKNPU2运行库 本文首发于电子发烧友论坛:【新提醒】【HZHY-AI300G智能盒试用连载体验】 智能工业互联网网关 - 北京合众恒跃科技有限公司 - 电子技术论坛 - 广受欢迎的专业电子论坛! (elecfans.com) 前…

go语言day20 使用gin框架获取参数 使用自定义的logger记录日志

Golang 操作 Logger、Zap Logger 日志_golang zap-CSDN博客 一、 从控制器中获取参数的几种形式 1) 页面请求url直接拼接参数。 2) 页面请求提交form表单 3) 页面请求发送json数据,使用上下文对象c的BindJSON()方法接收数据…