大模型面试常考知识点1

文章目录

1. 写出Multi-Head Attention

import torch
import torch.nn as nn
import torch.nn.functional as F
import mathclass MHA(nn.Module):def __init__(self, d_model, nums_head):super(MHA, self).__init__()     # !!self.d_model = d_modelself.nums_head = nums_headself.wq = nn.Linear(d_model, d_model)self.wk = nn.Linear(d_model, d_model)self.wv = nn.Linear(d_model, d_model)self.dk = d_model/nums_headself.wo = nn.Linear(d_model,d_model)def split_head(self, x, batch_size):  # x(batch_size, seq_len, d_model) -> x(batch_size, seq_len, nums_head, d_k) -> x(batch_size, nums_head, seq_len, dk)return x.view(batch_size, self.nums_head, -1, self.dk).transpose(1,2)def forward(self, q, k, v, mask=None):batch_size = q.size(0)q = self.wq(q)k = self.wk(k)v = self.wv(v)q = self.split_head(q, batch_size)k = self.split_head(k, batch_size)v = self.split_head(v, batch_size)scores = torch.matmul(q, k.transpose(-2,-1))/math.sqrt(self.dk)if mask is not None:scores = scores.mask_fill(mask, float('-inf'))    # mask_fillweights = F.softmax(scores, dim=-1)attention = torch.matmul(weights, v)concat = attention.transpose(1,2).contiguous().view(batch_size, -1, self.d_model)     # contiguousoutput = self.wo(concat)return output

2. Pre-Norm vs Post-Norm

在这里插入图片描述

  • Pre-Norm优势:
    在这里插入图片描述

  • 为什么层数较深时,Pre-Norm不如Post-Norm:
    在这里插入图片描述

3. Layer Norm

任何norm的意义都是为了让使用norm的网络的输入的数据分布变得更好,也就是转换为标准正态分布,数值进入敏感度区间,以减缓梯度消失,从而更容易训练。
在这里插入图片描述
这里结合PyTorch的nn.LayerNorm算子来看比较明白:

nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, device=None, dtype=None)
  • normalized_shape:归一化的维度,int(最后一维)list(list里面的维度),还是以(2,2,4)为例,如果输入是int,则必须是4,如果是list,则可以是[4], [2,4], [2,2,4],即最后一维,倒数两维,和所有维度
  • eps:加在分母方差上的偏置项,防止分母为0
  • elementwise_affine:是否使用可学习的参数 γ \gamma γ β \beta β ,前者开始为1,后者为0,设置该变量为True,则二者均可学习随着训练过程而变化

RMS Norm

与layerNorm相比,RMS Norm的主要区别在于去掉了减去均值的部分
在RMS Norm的论文中指出:RMS Norm 比Layer Norm更快(可以在各个模型上减少约 7%∼ 64% 的计算时间),效果也基本一致。

Batch Norm

在这里插入图片描述

  • Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。
  • Layer Norm:在每一个句子中进行归一化。
  • Instance Norm:每一个字的字向量的看成一组做归一化。
  • Group Norm:把每句话的每几个字的字向量看成一组做归一化。计算成本较高

4. SwiGLU

  • Sigmoid

在这里插入图片描述

从ReLU到Swish

  • ReLU
    在这里插入图片描述

  • Leaky ReLU,ELU
    在这里插入图片描述

  • Swish
    在这里插入图片描述

  • GELU vs Swish
    在这里插入图片描述

GELU (高斯误差线性单元)与 Swish 激活函数(x · σ(βx))的函数形式和性质非常相像,一个是固定系数 1.702,另一个是可变系数 β(可以是可训练的参数,也可以是通过搜索来确定的常数),两者的实际应用表现也相差不大。
【GPT2, BERT, ALBERT, RoBERTA常用GELU】

SwiGLU

  • GLU
    在这里插入图片描述理解GLU激活函数的关键在于它的门控机制。门控机制使得GLU能够选择性地过滤输入向量的某些部分,并根据输入的上下文来调整输出。门控部分的作用是将输入进行二分类,决定哪些部分应该被保留,哪些部分应该被抑制。

  • SwiGLU
    在这里插入图片描述

5. AdamW

  • Adam

优点:惯性保持 + 自适应
在这里插入图片描述

g t \ g_t  gt为梯度
在这里插入图片描述自适应:经常被更新的权重,更新的幅度小一些;不经常被更新的权重,更新的幅度大一些

  • AdamW
    Adam的基础上,权重更新时,加入L2正则化项。
    之前各类框架对 Adam 的实现中,在损失函数中加入了 L2 正则化项,也就是把权重衰减放到了梯度里,由梯度间接缩小θ。但是这种方法并没有起到有效的正则化作用。AdamW 直接将权重衰减项放到权重计算中,可以对大的权重进行惩罚,起到了有效的正则化作用。
    (下图中x表示权重)
    在这里插入图片描述

6. 位置编码

原因:为 Attention 添加位置信息
没有位置编码的Attention并不能捕捉序列的顺序。(交换单词位置后 Attention map 的对应位置数值也会进行交换,然而并不会产生数值变化)

Transformer位置编码

用sin和cos交替来表示位置,并把位置编码加在embeding上。

RoPE

参考文献
Transformer中sinusoidal位置编码对相对位置关系的表示还是比较间接的,那有没有办法更直接的表示相对位置关系呢?旋转位置编码(Rotary Position Embedding,RoPE)是一种用绝对位置编码来表征相对位置编码的方法,并被用在了很多大语言模型的设计中。

假设通过下述运算来给 q, k 添加绝对位置信息:
f ( q , m ) \ f(q,m)  f(q,m) 表示给向量 q q q在位置 m m m添加位置信息, f ( k , n ) \ f(k,n)  f(k,n) 表示给向量 k k k在位置 n n n添加位置信息。
同时,我们希望经过 Attention 的内积运算后,内积结果带有相对位置信息:
在这里插入图片描述RoPE这一研究就是为上面这个等式找到了一组解答,也就是:

f ( q , m ) = q e i m θ \ f(q,m) = qe^{imθ}  f(q,m)=qeimθ

根据复数乘法的⼏何意义,该变换实际上对应着向量的旋转,所以我们称之为“旋转式位置编码”,
它还可以写成矩阵形式(二维):
在这里插入图片描述根据刚才的结论,结合内积的线性叠加性,可以将结论推广到高维的情形。可以理解为,每两个维度一组,进行了上述的“旋转”操作,然后再拼接在一起:
在这里插入图片描述由于矩阵的稀疏性,会造成计算上的浪费,所以在计算时采用逐位相乘再相加的方式进行:
在这里插入图片描述

ALibi

在这里插入图片描述注意看上表的位置编码那一列,baichuan 7B无论第一代还是第二代,位置编码均用的RoPE,而baichuan 13B则无论是第一代还是第二代,均用的ALiBi

在这里插入图片描述

在这里插入图片描述
怎么理解呢,就是在query和key做矩阵点乘的基础上,加上一个常数负值,比如距离当前位置前1位为-1, 前两位为-2,这些常数要乘上 权重 m

在这里插入图片描述

7. LoRA

lora之前的PEFT方法是adapter/prefix/promp/P-tuning,但是Adapter会引入很强的推理延迟(只能串行),prefix/prompt/P-tuning很难练,而且要占用context length,变相的降低模型能力——所以,根本不改原来的model,这就引出了lora:Low-Rank Adaptation

在这里插入图片描述
在这里插入图片描述

初始化

为什么用随机高斯分布初始化 A ,用 0 矩阵初始化 B ?
需要深入探讨这两个矩阵在权重更新过程中的角色和相互作用

  • 矩阵𝐴:这个矩阵可以被看作是一个特征提取器,它将输入特征映射到一个低维空间(通过矩阵乘法)。在 LORA 的设置中,𝐴通常被视为首先应用于输入的一种转换,将数据从原始的高维空间压缩到一个低维空间。
  • 矩阵𝐵:这个矩阵作为一个特征转换器,它将𝐴输出的低维表示映射回原始的高维空间。可以看作是从𝐴创建的低维空间中恢复信息到原始空间的过程。

为什么𝐴不能为零而 𝐵采用高斯初始化?
如果𝐴初始化为零,那么无论𝐵初始化为什么值,Δ𝑊始终为零矩阵。这意味着在训练的开始阶段,没有任何更新被应用于原始权重 𝑊,导致模型在这一阶段无法学习或适应任何新的特征或模式。

优点:

  • 在面对不同的下游任务时,仅需训练参数量很少的低秩矩阵,而预训练权重可以在这些任务之间共享;
  • 省去了预训练权重的梯度和相关的 optimizer states,大大增加了训练效率并降低了硬件要求;
  • 训练好的低秩矩阵可以合并(merge)到预训练权重中,多分支结构变为单分支,从而达到没有推理延时的效果;
  • 与之前的一些参数高效的微调方法(如 Adapter, Prefix-Tuning 等)互不影响,并且可以相互结合

局限性:

  • 基于低秩的微调可能并不always work,比如finetune与pretrain的gap过大的时候,比如中英差异。当然,这一点在LLM时代可能并不突出,我们认为LLM在预训练阶段已经get了所有基本的知识,finetune只是格式微调,因此可能不会有上述gap过大的情况。
  • 用lora也需要设置r和target module等,这部分超参的设置需要考虑

参考文献

大模型面试八股

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/10411.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT6 android程序界面强制横屏显示不旋转

QT6开发的Android程序有时候旋转后程序会变形,比如想让其固定位横屏显示,就需要进行特殊设置,本文提供一种简便的设置方法。 一.AndroidManifest.xml文件介绍 Android的Manifest.xml文件是一个重要的配置文件,用于描述应用程序的…

2024最新从0部署Django项目(nginx+uwsgi+mysql)

云服务器 我这里用的是腾讯云免费试用的2H4Gcentos服务器(后升级为2H8G,保险一点提高内存) 因为网上很多关于django部属的教程都是宝塔啊,python版本控制器啊这种的,我也误打误撞安装了宝塔面板,但这里我…

浅谈运维数据安全

在数字化日益深入的今天,运维数据安全已经成为企业信息安全体系中的核心要素。运维工作涉及到企业信息系统的各个方面,从硬件维护到软件升级,从网络配置到数据备份,无一不需要严谨的数据安全保障措施。本文将从运维数据安全的重要…

民航电子数据库:select查询时部分字段缺失

目录 前言异常排查原因解决使用systemPath标签引入本地Jar包后无法打包 前言 1、对接民航电子数据库 2、框架为shardingsphere caedb mybatis 3、部分SQL查询时,会出现字段缺失的情况 4、查看日志打印出来的SQL,字段并未缺失 异常 这里省略SQL语句…

FreeRTOS事件组

什么是事件标志组? 事件标志位 :表明某个事件是否发生,联想:全局变量 flag 。通常按位表示,每一个位表示一个事件(高8 位不算) 事件标志组 是一组事件标志位的集合, 可以简单的理解事件标志组,就是一个整数。 事件标志组本质是一个 16 位或 32 位无符号的数据类型…

鸿蒙开发接口Ability框架:【DataAbilityHelper模块(JS端SDK接口)】

DataAbilityHelper模块(JS端SDK接口) 说明: 本模块首批接口从API version 7开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 本模块接口仅可在FA模型下使用。 使用说明 使用前根据具体情况引入如下模块 import featureAbility from …

Excel中实现md5加密

1.注意事项 (1)在Microsoft Excel上操作 (2)使用完,建议修改的配置全部还原,防止有风险。 2.准备MD5宏插件 MD5加密宏插件放置到F盘下(直接F盘下,不用放到具体某一个文件夹下) 提示:文件在文章顶部&…

【教程向】从零开始创建浏览器插件(三)解决 Chrome 扩展中弹出页面、背景脚本、内容脚本之间通信的问题

第三步:解决 Chrome 扩展中弹出页面、背景脚本、内容脚本之间通信的问题 Chrome 扩展开发中,弹出页面(Popup)、背景脚本(Background Script)、内容脚本(Content Script)各自拥有独立…

互联网轻量级框架整合之HibernateMyBatis

持久层框架 Hibernate 假设有个数据表&#xff0c;它有3个字段分别是id、rolename、note, 首先用IDEA构建一个maven项目Archetype选择org.apache.maven.archetypes:maven-archetype-quickstart即可&#xff0c;配置如下pom <project xmlns"http://maven.apache.org/…

攻防世界-web-unseping

题目 知识点 PHP代码审计PHP序列化和反序列化PHP中魔术方法命令执行绕过方式 解读源码 <?php highlight_file(__FILE__);class ease{private $method;private $args;function __construct($method, $args) {$this->method $method;$this->args $args;}function …

【算法】动态规划之背包DP问题(2024.5.11)

前言&#xff1a; 本系列是学习了董晓老师所讲的知识点做的笔记 董晓算法的个人空间-董晓算法个人主页-哔哩哔哩视频 (bilibili.com) 动态规划系列 【算法】动态规划之线性DP问题-CSDN博客 01背包 步骤&#xff1a; 分析容量j与w[i]的关系&#xff0c;然后分析是否要放…

户籍管理系统的设计与实现

【免费】户籍管理系统的设计与实现.zip资源-CSDN文库https://download.csdn.net/download/JW_559/89296790 ​​​​​​​户籍管理系统的设计与实现 摘 要 当今社会人们生活质量越来越高&#xff0c;人们对生活品质的追求不断提升&#xff0c;对于孩子求学&#xff0c;变更住…

Selenium中的隐式等待和显式等待

在Selenium中&#xff0c;“等待”在执行测试中起着重要作用。在本文中&#xff0c;您将学习Selenium中“隐式”和“显式”等待的各个方面。 在本文中&#xff0c;您将学习到 1. 为什么我们需要在selenium中等待&#xff1f; 2. 隐瞒等待 3. 明确等待 4. 流利的等待 为什么…

Join优化规则及应用层BI系统实践

目录 一、背景 二、查询优化器概述​编辑 2.1 System R Optimizer 2.2 Volcano Optimizer 2.3 Cascade Optimizer 三、Join相关优化规则 3.1 JoinReorder 3.1.1 少量表的Reorder 3.1.2 大量表的Reorder 3.1.3 星型模型的Reorder 3.2 外连接消除 3.3 Join消除 3.4 谓…

UDP多播

1 、多播的概念 多播&#xff0c;也被称为组播&#xff0c;是一种网络通信模式&#xff0c;其中数据的传输和接收仅在同一组内进行。多播具有以下特点&#xff1a; 多播地址标识一组接口&#xff1a;多播使用特定的多播地址&#xff0c;该地址标识一组接收数据的接口。发送到多…

[Vision Board创客营]--使用openmv识别阿尼亚

文章目录 [Vision Board创客营]使用openmv识别阿尼亚介绍环境搭建训练模型上传图片生成模型 使用结语 [Vision Board创客营]使用openmv识别阿尼亚 &#x1f680;&#x1f680;五一和女朋友去看了《间谍过家家 代号&#xff1a;白》&#xff0c;入坑二刺螈&#xff08;QQ头像也换…

小程序地理位置接口申请教程来啦4步学会

小程序地理位置接口有什么功能&#xff1f; 如果我们提审后驳回理由写了“当前提审小程序代码包中地理位置相关接口( chooseAddress、getLocation )暂未开通&#xff0c;建议完成接口开通后或移除接口相关内容后再进行后续版本提审”&#xff0c;如果你也碰到类似问题&#xff…

电火灶是燃气灶吗?节能、环保效果怎么样?

随着科技的进步&#xff0c;厨房中的传统设备也逐步被新型、高效且环保的设备所替代。电火灶&#xff0c;作为一种新型的电火烹饪设备&#xff0c;逐渐进入人们的视野。那么&#xff0c;电火灶是否与传统的燃气灶有所区别&#xff1f;其节能与环保效果又如何呢&#xff1f;下面…

2024.5.8 关于 SpringCloud —— Ribbon 的基本认知

目录 Ribbon 负载均衡原理 工作流程 Ribbon 负载均衡规则 Ribbon 负载均衡自定义化 代码方式修改规则 配置文件方式修改规则 小总结 Ribbon 设定饥饿加载 Ribbon 负载均衡原理 工作流程 order-service 使用 RestTemplate 发送请求&#xff0c;随后该请求将会被 Ribbon 所…

【强训笔记】day20

NO.1 思路&#xff1a;先判断能对砍几个回合&#xff0c;取最小值&#xff0c;因为回合数是整数&#xff0c;所以可能存在都大于0的情况&#xff0c;再判断一下如果都存活就再对砍一次&#xff0c;直到一家存活或者都死亡。 代码实现&#xff1a; #include<iostream>u…