大模型LLM面试常见算法题-包括Attention和Transformer常见面试题

大模型:

  1. 位置编码有哪些?

  2. 介绍LoRA与QLoRA

  3. RAG和微调的区别是什么?

  4. 哪些因素会导致LLM的偏见?

  5. 什么是思维链(CoT)提示?

  6. Tokenizer的实现方法及原理

  7. 解释一下大模型的涌现能力?

  8. 解释langchainAgent的概念

  9. langchain有哪些替代方案?

  10. RLHF完整训练过程是什么?为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?

  11. RAG和微调的区别是什么?

  12. 有了解过什么是稀疏微调吗?

  13. 简述一下FlashAttention的原理

  14. 画图说明 Transformer 基本流程

  15. LLM预训练阶段有哪几个关键步骤?

  16. RLHF模型为什么会表现比SFT更好?

  17. LLaMA 模型为什么要用旋转位置编码?

  18. DeepSpeed推理对算子融合做了哪些优化?

  19. MHA,GQA,MQA三种注意力机制的区别是什么?

  20. 为什么现在的大模型大多是 decoder-only 的架构?

  21. 训练后量化(PTQ)和量化感知训练(QAT)与什么区别?

Attention:

1.什么是Attention? 为什么要用Attention?它有什么作用?
2.Attention的流程是什么样的?
3.普通的Attention和Transformer的Self-attention之间有什么关系:
4.什么是Self-attention?

Transformer:

  1. transformer是什么,它的基本原理是什么?
  2. 自注意力(Self-Attention)的作用是什么?它有什么优势?
  3. Multi-Head Attention是什么?它的作用是什么?
  4. 介绍Transformer的Encoder模块
  5. 介绍Transformer的Decoder模块
  6. Transformer中的Positional Encoding是做什么的?
  7. Transformer与传统的RNN和CNN模型有何区别?
  8. 解释Transformer的注意力权重?
  9. 介绍Transformer和ViT
  10. 介绍Transformer的QKV
  11. 介绍Layer Normalization
  12. Transformer训练和部署技巧
  13. 介绍Transformer的位置编码
  14. 介绍自注意力机制和数学公式
  15. Transformer和Mamba(SSM)的区别
  16. Transformer中的残差结构以及意义
  17. 为什么Transformer适合多模态任务?
  18. Transformer的并行化体现在哪个地方?
  19. 为什么Transformer一般使用LayerNorm?
  20. Transformer为什么使用多头注意力机制?
  21. Transformer训练的Dropout是如何设定的?

BERT:

1.BERT是什么?全称是什么?
2.BERT是如何进行预训练的?
3.BERT的优点是什么?
4.BERT的输入是什么?
5.BERT的预训练过程中是否使用了位置编码和注意力机制?
6.BERT的预训练模型有多大?
7.BERT和传统的Word2Vec、GloVe有什么区别?
8.BERT的训练策略有哪些?
9.如何微调BERT?
10.BERT的应用场景有哪些?
11.BERT的改进和扩展有哪些?

Stable Diffusion:

1.你了解Stable Diffusion吗?它是怎么训练出来的?
2.Stable Diffusion的预测过程是什么样的?
3. Stable Diffusion的diffusion是什么原理?
4.Stable Diffusion的各个模块的作用是?
你了解stable Diffusion吗?它是怎么训练出来的?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/40323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于aardio web.view2库和python playwright包的内嵌浏览器自动化操作

通过cdp协议可以实现playwright操控webview。 新建Python窗口工程 修改pip.aardio 修改pip.aardio,并执行,安装playwright。 //安装模块 import process.python.pip; //process.python.path "python.exe";/* 安装模块。 参数可以用一个字…

雅思词汇及发音积累 2024.7.5

1.province 省 2.state 州 3.county 县 4.cost of living 生活费用 5.crime 犯罪 6.pace of life 生活节奏 7.interesting 有意思的 8.boring/dull /dʌl/ 烦闷的 9.main/primary/leading industry 主要产业 10.Manufacturing /ˌmnjuˈfktʃərɪŋ/ 制造 11.proc…

Linux系统的基础知识和常用命令

1、什么是Linux? 是一种免费使用和自由传播的类UNIX操作系统,其内核由林纳斯本纳第克特托瓦兹于1991年10月5日首次发布,它主要受到Minix和Unix思想的启发,是一个基于POSIX的多用户、多任务、支持多线程和多CPU的操作系统。它能运行…

【面向就业的Linux基础】从入门到熟练,探索Linux的秘密(十)-git(2)

下面是一些git的常用命令和基本操作,可以当做平常的笔记查询,用于学习!!! 文章目录 前言 一、git 二、git常用命令 总结 前言 下面是一些git的常用命令和基本操作,可以当做平常的笔记查询,用于…

关于项目中的数据安全的一些理解

一、介绍 项目建设中数据安全是非常重要的一环,但是大家对于数据安全这个主题可能不够了解,从而在项目的整个生命周期中,产生一些的安全问题。 这里按照个人经验、查阅资料、国家标准等,总结了一些对于数据安全的看法。 二、国家标准 国家针对信息安全,发布了一系列的标准…

深入了解 PXE:定义、架构、原理、应用场景及常见命令体系

引言 PXE(Preboot Execution Environment,预启动执行环境)是一种允许计算机通过网络启动操作系统而无需本地存储设备的技术。本文将详细介绍 PXE 的定义、架构、原理、应用场景及常见命令体系,特别是以 CentOS 为例,展…

【MindSpore学习打卡】应用实践-计算机视觉-深入解析 Vision Transformer(ViT):从原理到实践

在近年来的深度学习领域,Transformer模型凭借其在自然语言处理(NLP)中的卓越表现,迅速成为研究热点。尤其是基于自注意力(Self-Attention)机制的模型,更是推动了NLP的飞速发展。然而&#xff0c…

欧拉openEuler 22.03 LTS-部署k8sv1.03.1

1.设置ip # vi /etc/sysconfig/network-scripts/ifcfg-ens32 TYPEEthernet PROXY_METHODnone BROWSER_ONLYno BOOTPROTOstatic DEFROUTEyes IPV4_FAILURE_FATALno #IPV6INITyes #IPV6_AUTOCONFyes #IPV6_DEFROUTEyes #IPV6_FAILURE_FATALno #IPV6_ADDR_GEN_MODEeui64 NAMEens1…

物联网数据解析实战:掌握CJSON库核心函数,精准处理JSON数据

物联网数据解析实战:掌握CJSON库核心函数,精准处理JSON数据 CJSON库是一个轻量级的JSON解析库,专为C语言设计,适用于嵌入式系统和物联网应用。它提供了简单易用的API,使得开发者能够轻松地解析和生成JSON数据。在本教…

部署Gunicorn + Flask应用到Docker

部署Gunicorn Flask应用到Docker中涉及几个步骤,下面是一个基本的指南: 1. 创建Flask应用 首先,确保你有一个可用的Flask应用。这里有一个简单的示例: from flask import Flask app Flask(__name__)app.route(/) def hello_w…

pandas,dataframe使用笔记

目录 新建一个dataframe不带列名带列名 dataframe添加一行内容查看dataframe某列的数据类型新建dataframe时设置了列名,则数据类型为object dataframe的保存保存为csv文件保存为excel文件 dataframe属于pandas 新建一个dataframe 不带列名 df pd.DataFrame() 带…

GuLi商城-商品服务-API-品牌管理-效果优化与快速显示开关

<template><div class"mod-config"><el-form :inline"true" :model"dataForm" keyup.enter.native"getDataList()"><el-form-item><el-input v-model"dataForm.key" placeholder"参数名&qu…

华为交换机 LACP协议

华为交换机支持的LACP协议&#xff0c;即链路聚合控制协议&#xff0c;是一种基于IEEE 802.3ad标准的动态链路聚合与解聚合的协议。它允许设备根据自身配置自动形成聚合链路并启动聚合链路收发数据。 在LACP模式下&#xff0c;链路聚合组能够自动调整链路聚合&#xff0c;维护…

java集合(1)

目录 一.集合概述 二. 集合体系概述 1. Collection接口 1.1 List接口 1.2 Set接口 2. Map接口 三. ArrayList 1.ArrayList常用方法 2.ArrayList遍历 2.1 for循环 2.2 增强for循环 2.3 迭代器遍历 一.集合概述 我们经常需要存储一些数据类型相同的元素,之前我们学过…

Java 基础语法

Java 是一种面向对象的编程语言&#xff0c;具有简单、健壮、安全、跨平台等特点。下面是Java基础语法的详细介绍&#xff0c;并附带一些示例说明&#xff1a; ### 1. 变量和数据类型 Java 中的变量用于存储数据&#xff0c;必须先声明后使用。Java 的数据类型分为基本数据类…

C++ 仿QT信号槽二

// 实现原理 // 每个signal映射到bitset位&#xff0c;全集 // 每个slot做为signal的bitset子集 // signal全集触发&#xff0c;标志位有效 // flip将触发事件队列前置 // slot检测智能指针全集触发的标志位&#xff0c;主动运行子集绑定的函数 // 下一帧对bitset全集进行触发清…

【C++】 解决 C++ 语言报错:Segmentation Fault

文章目录 引言 段错误&#xff08;Segmentation Fault&#xff09;是 C 编程中常见且令人头疼的错误之一。段错误通常发生在程序试图访问未被允许的内存区域时&#xff0c;导致程序崩溃。本文将深入探讨段错误的产生原因、检测方法及其预防和解决方案&#xff0c;帮助开发者在…

Lex Fridman Podcast with Andrej Karpathy

我不太喜欢Lex Fridman的声音&#xff0c;总觉得那让人昏昏欲睡&#xff0c; 但无奈他采访的人都太大牌了&#xff0c;只能去听。但是听着听着&#xff0c;就会觉得有深度的采访这些人&#xff0c;似乎也只有他这种由研究员背景的人能干&#xff0c; 另&#xff0c;他提的问题确…

4.2 投影

一、投影和投影矩阵 我们以下面两个问题开始&#xff0c;问题一是为了展示投影是很容易视觉化的&#xff0c;问题二是关于 “投影矩阵”&#xff08;projection matrices&#xff09;—— 对称矩阵且 P 2 P P^2P P2P。 b \boldsymbol b b 的投影是 P b P\boldsymbol b Pb。…

android的dump_processe中anon和swap字段的含义是什么?计算进程占用内存大小是否可以用这两个字段相加?

在Android系统中&#xff0c;dump_processes 命令或类似机制&#xff08;如通过 adb shell dumpsys&#xff09;的输出中&#xff0c;可能会包含与进程内存使用相关的信息&#xff0c;但通常不直接以 anon 和 swap 作为字段名。不过&#xff0c;基于您的提问&#xff0c;我可以…