我面了昆仑天工大模型算法岗,题是真硬啊。。。

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。


合集在这里:《大模型面试宝典》(2024版) 正式发布!


今天我们分享合集中一个同学的面试题,希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习,可以文末加入我们。

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了大模型算法岗技术与面试交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:技术交流

问题1、LLAMA 的结构有什么特点?

  • 前置的RMSNorm;

  • 在Q、K上使用RoPE旋转式位置编码,使用causal mask保证每个位置只能看到前面的tokens;

  • LLaMA可以将更早的K、V拼接到当前K、V前面,可以用Q查找更早的信息。

  • MLP表达式:\operatorname{down}(u p(x) \times \operatorname{SiLU}($ gate $(x))),其中down, up, gate都是线性层。

问题2、讲一下 LLAMA 的 layer norm。

RMS Norm是一般LayerNorm的一种变体,可以在梯度下降时令损失更加平滑,与layerNorm相比,RMS Norm的主要区别在于去掉了减去均值的部分(re-centering),只保留方差部分(re-scaling)。

问题3、讲一下 LLAMA 的激活函数。

SwiGLU激活: ReLU替换成了SwiGLU。SwiGLU是一种激活函数,它是Gated Linear Units (GLU)的一种变体,使用Swish函数代替sigmoid函数。它可以提高transformer模型的性能,比ReLU或GELU激活函数更好。SwiGLU的优点是它可以动态地调整信息流的门控程度,根据输入的不同而变化。ReLU的缺点是它会导致神经元死亡,即输出为零的情况。GELU的缺点是它比ReLU更复杂,计算量更大。

问题4、详细介绍一下 Transformer 的结构。

Transformer 的结构主要包括:

  • Encoder:由多层自注意力机制模块和全连接前馈神经网络组成,用于将输入序列编码成隐藏表示。

  • Decoder:由多层自注意力机制模块、编码器-解码器注意力机制模块和全连接前馈神经网络组成,用于生成目标序列。

问题5、为什么计算注意力 QK 分数要除以维度开根号?为什么不能直接除以维度?

在计算注意力 QK(Query-Key)分数时,除以维度的开根号是为了控制注意力分布的范围,使得注意力值的大小相对稳定,更加适应不同维度的输入。如果直接除以维度,可能会导致梯度过大或过小的情况,影响模型的训练效果。

问题6、讲一下对位置嵌入的了解。

位置嵌入是 Transformer 中用于引入序列位置信息的一种方式。它通过学习得到的位置编码向量,将位置信息嵌入到输入序列的表示中,使得模型能够区分不同位置的单词或标记。

问题7、讲一下 tokenizer 的分词方法有那些?

  • 基于规则的分词:根据语言的特点和规则进行分词,如中文的逐字分词或者英文的空格分词。

  • 基于词典的分词:利用预先构建好的词典,将输入文本切分成词语或者子词。

  • 子词切分:将词汇表中的单词进行进一步切分,得到更加细粒度的子词,如 Byte Pair Encoding(BPE)或者WordPiece。

问题8、Leetcode:岛屿数量。

def numIslands(grid):def dfs(grid, i, j):if i < 0 or i >= len(grid) or j < 0 or j >= len(grid[0]) or grid[i][j] == '0':returngrid[i][j] = '0'dfs(grid, i + 1, j)dfs(grid, i - 1, j)dfs(grid, i, j + 1)dfs(grid, i, j - 1)if not grid:return 0count = 0for i in range(len(grid)):for j in range(len(grid[0])):if grid[i][j] == '1':count += 1dfs(grid, i, j)return count

用通俗易懂方式讲解系列

  • 用通俗易懂的方式讲解:自然语言处理初学者指南(附1000页的PPT讲解)
  • 用通俗易懂的方式讲解:1.6万字全面掌握 BERT
  • 用通俗易懂的方式讲解:NLP 这样学习才是正确路线
  • 用通俗易懂的方式讲解:28张图全解深度学习知识!
  • 用通俗易懂的方式讲解:不用再找了,这就是 NLP 方向最全面试题库
  • 用通俗易懂的方式讲解:实体关系抽取入门教程
  • 用通俗易懂的方式讲解:灵魂 20 问帮你彻底搞定Transformer
  • 用通俗易懂的方式讲解:图解 Transformer 架构
  • 用通俗易懂的方式讲解:大模型算法面经指南(附答案)
  • 用通俗易懂的方式讲解:十分钟部署清华 ChatGLM-6B,实测效果超预期
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统
  • 用通俗易懂的方式讲解:最全的大模型 RAG 技术概览
  • 用通俗易懂的方式讲解:利用 LangChain 和 Neo4j 向量索引,构建一个RAG应用程序
  • 用通俗易懂的方式讲解:使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA
  • 用通俗易懂的方式讲解:面了 5 家知名企业的NLP算法岗(大模型方向),被考倒了。。。。。
  • 用通俗易懂的方式讲解:NLP 算法实习岗,对我后续找工作太重要了!。
  • 用通俗易懂的方式讲解:理想汽车大模型算法工程师面试,被问的瑟瑟发抖。。。。
  • 用通俗易懂的方式讲解:基于 Langchain-Chatchat,我搭建了一个本地知识库问答系统
  • 用通俗易懂的方式讲解:面试字节大模型算法岗(实习)
  • 用通俗易懂的方式讲解:大模型算法岗(含实习)最走心的总结
  • 用通俗易懂的方式讲解:大模型微调方法汇总

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/763916.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

通过JWT完成token登录验证

前言 什么是JWT&#xff1f; 全称是JSON Web token&#xff0c;是用于对应用程序上的用户进行身份验证的标记&#xff0c;使用 JWTS 的应用程序不再需要保存有关其用户的 cookie 或其他session数据 使用JWT的优势 提高了程序的可伸缩性&#xff0c;也极大的提高了应用程序的安全…

几种常见的IO模型学习

IO模型 IO模型&#xff08;输入输出模型&#xff09;是计算机科学中用于描述程序如何处理输入、产生输出以及与外部系统交互的一种概念模型。在操作系统和网络编程中&#xff0c;IO模型尤其重要&#xff0c;因为它们决定了程序如何与文件、网络套接字和其他资源进行通信。以下…

Harbor介绍

1.什么是Harbor Harbor是一个开源的企业级Docker Registry管理项目&#xff0c;由VMware公司开源。 Harbor提供了比Docker官方公共镜像仓库更为丰富和安全的功能&#xff0c;尤其适合企业环境使用。以下是Harbor的一些关键特性&#xff1a; 权限管理&#xff08;RBAC&#x…

复试专业前沿问题问答合集5

复试专业前沿问题问答合集5 深度学习与机器学习问答 Q1: 机器学习和深度学习之间的关系是什么? A1: 深度学习是机器学习的一个子集。机器学习是一种使计算机能够从数据中学习并做出决策或预测的技术,而深度学习特指使用深层神经网络进行学习和模式识别的方法。深度学习在图…

Ribbon知识点

1、通过类实现重写Ribbon规则 1.1注意 这个类一定不能跟启动类放在同一个包下面&#xff0c;不能被componentScan给扫描到。 需要如图放置&#xff1a; 要是被componentScan给扫描到&#xff0c;则会被所有的服务提供方所共享&#xff0c;那么就不能实现指定服务用不同的Ribbo…

灵神DP题单---划分型 DP---§6.1 判定能否划分

这里的状态定义一般使用DP【i】 表示 考虑前i个东西能否满足条件&#xff0c;然后我们枚举上一次的转移位置就好了 2369. 检查数组是否存在有效划分 需要注意的是我习惯从1开始写&#xff0c;所以要处理好边界的下标问题 class Solution { public:bool validPartition(vector&l…

LeetCode刷题记录——day4

https://leetcode.cn/problems/trapping-rain-water/description/?envTypestudy-plan-v2&envIdtop-interview-150 对于一个可以构成“碗”的序列&#xff0c;最后装满水的话应该和最短的一边齐平&#xff0c;那么可以左右各遍历一次&#xff0c;记录每个元素位置对应的最短…

最大中位数(c++题解)

题目描述 题目描述 给定一个由 个整数组成的数组 &#xff0c;其中 为奇数。 你可以对其进行以下操作&#xff1a; 选择数组中的一个元素&#xff08;例如 &#xff09;&#xff0c;将其增加 &#xff08;即&#xff0c;将其替换为 &#xff09;。 你最多可以进行 次操…

java网络原理(三)----三次握手四次挥手

三次握手 三次握手是建立连接的过程&#xff0c;四次挥手是断开连接的过程&#xff0c;三次握手发生在socket.accept()之前。 客户端和服务器尝试建立连接的时候服务器就会和客户端进行一系列的数据交换称为握手&#xff0c;这个过程建立完了后&#xff0c;连接就好了。 A和B…

Matlab有限差分法求解狄利克雷(Dirichlet)边界的泊松(Poisson)问题,边界值为任意值

参考l链接&#xff1a; 有限差分法简介有限差分法-二维泊松方程及其Matlab程序实现弹性力学方程 有限差分法matlab,泊松方程的有限差分法的MATLAB实现 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% %%%% Matrix method for Poisson Equation …

基于python+vue的OA公文发文管理系统flask-django-php-nodejs

系统根据现有的管理模块进行开发和扩展&#xff0c;采用面向对象的开发的思想和结构化的开发方法对OA公文发文管理的现状进行系统调查。采用结构化的分析设计&#xff0c;该方法要求结合一定的图表&#xff0c;在模块化的基础上进行系统的开发工作。在设计中采用“自下而上”的…

使用 Amazon SageMaker 微调 Llama 2 模型

本篇文章主要介绍如何使用 Amazon SageMaker 进行 Llama 2 模型微调的示例。 这个示例主要包括: Llama 2 总体介绍Llama 2 微调介绍Llama 2 环境设置Llama 2 微调训练 前言 随着生成式 AI 的热度逐渐升高&#xff0c;国内外各种基座大语言竞相出炉&#xff0c;在其基础上衍生出…

部署es集群

我们会在单机上利用docker容器运行多个es实例来模拟es集群。不过生产环境推荐大家每一台服务节点仅部署一个es的实例。 部署es集群可以直接使用docker-compose来完成,但这要求你的Linux虚拟机至少有4G的内存空间 创建es集群 首先编写一个docker-compose文件,内容如下: v…

nginx有哪些功能

Nginx拥有丰富且强大的功能&#xff0c;主要包括但不限于以下几点&#xff1a; Web服务器&#xff1a; 提供HTTP服务&#xff0c;能够高效地分发静态内容&#xff0c;如HTML、CSS、JavaScript、图片、视频等。支持HTTP/2、WebSocket等多种协议。可以设置防盗链、缓存控制、重写…

掌握ChatGPT:如何用AI撰写高质量论文

ChatGPT无限次数:点击直达 掌握ChatGPT&#xff1a;如何用AI撰写高质量论文 在当今信息爆炸的时代&#xff0c;人们不仅需要大量信息&#xff0c;还需要这些信息的整理与创新。人工智能技术正是我们在这个信息化时代最强大的助手之一。ChatGPT是一款基于大型神经网络的语言生成…

测试开发工程师(QA)职业到底需要干些什么?part1:移动端QA

概述 移动端QA测试开发工作主要涉及对移动应用程序进行质量保证和测试的开发工作。以下是移动端QA测试开发人员的主要职责和工作内容&#xff1a; 测试计划和策略制定&#xff1a;参与制定移动应用程序的测试计划和策略&#xff0c;确定测试范围、测试目标和测试方法。考虑到…

Mysql---DML

文章目录 目录 一.DML概述 注入数据&#xff08; Insert&#xff09; 替换数据&#xff08;replace&#xff09; 删除数据 &#xff08;delete&#xff09; 修改数据 &#xff08;update&#xff09; 查询数据 &#xff08;select&#xff09; 二. 多表连接查询 内连接 子…

第十四节 JDBC批量处理

批量处理允许将相关的SQL语句分组到批处理中&#xff0c;并通过对数据库的一次调用来提交它们&#xff0c;一次执行完成与数据库之间的交互。 一次向数据库发送多个SQL语句时&#xff0c;可以减少通信开销&#xff0c;从而提高性能。 不需要JDBC驱动程序来支持此功能。应该使…

5.1.4.4【AI技术新纪元:Spring AI解码】Titan Chat

Amazon Titan 基础模型 亚马逊Titan基础模型(FMs)通过完全托管的API,为客户提供了广泛的高性能图像、多模态嵌入和文本模型选择。Amazon Titan模型由AWS创建,预训练在大型数据集上,使其成为强大的通用模型,支持多种用例,同时也支持AI的负责任使用。用户可以按原样使用,…

Linux环境JMeter脚本性能测试、easyNmon生成监控报告

一、下载JMeter安装包 Jmeter是Java开发的&#xff0c;需要依赖JDK环境&#xff0c;因此我们需提前安装好JDK。 Jmeter是开源的工具&#xff0c;我们直接到官网下载即可。 最新版本下载地址&#xff1a;Apache JMeter - Download Apache JMeter 二、安装JMeter #新建jmete…