最终还是放弃了拼多多 NLP 算法岗(大模型方向)Offer。。。

暑期实习基本结束了,校招即将开启。

不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。

最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。

总结链接如下:

《大模型面试宝典》(2024版) 发布!


分享一位群友面拼多多NLP算法岗(大模型方向)的面经,这位同学是有两个 Offer 机会,一个是国企,一个是互联网企业。

考虑到互联网的 996 内卷和当下的就业环境,最后去了国企,放弃了这家企业

把面经进行了汇总:

  • 自我介绍
  • 简历项目深度交流
  • 项目的背景是什么,主要解决了什么问题?
  • 训练数据集是如何构造的,都有什么类型的数据,总量有多大?数据质量怎么评估?大模型怎么做数据评估?
  • 有没有进行微调?
  • 解释一下 Prompt Tuning、Adapter Tuning、LoRA 等微调方法的原理,分别适用于哪些场景?
  • 如何评估模型微调效果的好坏呢?
  • 微调用了多大的显卡,有关注内存占用情况吗?
  • 是否了解常用的模型加速技巧?
  • 微调如何避免出现灾难性遗忘和“复读机”问题?
  • 微调和训练一个全新模型相比,有哪些优势?
  • 大模型高质量微调数据筛选有哪些方法?
  • 你认为大模型微调还面临哪些挑战?
  • Tranformers 和 Bert 相关:
  • 介绍 transformer 网络结构
  • 谈谈位置编码 RoPE
  • 谈一谈对transformer的QKV的理解
  • Self-Attention 的表达式
  • Bert中为什么要在开头加个[CLS]?
  • attention中的mask有什么用?(BERT中)
  • bert和mbert的区别
  • bert预训练方法
  • MLM 和 NSP都有什么缺点
  • 介绍transformer以及multi attention,为什么用多头
  • 了解什么attention的变种 ?
  • flash attention解释一下?
  • llama中用的attention是?
  • llama和transformer的区别

代码题:

  • 最长递增子序列

最长递增子序列(LIS)的算法可以通过动态规划实现。下面是一个Python代码示例:

def longest_increasing_subsequence(nums):if not nums:return 0dp = [1] * len(nums)for i in range(1, len(nums)):for j in range(i):if nums[i] > nums[j]:dp[i] = max(dp[i], dp[j] + 1)return max(dp)# 示例
nums = [10, 9, 2, 5, 3, 7, 101, 18]
print(f"最长递增子序列的长度是: {longest_increasing_subsequence(nums)}")

该函数使用一个数组 dp 来存储到目前为止每个元素结尾的最长递增子序列的长度。通过两层循环比较每个元素和它之前的元素,如果当前元素大于之前的元素,就更新 dp 数组中的值。

这个算法的时间复杂度是 (O(n^2)),其中 (n) 是输入数组的长度。如果需要更高效的解决方案,可以使用二分查找,将时间复杂度降到 (O(n \log n))。

  • 给定一个仅包含数字2-9的字符串,返回所有它能表示的字母组合。答案可以按任意顺序返回。

这是一个经典的电话号码字母组合问题,可以通过回溯算法来解决。以下是Python实现:

def letter_combinations(digits):if not digits:return []phone_map = {"2": "abc", "3": "def", "4": "ghi", "5": "jkl","6": "mno", "7": "pqrs", "8": "tuv", "9": "wxyz"}def backtrack(combination, next_digits):if not next_digits:result.append(combination)else:for letter in phone_map[next_digits[0]]:backtrack(combination + letter, next_digits[1:])result = []backtrack("", digits)return result# 示例
digits = "23"
print(f"字母组合为: {letter_combinations(digits)}")

这个函数定义了一个映射表 phone_map,将每个数字对应到它的字母上。通过递归和回溯来生成所有可能的字母组合。递归函数 backtrack 负责在每一步选择当前数字对应的一个字母,并继续处理剩下的数字,直到处理完所有数字。最终的结果存储在 result 列表中。

反问:

  • 业务是做什么的?

技术交流&资料

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

用通俗易懂方式讲解系列

  • 用通俗易懂的方式讲解:自然语言处理初学者指南(附1000页的PPT讲解)
  • 用通俗易懂的方式讲解:1.6万字全面掌握 BERT
  • 用通俗易懂的方式讲解:NLP 这样学习才是正确路线
  • 用通俗易懂的方式讲解:28张图全解深度学习知识!
  • 用通俗易懂的方式讲解:不用再找了,这就是 NLP 方向最全面试题库
  • 用通俗易懂的方式讲解:实体关系抽取入门教程
  • 用通俗易懂的方式讲解:灵魂 20 问帮你彻底搞定Transformer
  • 用通俗易懂的方式讲解:图解 Transformer 架构
  • 用通俗易懂的方式讲解:大模型算法面经指南(附答案)
  • 用通俗易懂的方式讲解:十分钟部署清华 ChatGLM-6B,实测效果超预期
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统
  • 用通俗易懂的方式讲解:最全的大模型 RAG 技术概览
  • 用通俗易懂的方式讲解:利用 LangChain 和 Neo4j 向量索引,构建一个RAG应用程序
  • 用通俗易懂的方式讲解:使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA
  • 用通俗易懂的方式讲解:面了 5 家知名企业的NLP算法岗(大模型方向),被考倒了。。。。。
  • 用通俗易懂的方式讲解:NLP 算法实习岗,对我后续找工作太重要了!。
  • 用通俗易懂的方式讲解:理想汽车大模型算法工程师面试,被问的瑟瑟发抖。。。。
  • 用通俗易懂的方式讲解:基于 Langchain-Chatchat,我搭建了一个本地知识库问答系统
  • 用通俗易懂的方式讲解:面试字节大模型算法岗(实习)
  • 用通俗易懂的方式讲解:大模型算法岗(含实习)最走心的总结
  • 用通俗易懂的方式讲解:大模型微调方法汇总

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37469.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

防止跨站脚本攻击XSS之Antisamy

目录 一、什么是跨站脚本攻击(XSS) 二、通常有哪些解决方案 三、常见的XSS攻击例子有哪些 3.1 存储型XSS攻击(黑产恶意截流,跳转不法网站) 3.2反射型XSS攻击: 四、什么是跨站请求伪造? 五…

这是我见过的大模型 RAG 优化方案与实践最全总结了

暑期实习基本结束了,校招即将开启。 不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。提前准备才是完全之策。 最近,我们又陆续整理了很多大厂的面试题&#xff0c…

软件工程 例题

用例图 1. 某个学生成绩管理系统的部分参与者和用例总结如下。 教务管理人员: 登录系统教师、学生名单管理学期教学计划管理成绩管理。课程分配,每次课程分配时都必须打印任课通知书 学生: 登录系统选课。 教师: 登录系统成绩管理,并…

Eureka是如何工作的

Eureka是一个开源的分布式服务发现系统,由Netflix开发和维护。以下是Eureka工作机制的清晰解释,包括关键步骤和相关的数字信息: Eureka的组成 Eureka Server:Eureka服务器,作为服务注册中心,用于存储和管…

qt 文件夹实验

1.概要 用qt creater 开发,发现无法创建文件夹,这样管理多文件夹,就变得很麻烦; 能不能现在工程中创建文件夹呢,可以,但是如果里面不放文件的话,工程也不会管你,如果你加了文件&am…

css_17_背景属性鼠标属性

一.背景属性 -属性值:background-color(设置背景颜色) 默认背景颜色是 transparent。 -属性值:background-image(设置背景图片) url(图片的地址) -属性值:background-re…

Query Rewriting for Retrieval-Augmented Large Language Models

文章目录 题目摘要方法实验 题目 检索增强大语言模型的查询重写 论文地址:https://arxiv.org/abs/2305.14283 项目地址:https://github.com/xbmxb/RAG-query-rewriting 摘要 大语言模型(LLM)在检索--然后阅读(retriev…

linux就该这么学【进程间通信】

linux就该这么学【进程间通信】 Chapter1 linux就该这么学【进程间通信】 Chapter1 linux就该这么学【进程间通信】 原文链接:https://blog.csdn.net/m0_53421868/article/details/123194775

百度智能云升级:接入33个大模型,Llama 2引领创新,103个Prompt模板上线

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的…

论基于构件的软件开发(CBSD)

论基于构件的软件开发(CBSD) 一、引言 在当前的软件开发领域中,基于构件的软件开发(Component-Based Software Development,简称CBSD)已经成为一种重要的开发范式。CBSD强调通过复用已有的软件构件来快速…

鉴源实验室·基于MQTT协议的模糊测试研究

作者 | 张渊策 上海控安可信软件创新研究院工控网络安全组 来源 | 鉴源实验室 社群 | 添加微信号“TICPShanghai”加入“上海控安51fusa安全社区” 随着物联网技术的快速发展,越来越多的设备加入到互联网中,形成了庞大的物联网系统。这些设备之间的通信…

2024年每个月有哪些数学建模和数学挖掘竞赛?

文章目录 2024年每个月有哪些竞赛?2024年32个数学建模和数据挖掘竞赛重磅来袭!!!2024年数学建模和数学挖掘竞赛时间目录汇总数学建模助手使用一月二月三月四月五月六月七月八月九月十月十一月十二月 原文:https://blog…

Pytorch和Tensorflow安装【Win和Linux】

Ubuntu/win安装Pytorch和Tensorflow 说明: 这两种框架的搭建,均基于Anaconda进行搭建。先在系统中安装Anaconda软件。 一、Pytorch的搭建 windows安装 (1)搭建参考官网给的命令,pytorch官网 (2)下载地址:https://download.pytorch.org/whl/torch_stable.html 从上述…

Python商务数据分析知识专栏(三)——Python数据分析的应用①Matplotlib数据可视化基础

Python商务数据分析知识专栏(三)——Python数据分析的应用①Matplotlib数据可视化基础 Matplotlib数据可视化基础1.掌握绘图基本语法与常用绘图2.分析特征间关系3.分析特征内部数据分布与分散情况 Matplotlib数据可视化基础 1.掌握绘图基本语法与常用绘…

最新!最全!元启发优化算法215个测试函数综述!【免费获取论文】

目录 1.摘要2.主要内容3.参考文献4.文章获取 1.摘要 这篇综述论文旨在利用对不同基准测试函数的研究,评估元启发优化算法(Metaheuristic optimization algorithms, MH)的性能。MH的性能是通过不同的数学基准测试函数和各种实际工程设计问题来评估,这些基…

EBS请求通过一段SQL输出EXCEL文件

一.设计初衷 1.EBS请求输出excel文件常用的有3种模式: 1.1.RTF模板+XML数据源 1.2 package输出html格式 1.3 package输出excel对应的xml文本 2.上面三种模式开发起来都比较麻烦,而且输出的是xls的文件,如果导出的数据很多,文件特别大。 3.所以想法是请求根据一段sql,动…

[数据集][目标检测]睡岗检测数据集VOC+YOLO格式3290张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):3316 标注数量(xml文件个数):3316 标注数量(txt文件个数):3316 标注…

模拟散列表

模拟散列表 维护一个集合,支持如下几种操作: I x,插入一个整数 x;Q x,询问整数 x是否在集合中出现过; 现在要进行 N次操作,对于每个询问操作输出对应的结果。 输入格式 第一行包含整数 N&…

stm32-hal库(5)--usart串口通信三种模式(主从通信)(关于通信失败和串口不断发送数据问题的解决)

问题: 最近发现,stm32cubemx最新版本f1系列的hal库(1.85版本)生成的hal库,其中stm32f1xx_hal_uart.c的库文件中,其串口发送接收存在一些问题: 1.没有使用 __HAL_LOCK 和 __HAL_UNLOCK 宏&…

开源大模型RAG企业本地知识库问答机器人-ChatWiki

ChatWiki ChatWiki是一款开源的知识库 AI 问答系统。系统基于大语言模型(LLM )和检索增强生成(RAG)技术构建,提供开箱即用的数据处理、模型调用等能力,可以帮助企业快速搭建自己的知识库 AI 问答系统。 开…