推荐收藏!字节AI Lab-NLP算法(含大模型)面经总结!

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂同学、参加社招和校招面试的同学,针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何备战、面试常考点分享等热门话题进行了深入的讨论。

今天整理我们社群一个同学面试字节 NLP 算法方向的面试题,分享给大家,希望对后续找工作的有所帮助。喜欢记得点赞、收藏、关注。更多技术交流&面经学习,可以加入我们。


我是内推途径进行面试,速度比较快,在周日投递简历,隔天周一hr就约了周四的面试,结果那天是2面视频技术面+hr面直接走完了,紧接着就是offer call。整体投递+面试+发录用通知函的时间不到一周,而且面试官都是和简历对口的,整体体验非常棒。

面试的岗位是“AI Lab实习生 — 自然语言处理NLP”,一共2面技术和一面hr,这里主要说下其中的技术面试。

一面

20min简历 + 30min题

先自我介绍,然后面试官说了句“好的了解”就直接进入项目了。

我的经历主要是一些竞赛,因此也是主要聊竞赛,在竞赛细节中扣一些细节提问。竞赛主要是关于机器阅读理解MRC的(百度机器阅读、莱斯杯等),面试官也刚好懂,大致问题如下:

  1. 请你描述一下竞赛背景,以及你在其中的工作/职责。

  2. 我看你数据做了很多预处理,这部分重要吗,具体是如何做的预处理。这个不同项目应该不太一样,不细说了。

  3. 我看你用了word2vec的词向量,知道它是如何训练的吗,有哪些trick。这个很基础了,trick就是负采样和分层softmax。

  4. glove了解吗,elmo呢?

  5. 你把很多组件改成了transformer 的 multi-head attention,为什么要舍弃lstm的结构而选用它呢。我回答的是可并行+更强大的特征提取能力,顺便还解释了self attention的原理以及multi-head的作用。

  6. 说一下bidaf的匹配层,解释了bidaf的c2q和q2c的意义和具体做法。

  7. 你取得top2的成绩还有其他优化吗。这部分答了很多,当时吃了没用bert的亏,所以在很多方面进行了一定的优化。

  8. 你的第二个竞赛用roberta,它和bert的区别。动态mask+去除NSP+大力出奇迹(更大的batch,更多的数据,更多的step)。

  9. xlnet和bert有啥不同。自回归&&自编码的知识,其中解释了xlnet排列语言模型以及双流attention。

  10. albert了解吗?embedding层矩阵分解+参数共享 + SOP + 工程细节。

其他还有些小问题想不起来了,总体来说问的面不广,但是扣了些细节。

两道算法题:

  1. 顺时针打印数组

  2. 编辑距离

大模型题目:

  • 怎么解决大语言模型的幻觉问题,RLHF可以吗?

  • 为什么模型越大,貌似更多地具备AGI的能力?这背后的逻辑是什么?

  • 有做过大模型训练的实践吗,有哪些收获或者感悟?

  • 关于微调的方法有哪些?

  • 如何评估大模型中数据集的质量?

  • 怎么解决大语言模型的幻觉问题,RLHF可以吗?

  • PPO算法和DQN算法的区别是什么?

二面

先同样是自我介绍。

然后出了一道“智力题”?

10个袋子,1000个球,你用球填充袋子,然后就固定了。现在来一个客户,无论他要1~1000哪个数量,你都能通过组装几个袋子给他。

我开始对面试官说可以动态规划:第一个袋子放1个,第二个袋子放2个,这个时候3=1+2,所以第三个袋子不用放3个,放4个;此时5=4+1,6=4+2,7=4+2+1都能组合得到,所以第四个袋子放8个,以此类推。后来一想,这不就是个1,2,4,8的等比数列吗…

因为我提到了动态规划,面试官为了使用动态规划要满足的条件是什么?什么情况下时候动态规划比较好呢?答:使用dp需要满足最优子结构性质 + 无后效性,在子问题有重叠的时候可以自顶向下的记忆化搜索,或者直接写成自底向上的dp。

问我了一个C++的问题,后来看我很懵逼,看一眼简历说哦你是会Java啊,那我们换个问题,你说一下堆和栈。我说了数据结构的堆和栈,被打断,他说是内存分配中的堆和栈。这部分答得不好。

接着是简历了,主要也是问竞赛相关,听我这些竞赛的细节,然后针对细节提问,没咋问transformer、bert相关,问了更偏传统机器学习一些, 主要是一些关于gbdt、xgb、crf。

gbdt和xgb的就不细说了。

crf部分问的很详细,例如它的具体定义?什么是马尔可夫随机场?讲讲你对crf的理解?crf和hmm的区别知道吗,为什么ner任务用crf而不是hmm?crf具体如何预测?感觉答得一般。

2道算法题

  1. 口述了一道算法题,我记不起来了,是一道dp题来着,反正很快想到了方法,就pass了。

  2. 安卓手机的解码方式多少种,就是那种9个点,可以上下左右、左上、左下、右上、右下连线的解锁,最少一个第一点,最多可以全连上,一个点只能用一次。我用的dfs直接做的。

大模型题目:

  • 大模型的网络结构有哪几个部分?
  • 除了数据之外,还有哪些方向的工作可以进一步优化大模型的效果?
  • 如果让你训练一个模型,基座,数据,finetune的方法怎么选?
  • prefix LM 和 causal LM 区别是什么?
  • 垂直领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?

技术交流群

前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~

我们建了算法岗技术与面试交流群, 想要进交流群、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2060。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2060,备注:技术交流

用通俗易懂方式讲解系列

  • 用通俗易懂的方式讲解:自然语言处理初学者指南(附1000页的PPT讲解)
  • 用通俗易懂的方式讲解:1.6万字全面掌握 BERT
  • 用通俗易懂的方式讲解:NLP 这样学习才是正确路线
  • 用通俗易懂的方式讲解:28张图全解深度学习知识!
  • 用通俗易懂的方式讲解:不用再找了,这就是 NLP 方向最全面试题库
  • 用通俗易懂的方式讲解:实体关系抽取入门教程
  • 用通俗易懂的方式讲解:灵魂 20 问帮你彻底搞定Transformer
  • 用通俗易懂的方式讲解:图解 Transformer 架构
  • 用通俗易懂的方式讲解:大模型算法面经指南(附答案)
  • 用通俗易懂的方式讲解:十分钟部署清华 ChatGLM-6B,实测效果超预期
  • 用通俗易懂的方式讲解:内容讲解+代码案例,轻松掌握大模型应用框架 LangChain
  • 用通俗易懂的方式讲解:如何用大语言模型构建一个知识问答系统
  • 用通俗易懂的方式讲解:最全的大模型 RAG 技术概览
  • 用通俗易懂的方式讲解:利用 LangChain 和 Neo4j 向量索引,构建一个RAG应用程序
  • 用通俗易懂的方式讲解:使用 Neo4j 和 LangChain 集成非结构化知识图增强 QA
  • 用通俗易懂的方式讲解:面了 5 家知名企业的NLP算法岗(大模型方向),被考倒了。。。。。
  • 用通俗易懂的方式讲解:NLP 算法实习岗,对我后续找工作太重要了!。
  • 用通俗易懂的方式讲解:理想汽车大模型算法工程师面试,被问的瑟瑟发抖。。。。
  • 用通俗易懂的方式讲解:基于 Langchain-Chatchat,我搭建了一个本地知识库问答系统
  • 用通俗易懂的方式讲解:面试字节大模型算法岗(实习)
  • 用通俗易懂的方式讲解:大模型算法岗(含实习)最走心的总结
  • 用通俗易懂的方式讲解:大模型微调方法汇总

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/714060.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python调用ChatGPT API使用国内中转key 修改接口教程

大家好,我是淘小白~ 有的客户使用4.0的apikey ,直接使用官方直连的apikey消费很高,有一位客户一个月要消费2万,想使用4.0中转的apikey,使用中转的apikey 需要修改官方的openai库,下面具体说下。 1、首先确保安装的op…

Java ElasticSearch-Linux面试题

Java ElasticSearch-Linux面试题 前言1、守护线程的作用?2、链路追踪Skywalking用过吗?3、你对G1收集器了解吗?4、你们项目用的什么垃圾收集器?5、内存溢出和内存泄露的区别?6、什么是Spring Cloud Bus?7、…

安装ProxySQL,教程及安装链接(网盘自提)

一、网盘下载,本地直传 我网盘分享的是proxysql-2.5.5-1-centos8.x86_64.rpm,yum或者dnf直接安装就行 提取码:rhelhttps://pan.baidu.com/s/1nmx8-h8JEhrxQE3jsB7YQw 官方安装地址 官网下载地址https://repo.proxysql.com/ProxySQL/ 二、…

题解:CF1889C1-Doremy‘s Drying Plan (Easy Version)

题解:CF1889C1-Doremy’s Drying Plan (Easy Version) 一、 题意描述 1. 题目链接 (1) CF链接 CodeForces (2) 洛谷链接 洛谷 2. 题目翻译 有一个长度为 n n n 的序列,上面有 n n n 个点&#xf…

快速搭建项目运行环境(JDK+Maven+Git+Docker+Mysql+Redis+Node.js+Nginx)+前后端项目分别部署

JDK ①、从oracle官方网站上下载1.8版本中的最新版的JDK https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html ②、把文件通过WinSCP或者XFTP上传到服务器上 ③、解压和配置环境变量 #进入安装包目录,解压 cd /data/tmp tar -zxvf jdk-8…

【AIGC】“光影交织的恋曲:绝美情侣在蓝天下的深情互动“

外貌特征 (Physical Appearance):给远景镜头,这对情侣拥有出众的容貌和气质。男子身材挺拔,五官立体鲜明,阳光洒在他俊朗的脸庞上,更显英气逼人;女子则拥有一头柔顺亮丽的秀发,明亮的眼睛如同星…

代码随想录| 深搜、797.所有可能的路径

回溯算法其实就是深搜&#xff0c;只不过这里的深搜是侧重于在图上搜索&#xff0c;回溯大多是在树上搜索。 797.所有可能的路径 完成 代码 模板题 class Solution {List<List<Integer>> res new ArrayList<>();List<Integer> path new ArrayList…

GPT-4论文精读【论文精读·53】

Toolformer 今天我们来聊一下 GPT 4&#xff0c;但其实在最开始准备这期视频的时候&#xff0c;我是准备讲 Toolformer 这篇论文的&#xff0c;它是 Meta AI 在2月初的时候放出来的一篇论文。说这个大的语言模型可以利用工具了&#xff0c;比如说它就可以去调用各种各样的API&a…

腾讯云优惠券领取的三个渠道,一个比一个优惠!

腾讯云代金券领取渠道有哪些&#xff1f;腾讯云官网可以领取、官方媒体账号可以领取代金券、完成任务可以领取代金券&#xff0c;大家也可以在腾讯云百科蹲守代金券&#xff0c;因为腾讯云代金券领取渠道比较分散&#xff0c;腾讯云百科txybk.com专注汇总优惠代金券领取页面&am…

Unity(第二十四部)UI

在游戏开发中&#xff0c;用户界面&#xff08;UI&#xff09;是至关重要的一部分。它负责与玩家进行交互&#xff0c;提供信息&#xff0c;并增强游戏的整体体验。Unity 提供了强大的工具和功能来创建和管理 UI。 ui的底层就是画布&#xff0c;创建画布的时候会同时创建一个事…

19.2 基于SpringBoot电商项目:一刷(❤❤❤❤)

19.2 基于SpringBoot电商项目一刷 1. 项目介绍2. 准备阶段2.1 idea插件2.2 log4j2日志整合1. 排除springweb依赖的Logback依赖2. 引入log4j2依赖3. log4j2.xml文件3. 用户模块3.1 统一响应对象1. 统一响应对象2. 异常信息枚举类3. 简单案例3.2 业务异常处理1. 自定义业务异常类…

python笔记_位运算

A&#xff0c;原码反码补码 1&#xff0c;二进制 二进制的最高位是符号位&#xff0c;0为正&#xff0c;1为负 例 3 > 0000 0011 -3 > 1000 0011 2&#xff0c;正数 正数的原码&#xff0c;反码&#xff0c;补码都一样&#xff08;三码合一&#xff09; 例 3 > 00…

docker 安装(一)

docker的安装 官方文档&#xff1a;https://docs.docker.com/manuals/ 卸载旧版 首先如果系统中已经存在旧的docker&#xff0c;则先卸载&#xff1a;yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest \docker-latest-logrotate \dock…

C++ STL标准程序库开发指南学习笔记

一、类模板简介&#xff1a; 在现今的C标准模板库中&#xff0c;几乎所有的东西都被设计为template形式&#xff0c;不支持模板&#xff0c;就无法使用标准程序库。模板库可以认为是针对一个或多个尚未明确的类型而编写一套函数或类型。模板是C的一个新特性。通过使用模板&…

【前端素材】推荐优质电商类后台管理系统网页Vuesax平台模板(附源码)

一、需求分析 在线后台管理系统是指供管理员或运营人员使用的Web应用程序&#xff0c;用于管理和监控网站、应用程序或系统的运行和数据。它通常包括一系列工具和功能&#xff0c;用于管理用户、内容、权限、数据等。下面是关于在线后台管理系统的详细分析&#xff1a; 1、功…

前端 css 实现标签的效果

效果如下图 直接上代码&#xff1a; <div class"label-child">NEW</div> // css样式 // 父元素 class .border-radius { position: relative; overflow: hidden; } .label-child { position: absolute; width: 150rpx; height: 27rpx; text-align: cente…

JavaScript中的this

在实际应用中&#xff0c;了解 this 的行为是非常重要的&#xff0c;特别是在编写库或框架时&#xff0c;或者当你需要在回调函数中访问特定的上下文时&#xff0c;通常推荐使用箭头函数或者其他方法来确保 this 的正确指向。 在ES6中&#xff0c;this 的值取决于它是如何被调用…

web服务器nginx下载及在win11的安装

一.背景 还是为了公司安排的师带徒任务。 操作系统版本&#xff1a;win11 家庭版 mginx版本&#xff1a;1.24.0 二.nginx版本选择与下载 我之前也写过下载nginx下载_ngnix stable 下载-CSDN博客 不想看寻找过程的&#xff0c;直接点这里去下载https://nginx.org/download…

Docker 使用原理流程

# docker 是如何来的&#xff1f; a. linux 内核本身支持容器技术&#xff0c;LXC (市面上有很多基于 LXC 开发的容器管理软件&#xff0c;如创建容器&#xff0c;查看容器&#xff0c;管理容器&#xff0c; docker 作为管理容器的一款代表工具软件) b. 容器的作用&#xff0c;…

利用python批量将.shp文件转换坐标生成.geojson文件,再将.geojson转换成.csv文件,最后将csv文件插入数据库表

第一步&#xff1a;.shp批量转.geojson # author: JMY # 创建时间: 2024/2/26 17:12 # 批量将.shp文件生成geojson文件并转换坐标为3857import os import geopandas as gpd# 定义输入和输出文件夹路径 input_folder shp文件 output_folder geojson文件# 定义输入和输出坐标系…