字节跳动 (提前批-算法工程师-电商业务) 一面面经

文章目录

  • 面试情况
  • 1、对简历项目提问:
    • 1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化,具体做法,为什么这么做?
    • 1.2、标注问题,如何标注?
    • 1.3、如何设计prompt让chatgpt得到高质量标注?
    • 1.4、类目比较多,如何优化?
    • 1.5、类目分类里有无对比其他模型?效果如何?
    • 1.6、聚类算法kmeans, dbscan原理,他们的区别不仅仅是因为是否需要预先设定类别数k,为何组合他们来做归一化?
    • 1.7、t5模型介绍,bert模型介绍,他们之间的区别?
  • 2、八股基础提问
    • 2.1、bert的预训练任务,mask机制介绍,为何要mask15%,15%里为何又要80%mask,10%随机替换别的token,10%不动。
    • 2.2、transformer介绍?
    • 2.3、self-attention原理,为啥加缩放因子?
    • 2.4、为何需要位置编码?不要会怎样?
    • 2.5、gbdt原理?
    • 2.6、广告推荐里的负采样策略?
  • 3、代码题:
  • 4、开放题场景题

面试情况

基本都答出来了,代码题10分钟不到秒了。

1、对简历项目提问:

1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化,具体做法,为什么这么做?

1.2、标注问题,如何标注?

1.3、如何设计prompt让chatgpt得到高质量标注?

1.4、类目比较多,如何优化?

1.5、类目分类里有无对比其他模型?效果如何?

1.6、聚类算法kmeans, dbscan原理,他们的区别不仅仅是因为是否需要预先设定类别数k,为何组合他们来做归一化?

1.7、t5模型介绍,bert模型介绍,他们之间的区别?

2、八股基础提问

2.1、bert的预训练任务,mask机制介绍,为何要mask15%,15%里为何又要80%mask,10%随机替换别的token,10%不动。

  • 所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词,然后通过的上下文预测该单词。在BERT的实验中,15%的WordPiece Token会被随机Mask掉。在训练模型时,一个句子会被多次喂到模型中用于参数学习,但是Google并没有在每次都mask掉这些单词,而是在确定要Mask掉15%的单词之后:
  • 80%的时候会直接替换为[Mask]。 为了让模型学习到双向的上下文信息,但由于mask位置是看不到的,导致模型看不到本身被mask的token的信息,但finetune确实可以看到当前token,这就造成了模型没有学会根据上下位词的表示来调整当前词的表示的能力。所以self-attention参数更新过程中,会弱化[MASK]自身对生成向量的影响,尽量用周边向量生成[MASK]位置对应的向量。这样虽然学习到了上下文的信息,但是带来了一个问题:因为[MASK]的信息在生成向量中没有贡献,那么模型仅关心周边的信息。采用80%的概率下应用[MASK], 既可以让模型去学着预测这些单词, 又以20%的概率保留了语义信息展示给模型。
    10%的时候将其替换为其它任意单词。 这样模型并不知道该位置是mask还是原词还是随机的词,就迫使模型结合上下文去预测纠正该位置的token。此外15%*10%=1.5%的随机替换,这个量不大,并不会影响对原有句子的理解。
    10%的时候会保留原始Token。 虽然保留,但是也要预测出来。意义就是保留语言本来的面貌, 让信息不至于完全被遮掩, 使得模型可以"看清"真实的语言面貌。
     另外文章指出每次只预测15%的单词,因此模型收敛的比较慢。

2.2、transformer介绍?

2.3、self-attention原理,为啥加缩放因子?

2.4、为何需要位置编码?不要会怎样?

2.5、gbdt原理?

2.6、广告推荐里的负采样策略?

3、代码题:

题目:最长连续不重复子串长度 (力扣原题)
解法:滑窗+哈希

4、开放题场景题

推荐系统的构成,精排常用模型?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16073.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

perl:用 Net::Server 创建简单的流媒体服务器来播放.flv文件

这是一个使用Perl Net::Server 模块创建的简单流媒体服务器示例,它能够播放.flv文件。 首先,确保安装了Net::Server模块,如果没有安装,可以使用CPAN来安装它: 运行 cpan Net::Server RHANDOM/Net-Server-2.014.tar.…

Spring框架常见注解(Spring,SpringMvc,SpringBoot)

Spring常见注解 Component、Controller、Service、Repository 使用在类上用于实例化Bean Autowired 使用在字段上用于根据类型依赖注入 Qualifier 结合Autowired一起使用用于根据名称进行依赖注入 Scope 标注Bean的作用范围 Configuration 指定当前类是一个 Spring 配…

HTML公式查询网

闲着无聊做了一个公式查询网&#xff0c;核心思路主要就是把数据库里面的内容找出来。比较低级。 <DOCTYPE !html> <html> <head><meta charset"utf-8"><title>公式查询网</title><style>* {margin: 0;padding: 0;box-si…

centos中使用Docker安装rabbitmq记录

一、安装rabbitmq docker run -d --name rabbitmq -p 5672:5672 -p15672:15672 -v rabbitmq-plugin:/plugins -e RABBITMQ_DEFAULT_USERxiaoqi -eRABBITMQ_DEFAULT_PASS123456 rabbitmq:latest二、配置web管理界面 # 查看运行的容器 docker ps -a # 根据容器id进入容器内部 …

YoloV1模型

You Only Look Once 文章目录 You Only Look Once置信度定义类别条件概率NMSnp.maxmiumnp.argsort() Yolov1直接采用网络特征输出&#xff0c;实现置信度预测、分类、边界框回归&#xff1b; 核心内容总结&#xff1a; 输入图像划分为 S S 网格。如果对象的中心落入网格单元中…

Leetcode 3163. String Compression III

Leetcode 3163. String Compression III 1. 解题思路2. 代码实现 题目链接&#xff1a;3163. String Compression III 1. 解题思路 这一题的话就是一个简单的贪婪算法&#xff0c;把相同的字符进行归并&#xff0c;然后按照题目中的表示方法进行表示一下即可。 2. 代码实现…

linux 安装chrome浏览器

一、下载安装包 下载地址&#xff1a;https://download.csdn.net/download/k0307x1990y/89349171 二、安装流程 [rootlocalhost ~]# rpm -ivh *.rpm [rootlocalhost ~]# yum -y localinstall google-chrome-stable_current_x86_64.rpm [rootlocalhost ~]# 三、修改配置文件…

Java对象头你不知道的地方

在Java中&#xff0c;每个对象都拥有一个对象头&#xff0c;这些对象头包含了关于对象的一些元数据信息。对象头(Header)包含2部分&#xff08;若为数组&#xff0c;则包含3部分&#xff09;&#xff1a; 一、第一部分为Mark Word&#xff0c;用于存储对象自身的运行时数据&am…

Vxe UI 表单设计器、零代码平台

vxe-pc-ui Vxe UI 表单设计器、零代码表单设计器 安装 Vxe UI PC端组件库 官方文档 查看 github、gitee // ...import VxeUI from vxe-pc-uiimport vxe-pc-ui/lib/style.css// ...// ...createApp(App).use(VxeUI).mount(#app)// ...使用 vxe-form-design 设计器组件 vxe-fo…

【安装笔记-20240523-Windows-安装测试 ShareX】

安装笔记-系列文章目录 安装笔记-20240523-Windows-安装测试 ShareX 文章目录 安装笔记-系列文章目录安装笔记-20240523-Windows-安装测试 ShareX 前言一、软件介绍名称&#xff1a;ShareX主页官方介绍 二、安装步骤测试版本&#xff1a;16.1.0下载链接功能界面 三、应用场景屏…

QML的Image 路径问题(source)

四种路径格式 在 QML 中&#xff0c;当你使用 Image 元素的 source 属性来指定一个图片的路径时&#xff0c;有几种不同的方式可以指定这个路径&#xff0c;每种方式都有其特定的用途和上下文。 相对路径&#xff1a; QML 文件和一个名为 close.png 的图片在同一目录下&#x…

Spring:面向切面(AOP)

1. 代理模式 二十三种设计模式中的一种&#xff0c;属于结构型模式。它的作用就是通过提供一个代理类&#xff0c;让我们在调用目标方法的时候&#xff0c;不再是直接对目标方法进行调用&#xff0c;而是通过代理类**间接**调用。让不属于目标方法核心逻辑的代码从目标方法中剥…

【热门话题】Debian常用命令指南

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 Debian常用命令指南引言1. 文件与目录操作lscdmkdirrmcpmv 2. 包管理aptdpkg 3.…

【k8s】 busybox镜像、挂载volume卷

1. 概述 busybox是一个包含了nslookup,ping,wget等网络处理命令的Pod容器&#xff08;不含curl命令&#xff09;&#xff0c;它的体积非常小&#xff0c;适合做一些容器内的网络调试。 即创建一个docker &#xff0c;进去执行 ping 命令等 2. 启动容器 2.1 会自动退出&…

minaActivatorA12+物主锁完美解信号,可登iCloud,有消息通知,支持iOS17.5.1+

原创 IOS福利部落 IOS福利部落 2024-05-26 19:35 福建 Mina Activator A12是一款绕过物主锁界面的解锁工具&#xff0c;可以激活所有iPhone恢复信号&#xff0c;并且支持插卡接打电话、收发短信、4G流量上网&#xff0c;支持iCloud登录&#xff0c;有消息通知&#xff0c;支持i…

sklearn实现线性回归

sklearn实现线性回归 一、数据集介绍二、使用sklearn实现线性回归一、数据集介绍 本案例使用女性身高体重数据集,数据集如下图所示: 可以看到,数据集有15行2列。 二、使用sklearn实现线性回归 sklearn中的线性模型模块是linear_model。这里使用linear_model下的普通线性…

【Linux】-Redis安装部署[15]

目录 简介 安装 1、配置EPEL仓库 2、安装redis 3、启动redis 4、放行防火墙&#xff0c;redis使用端口6379 5、进入redis服务 简介 redis是一个开源、使用C语言编写的、支持网络互交的、可基于内存也可持久化的Key-Value数据库。redis的特点就是&#xff1a;快&#xf…

P1003 [NOIP2011 提高组] 铺地毯

题目传送门&#xff1a; P1003 [NOIP2011 提高组] 铺地毯 AC代码&#xff1a; #include<bits/stdc.h>using namespace std;int a[10005],b[10005],g[10005],k[10004];int main() {int n,x,y;cin>>n;for(int i1;i<n;i) cin>>a[i]>>b[i]>>g[…