字节跳动 (提前批-算法工程师-电商业务) 一面面经

文章目录

面试情况
1、对简历项目提问：
- 1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化，具体做法，为什么这么做？
- 1.2、标注问题，如何标注？
- 1.3、如何设计prompt让chatgpt得到高质量标注？
- 1.4、类目比较多，如何优化？
- 1.5、类目分类里有无对比其他模型？效果如何？
- 1.6、聚类算法kmeans, dbscan原理，他们的区别不仅仅是因为是否需要预先设定类别数k，为何组合他们来做归一化？
- 1.7、t5模型介绍，bert模型介绍，他们之间的区别？
2、八股基础提问
- 2.1、bert的预训练任务，mask机制介绍，为何要mask15%,15%里为何又要80%mask，10%随机替换别的token，10%不动。
- 2.2、transformer介绍？
- 2.3、self-attention原理，为啥加缩放因子？
- 2.4、为何需要位置编码？不要会怎样？
- 2.5、gbdt原理？
- 2.6、广告推荐里的负采样策略？
3、代码题：
4、开放题场景题

面试情况

基本都答出来了，代码题10分钟不到秒了。

1、对简历项目提问：

1.1、介绍项目中的xx分类、xx概念分类、xx概念归一化，具体做法，为什么这么做？

1.2、标注问题，如何标注？

1.3、如何设计prompt让chatgpt得到高质量标注？

1.4、类目比较多，如何优化？

1.5、类目分类里有无对比其他模型？效果如何？

1.6、聚类算法kmeans, dbscan原理，他们的区别不仅仅是因为是否需要预先设定类别数k，为何组合他们来做归一化？

1.7、t5模型介绍，bert模型介绍，他们之间的区别？

2、八股基础提问

2.1、bert的预训练任务，mask机制介绍，为何要mask15%,15%里为何又要80%mask，10%随机替换别的token，10%不动。

所谓MLM是指在训练的时候随即从输入预料上mask掉一些单词，然后通过的上下文预测该单词。在BERT的实验中，15%的WordPiece Token会被随机Mask掉。在训练模型时，一个句子会被多次喂到模型中用于参数学习，但是Google并没有在每次都mask掉这些单词，而是在确定要Mask掉15%的单词之后：
80%的时候会直接替换为[Mask]。为了让模型学习到双向的上下文信息，但由于mask位置是看不到的，导致模型看不到本身被mask的token的信息，但finetune确实可以看到当前token，这就造成了模型没有学会根据上下位词的表示来调整当前词的表示的能力。所以self-attention参数更新过程中，会弱化[MASK]自身对生成向量的影响，尽量用周边向量生成[MASK]位置对应的向量。这样虽然学习到了上下文的信息，但是带来了一个问题：因为[MASK]的信息在生成向量中没有贡献，那么模型仅关心周边的信息。采用80%的概率下应用[MASK], 既可以让模型去学着预测这些单词, 又以20%的概率保留了语义信息展示给模型。
10%的时候将其替换为其它任意单词。这样模型并不知道该位置是mask还是原词还是随机的词，就迫使模型结合上下文去预测纠正该位置的token。此外15%*10%=1.5%的随机替换，这个量不大，并不会影响对原有句子的理解。
10%的时候会保留原始Token。虽然保留，但是也要预测出来。意义就是保留语言本来的面貌, 让信息不至于完全被遮掩, 使得模型可以"看清"真实的语言面貌。
另外文章指出每次只预测15%的单词，因此模型收敛的比较慢。