2019-暑期实习生-自然语言处理算法岗-面试题

  随着三月初蚂蚁金服内推开启,整个暑期实习生招聘大幕也正式打开,这一场从三月初持续到之后五月的笔试面试过程,确实让笔者真真切切的感受到基础的重要性,面试和笔试不仅从机器学习,自然语言处理,数据结构与算法,高数概率论等方面考察,还包括智力题,逻辑题等。
  
阿里巴巴
一面:
1. 介绍项目(只针对自然语言处理项目询问,召回率、准确率如何);
2. 深度学习如何提取query特征,如何利用深度学习计算语义相似度;(深度学习语义相似度可以参考《浅析文本相似度》)
3. 写二叉树的前序遍历,中序遍历,统计二叉树所有路径和;
二面:
1. RNN为什么会梯度消失,LSTM怎么能解决梯度消失问题;(RNN、LSTM有关梯度消失的问题可以参考《理解RNN、LSTM、GRU和Gradient Vanishing》)
2. 优化算法介绍并说一下特点(介绍了自适应率学习算法Adagrad和Adam,深度学习优化算法可以参考《深度学习优化算法总结》);
3. Dropout的原理;
4. 交叉熵损失函数是什么,在什么地方使用过,介绍一下;
5. 介绍一下Word2vec,CBOW和Skip-gram的区别是什么;
6. GBDT和Xgboost介绍一下,并说一下区别(关于XGboost、GBDT和RF的总结可以参考《RF、GBDT、XGBoost面试级整理》);
7. 写代码:现在有词向量词典,计算句子相似度(Consine Similarity)

美团
一面:
1. 介绍项目(项目中一些问题如何解决的;项目的难点在哪儿;如何解决的;你在里面干了些什么);
2. 介绍一下随机森林和Xgboost,有什么区别(从bagging和boosting角度);
3. 什么是SGD,什么是batch size;
4. 深度学习优化算法有哪些,随便介绍一个(说的Adagrad,优缺点明显,进退自如);
5. 现有一个神经网络和64个样本,Batch gradient descent和SGD的时间复杂度和效果比较;采用批梯度下降时,神经网络参数更新了几次;
二面:
1. Two Sum问题(Leetcode第一题,采用hash map解决);
2. 如何找到10万以内的所有质数;
3. 逻辑斯蒂回归的损失函数怎么来的,如何进行梯度更新;

百度
百度一面:
1. 介绍项目(一些项目细节;项目的准确率;召回率如何);
2. 京东项目中Xgboost原理,xgboost有哪些参数,怎么调整xgboost的参数;
3. 智力题:现在有三枚硬币,一个是一正一反,一个是两面都是正,一个是两面都是反,现在随机抛出一枚硬币是正面,那么这枚硬币的反面也是正面的概率;(2/3)
4. 代码实现海量数据处理问题:现在有一个比较小的数据表(包括id, score),另外有一个十分大的(上千万级别)的数据表(包括id, name),现在需要以id为索引将两张表合并,如何在O(n)时间复杂度完成。(hash map解决,海量数据处理问题参照这篇博客《 十道海量数据处理面试题与十个方法大总结》)

追一科技
一面
1. 介绍项目(项目准确率;召回率;特征工程怎么做的;项目难点在什么位置;如何解决的;用了什么深度学习的方法);
2. 既然提到对话系统,简单介绍一下(非任务型和任务型balabala…..),了解非任务型对话系统么,介绍一下;(关于对话系统可以参考《人机对话系统调研》)
3. 平时用什么语言写代码啊,用python么(用),java怎么样(一般般),c用不用(不怎么用);
4. 看你简历里面没写GRU,了解GRU么,和LSTM、RNN的区别在什么地方(从梯度消失的层面回答);
5. GBDT的损失函数是什么;
6. 了解红黑树么(–没看到这儿来 –那算了,换个问题);
7. 64匹马,8个跑道,选出速度最快的4匹马需要多少次(回答12次,后来知道最好是11次)

百度度秘
一面:
1. 介绍项目(项目细节;项目难点;有什么方法;你在里面发挥的作用;这个系统现在还有什么可以改进的地方么);
2. 看你项目中用到了LSTM,介绍一下LSTM(介绍LSTM时候提到RNN,打断询问RNN为什么有梯度消失问题,给出具体公式);
3. LSTM用什么框架实现的,能不能介绍一下Word2ver如何使用在其中,使用Word2vec和不使用word2vec的效果如何;
4. 正则化方法有哪些,介绍一下(说到L1和L2时,重点问了一下为什么梯度稀疏和梯度选择,用公式推导讲了一下,过拟合问题可以参照《深度学习相关总结》);
5. 看你简历上说博客记载了机器学习、数据挖掘和深度学习的内容,那你简单说一下这三者的区别;
6. 编程题:二叉搜索树的插入和搜索;
7. 有序循环链表中(后简化为元素从小到大有序循环链表),如何在O(1)时间内完成最大值插入;

腾讯
一面:
1. 写代码实现列表 [0,0,6,2,8,0,0] —-> [6,2,8,0,0,0],要求O(n)时间复杂度和O(1)空间复杂度;
2. 写代码实现 [1,2,3,2,2,3,4,…] —-> [1,2,3](先去重再取top K,这里的K取3),要求in place操作,O(n) 时间复杂度和O(1)空间复杂度;
3. LSTM用来解决RNN的什么问题?如何解决的?既然说到forget gate,那么说一下forget gate的取值范围?(sigmoid 取值(0,1))forget gate是具体的值还是向量?(向量),如何理解这个向量;
4. 深度学习用的什么框架,Tensorflow?(Keras),那介绍一下深度学习中的过拟合如何解决?(从数据、单模型、模型集成三个角度回答);
5. 深度学习优化算法用过哪些?讲讲Sgd和gd的区别?
6. 对SVM(考虑线性可分情况)、LR和DT熟悉么? 从损失函数说一下区别,SVM的损失函数是什么?(合页损失函数,写一下讲一下)。LR呢?(利用最大似然估计得出)。又问一下SVM线性可分情况下决策边界不同位置的损失值。DT如何进行特征选择?(ID3信息增益)。介绍一下信息熵?(随机变量不确定性,度量系统稳定性) [1/3,1/3,1/3]和[1/2,1/4,1/4]哪个的信息熵大?回归任务中如何进行特征选择?(平方损失准则)
7. 海量数据处理。现在有1千万行词,需要统计各个词出现的次数,目前有一台机器内存1G,磁盘100G?(海量数据处理blog的第一题,先利用Hash对原始文本进行分割(hash(word)%2000,分为2000个文件),再使用hashmap(python中的字典)在各个文件中分别统计)。
8. Python基础。现在有一个列表,需要选择其中大于0的数?(列表生成式)
9. LTR(learning to rank)。介绍一下ltr的三种方式?其中pairwise在训练时怎么做?(转化为二分类)在测试的时候怎么做?
10. 文本分类的项目中用到CNN没有?介绍一下CNN?那CNN在文本分类任务中卷积核和一般的图像任务中的卷积核有什么区别?(balabala)
11. 熟悉Attention么,介绍一下?(balabala)

二面:
1. 在你的项目中如何判断word2vec的效果好坏,如何评判对模型和结果的影响?项目中使用的xgboost是哪个版本的?谁写的(懵了)
2. 如何从概率角度理解AUC?二分类问题中,一个正负类比是1:1000,一个是1:100,它们的AUC和ROC有什么区别?
3. 了解交叉熵损失函数么?在哪个场景使用过?它和最大似然估计是什么关系?
4. 熟悉什么语言?Python么?用过里面的zip函数(有点没听清)没?

腾讯二面前刷的一碗面经:
1. 覆盖字符串所有字符的最小字串;(leetcode第76题)利用滑动窗口;
2. 反转链表的前k个;(变型:按k个结点一组来反转链表)
方法:都是利用翻转链表的方法,只是局部翻转,再添加头尾结点。
3. 求二叉树最大深度;(递归)
4. 序列模型中markov和rnn的区别;
(rnn和hmm最本质的区别在于rnn没有马尔科夫假设,因此从理论上可以考虑很久的信息;同时hmm本质上是一个概率模型,而rnn不是;此外rnn具备神经网络的拟合非线性的能力)。
5. 字符串出现第k多的字符;
(hash map进行统计,然后对dict进行排序
6. 一个过拟合模型和大量数据,如何判断这些数据有没有用?
(利用采样的方法,采样部分数据然后运行过拟合模型看看效果;)
7. lr和svm的区别
(从lr的由来讲损失函数,对于svm讲最大间隔。区别在于损失函数不同;svm只需要考虑支持向量,而lr需要考虑所有的点;svm本质上是基于距离的,因此其输出无法直接产生概率,lr输出的是其属于分类的概率;在非线性的情况下,svm使用核函数解决,而lr通常不使用核函数;svm自带正则话,因此是结构风险最小化算法)
8. 特征选择的方法;
9. AUC是什么?就是ROC曲线下的部分,表示什么?
10. 快速排序;
11. 一个数组中超过一半的数字;
((1)hashmap直接统计,(2)hashmap间接统计,利用数组中的一个数字和次数,当相同的时候1,不同的时候1,如果次数为0则,保留下一个元素且次数设置为1,那么最后留下来为1的数字就是次数最多的;(3)归并排序选中间元素;)
12. 有一个能产生1-5的随机数的函数,怎么修改之后能够产生1-7的随机数;
13. 快速排序,归并排序,深度遍历和广度遍历;
14. 解释一下lucene原理,怎么进行中文分词,基于什么进行分词;
15. a,…z所有字母组合方式;
16. 输入一个数,输出这个整数里面最大的质数;

 祝大家好运~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481280.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先,暂且不管贝叶斯是什么意思,朴素这个名字放在分类器中好像有所深意。 一查,发现这个分类器的英文是“Nave Bayes”。Nave(读作“哪义务”)即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源:混沌巡洋舰时间来到 2095 年。地球表面满目疮痍,核战争和气候变化引发一场灾难。你只能过着困苦的生活,躲避匪帮,避开地雷。你的主要愿望就是活下去。或者,你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库,一般选择web of science 核心文集 第二步:在更多设置中选择web of science 第三步:点击被引频次后面的数字 第四部:点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项:web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想,被陶哲轩和他的博士后破解了!此前陶哲轩在博客上发了个小预告,就已经有不少人赶来围观:看起来是个大新闻。现在,不少人期待的正式版论文,终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库(Chinese Science Citation Database,简称CSCD) 2 3 4 5 6点击详细信息进入下面的页面,可判断文档是否属于核心期刊!

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐:“学姐学姐,EM算法是什么呢?”学姐回答:“EM算法啊,就是解决包含隐变量的参数估计问题。”小夕:然后小夕去问一位做工程的学长:“学长学长,EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者:葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖,被一些人误解为证明了量子纠缠现象。实际上,包括爱因斯坦本人都承认量子纠缠,关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》中,小夕用优(恐)雅(怖)的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…

暑期实习NLP算法岗面经总结

写文章暑期实习NLP算法岗面经总结呜呜哈做一个有思想的码农​关注他488 人赞同了该文章写在前面,从三月份开始找实习到现在正好两个月,这期间大大小小投了竹简智能、阿里、滴滴、美团、腾讯、京东、搜狗、百度、微软亚研几个公司,本着从小公司…

机器学习助力更好理解水的行为

来源:科技日报作者:刘霞为从理论上理解各种物质开辟更多途径科技日报北京12月19日电 (记者刘霞)美国一个研究团队在最新一期《物理评论快报》上刊发论文称,他们借助机器学习技术来理解水在零下100℃的行为。最新研究不…

期望最大化(EM)算法真如用起来那么简单?

声明:本文改编自订阅号“夕小瑶的卖萌屋”中的 《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》、《机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)》。前言小夕曾经问一位做机器学习理论的学姐&#xff…

12.20今日头条实习面试总结-算法工程师

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/John_xyz/article/details/78884425 </div><div id"content_views" class"markdown_views prism-github-gist"><!-- flowchart 箭…

预测更准确,使用机器学习改进化学品的毒性评估

编辑 | 绿萝从命运和毒性的角度来看&#xff0c;人类暴露的化学空间随着化学物质的多样性而不断扩大。欧洲和美国的化学品机构列出了大约 80 万种化学品。对于这些化学品中的大多数&#xff0c;人们对其环境归宿或毒性知之甚少。通过实验填补这些数据空白是不可能的&#xff0c…

如何优雅的追到女神夕小瑶

如果&#xff0c;你不小心迷恋上了小夕… 路人某&#xff1a;“没有如果” 捕获小夕的游戏 如果现实世界中&#xff0c;迷恋上小夕以后&#xff0c;你想捕获小夕。那么发现从上帝视角来看的话&#xff0c;你有下面好多条路几条路达成目标(&#xffe3;∇&#xffe3;) 然而你并…

文本相似度-相似度度量

NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背景知识统计语言模型n-gram模型词向量主题模型LSAPLSALDA应用Word2Vec神经网络语言模…

《科学》封面文章AlphaCode的重大意义及其思考

来源&#xff1a;陈德旺科学网博客链接地址&#xff1a;https://blog.sciencenet.cn/blog-57940-1368420.html程序员&#xff0c;虽然戏称程序猿&#xff0c;其实是一个高薪高智商工作&#xff0c;需要对问题的理解力、解决问题的创造性&#xff0c;还需要熟悉掌握编程语言。这…

深度学习可以与大数据分手吗?

小夕&#xff1a;hi&#xff0c;路人~你知道机器学习中数据的维度太高会带来什么问题吗&#xff1f;路人己&#xff1a;此时&#xff0c;如果样本量不足&#xff0c;会容易过拟合啊~小夕&#xff1a;为什么呢&#xff1f;路人己&#xff1a;这还有为什么&#xff1f;小夕&#…

集群化:中国基础研究发展模式的转型方向

来源&#xff1a;《学术前沿》作者&#xff1a;李侠2020年&#xff0c;科技部等五部门联合制定《加强“从0到1”基础研究工作方案》&#xff0c;旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》&#xff0c;其中明确指出&#xff0c;切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数&#xff08;Loss function&#xff09;是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种&#xff1a; 1. 铰链损失&#xff08;Hinge Loss&#xff09;&#xff1a;主要用于支持向量机&#xff08;SVM&#xff09; 中&#xff1b; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...&#xff08;想说“没有如果”的路人请自觉狗带(&#xffe3;∇&#xffe3;)&#xff09;小夕的生活很规律的哦&#xff0c;小夕每天都会依次经历且仅仅经历以下6件事情&#xff1a;化妆-吃饭-聊天-自习-上课-要…