面试官如何判断面试者的机器学习水平?

文 | 陈然@知乎
本文已获作者授权,禁止二次转载

记得这大概是个三年前的问题,每年都会有新的答案让我持续学习。三年多前我作为最早的机器学习工程师之一加入 Tubi,从零开始设计招聘题目和流程,搭建团队,陆陆续续也面试了大好几百次了。这里的答案大多聊的是常见的机器学习面试题目,我提供一个不一样的角度,从业务负责人的角度聊聊如何根据业务需要设计题目,大家也可以反向思考,查缺补漏。

招1个人 != 招10个人

很多同学的角度都是从面试官的角度来出发的,想着就是招一个人,面几场试。但当你从团队负责人的角度出发,要填满大量的业务需求,来设计面试流程和题目的时候,思考角度就会完全不同。这中间有大量的取舍,甚至一些决策很不优雅,但这都是为了规模化和自动化不得不做的放弃。

面试题目需要淘汰人,越早越好

招聘是个非常贵的流程,我们举一个湾区常见两轮技术面+现场面试的转化率简单计算,录取一个人要让接近20个人进入面试流程。

stepsconversion rate
hiring manager call80%
tech screen 160%
tech screen 260%
onsite40%
offer40%


conversion4.6%

面试官的时间是很贵的,我们更愿意保护面试官的时间,减少面试,也不愿意让更多可能不合适的人进入现场面试的阶段,浪费大家的时间。这里有个 precision 和 recall 的平衡,precision 的重要性远大于 recall。

所以面试题目的设计,特别是技术面的题目,与其说是招到合适的人,不如更精确的说是剔除可能不合适的人,越早越好。什么样的题目适合剔除人呢?一定是有明确答案的题目,这样的题目可以是理论题,可以是数学题,可以是代码题,可以是系统设计题,但一定不能是开放讨论式题目。一定要是如果答案是A就过,如果不是A就淘汰,或者设计成类似分数的系统。

precision 和 recall 是不可能兼得的,很多时候筛去了一些可能合适的候选人我们也很惋惜,但更多的时候犹豫一下让候选人进入现场面试表现不好,反而耽误大家更多的时间。

团队需要 != 最像我

面试官往往都有些幸存者偏差:我都是面试官了,像我这样的是最优秀的,我会的候选人就应该会,我要以我为模版招人。

从团队的角度来看,这其实是非常糟糕的思路。每一个团队业务非常广阔,每一个人的专精方向也不一样,多面互补对于一个团队来说是一个更好的状态。

从面试题目的设计上,要分清楚什么是基本要求,什么是加分项。

基本的要求要抽象出是能完成在团队中做机器学习最基础的技能,比如代码、调参、常见优化的方向等等,不需要很深入。更重要是要抛弃“我认为什么是重要的”,而去思考“团队工作日常需要什么技能”。从这个角度来看可能日常需要的技能比你想象的要简单基础的多,那面试就应该更关注这些技能。

在加分的问题中除了深挖,更可以抛出一些自己在实践中难以解决的问题,看看有没有什么妙招,有时候有额外的惊喜。

最大的难点是面试官

面试官其实是整个面试流程中最稀缺的资源。一是面试官的时间很宝贵,面试会占用大量工作的时间。二是每个面试官的工作背景、喜好、评价标准都可能不一样,这个必须靠制度和流程的设计来保障相同。

实践中我们会经常与各个面试官沟通,讨论题目的评价标准,定期回顾最近的招聘反馈,研究转化率,看一看哪一位同学做的好与不好,确保每一位面试官表现都类似。

题目的设计上也会确保题目不能太偏,每一位面试官都能完成基础知识和深入理解的衡量,同时题目必须有明确的回答标准,什么的答案可以过,什么样的答案是红标,都需要明确的写下来。

Tubi 的面试实践

根据这样的理解,Tubi 的机器学习 面试流程设计大概如下(可能会变更):

技术面一:简单的 Python 代码实现,大概不超过10分钟。一些概率统计,机器学习理论。总体上非常基础,目的是淘汰掉完全不会写代码,或者只懂 Buzzword 的人。

技术面二:给出一个真实的数据集,需要使用常见的机器学习包,比如 sk-learn, pandas, numpy等等,抽取特征,训练模型,衡量模型。现场一个小时,过程中允许 Google API。

现场面试:还有一轮代码,与技术面二类似。剩下的大概两三轮基本上都是机器学习的实际应用,比如让你设计一个推荐系统,设计一个视频广告去重系统,怎么做,比较关注的方向是比如指标的设计、关键系统部件的设计(提出可以用 end-to-end deep learning system solve everything 的都直接淘汰)、迭代的思路等等。这几轮主要是非常资深的工程师/经理/总监/CTO来面试,更多的是考察人的资深程度。

因为全程没有 Leetcode style coding,而是非常关注作为机器学习工程师的日常,绝大多数面试者的反馈都是非常正向的。

面试因需求而变

总结一下,面试的题目和流程设计其实跟业务的需求是紧密相连的,要疯狂招人的时候是一种设计,如果没有业务压力又是另一种设计。我也想跟每一位候选人谈心谈简历,但一看到密密麻麻的面试安排,就感觉

所以从面试者的角度出发,理解公司所处的状态也有助于准备面试题目哟!

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 - CVPR2020 | 基于网格特征的可视问答系统

论文笔记整理:李爽,天津大学。链接:https://arxiv.org/pdf/2001.03615v1.pdf动机随着“自下而上”注意力的普及,基于边界框(或区域)的视觉特征最近已经超越了传统的基于网格的卷积特征,成为视觉和语言任务的事实标准。…

:批量制作档案表,要从excel表格中将每个人的数据导入到docx档案

https://www.pythonf.cn/read/149081 Python自动将Excel数据填充到word的指定位置,Word,中 具体代码如下: #!/usr/bin/env python3 # -*- coding: utf-8 -*- from docxtpl import DocxTemplate from openpyxl import load_workbook import osdef replace(obj):if o…

LeetCode 1078. Bigram 分词

1. 题目 给出第一个词 first 和第二个词 second,考虑在某些文本 text 中可能以 “first second third” 形式出现的情况,其中 second 紧随 first 出现,third 紧随 second 出现。 对于每种这样的情况,将第三个词 “third” 添加到…

深度学习在OCR中的应用

背景 计算机视觉是利用摄像机和电脑代替人眼,使得计算机拥有类似于人类的对目标进行检测、识别、理解、跟踪、判别决策的功能。以美团业务为例,在商家上单、团单展示、消费评价等多个环节都会涉及计算机视觉的应用,包括文字识别、图片分类、目…

千呼万唤始出来——GPT-3终于开源!

文 | 小戏编 | 小轶GPT3终于开源!不过,不是官方开的(别打我Eleuther AI推出的名为GPT-Neo的开源项目,于今晨4点于twitter正式宣布:已经开源了复现版GPT-3的模型参数(1.3B和2.7B级别)&#xff0c…

论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库:用于 BabelNet Synsets 义元预测...

论文笔记整理:潘锐,天津大学硕士。来源:AAAI 2020链接:https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库(KBs)是一种包含义原标注词汇的知识库,它已成…

美团外卖iOS多端复用的推动、支撑与思考

前言 美团外卖2013年11月开始起步,随后高速发展,不断刷新多项行业记录。截止至2018年5月19日,日订单量峰值已超过2000万,是全球规模最大的外卖平台。业务的快速发展对技术支撑提出了更高的要求。为线上用户提供高稳定的服务体验&a…

论文浅尝 - WWW2020 | 从自然语言交互中提取开放意图

论文笔记整理:娄东方,浙江大学博士后,研究方向为事件抽取。Vedula N, Lipka N, Maneriker P, et al. Open Intent Extraction from Natural Language Interactions[C]//Proceedings of The Web Conference 2020. 2020: 2009-2020.来源&#x…

深度学习在文本领域的应用

背景 近几年以深度学习技术为核心的人工智能得到广泛的关注,无论是学术界还是工业界,它们都把深度学习作为研究应用的焦点。而深度学习技术突飞猛进的发展离不开海量数据的积累、计算能力的提升和算法模型的改进。本文主要介绍深度学习技术在文本领域的应…

LeetCode 1009. 十进制整数的反码(位运算)

1. 题目 每个非负整数 N 都有其二进制表示。例如, 5 可以被表示为二进制 “101”,11 可以用二进制 “1011” 表示,依此类推。注意,除 N 0 外,任何二进制表示中都不含前导零。 二进制的反码表示是将每个 1 改为 0 且…

新分类!全总结!最新Awesome-SLU-Survey资源库开源!

文 | 哈工大SCIR 覃立波、谢天宝等指导老师 | 哈工大SCIR 车万翔教授简介口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame&…

技术实践 | 用 NetworkX + Gephi + Nebula Graph 分析权力的游戏人物关系(上篇)

本文转载自公众号:Nebula Graph Community 。我们都知道《权利的游戏》在全世界都很多忠实的粉丝,除去你永远不知道剧情下一秒谁会挂这种意外“惊喜”,当中复杂交错的人物关系也是它火爆的原因之一,而本文介绍如何通过 NetworkX 访…

美团外卖Android Crash治理之路

Crash率是衡量一个App好坏的重要指标之一,如果你忽略了它的存在,它就会愈演愈烈,最后造成大量用户的流失,进而给公司带来无法估量的损失。本文讲述美团外卖Android客户端团队在将App的Crash率从千分之三做到万分之二过程中所做的大…

全栈深度学习第7期: 研究方向这么多,哪些是有有趣又潜力的呢?

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群。…

会议交流 | 人工智能与机器学习创新峰会 - 知识图谱与图神经网络分会

人工智能与机器学习创新峰会力邀 HBAT 等大厂资深研发专家做分享和技术展望时间:9月4日下午1:30地点:浦东海神诺富特大酒店OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技…

LeetCode 1046. 最后一块石头的重量(priority_queue 堆)

1. 题目 有一堆石头&#xff0c;每块石头的重量都是正整数。 每一回合&#xff0c;从中选出两块最重的石头&#xff0c;然后将它们一起粉碎。假设石头的重量分别为 x 和 y&#xff0c;且 x < y。那么粉碎的可能结果如下&#xff1a; 如果 x y&#xff0c;那么两块石头都…

深度学习如何均衡精度、内存、计算和通信开销?

文 | 立交桥跳水冠军知乎本文已获作者授权&#xff0c;禁止二次转载鱼与熊掌不可兼得&#xff0c;深度学习领域中的几个指标也相同。主要的指标有如下四个&#xff1a;&#xff08;1&#xff09;精度&#xff1a;自然精度是一个模型最根本的衡量指标&#xff0c;如果一个模型精…

深度学习在美团搜索广告排序的应用实践

一、前言 在计算广告场景中&#xff0c;需要平衡和优化三个参与方——用户、广告主、平台的关键指标&#xff0c;而预估点击率CTR&#xff08;Click-through Rate&#xff09;和转化率CVR&#xff08;Conversion Rate&#xff09;是其中非常重要的一环&#xff0c;准确地预估CT…

论文浅尝 - ICML2020 | 拆解元学习:理解 Few-Shots 任务中的特征表示

论文笔记整理&#xff1a;申时荣&#xff0c;东南大学博士生。来源&#xff1a;ICML2020链接&#xff1a;http://arxiv.org/abs/2002.06753元学习算法会生成特征提取器&#xff0c;这些特征提取器在进行few-shot分类时就可以达到最新的性能。尽管文献中有大量的元学习方法&…

LeetCode 304. 二维区域和检索 - 矩阵不可变(DP)

1. 题目 2. 解题 类似题目&#xff1a;LeetCode 308. 二维区域和检索 - 可变&#xff08;前缀和&#xff09; dp[i][j]数组表示 从左上角到i,j位置的所有和 sum[i1][j1]sum[i1][j]sum[i][j1]matrix[i][j]−sum[i][j]sum[i1][j1] sum[i1][j]sum[i][j1]matrix[i][j]-sum[i][j]…